如何用python抓取B站数据

 更新时间:2021年05月17日 11:51:48   作者:华为云开发者社区  
今天介绍一个获取B站数据的Python扩展库-bilibili_api,对此感兴趣的同学,可以实验一下

概述

可以获取的数据包括:

video-视频模块

user-用户模块

dynamic-动态模块

这次用“Running Man”十周年特辑的视频,来做个获取弹幕的Demo。

我是对比

没有对比,就没有伤害,就像最近的“哈工大”某学生和“浙大”某学生一样。

这是之前获取弹幕的过程:

1、弹幕数据接口

https://comment.bilibili.com/123072475.xml (一个固定的url地址 + 视频的cid + .xml)

2、利用Request模块,获取数据

3、利用Xpath解析数据

接下来,是时候表演真正的技术了。

经过bilibili_api的封装,弹幕数据获取的部分仅用了一行代码:

danmu = video_info.get_danmaku()

相应的获取视频的基本信息和评论信息也是一样的便捷。

basic_info = video_info.get_video_info()
comments = video_info.get_comments()

快速开始

接下来,本文将用bilibili_api获取“Running Man”十周年特辑的弹幕数据,并绘制词云。

视频的链接:

https://www.bilibili.com/video/BV1gC4y1h722

B站有av号和bv号,改版之后,在链接中直接显示的是bv号,这两个必须提供一个。

bvid是b站新的视频唯一标识符,由12位数字、字母组成,大小写敏感,传入时请包含头部的“BV”

比如:“BV1gC4y1h722”

1)安装过程

安装需要依赖request 模块,它是把B站数据的API封装起来了。

通过pip安装即可:

pip install bilibili_api

导入模块

from bilibili_api import Verify
from bilibili_api.video import VideoInfo
from bilibili_api.video import Danmaku

VideoInfo类-获取视频的信息(弹幕、评论、投币数量、播放量等)

Danmaku类-弹幕类,用于获取和发送弹幕

Verify 类,可用可不用。部分视频信息需要登录(即需要 SESSDATA )后才能使用(如历史弹幕获取)。

对视频进行点赞、投币等用户操作则需要 SESSDATA 和 csrf 。

关于 SESSDATA 和 csrf 获取的详细方法,可参考如下链接:

https://github.com/Passkou/bilibili_api/wiki/SESSDATA和CSRF获取方法(Chrome为例)

2)获取弹幕数据

创建VideoInfo对象,传入两个参数:

bvid="BV1gC4y1h722"(视频的BV号)

verify=verify(根据sessdata和csrf,获取弹幕)

获取的弹幕数据为“Danmaku类”的列表,通过遍历,打印它的text即可

贴个代码:

verify = Verify(sessdata="你的", csrf="你的")
video_info = VideoInfo(bvid="BV1gC4y1h722", verify=verify)

danmu = video_info.get_danmaku()
for i in danmu:
    print(i.text)

3)绘制词云

通过jieba分词和WorldCloud绘制词云。

可通过WordCloud对象,传入“背景颜色”,“背景图”,“字体”等参数。

贴个代码:

wc = WordCloud(
    background_color='white',
    mask=background_Image,
    font_path=r'./SourceHanSerifCN-Medium.otf',
    color_func=random_color_func,
    random_state=50,
)

word_cloud = wc.generate(words_str) # 产生词云
word_cloud.to_file("rm.jpg") #保存图片

# 显示词云图片
plt.imshow(word_cloud)
plt.axis('off')
plt.show()

4)最终效果

通过词云,可以看到最明显的就是 “快乐 十周年”、“RM 十周年”、“哈哈哈哈哈哈”等,

小结

通过这个模块“bilibili_api”,可以快速的获取B站视频和用户的数据,至于数据获取下来怎么玩,就看自己的想象力啦~

本文相关源码下载:https://alltodata.cowtransfer.com/s/6c255cd808b742

以上就是如何用python抓取B站数据的详细内容,更多关于python抓取B站数据的资料请关注脚本之家其它相关文章!

相关文章

  • mAP计算目标检测精确度实现源码

    mAP计算目标检测精确度实现源码

    这篇文章主要为大家介绍了mAP计算目标检测精确度的实现源码,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • python如何实现单向链表及单向链表的反转

    python如何实现单向链表及单向链表的反转

    这篇文章主要介绍了python如何实现单向链表及单向链表的反转,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python 画函数曲线示例

    python 画函数曲线示例

    今天小编就为大家分享一篇python 画函数曲线示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • 如何利用python和DOS获取wifi密码

    如何利用python和DOS获取wifi密码

    这篇文章主要介绍了如何利用python和DOS获取wifi密码,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python根据开头和结尾字符串获取中间字符串的方法

    python根据开头和结尾字符串获取中间字符串的方法

    这篇文章主要介绍了python根据开头和结尾字符串获取中间字符串的方法,涉及Python操作字符串截取的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • 浅析Python如何监听和响应键盘按键

    浅析Python如何监听和响应键盘按键

    在许多编程场景中,接收并响应用户输入是至关重要的,本文主要为大家详细介绍如何使用Python来监听和响应键盘按键,有需要的小伙伴可以参考下
    2024-03-03
  • python中pip安装、升级以及升级固定的包

    python中pip安装、升级以及升级固定的包

    我们知道python有大量的第三方库,这也是python的优势之一,pip就是python整的软件包管理系统,类似于Linux平台的yum仓库,下面这篇文章主要给大家介绍了关于python中pip安装、升级以及升级固定包的相关资料,需要的朋友可以参考下
    2022-02-02
  • 如何利用Python识别图片中的文字详解

    如何利用Python识别图片中的文字详解

    不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.这个时候我们就会选择截图保存,但是当我们想用到里面的文字时,还是要一个字一个字打出来,那么能不能直接识别图片中的文字呢?答案是肯定的,需要的朋友可以参考下
    2021-05-05
  • 利用Python进行异常值分析实例代码

    利用Python进行异常值分析实例代码

    数据挖掘工作中的第一步就是异常值检测,异常值的存在会影响实验结果。下面这篇文章主要给大家介绍了关于利用Python进行异常值分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-12-12
  • Python提取JSON格式数据实战案例

    Python提取JSON格式数据实战案例

    这篇文章主要给大家介绍了关于Python提取JSON格式数据的相关资料, Python提供了内置的json模块,用于处理JSON数据,文中给出了详细的代码示例,需要的朋友可以参考下
    2023-07-07

最新评论