Python爬虫自动化爬取b站实时弹幕实例方法

更新时间：2021年01月26日 08:25:04 作者：宋宋大人

在本篇文章里小编给大家整理的是一篇关于Python爬虫自动化爬取b站实时弹幕实例方法，有兴趣的朋友们可以学习下。

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
  # 如果该词不属于停用词表 并且非空 长度不为1
  if seg not in stopwords and seg != "" and len(seg) != 1:
    # 将该词语添加到mytext_list列表中
    mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

关于pycharm python3.7成功安装dlib库的问题
这篇文章主要介绍了pycharm python3.7成功安装dlib库的解决方法，本文分步骤给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2021-12-12
python人工智能tensorflow函数tf.layers.dense使用方法
这篇文章主要介绍了python人工智能tensorflow函数tf.layers.dense的使用方法，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05
初学Python实用技巧两则
这篇文章主要介绍了初学Python实用技巧两则,包括可变参数的应用级execfile函数的用法,需要的朋友可以参考下
2014-08-08
Python深度学习实战PyQt5安装与环境配置过程详解
本系列面向 Python 小白，从零开始实战解说应用 QtDesigner 进行 PyQt5 的项目实战。什么叫从零开始？从软件安装、环境配置开始。不跳过一个细节，不漏掉一行代码，不省略一个例图
2021-10-10
Python中sub()的用法说明
这篇文章主要介绍了Python中sub()的用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-04-04
python OpenCV GrabCut使用实例解析
这篇文章主要介绍了python OpenCV GrabCut使用实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
解决TypeError: Object of type xxx is&
这篇文章主要介绍了解决TypeError: Object of type xxx is not JSON serializable错误问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-06-06
python爬虫基于requests模块发起ajax的get请求实现解析
这篇文章主要介绍了python爬虫基于requests模块发起ajax的get请求实现解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
百分百成功的全网最简约sklearn环境配置教程
这篇文章主要介绍了百分百成功的全网最简约sklearn环境配置教程，图文全流程讲解包简单易懂，百分百成功，需要的朋友可以参考下
2023-03-03
使用pymysql写入中文的问题
这篇文章主要介绍了使用pymysql写入中文的问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-03-03

Python爬虫自动化爬取b站实时弹幕实例方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具