使用Python编程分析火爆全网的鱿鱼游戏豆瓣影评

 更新时间:2021年10月08日 10:04:35   作者:小张Python  
本文来为大家介绍如何使用Python爬取影评的操作,主要是爬取《鱿鱼游戏》在豆瓣上的一些影评,对数据做一些简单的分析,用数据的角度重新审视下这部剧,有需要的朋友可以借鉴参考下

Hello,各位读者朋友们好啊,我是小张~

这不国庆嘛,就把最近很火的一个韩剧《鱿鱼游戏》刷了下,这部剧整体剧情来说还是非常不错的,很值得一看,

作为一个技术博主,当然不能在这儿介绍这部剧的影评,毕竟自己在这方面不是专业的,最关键还是自己也写不出来

技术工具

在正文开始之前,先介绍下本篇文章中用到的技术栈和工具。

本文用到的技术栈和工具如下,归结为四个方面;

  • 语言:Python,Vue ,javascript;
  • 存储:MongoDB;
  • 库:echarts ,Pymongo,WordArt…
  • 软件:Photoshop;

数据采集

本次数据采集的目标网站为 豆瓣 ,但自己的账号之前被封,所以只能采集到大概二百来条数据,豆瓣有相应的反爬机制,浏览10页以上的评论需要用户登录才能进行下一步操作

至于为啥账号被封,是因为之前自己学爬虫时不知道在哪里搞的【豆瓣模拟登录】代码,当时不知道代码有没有问题,愣头青直接用自己的号试了下,谁知道刚试完就被封了,而且还是永久的那种

image-20211002125521303

图1

在这里也给大家提个醒在以后做爬虫时,模拟登录时尽量用一些测试账号,能不用自己的号就别用,

这次数据采集也比较简单,就是更改图2 中 url 上的 start 参数,以 offset 为 20 的规则 作为下一页 url 的拼接;

image-20211002130109452

图2

拿到 请求连接之后,用 requests 的 get 请求,再对获取到的 html 数据做个解析,就能获取到我们需要的数据了;采集核心代码贴在下方

for offset in range(0,220,20):
    url = "https://movie.douban.com/subject/34812928/comments?start={}&limit=20&status=P&sort=new_score".format(offset)
    res = requests.get(url,headers= headers)
    # print(res.text)
    soup = BeautifulSoup(res.text,'lxml')
    time.sleep(2)
    for comment_item in soup.select("#comments > .comment-item"):
        try:

            data_item = []
            avatar = comment_item.select(".avatar a img")[0].get("src")
            name = comment_item.select(".comment h3 .comment-info a")[0]
            rate = comment_item.select(".comment h3 .comment-info span:nth-child(3)")[0]
            date = comment_item.select(".comment h3 .comment-info span:nth-child(4)")[0]
            comment = comment_item.select(".comment .comment-content span")[0]
            # comment_item.get("div img").ge
            data_item.append(avatar)
            data_item.append(str(name.string).strip("\t"))
            data_item.append(str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"))
            data_item.append(str(date.string).replace('\n','').strip('\t'))
            data_item.append(str(comment.string).strip("\t").strip("\n"))
            data_json ={
                'avatar':avatar,
                'name': str(name.string).strip("\t"),
                'rate': str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"),
                'date' : str(date.string).replace('\n','').replace('\t','').strip(' '),
                'comment': str(comment.string).strip("\t").strip("\n")
            }
            if not (collection.find_one({'avatar':avatar})):
               print("data _json is {}".format(data_json))
               collection.insert_one(data_json)
            f.write('\t'.join(data_item))
            f.write("\n")
        except Exception as e:
            print(e)
            continue

豆瓣爬取时需要记得加上 cookie 和 User-Agent,否则不会有数据为空,

为了后面数据可视化提取方便,本文用的是 Mongodb 作为数据存储,共有211 条数据,主要采集的数据字段为 avatarnameratedatecomment,分别表示用户头像、用户名字、星级、日期,评论;结果见图3;

image-20211002130736309

图3

关于 Python 怎么使用 MongoDB,可以参考旧闻

数据可视化

可视化部分之前打算用 Python + Pyecharts 来实现,但 Python 图表中的交互效果不是很好,索性就直接用原生 Echarts + Vue 组合来实现,而且,这样的话,将所有图表放在一个网页中也比较方便

首先是对评论时间与评论数量做了一个图表预览,根据这些数据的评论时间作为一个散点图分布,看一下用户评论主要的时间分布

动画11

图4

图4中点的大小和颜色代表当天评论数量,而评论数量也可以侧面反应该剧当天的热度。

可以 了解到,《鱿鱼游戏》影评从 9 月17 日开始增长,在 20 号数量达到顶峰,21 日回落;在21日-29日评论数量来回震荡,相差不大;

直到国庆 10月1日最少,猜测可能是一方面是国庆假期大家都出去玩的缘故,另一方面是随着时间推移,这个剧的热度也就降下来了

为了了解大家对《鱿鱼游戏》的评价,我对这二百条数据对这个剧的【评分星级】绘制了一个饼图,最终效果见 图5

动画2

图5

说实话图5 的结果让我有些意外,至少对于我而言这部剧质量说实话还是蛮高的,绘图之前以为【五星】的占比应该是最大的,其次是【四星】,再然后是【三星】;

现在【三星】和【五星】的占比恰恰相反,猜测可能是这部剧的情节比较残忍,会引起人的不适,所以高分占比不高;

为了方便,最后我将上面两张图表放置在一个网页上,效果见图6 和 图7 两种不同布局

垂直布局

动画3

图6

水平布局

动画4

图7

词云可视化

本次采集的数据信息有限能分析的数据维度不多,关于数据图表方面的分析基本就到这里了,下面是对采集到的评论做了几张词云图

mask1_workArt

图8

从图8来看,去除现实中常用到的还是、就是等口头语,人性 是影评中频率最高的一个词,而这个词确实符合《鱿鱼游戏》这部剧的主题,从第一集开始到结束都是在刨析人性,赌徒们的”贪婪、赌性成瘾“,贵宾们的”弱肉强食“

mask1_workArt1

图9

对比上张词云图,图9凸显的信息相对就多了些,例如韩国、人设、刺激、剧情、赌博默示录、题材等都与剧情有关,除了这几个信息之外,李政宰、孔刘、李秉宪 等几个主演也被提到

最后,我将采集到的用户头像做了两张图片墙作为文章的结尾

mask2_wall

图10

图10照片墙的轮廓采用的是剧中的人物截图,一个是123木头人 ,另外一个是男一在玩游戏二的一个镜头:

image-20211002171542736

关于照片墙制作方法,可参考旧闻:

小结

好了,以上就是本篇文章的全部内容了,本文分析到的东西并不多,主要是介绍了 Python 在数据采集和可视化方面的一些应用。

如果内容对你有所帮助的话,欢迎读者朋友们将文章 分享 给更多的人!

最后感谢大家的阅读,我们下期见~

更多关于Python分析豆瓣影评的资料请关注脚本之家其它相关文章!

相关文章

  • python flask解析json数据不完整的解决方法

    python flask解析json数据不完整的解决方法

    这篇文章主要介绍了python flask解析json数据不完整的解决方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-05-05
  • 基于python实现百度语音识别和图灵对话

    基于python实现百度语音识别和图灵对话

    这篇文章主要介绍了基于python实现百度语音识别和图灵对话,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Pycharm+Flask零基础项目搭建入门的实现

    Pycharm+Flask零基础项目搭建入门的实现

    本文主要介绍了Pycharm+Flask零基础项目搭建入门的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04
  • python多线程并发实例及其优化

    python多线程并发实例及其优化

    这篇文章主要介绍了python多线程并发实例及其优化,threading是扩展模块,在thread的基础上进行了封装及改进。所以只需要使用threading这个模块就能完成并发的测试,需要的朋友可以参考下
    2019-06-06
  • python实现数据清洗(缺失值与异常值处理)

    python实现数据清洗(缺失值与异常值处理)

    今天小编就为大家分享一篇python实现数据清洗(缺失值与异常值处理),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python编程pygal绘图实例之XY线

    Python编程pygal绘图实例之XY线

    这篇文章主要介绍了Python编程pygal绘图实例之XY线,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python性能调优的十个小技巧总结

    Python性能调优的十个小技巧总结

    大家好,今天这篇文章关于Python性能调优的10个小技巧,每天花5-10分钟阅读我的文章,对你技术提升一定会有帮助。喜欢记得收藏以防迷路
    2021-11-11
  • pytest多线程与多设备并发appium

    pytest多线程与多设备并发appium

    这篇文章介绍了pytest多线程与多设备并发appium,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • 深入理解Python中的 __new__ 和 __init__及区别介绍

    深入理解Python中的 __new__ 和 __init__及区别介绍

    这篇文章主要介绍了深入理解Python中的 __new__ 和 __init__及区别介绍,这两个方法的主要区别在于:__new__ 负责对象的创建而 __init__ 负责对象的初始化。具体内容详情大家跟随小编一起看看吧
    2018-09-09
  • Kears 使用:通过回调函数保存最佳准确率下的模型操作

    Kears 使用:通过回调函数保存最佳准确率下的模型操作

    这篇文章主要介绍了Kears 使用:通过回调函数保存最佳准确率下的模型操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06

最新评论