Python爬虫实战项目掌握酷狗音乐的加密过程
更新时间:2021年09月27日 14:24:50 作者:il_持之以恒_li
在常见的几个音乐网站里,酷狗可以说是最好爬取的啦,什么弯都没有,所以最适合小白入门爬虫,本篇针对爬虫零基础的小白,所以每一步骤我都截图并详细解释了,其实我自己看着都啰嗦,归根到底就是两个步骤的请求,还请大佬绕路勿喷
1.前言
小编在这里讲一下,下面的内容仅供学习参考,切莫用于商业活动,一经被相关人员发现,本小编概不负责!读者切记切记。
2.获取音乐播放列表
其实,这就是小编要讲的重点,因为就是这部分用到了加密。
我们在搜索栏上输入我们想听的音乐,小编输入:刺客
- 是不是看到了一系列音乐,怎样得到这些音乐的一些信息呢?(这里指的音乐信息是指音乐的hash值和音乐的album_id值【这两个参数在获取音乐的下载链接那里会用到】,当然还包括音乐的名称【不然怎么区别呢?】)。
- 由于这一系列音乐是动态加载出来的,也就是如果直接解析这个界面的数据,根本得不到,这个时候我们就应该来到如下这个界面了。
是不是可以看到我们刚才看到的那些音乐了,而且展开其中一首音乐,可以发现上述小编讲的哪些信息好像都有了呀!
我们看一下这个请求的网址吧!发现这是一个get请求,请求数据如下:
- 小编搜索了多首歌曲,发现它们的请求参数有一个共同点,那就是除了keyword、clienttime、mid、uuid和signature这几个参数值不同之外,其他的都差不多,而clienttime本意就是客户端时间,它的值是一个时间戳,mid和uuid的值和clienttime一样的,keyword它的值就是我们搜索的关键词,现在我们需要的就是搞懂signature这个参数值到底是什么呀!
- 小编得到这个signature参数值的长度为32,觉得应该是使用了加密,将一些初始数据,把它加密得到的,那么怎样得到这个初始数据呢?
- 小编点击了这个网站所有的js文件,发现这个参数值在这个js文件下
- 是不是看到了md5这个函数呀!这应该就是那个加密函数了吧!而o.join("")就应该是那个初始数据了,o是一个js数组。
- 现在知道要获取o的值,怎样获取呢?肯定是使用断点呀!我们在signature周围打上相应的断点,然后执行断点操作(这个小编就不一一赘述了,小编使用js断点还是有一点懵逼的,就不在这里误导大家了)。
- 上述图片就是那个js数组o中的值了,经过对这些数据进行分析,发现其实这其中绝大部分值就是我们请求网址的哪些参数值,读者觉得呢?
- 整个加密算法如下:
- 这也太长了吧!原本小编打断使用python来模拟这个加密过程,但是现在小编看到这么长,放弃了,但是并不代表加密过程就无法实现,小编查阅资料,发现原来python可以执行js语句,我们是不是只需结合python和js,就能实现这个加密了呢?开干!
- 代码如下:
- 看看运行结果吧!
- 是不是这样就获取我们想要的数据了呀!我们只需使用json解析这些数据,就可以获取小编在上面提到的那两个参数了。【音乐的hash值和音乐的album_id值】
3. 得到歌曲的下载链接
- 在上述第二点那里讲到音乐的hash值和音乐album_id值,为什么要提到它们俩呢?当然是为了给第第三点这里做铺垫的哈!
- 这个过程小编不会讲的很详细,因为小编今天讲的重点是这个加密哈!
我们点击一首歌播放,来到上述界面,可以看到歌曲的下载链接,这个请求的参数如下:
- 这些请求参数中是不是看到我提到的那两个参数呀!
- 通过分析发现,其实只需以下三个参数即可请求成功!如下
- 相应的代码小编就不一一发出来了,相信聪明的读者看了小编的本篇博客,定然可以实现酷狗音乐的下载
到此这篇关于Python爬虫实战项目掌握酷狗音乐的加密过程的文章就介绍到这了,更多相关Python 酷狗音乐的加密过程内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
JetBrains PyCharm(Community版本)的下载、安装和初步使用图文教程详解
这篇文章主要介绍了JetBrains PyCharm(Community版本)的下载、安装和初步使用教程,本文图文并茂给大家介绍的非常详细,对大家的学习和工作具有一定的参考借鉴价值 ,需要的朋友可以参考下2020-03-03
最新评论