python爬取梨视频生活板块最热视频

 更新时间:2021年03月15日 10:34:05   作者:General_zy  
这篇文章主要介绍了python爬取梨视频生活板块最热视频,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

完整代码如下:

import requests
from lxml import etree
import random
import os
from multiprocessing.dummy import Pool
 
 
if not os.path.exists('./视频'):
  os.mkdir('./视频')
 
urls=[]
url='https://www.pearvideo.com/category_5'
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36 Edg/89.0.774.45'}
 
page_text=requests.get(url=url,headers=headers).text
tree=etree.HTML(page_text)
 
li_list=tree.xpath('//ul[@id="listvideoListUl"]/li')
 
for li in li_list:
  a_url='https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
  name=li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
 
  mrd=random.random()
  code=li.xpath('./div/a/@href')[0][-7:]  
  new_headers={'Referer': a_url,
         'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.50'
         }
  new_url='https://www.pearvideo.com/videoStatus.jsp?contId='+str(code)+'&mrd='+str(mrd)
 
  r=requests.get(url=new_url,headers=new_headers) 
  video_url=eval(r.text)['videoInfo']['videos']['srcUrl']
 
    
  old=video_url.split('/')[-1].split('-')[0]  
  new='cont-'+str(code)
  true_video_url=video_url.replace(old,new)
 
 
  dic={'name':name,
     'my_url':true_video_url}
  urls.append(dic)
  
  
#使用线程池对数据视频进行请求
def get_video_data(dic):
  print(dic['name']+'开始下载'+'\n')
  data_url=dic['my_url']
  data=requests.get(url=data_url,headers=headers).content
  with open('./视频/'+dic['name'],'wb') as f:
    f.write(data)
    print(dic['name']+'下载成功')
  
pool=Pool(4)
pool.map(get_video_data,urls)
 
pool.close()
pool.join()

说明:

当前日期(2021/3/14)版本的梨视频的视频伪url由ajax获取。

部分代码解释:

1:模块

import requests                #网路爬虫标准库(代替urllib)
from lxml import etree            #用于解析页面信息
import random                 #梨视频的url中有一段需要随机数
import os                   #主要用于生成文件夹存放视频
from multiprocessing.dummy import Pool    #导入线程池对应类

2:获取视频伪url

#参数准备
mrd=random.random()
code=li.xpath('./div/a/@href')[0][-7:]  
new_headers={
'Referer': a_url,
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36     (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.50'
      }
 
#获取url
new_url='https://www.pearvideo.com/videoStatus.jsp?contId='+str(code)+'&mrd='+str(mrd)
r=requests.get(url=new_url,headers=new_headers) 
video_url=eval(r.text)['videoInfo']['videos']['srcUrl']

3:获取真正url

经本人实验,使用上文获得的url爬取视频下载内容为空。

由于本人也是菜鸟,所以百思不得其解,恰巧看到B站用户”_千户”的留言才得知真伪url的差异:

此处视频地址做了加密即ajax中得到的地址需要加上cont-,并且修改一段数字为id才是真地址
真地址:"https://video.pearvideo.com/mp4/third/20201120/cont-1708144-10305425-222728-hd.mp4"
伪地址:"https://video.pearvideo.com/mp4/third/20201120/1606132035863-10305425-222728-hd.mp4"

#仅需要做几个简单的截取切片操作就可以替换相关内容
 
old=video_url.split('/')[-1].split('-')[0]  
new='cont-'+str(code)
true_video_url=video_url.replace(old,new)

4:存储

#使用线程池对数据视频进行请求
def get_video_data(dic):
  print(dic['name']+'开始下载'+'\n')
  data_url=dic['my_url']
  data=requests.get(url=data_url,headers=headers).content
  with open('./视频/'+dic['name'],'wb') as f:
    f.write(data)
    print(dic['name']+'下载成功')
  
pool=Pool(4)
pool.map(get_video_data,urls)
 
pool.close()
pool.join()

5:结果

到此这篇关于python爬取梨视频生活板块最热视频的文章就介绍到这了,更多相关python爬取梨视频内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解图像上的OpenCV算术运算

    详解图像上的OpenCV算术运算

    图像可以进行算术运算,例如加法、减法和按位运算(AND、OR、NOT、XOR)。这些操作可以帮助改善输入图像的属性。本文主要介绍了OpenCV中常见的图像算术运算,需要的可以参考一下
    2022-10-10
  • Python3对称加密算法AES、DES3实例详解

    Python3对称加密算法AES、DES3实例详解

    这篇文章主要介绍了Python3对称加密算法AES、DES3,结合实例形式详细分析了对称加密算法AES、DES3相关模块安装、使用技巧与操作注意事项,需要的朋友可以参考下
    2018-12-12
  • Python MySQLdb模块连接操作mysql数据库实例

    Python MySQLdb模块连接操作mysql数据库实例

    这篇文章主要介绍了Python MySQLdb模块连接操作mysql数据库实例,本文直接给出操作mysql代码实例,包含创建表、插入数据、插入多条数据、查询数据等内容,需要的朋友可以参考下
    2015-04-04
  • 关于jupyter lab安装及导入tensorflow找不到模块的问题

    关于jupyter lab安装及导入tensorflow找不到模块的问题

    这篇文章主要介绍了关于jupyter lab安装及导入tensorflow找不到模块的问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • Pytorch创建随机值张量的过程详解

    Pytorch创建随机值张量的过程详解

    这篇文章主要介绍了Pytorch创建随机值张量的过程详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-09-09
  • 详解Python IO编程

    详解Python IO编程

    这篇文章主要介绍了Python IO编程的相关资料,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • 使用Python将xmind脑图转成excel用例的实现代码(一)

    使用Python将xmind脑图转成excel用例的实现代码(一)

    这篇文章主要介绍了使用Python将xmind脑图转成excel用例的实现代码(一),本文给大家介绍的非常详细对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-10-10
  • 使用Python爬取最好大学网大学排名

    使用Python爬取最好大学网大学排名

    这篇文章主要介绍了如何使用Python爬取最好大学网大学排名,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • Python+Pygame实战之泡泡游戏的实现

    Python+Pygame实战之泡泡游戏的实现

    这篇文章主要为大家介绍了如何利用Python中的Pygame模块实现泡泡游戏,文中的示例代码讲解详细,对我们学习Python游戏开发有一定帮助,需要的可以参考一下
    2022-07-07
  • Django admin实现TextField字段changelist页面换行、空格正常显示

    Django admin实现TextField字段changelist页面换行、空格正常显示

    本文主要介绍了Django admin实现TextField字段changelist页面换行、空格正常显示,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01

最新评论