Python爬取某拍短视频

更新时间：2021年06月11日 10:20:14 作者：五包辣条！

现在短视频可谓是一骑绝尘,吃饭的时候、休息的时候、躺在床上都在刷短视频,今天给大家带来python爬虫进阶：美拍视频地址加密解析,需要的朋友可以参考下

一、抓取目标

目标网址：美拍视频

在这里插入图片描述

二、工具使用

开发环境：win10、python3.7
开发工具：pycharm、Chrome
工具包：requests、xpath、base64

三、重点学习内容

爬虫采集数据的解析过程
js代码调试技巧
js逆向解析代码
Python代码的转换

四、项目思路解析

进入到网站的首页
挑选你感兴趣的分类
根据首页地址获取到进入详情页面的超链接的跳转地址

在这里插入图片描述

找到对应加密的视频播放地址数据

在这里插入图片描述

这个数据是静态的网页数据，通过js代码进行解码的
找到对应的解析代码
先找到视频的播放地址
找到解析视频地址的加密js文件
点击播放的时候会触发文件

在这里插入图片描述

大致能看出来这个是base64加密之后的数据
在对应的js文件里搜索关键字
找到js的加密方式

在这里插入图片描述

js函数的一些函数的用法

# eplace()方法用于在字符串中用一些字符替换另一些字符
    # parseInt 数据转换成对应的整型
    # base64.atob   对base64编码过的字符串进行解码
    # substring 方法可在字符串中抽取从 start 下标开始的指定数目的字符

在这里插入图片描述

将js代码转换成Python代码

import base64

def decode(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))

print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))

得出最终视频播放地址

在这里插入图片描述

五、简易源码分享

import requests
from lxml import etree
import base64

def decode_mp4(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))
# 运行主函数
def main():
    url = 'https://www.meipai.com'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    }
    response = requests.get(url=url, headers=headers)
    html_data = etree.HTML(response.text)
    href_list = html_data.xpath('//div/a/@href')
    # print(href_list)
    for href in href_list:
        res = requests.get('https://www.meipai.com' + href, headers=headers)
        html = etree.HTML(res.text)
        name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]
        mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]
        # print(name, mp4_data)
        mp4_url = decode_mp4(mp4_data).decode('utf-8')
        print(mp4_url)
        result = requests.get("http:" + mp4_url)
        with open(name + ".mp4", 'wb') as f:
            f.write(result.content)
            f.close()


if __name__ == '__main__':
    main()

到此这篇关于Python爬取某拍短视频的文章就介绍到这了,更多相关Python爬取视频内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

一篇文章带你学习python的函数与类
这篇文章主要为大家介绍了python的函数与类，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
Python OpenCV超详细讲解基本功能
OpenCV用C++语言编写，它具有C ++，Python，Java和MATLAB接口，并支持Windows，Linux，Android和Mac OS，OpenCV主要倾向于实时视觉应用，并在可用时利用MMX和SSE指令，本篇文章带你了解OpenCV的基本功能
2022-04-04
python更新数据库中某个字段的数据(方法详解)
这篇文章主要介绍了python更新数据库中某个字段的数据方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2020-11-11
Python 列表(List)的底层实现原理分析
这篇文章主要介绍了Python 列表(List)的底层实现原理分析，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Python中关于面向对象私有属性方法的详细讲解
在实际开发中，对象的某些属性或方法可能只希望在对象的内部被使用，而不希望在外部被访问到，私有属性就是对象不希望公开的属性，私有方法就是对象不希望公开的方法
2021-10-10
解决python路径错误,运行.py文件,找不到路径的问题
这篇文章主要介绍了解决python路径错误,运行.py文件,找不到路径的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
如何在Python中进行异常处理
这篇文章主要介绍了如何在Python中进行异常处理，Python中使用用异常对象(exception object)表示异常情况，当程序运行遇到错误后，就会触发发异常，下文关于异常处理的相关内容，需要的小伙伴可以参考一下
2022-03-03
解决Python在导入文件时的FileNotFoundError问题
这篇文章主要介绍了解决Python在导入文件时的FileNotFoundError问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
基于Python中的yield表达式介绍
今天小编就为大家分享一篇基于Python中的yield表达式详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
Gradio机器学习模型快速部署工具应用分享前篇
这篇文章主要为大家介绍了Gradio机器学习模型快速部署工具应用分享前篇，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-04-04