用Python爬取某乎手机APP数据

 更新时间:2021年06月15日 09:24:18   作者:不加班的程序员丶  
最近爬取的数据都是网页端,今天来教大家如何爬取手机端app数据(本文以ios苹果手机为例,其实安卓跟ios差不多)! 本文将以『某乎』为实战案例,手把手教你从配置到代码一步一步的爬取App数据,需要的朋友可以参考下

一、配置抓包工具

1.安装软件

本文选择的抓包工具:Fiddler  

具体的下载安装这里不详细赘述!(网上搜Fiddler安装,一大堆教程),本文以实战为例,就不再这里浪费时间了!

2.配置Fiddler

安装好之后,接下来就开始配置Fiddler工具(这里是关键,仔细阅读!

配置Connections

打开Fiddler后,点击Tools->Options

点击Connections

勾选上对应的选项

配置HTTPS

由于目前大部分APP都是https加密,包括本文实战『某乎』案例也是https加密,因此配置HTTPS,来抓取https数据包!

勾选上对应的选项

最后抓包工具Fiddler就配置好了

记得重启Fiddler重启Fiddler重启Fiddler!不然可能不生效

二、配置手机代理

 1.设置代理

准备工作

首先看一下安装Fiddler主机ip(电脑和手机必须处于同一局域网

查看ip命令

window:ipconfig

开始配置

目标代理主机信息
ip:192.168.31.195

端口:8888

在wifi无线网处进去,点击配置代理

填写好相关代理信息

2.安装证书

在浏览器输入:

http://192.168.31.195:8888

点击下载证书后,下面就开始安装(看图操作

ok,这样手机端就配置完成,下面开始抓取数据!!!

三、抓取数据

1.打开某乎app

2.查看数据包列表

打开app之后,Fiddler就已经抓取到数据了

这里可以看到app发送和接收了哪些数据包

为了更加精准定位到某乎(只看目标的数据包),添加一个过滤条件

这样我们获取的数据包列表就都是过滤条件内的目标网址

3.查找数据包

比如点击热榜

对应的https加密数据包如下:

数据包中的数据如下:

提取出url链接

https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0

拿到url之后,接着开始编程爬取保存数据。

4.编写爬虫程序

# -*- coding: utf-8 -*-

ok这样就可以将数据获取下来!

四、总结

1.配置抓包工具Fiddler(重点)。

2.ios苹果手机配置证书和设置代理(安卓手机也类似)。

3.简单使用Fiddler(过滤数据包、查看数据包等)。

4.本文以某乎为实战,实现了python爬取手机app数据

到此这篇关于用Python爬取某乎手机APP数据的文章就介绍到这了,更多相关Python爬取APP数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 抓取数据存储到Redis中的操作

    Python 抓取数据存储到Redis中的操作

    这篇文章主要介绍了Python 抓取数据存储到Redis中的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • 详解django中视图函数的FBV和CBV

    详解django中视图函数的FBV和CBV

    FBV是指视图函数以普通函数的形式,CBV是指视图函数以类的方式,这篇文章主要介绍了django中视图函数的FBV和CBV,需要的朋友可以参考下
    2022-08-08
  • python获取时间及时间格式转换问题实例代码详解

    python获取时间及时间格式转换问题实例代码详解

    这篇文章主要介绍了python获取时间及时间格式转换,需要的朋友可以参考下
    2018-12-12
  • Python获取网络时间戳的两种方法详解

    Python获取网络时间戳的两种方法详解

    在我们进行注册码的有效期验证时,通常使用获取网络时间的方式来进行比对。本文将介绍两种利用Python获取网络时间戳的方法,感兴趣的可以了解一下
    2022-01-01
  • python之broadcast和numpy.sum()函数用法及说明

    python之broadcast和numpy.sum()函数用法及说明

    这篇文章主要介绍了python之broadcast和numpy.sum()函数用法及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Pytest执行unittest TestSuite(测试套件)的实现方法

    Pytest执行unittest TestSuite(测试套件)的实现方法

    TestSuite一直是unittest的灵活与精髓之处,在繁多的测试用例中,可以任意挑选和组合各种用例集,这篇文章主要介绍了Pytest执行unittest TestSuite(测试套件)的实现方法,需要的朋友可以参考下
    2021-08-08
  • 总结Pyinstaller的坑及终极解决方法(小结)

    总结Pyinstaller的坑及终极解决方法(小结)

    这篇文章主要介绍了总结Pyinstaller的坑及终极解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Django记录操作日志与LogEntry的使用详解

    Django记录操作日志与LogEntry的使用详解

    我们既知道如何记录变更日志,也知道如何获取变更日志,那么如何才能够在admin后台方便地查看操作日志呢?这篇文章主要给大家介绍了关于Django记录操作日志与LogEntry使用的相关资料,需要的朋友可以参考下
    2022-01-01
  • 基于pyinstaller超级加密操作(加壳和转c)

    基于pyinstaller超级加密操作(加壳和转c)

    这篇文章主要介绍了基于pyinstaller超级加密操作 (加壳和转c),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python 文件读写操作实例详解

    Python 文件读写操作实例详解

    Python提供了必要的函数和方法进行默认情况下的文件基本操作。你可以用file对象做大部分的文件操作
    2014-03-03

最新评论