Python采集某网站文档并保存word格式的示例

 更新时间:2023年07月19日 11:26:33   作者:轻松学Python  
这篇文章主要介绍了Python采集某网站文档并保存word格式的示例,我们平常需要下载文档的时候,是不是发现,要么不能下载,要么不能复制,那么我们今天来分享一下,如何用Python将这些不给下载的文档给批量下载下来,需要的朋友可以参考下

准备工作

今天来分享一下,如何用Python将这些不给下载的文档给批量下载下来。

开发环境

python 3.8
pycharm

模块使用

两个需要安装的第三方模块,安装命令也写出来了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

实现思路

一、数据来源分析

1.明确需求

明确采集网址以及数据内容是什么?

网址: https://www.***.com/p-3282300896.html

数据: 文档内容

2.抓包分析

我们需要数据内容是可以请求那个链接能够得到

文档形式: 图片样式
通过浏览器自带工具: 开发者工具抓包
打开开发者工具: F12 / 右键点击检查选择network
刷新网页
开发者工具搜索: docinpic
文档图片数据
链接: http://221.122.117.73/docinpic.jsp
sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <获取>
file: 文档ID <可以自己获取>
width: 图片分辨率
pageno: 页码 <可以用for循环>

二、代码实现步骤

  1. 发送请求, 模拟浏览器对于 文档页面url地址 发送请求
    请求链接: https://www.***.com/p-3282300896.html
  2. 获取数据, 获取服务器返回响应数据
  3. 解析数据, 提取我们需要的内容:
    sid参数 / 文档页数 / 文档名称
    构建文档图片链接
  4. 保存数据, 把文档图片内容保存下来

通过文字识别, 把图片里面文字识别出来, 保存文档里面就可以了

使用百度云API接口:

1. 注册登陆百度云API
2. 选择文字识别, 创建应用, 领取免费资源, 点击技术文档
3. 先获取token值
4. API调用的文档代码

代码展示

文字识别

doc = Document()
def Content(content):
    url = "https://a***.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']
    request_url = "https://***.com/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    # f = open('img\\1 计算机概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

发送请求

# 模拟浏览器 --> 字典数据类型 --> 键:值
headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 请求链接
url = 'https://www.***.com/p-3282300896.html'
# 发送请求
response = requests.get(url=url, headers=headers)

获取数据、解析数据

# 获取网页数据
html_data = response.text
# 提取sid参数
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取页码
num = re.findall('<em>(\d+)</em>页</span>', html_data)[0]
# 构建完整图片链接
content_list = []
for page in range(1, int(num)+1):
    # 字符串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'

保存数据, 把文档图片内容保存下来

# 发送请求, 获取二进制数据<图片内容>
img_content = requests.get(url=img, headers=headers).content
words = Content(img_content)
doc.add_paragraph(words)

到此这篇关于Python采集某网站文档并保存word格式的示例的文章就介绍到这了,更多相关Python采集网站文档保存内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python面向对象版学生信息管理系统

    python面向对象版学生信息管理系统

    这篇文章主要为大家详细介绍了python面向对象版学生信息管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-06-06
  • pip install如何指定包的安装路径

    pip install如何指定包的安装路径

    最近学习python需要用pip下载一些包,但是发现下载后在pycharm中根本导入不了,下面这篇文章主要给大家介绍了关于pip install如何指定包的安装路径的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • 安装2019Pycharm最新版本的教程详解

    安装2019Pycharm最新版本的教程详解

    这篇文章主要介绍了安装2019Pycharm最新版本的教程详解,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • 详解python中的三种命令行模块(sys.argv,argparse,click)

    详解python中的三种命令行模块(sys.argv,argparse,click)

    这篇文章主要介绍了python中的三种命令行模块(sys.argv,argparse,click)的相关资料,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12
  • Python使用PyNmap进行网络扫描的详细步骤

    Python使用PyNmap进行网络扫描的详细步骤

    使用 PyNmap 进行网络扫描是一个非常有效的方式,PyNmap 是 Nmap 工具的一个 Python 封装,它允许你在 Python 脚本中使用 Nmap 的强大功能,本文介绍了如何使用 PyNmap 进行网络扫描的详细步骤,需要的朋友可以参考下
    2024-08-08
  • 三步解决python PermissionError: [WinError 5]拒绝访问的情况

    三步解决python PermissionError: [WinError 5]拒绝访问的情况

    这篇文章主要介绍了三步解决python PermissionError: [WinError 5]拒绝访问的情况,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • 使用Python实现一个蔡徐坤大战篮球的小游戏(推荐)

    使用Python实现一个蔡徐坤大战篮球的小游戏(推荐)

    这篇文章主要介绍了用Python实现一个蔡徐坤大战篮球的小游戏,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-12-12
  • tensorflow 查看梯度方式

    tensorflow 查看梯度方式

    今天小编就为大家分享一篇tensorflow 查看梯度方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • 利用Python实现自动化监控文件夹完成服务部署

    利用Python实现自动化监控文件夹完成服务部署

    本篇文章将为大家详细介绍如何利用Python语言实现监控文件夹,以此辅助完成服务的部署动作,文中的示例代码讲解详细,感兴趣的可以尝试一下
    2022-07-07
  • numpy.random.shuffle打乱顺序函数的实现

    numpy.random.shuffle打乱顺序函数的实现

    这篇文章主要介绍了numpy.random.shuffle打乱顺序函数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-09-09

最新评论