一文学会利用python解决文章付费限制问题

 更新时间:2023年05月07日 14:31:04   作者:朦胧的雨梦  
本篇文章主要介绍利用Python爬虫爬取付费文章,适合练习爬虫基础同学,文中描述和代码示例很详细,干货满满,感兴趣的小伙伴快来一起学习吧

本次爬虫思路

最最重要的是分析信息接口!!!
1. 获取url
2. 通过请求拿到响应
3. 处理反爬
4. 提取信息
5. 保存内容

本次操练网页

https://www.duanmeiwen.com/xinshang/3203373.html(某美文网)

网页内容:

✨一.爬虫模板

🌲1.urllib库的使用模板

import urllib.request     
url ='xxxxxxxxxxxx'   
#发送请求                
 request= urllib.request.Request(url,data,header)      
 #得到响应
 response=urllib.request.urlopen(request)
 #解码
 content = response.read().decode() 
 #查看数据
 print(content)    

🌲2.requests库的使用模板

import requests   
url ='xxxxxxxxxxxx' 
#发送请求                              
response = request.get(url, params,headers)  (get请求或者post请求)  
#根据响应的格式解码,非常智能
response.encoding=response.appareent_encoding
 #查看数据
 print(response.txt)

✨二.分析信息接口

1.首先右键查看网页源代码

很明显,爬取的信息就在源代码里,所以直接对网页链接发起请求。这里请求头伪装我们优先携带user-agent

✨三.通过请求拿到响应

import requests

# 需要请求的url
url = 'https://www.duanmeiwen.com/xinshang/3203373.html'

# 伪装请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}

# 获得响应
response = requests.get(url=url, headers=headers)

# 智能解码
response.encoding = response.apparent_encoding
# 打印数据
print(response.text)

✨四. 提取信息

针对返回数据的特点,我们现在有三种方法:

🌲1.正则表达式

正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。简单来说,利用一定的逻辑公式,过滤掉不需要的数据,主要处理字符串。对于本题来说有点杀鸡用牛刀了。简单来示范一下:
首先导入re模块

import re

接下来开始操作这堆"字符串"

re.compile()是用来优化正则的,它将正则表达式转化为对象,re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式,多次调用一个正则表达式就重复利用这个正则对象,可以实现更有效率的匹配。需要搭配finditer()等一起使用,参数pattern : 正则表达式;,flags : 表示匹配模式。

右键点击检查进入Network页面,主要是方便我们看清楚结构。

效果

这里写的比较粗糙,因为大家会发现我们会大量在重复写一个相同的筛选语句,所以就有那么一点机械重复的感觉,而且我们有专门对付这中HTML结构的工具,所以接下来咱们隆重介绍XPath!

🌲2.XPath

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快地被开发者采用来当作小型查询语言。我们只要简单理解为它主要是针对定位HTML中某部分位置的语言。

首先导入XPath

from lxml import etree

接下来开始操作

效果

这就是优雅,对比上面,我们用三行代码就完成了任务,由此可见,用对方法很重要。

🌲 3.漂亮的汤(BeautifulSoup)<本次不使用>

✨五.保存内容

这里就很简单,基础文件操作的知识,“行百里者半九十”,来吧,咱们直接一口气写完。

tree = etree.HTML(response.text)
titles = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/h2/text()')
message = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/p/text()')
for i in range(len(message)):
    with open('优美文艺句子.txt', 'a', encoding='utf-8') as fp:
        fp.write(message[i])
        fp.write('\n')
print('文章爬取完成')

效果

✨六.总结(附完整代码)

过今天的小案例,我们明白了,第一,思路一定要清楚,快准狠分析出接口链接,第二,提取数据的方法要正确,这样会直接事半功倍,好了,今天就分享到这里,谢谢大家的观看,有什么想法记得评论区告诉我!拜拜~✨ ✨ ✨

🌲完整代码

import requests
from lxml import etree

# 需要请求的url
url = 'https://www.duanmeiwen.com/xinshang/3203373.html'

# 伪装请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',
}

# 获得响应
response = requests.get(url=url, headers=headers)

# 智能解码
response.encoding = response.apparent_encoding

# 提取数据
tree = etree.HTML(response.text)
titles = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/h2/text()')
message = tree.xpath('/html/body/div[2]/div[2]/div/div[2]/p/text()')

#遍历保存数据
for i in range(len(message)):
    with open('优美文艺句子.txt', 'a', encoding='utf-8') as fp:
        fp.write(message[i])
        fp.write('\n')
print('文章爬取完成')

以上就是一文学会利用python解决文章付费限制问题的详细内容,更多关于Python解决文章付费限制的资料请关注脚本之家其它相关文章!

相关文章

  • 详解Python的整数是如何实现的

    详解Python的整数是如何实现的

    本文我们来聊一聊Python的整数,我们知道Python的整数是不会溢出的,换句话说,它可以计算无穷大的数,只要你的内存足够,它就能计算。但问题是,Python底层又是C实现的,那么它是怎么做到整数不溢出的呢?本文就来详细说说
    2022-11-11
  • python微信聊天机器人改进版(定时或触发抓取天气预报、励志语录等,向好友推送)

    python微信聊天机器人改进版(定时或触发抓取天气预报、励志语录等,向好友推送)

    这篇文章主要介绍了python微信聊天机器人改进版,定时或触发抓取天气预报、励志语录等,向好友推送 ,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-04-04
  • Python数学符号计算库SymPy使用方法详解

    Python数学符号计算库SymPy使用方法详解

    SymPy 是一个 Python 的数学符号计算库,提供了强大的工具来进行符号数学运算、代数操作、求解方程、微积分、矩阵运算等,它广泛应用于数学教学、物理学、工程学、统计学和概率论等领域,本文将结合具体案例,详细介绍 SymPy 的使用方法,需要的朋友可以参考下
    2024-08-08
  • wxPython 入门教程

    wxPython 入门教程

    您可以在几分钟内编写一段 Python脚本和让桌面拥有令人难以置信的相当漂亮的 GUI应用程序。这篇文章向您展示如何使用一 Python-著称的 GUI 库wxPython,来做到这一点的。向您的朋友和邻居介绍!
    2008-10-10
  • Pyinstaller打包多个资源文件的超详细教程(推荐!)

    Pyinstaller打包多个资源文件的超详细教程(推荐!)

    Pyinstaller是著名python打包module,软件或者小工具用python写好后,用pyinstaller 可以实现轻松打包,下面这篇文章主要给大家介绍了关于Pyinstaller打包多个资源文件的超详细教程,需要的朋友可以参考下
    2022-12-12
  • Python 超简洁且详细爬取西瓜视频案例

    Python 超简洁且详细爬取西瓜视频案例

    今天给大家带来一篇爬取西瓜视频的小教程,很简单的几十行代码就可以实现了,每一段代码都详细说明了用途,看完你就能够自己动手写,感兴趣的同学快来跟着小编往下看吧
    2021-11-11
  • django 捕获异常和日志系统过程详解

    django 捕获异常和日志系统过程详解

    这篇文章主要介绍了django-捕获异常和日志系统过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • pytorch 计算ConvTranspose1d输出特征大小方式

    pytorch 计算ConvTranspose1d输出特征大小方式

    这篇文章主要介绍了pytorch 计算ConvTranspose1d输出特征大小方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • python中的httpx异步请求

    python中的httpx异步请求

    这篇文章主要介绍了python中的httpx异步请求方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-06-06
  • python fuzzywuzzy模块模糊字符串匹配详细用法

    python fuzzywuzzy模块模糊字符串匹配详细用法

    这篇文章主要介绍了使用Python完成公司名称和地址的模糊匹配的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08

最新评论