Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

更新时间：2019年08月13日 09:42:05 作者：Leslie-x

这篇文章主要介绍了Request爬取网站（seo.chinaz.com）百度权重的查询结果过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

一：脚本需求

利用Python3查询网站权重并自动存储在本地数据库（Mysql数据库）中，同时导出一份网站权重查询结果的EXCEL表格

数据库类型：MySql

数据库表单名称：website_weight

表单内容及表头设置：表头包含有id、main_url（即要查询的网站）、website_weight（网站权重）

要查询的网站：EXCEL表格

二：需求实现

一：利用openpyxl模块解析excel文件，将查询的网站读取到一个列表中保存

# 解析excel文件，取出所有的url
def get_urls(file_path):
 wb = load_workbook(file_path)
 sheet = wb.active
 urls = []
 for cell in list(sheet.columns)[1]:
 if cell != sheet['B1']:
  urls.append(cell.value)
 return wb, urls

二：分析请求发送，伪造请求，取得HTML页面

# 伪造请求，取得html页面
def get_html(url):
 # 定义http的请求Header
 headers = {} 
 # random.randint(1,99) 为了生成1到99之间的随机数，让UserAgent变的不同。
 headers[
 'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
 random.randint(1, 99))
 # Referer地址使用待查询的网址
 headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
 html = ''
 try:
 html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
 except Exception:
 pass
 return html

三：分析HTML页面，利用BeautifulSoup模块提取数据

# 利用BeautifulSoup模块从html页面中提取数据
def get_data(html, url):
 if not html:
 return url, 0
 soup = bs(html, "lxml")
 p_tag = soup.select("p.ReLImgCenter")[0]
 src = p_tag.img.attrs["src"]
 regexp = re.compile(r'^http:.*?(\d).gif')
 br = regexp.findall(src)[0]
 return url, br

四：数据库连接配置，并获取游标

# 连接数据库
def get_connect():
 conn = pymysql.connect(
 host='127.0.0.1',
 port=3306,
 user='root',
 passwd='root',
 db='seotest',
 charset="utf8")
 # 获取游标对象
 cursor = conn.cursor()
 return conn, cursor

五：主程序逻辑编写

if __name__ == "__main__":
 #命令行执行脚本文件，获取excel文件路径
 file_path = sys.argv[1]
 #获取URL列表和excle工作簿
 wb, urls = get_urls(file_path)
 #获取数据库连接和游标
 conn, cursor = get_connect()
 #获取工作簿当前工作sheet
 sheet = wb.active
 #数据库插入语句
 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''
 
 for row, url in enumerate(urls):
 if not url: continue
 html = get_html(url)
 data = get_data(html, url)
 # 插入数据到数据库
 cursor.execute(sql_insert, data)
 # 插入数据到Excel表中
 cell = sheet.cell(row=row + 2, column=3)
 cell.value = data[1]
 # 终端打印插入的数据
 print(data)
 conn.commit()
 conn.close()
 wb.save(file_path)
 wb.close()

# cmd命令：python3 F:\算法与结构\网站权重.py F:\website.xlsx

三：脚本运行及其实现结果

CMD执行

数据库：

excel文件写入：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python数据结构学习之实现线性表的顺序
这篇文章主要为大家详细介绍了python数据结构学习之实现线性表的顺序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-09-09
Pytorch如何加载部分权重
这篇文章主要介绍了Pytorch如何加载部分权重问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-09-09
详解Pytorch 使用Pytorch拟合多项式(多项式回归)
这篇文章主要介绍了详解Pytorch 使用Pytorch拟合多项式(多项式回归),小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-05-05
Python使用matplotlib绘图无法显示中文问题的解决方法
这篇文章主要介绍了Python使用matplotlib绘图无法显示中文问题的解决方法,结合具体实例形式分析了Python使用matplotlib绘图时出现中文乱码的原因与相关解决方法,需要的朋友可以参考下
2018-03-03
用Python实现网易云音乐的数据进行数据清洗和可视化分析
这篇文章主要为大家详细介绍了Python实现Kmeans聚类算法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-08-08
Python机器学习利用鸢尾花数据绘制ROC和AUC曲线
这篇文章主要为大家介绍了Python机器学习利用鸢尾花数据绘制ROC和AUC曲线实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-02-02
在python下实现word2vec词向量训练与加载实例
这篇文章主要介绍了在python下实现word2vec词向量训练与加载实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
Python实现语音识别和语音合成功能
声音的本质是震动，震动的本质是位移关于时间的函数，波形文件(.wav)中记录了不同采样时刻的位移。这篇文章主要介绍了Python实现语音识别和语音合成,需要的朋友可以参考下
2019-09-09
利用Python实现自动生成图文并茂的数据分析
这篇文章主要介绍了利用Python实现自动生成图文并茂的数据分析，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的朋友可以参考一下
2022-08-08
使用Python的SymPy库解决数学运算问题的方法
这篇文章主要介绍了使用Python的SymPy库解决数学运算问题的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-03-03

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具