利用Python3分析sitemap.xml并抓取导出全站链接详解

 更新时间:2017年07月04日 11:59:07   作者:然之  
因为最近更换了网址,所以需要在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,于是就想写个脚本直接抓取全站链接并导出,本文详细介绍的是实现的方法及过程,需要的朋友们一起来看看吧。

前言

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出。

首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的。

下面是python 3代码,将里面的链接地址换成你自己的网址即可:

#coding=utf-8
import urllib
import urllib.request import re
url='http://www.ranzhi.org/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://www.ranzhi.org.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

我们能来看一下运行结果:

导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然我们也可以使用更快的主动推送方式,因为我的网站是用PHP+mysql开发的,所以我们这里使用PHP脚本将上面抓取的链接再处理下,然后主动推送给百度,一遍加快爬虫抓取时间。

上面1是你的站点的主动推送API,这个可以在百度站长平台获取;2是要主动推送的网站地址,这里就可以用到我们上面抓取的全站链接了。将链接地址整理放到该数组中,运行一下个这个PHP脚本,就可以了。一键提交,及高效便捷,又能缩短爬虫爬去时间,有助于网站页面收录。

我们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂工作间变化,有助于提升效率,如果大家在操作过充中有何问题可以一起分享交流讨论。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • 编写Python脚本批量下载DesktopNexus壁纸的教程

    编写Python脚本批量下载DesktopNexus壁纸的教程

    这篇文章主要介绍了编写Python脚本批量下载DesktopNexus壁纸的教程,相较于普通的爬虫抓取,本文的下载壁纸教程还包括了设置所要下载的分辨率等功能的实现,需要的朋友可以参考下
    2015-05-05
  • 解决Python pip 自动更新升级失败的问题

    解决Python pip 自动更新升级失败的问题

    今天小编就为大家分享一篇解决Python pip 自动更新升级失败的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python导入模块的3种方式超级详细讲解

    Python导入模块的3种方式超级详细讲解

    这篇文章主要给大家介绍了关于Python导入模块的3种方式,本文介绍了在Python中使用模块的概念和不同的导入方式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-12-12
  • Dlib+OpenCV深度学习人脸识别的方法示例

    Dlib+OpenCV深度学习人脸识别的方法示例

    这篇文章主要介绍了Dlib+OpenCV深度学习人脸识别的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Python实现动态绘图的示例详解

    Python实现动态绘图的示例详解

    matplotlib中的animation提供了动态绘图功能,这篇文章主要为大家详细介绍了Python如何利用matplotlib实现动态绘图,感兴趣的可以了解一下
    2023-05-05
  • Python爬取智联招聘数据分析师岗位相关信息的方法

    Python爬取智联招聘数据分析师岗位相关信息的方法

    这篇文章主要介绍了Python爬取智联招聘数据分析师岗位相关信息的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • django学习之ajax post传参的2种格式实例

    django学习之ajax post传参的2种格式实例

    AJAX除了异步的特点外,还有一个就是:浏览器页面局部刷新,下面这篇文章主要给大家介绍了关于django学习之ajax post传参的2种格式的相关资料,需要的朋友可以参考下
    2021-05-05
  • Pyhton中防止SQL注入的方法

    Pyhton中防止SQL注入的方法

    这篇文章主要介绍了Pyhton中防止SQL注入的方法,本文讲解的方法简单实用,需要的朋友可以参考下
    2015-02-02
  • Python读取串口数据的实现方法

    Python读取串口数据的实现方法

    本文主要介绍了Python读取串口数据的实现方法,可以使用pySerial库来读取串口数据,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02
  • Python机器学习NLP自然语言处理基本操作新闻分类

    Python机器学习NLP自然语言处理基本操作新闻分类

    本文是Python机器学习NLP自然语言处理系列文章,开始我们自然语言处理 (NLP) 的学习旅程. 本文主要学习NLP自然语言处理基本操作新闻分类
    2021-09-09

最新评论