python提取页面内url列表的方法

更新时间：2015年05月25日 12:27:51 作者：小萝莉

这篇文章主要介绍了python提取页面内url列表的方法,涉及Python操作页面元素的相关技巧,需要的朋友可以参考下

本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
  websiteurl=url
  t=time.time()
  n=0
  html=urllib2.urlopen(websiteurl).read()
  soup=BeautifulSoup(html)
  pageurls=[]
  Upageurls={}
  pageurls=soup.find_all("a",href=True)
  for links in pageurls:
    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
      Upageurls[links.get("href")]=0
  for links in Upageurls.keys():
    try:
      urllib2.urlopen(links).getcode()
    except:
      print "connect failed"
    else:
      t2=time.time()
      Upageurls[links]=urllib2.urlopen(links).getcode()
      print n,
      print links,
      print Upageurls[links]
      t1=time.time()
      print t1-t2
    n+=1
  print ("total is "+repr(n)+" links")
  print time.time()-t
scanpage("http://news.163.com/")

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

python
url

python之singledispatch单分派问题
这篇文章主要介绍了python之singledispatch单分派问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
在Django的上下文中设置变量的方法
这篇文章主要介绍了在Django的上下文中设置变量的方法,Django是重多Python高人气框架中最为著名的一个,需要的朋友可以参考下
2015-07-07
Python3中的2to3转换工具使用示例
这篇文章主要介绍了Python3中的2to3转换工具使用示例,本文详细讲解了使用的步骤,并总结了一些使用注意事项,需要的朋友可以参考下
2015-06-06
使用python图形模块turtle库绘制樱花、玫瑰、圣诞树代码实例
这篇文章主要介绍了用python绘制樱花、玫瑰、圣诞树代码实例,需要的朋友可以参考下
2020-03-03
python使用yaml 管理selenium元素的示例
这篇文章主要介绍了python使用yaml 管理selenium元素的示例，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-12-12
使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
本文分二个示例，第一个是个简单的爬网站的小例子，第二个例子实现目是从一个网站的列表页抓取文章列表，然后存入数据库中，数据库包括文章标题、链接、时间，大家参考使用吧
2014-01-01
Python sqlalchemy时间戳及密码管理实现代码详解
这篇文章主要介绍了Python sqlalchemy时间戳及密码管理实现代码详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-08-08
基于Python实现高配版王者小游戏
咳咳，又是一款新的小游戏，就是大家熟悉的王者~本文将利用python来实现高（di）配版的王者的小游戏，感兴趣的小伙伴可以跟随小编一起学习一下
2023-03-03
独立进程使用django模型及django.setup()使用
这篇文章主要介绍了独立进程使用django模型（django.setup()使用）,它提供了一种简单且高效的方式来利用Django强大的功能，并使你的代码更易于维护和扩展,需要的朋友可以参考下
2023-07-07
Python中print()函数使用实例详解
Python的print()函数可以打印输出，常用来将内容打印到控制台，print()是python中最常见的一个函数，本文就通过一些实例来给大家讲讲如何使用print()函数,需要的朋友可以参考下
2023-07-07

python提取页面内url列表的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具