Python基于BeautifulSoup和requests实现的爬虫功能示例
本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:
爬取的目标网页:http://www.qianlima.com/zb/area_305/
这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。
使用到的Python库:BeautifulSoup、requests
代码如下:
# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.qianlima.com/zb/area_305/' user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36' headers = { 'User-Agent' : user_agent} r = requests.get(url,headers=headers)#连接 content = r.text#获取内容,自动转码unicode soup = BeautifulSoup(content,"lxml") tags1 = soup.select('div .shixian_zhaobiao') tag1 = tags1[0] tag2 = tag1.find(name = 'dl') tags2 = tag2.find_all(name = 'a') tags3 = tag2.find_all(name = 'dd') for tag in tags2: print tag.get('href') print tag.string print tag.next_element.next_element.string
运行结果如下
更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
相关文章
Python深度学习之使用Albumentations对图像做增强
诸如RandomCrop和CenterCrop之类的某些增强功能可能会变换图像,使其不包含所有原始边界框. 本示例说明如何使用名为RandomSizedBBoxSafeCrop的变换来裁剪图像的一部分,但保留原始图像的所有边界框,需要的朋友可以参考下2021-05-05利用PyCharm操作Github(仓库新建、更新,代码回滚)
这篇文章主要介绍了利用PyCharm操作Github(仓库新建、更新,代码回滚),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2019-12-12python调用ffmpeg命令行工具便捷操作视频示例实现过程
现在短视频很流行,有很多视频编辑软件,功能丰富,而我们需要的只是裁剪功能,而且需要用编程的方式调用,那么最合适的莫过于ffmpeg了2021-11-11
最新评论