编写Python爬虫抓取暴走漫画上gif图片的实例分享

更新时间：2016年04月20日 17:38:32 投稿：goldensun

这篇文章主要介绍了编写Python爬虫抓取暴走漫画上gif图片的实例分享,示例代码为Python3,利用到了urllib模块、request模块和BeautifulSoup模块,需要的朋友可以参考下

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是python3.3开发的，主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口，当我们用urlopen()打开一个URL时，就相当于我们用Python内建的open()打开一个文件。但不同的是，前者接收一个URL作为参数，并且没有办法对打开的文件流进行seek操作（从底层的角度看，因为实际上操作的是socket，所以理所当然地没办法进行seek操作），而后者接收的是一个本地文件名。

Python的BeautifulSoup模块，可以帮助你实现HTML和XML的解析
先说一下，一般写网页爬虫，即抓取网页的html源码等内容，然后分析，提取相应的内容。
这种分析html内容的工作，如果只是用普通的正则表达式re模块去一点点匹配的话，对于内容简单点的网页分析，还是基本够用。
但是对于工作量很大，要解析内容很繁杂的html，那么用re模块，就会发现无法实现，或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话，你就会发现，事情变得如此简单，极大地提高了分析html源码的效率。
注：BeautifulSoup是第三方库，我使用的是bs4。urllib2在python3中被分配到了urllib.request中，文档中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬虫源代码如下

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推导 url
  title_list = [img['alt'] for img in img_content]  #图片名称

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下载信息
    urllib.request.urlretrieve(imgurl,filename)    #下载图片

在第15行可以修改下载页数，将此文件保存为baozougif.py，使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹，所有的图片会自动下载到该目录中。

您可能感兴趣的文章:

Python多版本安装与Jupyter Lab使用方式
这篇文章主要介绍了Python多版本安装与Jupyter Lab使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-01-01
Python 过滤错误log并导出的实例
今天小编就为大家分享一篇Python 过滤错误log并导出的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
详解Python的多线程定时器threading.Timer
这篇文章主要为大家介绍了Python的多线程定时器，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
pymongo insert_many 批量插入的实例
这篇文章主要介绍了pymongo insert_many 批量插入的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-12-12
使用Python的Flask框架构建大型Web应用程序的结构示例
虽说Flask是一个以轻量级著称的框架,但也为大型Web应用提供了诸如单元测试与数据库迁移等许多便利的功能,这里我们来看一下使用Python的Flask框架构建大型Web应用程序的结构示例:
2016-06-06
《Python学习手册》学习总结
本篇文章是读者朋友在学习了《Python学习手册》这本书以后，总结出的学习心得，值得大家参考学习。
2018-01-01
python异步爬虫之多线程
这篇文章主要介绍了python异步爬虫之多线程，多线程可以为相关阻塞的操作单独开启线程或者进程，阻塞操作可以异步执行，但是无法无限制开启多线程或多进程，下面我们一起学习详细内容，需要的朋友可以参考一下
2022-02-02
Python双版本计算器详解
这篇文章主要介绍了如何用Python制作计算器，文章中有两个版本，代码详细，适合绝大部分朋友，如果你对python如何制作计算器有兴趣,可以参考下这篇文章
2021-04-04
记录一下scrapy中settings的一些配置小结
这篇文章主要介绍了记录一下scrapy中settings的一些配置小结，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
pycharm设置注释颜色的方法
今天小编就为大家分享一篇pycharm设置注释颜色的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-05-05

编写Python爬虫抓取暴走漫画上gif图片的实例分享

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具