Python制作爬虫采集小说

更新时间：2015年10月25日 11:08:10 投稿：hebedich

本文给大家分享的是使用Python制作爬虫采集小说的代码，非常的简单实用，虽然还是有点瑕疵，大家一起改改，共同进步

开发工具：python3.4
操作系统：win8
主要功能：去指定小说网页爬小说目录，按章节保存到本地，并将爬过的网页保存到本地配置文件。
被爬网站：http://www.cishuge.com/
小说名称：灵棺夜行
代码出处：本人亲自码的

import urllib.request
import http.cookiejar

import socket
import time
import re

timeout = 20
socket.setdefaulttimeout(timeout)

sleep_download_time = 10
time.sleep(sleep_download_time)
 
def makeMyOpener(head = {
 'Connection': 'Keep-Alive',
 'Accept': 'text/html, application/xhtml+xml, */*',
 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
 cj = http.cookiejar.CookieJar()
 opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
 header = []
 for key, value in head.items():
  elem = (key, value)
  header.append(elem)
 opener.addheaders = header
 return opener
 
def saveFile(save_path,txts):
 f_obj = open(save_path,'w+')
 for item in txts:
  f_obj.write(item+'\n')
 f_obj.close()
 
#get_code_list
code_list='http://www.cishuge.com/read/0/771/'
oper = makeMyOpener()
uop = oper.open(code_list,timeout=1000)
data = uop.read().decode('gbk','ignore')

pattern = re.compile('<li><a href="(.*?)".*?>(.*?)</a></li>',re.S)

items = re.findall(pattern,data)

print ('获取列表完成')
url_path='url_file.txt'

url_r=open(url_path,'r')
url_arr=url_r.readlines(100000)
url_r.close()
print (len(url_arr))

url_file=open(url_path,'a')

print ('获取已下载网址')

for tmp in items:
 save_path = tmp[1].replace(' ','')+'.txt'
 url = code_list+tmp[0]
 if url+'\n' in url_arr:
  continue
 print('写日志：'+url+'\n')
 url_file.write(url+'\n')
 opene = makeMyOpener()
 op1 = opene.open(url,timeout=1000)
 data = op1.read().decode('gbk','ignore')
 opene.close()
 pattern = re.compile('&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<br />',re.S)
 txts = re.findall(pattern,data)
 saveFile(save_path,txts)
 
url_file.close()

虽然代码还是有点瑕疵，还是分享给大家，一起改进

您可能感兴趣的文章:

Python内置模块hashlib、hmac与uuid用法分析
这篇文章主要介绍了Python内置模块hashlib、hmac与uuid用法,结合实例形式较为详细的分析了hashlib、hmac与uuid模块的概念、功能及简单使用方法,需要的朋友可以参考下
2018-02-02
Django celery实现异步任务操作,并在后台运行(守护进程)
这篇文章主要介绍了Django celery实现异步任务操作,并在后台运行(守护进程)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Pycharm 使用 Pipenv 新建的虚拟环境(图文详解)
pipenv 是 Pipfile 主要倡导者、requests 作者 Kenneth Reitz 写的一个命令行工具，主要包含了Pipfile、pip、click、requests和virtualenv。这篇文章主要介绍了Pycharm 使用 Pipenv 新建的虚拟环境的问题,需要的朋友可以参考下
2020-04-04
python retrying模块的使用方法详解
这篇文章主要介绍了python retrying模块的使用方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
这篇文章主要介绍了Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等),需要的朋友可以参考下
2018-03-03
Opencv实现鼠标事件与窗口互动功能过程
平时在做图像处理demo或者研究测试算法时，经常会用到imshow和鼠标的交互，比如在显示图像的窗口上画点、线、圆、矩形、多边形等操作，故在此做出用法总结
2022-12-12
python队列通信:rabbitMQ的使用(实例讲解)
下面小编就为大家分享一篇python队列通信:rabbitMQ的使用(实例讲解)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2017-12-12
Python数据容器dict(字典)的实现
本文主要介绍了Python数据容器dict(字典)的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-02-02
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
这篇文章主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下
2018-05-05
Python实现拷贝多个文件到同一目录的方法
这篇文章主要介绍了Python实现拷贝多个文件到同一目录的方法,涉及Python针对文件与目录的遍历、复制等相关操作技巧,需要的朋友可以参考下
2016-09-09

Python制作爬虫采集小说

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具