Python实现爬虫抓取与读写、追加到excel文件操作示例

更新时间：2018年06月27日 08:48:16 作者：masterbu

这篇文章主要介绍了Python实现爬虫抓取与读写、追加到excel文件操作,结合具体实例形式分析了Python针对糗事百科的抓取与Excel文件读写相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现爬虫抓取与读写、追加到excel文件操作。分享给大家供大家参考，具体如下：

爬取糗事百科热门

安装读写excel 依赖 pip install xlwt安装追加excel文件内容依赖 pip install xlutils安装 lxml

Python示例：

import csv
import requests
from lxml import etree
import time
import xlwt
import os
from xlutils.copy import copy
import xlrd
data_infos_list = []
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '
         '(KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
# f = open('C:\\Users\\Administrator\\Desktop\\qiubaibook.csv', 'a+', newline='', encoding='utf-8')
# writer = csv.writer(f)
# writer.writerow(('author', 'sex', 'rank', 'content', 'great', 'comment', 'time'))
filename = 'C:\\Users\\Administrator\\Desktop\\qiubaibook.xls'
def get_info(url):
  res = requests.get(url, headers=headers)
  selector = etree.HTML(res.text)
  # print(res.text)
  htmls = selector.xpath('//div[contains(@class,"article block untagged mb15")]')
  # // *[ @ id = "qiushi_tag_120024357"] / a[1] / div / span 内容
  # //*[@id="qiushi_tag_120024357"]/div[2]/span[1]/i 好笑
  # //*[@id="c-120024357"]/i 评论
  # //*[@id="qiushi_tag_120024357"]/div[1]/a[2]/h2 作者
  # //*[@id="qiushi_tag_120024357"]/div[1]/div 等级
  # // womenIcon manIcon 性别
  for html in htmls:
    author = html.xpath('div[1]/a[2]/h2/text()')
    if len(author) == 0:
      author = html.xpath('div[1]/span[2]/h2/text()')
    rank = html.xpath('div[1]/div/text()')
    sex = html.xpath('div[1]/div/@class')
    if len(sex) == 0:
      sex = '未知'
    elif 'manIcon' in sex[0]:
      sex = '男'
    elif 'womenIcon' in sex[0]:
      sex = '女'
    if len(rank) == 0:
      rank = '-1'
    contents = html.xpath('a[1]/div/span/text()')
    great = html.xpath('div[2]/span[1]/i/text()') # //*[@id="qiushi_tag_112746244"]/div[3]/span[1]/i
    if len(great) == 0:
      great = html.xpath('div[3]/span[1]/i/text()')
    comment = html.xpath('div[2]/span[2]/a/i/text()') # //*[@id="c-112746244"]/i
    if len(comment) == 0:
      comment = html.xpath('div[3]/span[2]/a/i/text()')
    # classes = html.xpath('a[1]/@class')
    # writer.writerow((author[0].strip(), sex, rank[0].strip(), contents[0].strip(), great[0].strip(),
    #         comment[0].strip(), time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))))
    data_infos = [author[0].strip(), sex, rank[0].strip(), contents[0].strip(), great[0].strip(),
           comment[0].strip(), time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))]
    data_infos_list.append(data_infos)
def write_data(sheet, row):
  for data_infos in data_infos_list:
    j = 0
    for data in data_infos:
      sheet.write(row, j, data)
      j += 1
    row += 1
if __name__ == '__main__':
  urls = ['https://www.qiushibaike.com/8hr/page/{}/'.format(num) for num in range(1, 14)]
  for url in urls:
    print(url)
    get_info(url)
    time.sleep(2)
  # 如果文件存在，则追加。如果文件不存在，则新建
  if os.path.exists(filename):
    # 打开excel
    rb = xlrd.open_workbook(filename, formatting_info=True) # formatting_info=True 保留原有字体颜色等样式
    # 用 xlrd 提供的方法获得现在已有的行数
    rn = rb.sheets()[0].nrows
    # 复制excel
    wb = copy(rb)
    # 从复制的excel文件中得到第一个sheet
    sheet = wb.get_sheet(0)
    # 向sheet中写入文件
    write_data(sheet, rn)
    # 删除原先的文件
    os.remove(filename)
    # 保存
    wb.save(filename)
  else:
    header = ['author', 'sex', 'rank', 'content', 'great', 'comment', 'time']
    book = xlwt.Workbook(encoding='utf-8')
    sheet = book.add_sheet('糗百')
    # 向 excel 中写入表头
    for h in range(len(header)):
      sheet.write(0, h, header[h])
    # 向sheet中写入内容
    write_data(sheet, 1)
    book.save(filename)

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

PyQt5使用QtDesigner实现多界面切换程序的全过程
Pyqt5是Python中一个可视化超级好用的库,下面这篇文章主要给大家介绍了关于PyQt5使用QtDesigner实现多界面切换程序的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2023-06-06
python使用xpath中遇到：<Element a at 0x39a9a80>到底是什么？
这篇文章主要给大家详细介绍了关于python使用xpath中遇到：<Element a at 0x39a9a80>的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面随着小编来一起学习学习吧。
2018-01-01
Python类的定义和使用详情
这篇文章主要介绍了Python类的定义和使用详情，在Python中，类表示具有相同属性和方法的对象的集合，文章围绕主题相关资料展开更多的相关介绍，需要的小伙伴可以参考一下
2022-06-06
python 生成空字符串的5种方法
有时候我们需要生成一个空的字符串,本文就来介绍一下python 生成空字符串的5种方法,包括使用空的单引号或双引号、使用str函数、字符串连接、字符串格式化以及字符串乘法,感兴趣的可以了解一下
2024-01-01
关于python中模块和重载的问题
这篇文章主要介绍了python模块和重载的问题，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2021-11-11
Python如何实现文本转语音
文本转语音，一般会用在无障碍开发。下面介绍如何使用Python实现将文本文件转换成语音输出。跟着小编一起来看看吧。
2016-08-08
详解Python枚举的定义与用法
这篇文章主要介绍了详解Python枚举的定义与用法,在Python中，枚举和我们在对象中定义的类变量时一样的，每一个类变量就是一个枚举项,需要的朋友可以参考下
2023-04-04
python 实现调用子文件下的模块方法
今天小编就为大家分享一篇python 实现调用子文件下的模块方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
使用PyTorch构建神经网络的操作指南
PyTorch 是一个在研究领域广泛使用的深度学习框架，提供了大量的灵活性和效率，本文将向你介绍如何使用 PyTorch 构建你的第一个神经网络，感兴趣的小伙伴可以参考阅读
2023-07-07
使用matplotlib中scatter方法画散点图
这篇文章主要为大家详细介绍了使用matplotlib中scatter方法画散点图，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-03-03

Python实现爬虫抓取与读写、追加到excel文件操作示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具