Python通过正则库爬取淘宝商品信息代码实例

更新时间：2020年03月02日 10:07:35 作者：江武555

这篇文章主要介绍了Python通过正则库爬取淘宝商品信息代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

使用正则库爬取淘宝商品的商品信息，首先我们需要确定想要爬取的对象

我们在淘宝里搜索“python”,出来的结果

从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=python

然后翻页，经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）
所以可以根据关键字“s=”，来设置爬取的深度（爬取多少页）

右键查看源码，商品名称可能的关键字是“title”和“raw_title”，进一步多看几个商品的名称，发现选取“raw_title”比较合适；商品价格自然就是“view_price”(通过比对淘宝商品展示页面)；所以商品名称和商品价格分别是以"raw_title":"名称"和"view_price":"价格"，这样的键/值对的形式展示的。

# coding:utf-8

import requests
import re

goods = '水杯'
url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)
html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html) # 正则提取商品名称
plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) # 正则提示商品价格

print(tlist)
print(plist)
print(type(plist)) # 正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

利用for循环，把每个商品的名称和价格组成一个列表，然后把这写列表再追加到一个大列表中：

goodlist = []
for i in range(len(tlist)):
  title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
  price = eval(plist[i].split(':')[1])
  goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表，然后把所有商品组成的列表追加到一个大列表中
  print(goodlist)

大概的思路就是这样的。

def get_html(url):
  """获取源码html"""
  try:
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    return r.text
  except:
    print("获取失败")
def get_data(html, goodlist):
  """使用re库解析商品名称和价格
  tlist:商品名称列表
  plist:商品价格列表"""
  tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)
  plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
  for i in range(len(tlist)):
    title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
    price = eval(plist[i].split(':')[1])
    goodlist.append([title, price])


def write_data(list, num):
  # with open('E:/Crawler/case/taob2.txt', 'a') as data:
  #  print(list, file=data)
  for i in range(num): # num控制把爬取到的商品写进多少到文本中
    u = list[i]
    with open('E:/Crawler/case/taob.txt', 'a') as data:
      print(u, file=data)


def main():
  goods = '水杯'
  depth = 3  # 定义爬取深度，即翻页处理
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList = []
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44 * i) # 因为淘宝显示每页44个商品，第一页i=0,一次递增
      html = get_html(url)
      get_data(html, infoList)
    except:
      continue
  write_data(infoList, len(infoList))
if __name__ == '__main__':
  main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python requests上传文件实现步骤
这篇文章主要介绍了Python requests上传文件实现步骤,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Blender Python编程实现批量导入网格并保存渲染图像
这篇文章主要为大家介绍了Blender Python 编程实现批量导入网格并保存渲染图像示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-08-08
Python快速从视频中提取视频帧的方法详解
本文为大家介绍一种从视频中抽取视频帧的方法，由于单线程抽取视频帧速度较慢，因此这里我们增加了多线程的方法，感兴趣的小伙伴可以动手尝试一下
2022-07-07
使用python数据清洗代码实例
这篇文章主要介绍了使用python数据清洗代码实例,分享一下近期用python做数据清洗汇总的相关代码，这里我们用到的python包有pandas、numpy、os等,需要的朋友可以参考下
2023-07-07
Python找出9个连续的空闲端口
这篇文章主要介绍了Python找出9个连续的空闲端口的方法，感兴趣的小伙伴们可以参考一下
2016-02-02
python中数组和矩阵乘法及使用总结（推荐）
这篇文章主要介绍了python中数组和矩阵乘法及使用总结，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-05-05
帮你快速上手Jenkins并实现自动化部署
在未学习Jenkins之前,只是对Jenkins有一个比较模糊的理解,即Jenkins是一个自动化构建项目发布的工具,可以实现代码->github或者gitlab库->jenkins自动部署->访问的整体的过程,而无需人为重新打包，今天就带大家详细了解一下,帮你快速上手Jenkins,需要的朋友可以参考下
2021-06-06
Python创建相同值数组/列表的两种方法
众所周知数组是一种用来在计算机中存储连续的相同类型数值的数据结构,这篇文章主要给大家介绍了关于Python创建相同值数组/列表的两种方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-12-12
Python正则表达式教程之二：捕获篇
什么是捕获呢？使用小括号指定一个子表达式后，匹配这个子表达式的文本（即匹配的内容）可以在表达式或者其他过程中接着用，下面这篇文章就主要介绍了Python正则表达式中关于捕获的相关资料，需要的朋友可以参考下。
2017-03-03
python实现学生信息管理系统(精简版)
这篇文章主要为大家详细介绍了python实现学生信息管理系统的精简版，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-11-11

Python通过正则库爬取淘宝商品信息代码实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具