Python爬虫实现抓取京东店铺信息及下载图片功能示例

更新时间：2018年08月07日 08:37:28 作者：1443539042@qq.com

这篇文章主要介绍了Python爬虫实现抓取京东店铺信息及下载图片功能,涉及Python页面请求、响应、解析等相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能。分享给大家供大家参考，具体如下：

这个是抓取信息的

from bs4 import BeautifulSoup
import requests
url = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)                          #解析网页
soup = BeautifulSoup(response.text,'lxml')                   #.text将解析到的网页可读
storenames = soup.select('#J_ItemList > div > div > p.productTitle > a')    #选择出商店的信息
prices = soup.select('#J_ItemList > div > div > p.productPrice > em')     #选择出价格的信息
sales = soup.select('#J_ItemList > div > div > p.productStatus > span > em')  #选择出销售额的信息
for storename, price, sale in zip(storenames,prices,sales):
  storename = storename.get_text().strip()   #用get_text()方法筛选出标签中的文本信息，由于筛选结果有换行符\n所以用strip()将换行符去掉
  price = price.get_text()
  sale = sale.get_text()
  print('商店名:%-40s价格:%-40s销售额:%s'%(storename,price,sale))   #使打印出来的信息规范
  print('----------------------------------------------------------------------------------------------')

这个是下载图片的

from bs4 import BeautifulSoup
import requests
import urllib.request
url = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
imgs = soup.select('#J_ItemList > div > div > div.productImg-wrap > a > img')
a = 1
for i in imgs:
  if(i.get('src')==None):
    break
  img = 'http:'+i.get('src') #这里废了好长的时间，原来网站必须要有http：的
  #print(img)
  urllib.request.urlretrieve(img,'%s.jpg'%a, None,)
  a = a+1

ps:

1.选择信息的时候用css

2.用get_text()方法筛选出标签中的文本信息

3.strip，lstrip，rstrip的用法：

Python中的strip用于去除字符串的首尾字符；同理，lstrip用于去除左边的字符；rstrip用于去除右边的字符。

这三个函数都可传入一个参数，指定要去除的首尾字符。

需要注意的是，传入的是一个字符数组，编译器去除两端所有相应的字符，直到没有匹配的字符，比如：

theString = 'saaaay yes no yaaaass'
print theString.strip('say')

theString依次被去除首尾在['s'，'a'，'y']数组内的字符，直到字符在不数组内。所以，输出的结果为：

yes no

比较简单吧，lstrip和rstrip原理是一样的。

注意：当没有传入参数时，是默认去除首尾空格和换行符的。

theString = 'saaaay yes no yaaaass'
print theString.strip('say')
print theString.strip('say ') #say后面有空格
print theString.lstrip('say')
print theString.rstrip('say')

运行结果：

yes no
es no
yes no yaaaass
saaaay yes no

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

Python中的序列化详细解析
这篇文章主要介绍了Python中的序列化详细解析,序列化是指把程序中的一个类转化成一个标准化的格式,标准化的意义是这个格式可以跨程序,跨平台的被使用,而且保持其原有的内容,规范,需要的朋友可以参考下
2023-11-11
解决TensorFlow GPU版出现OOM错误的问题
今天小编就为大家分享一篇解决TensorFlow GPU版出现OOM错误的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
解决pycharm上的jupyter notebook端口被占用问题
今天小编就为大家分享一篇解决pycharm上的jupyter notebook端口被占用问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
python数据可视化的那些操作你了解吗
这篇文章主要为大家详细介绍了python数据可视化操作，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
Python中函数的定义及其调用
这篇文章主要介绍了Python中函数定义及其调用,感兴趣的朋友可以来了解一下
2021-06-06
使用python检查yaml配置文件是否符合要求
这篇文章主要介绍了使用python检查yaml配置文件是否符合要求，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
Python数据分析的八种处理缺失值方法详解
缺失值可能是数据科学中最不受欢迎的值，然而，它们总是在身边。忽略缺失值也是不合理的，因此我们需要找到有效且适当地处理它们的方法
2021-11-11
详解Python 中的短路评估
短路是指当表达式的真值已经确定时终止布尔运算，Python 解释器以从左到右的方式计算表达式，这篇文章主要介绍了Python 中的短路评估,需要的朋友可以参考下
2023-06-06
Python autoescape标签用法解析
这篇文章主要介绍了Python autoescape标签用法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
如何使用python数据处理解决数据冲突和样本的选取
这篇文章主要介绍了如何使用python数据处理解决数据冲突和样本的选取，其中主要包括实际业务数据冲突、样本选取问题、数据共线性等思路
2021-08-08

Python爬虫实现抓取京东店铺信息及下载图片功能示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具