Python爬虫JSON及JSONPath运行原理详解

更新时间：2020年06月04日 11:26:01 作者：程序员的人生A

这篇文章主要介绍了Python爬虫JSON及JSONPath运行原理详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

相关推荐：《Python相关教程》

利用JSONPath爬取拉勾网上所有的城市

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
# json解析库，对应到lxml
import json
# json的解析语法，对应到xpath
import jsonpath
url = "http://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)
response = urllib2.urlopen(request)
# 取出json文件里的内容，返回的格式是字符串
html = response.read()
# 把json形式的字符串转换成python形式的Unicode字符串
unicodestr = json.loads(html)
# Python形式的列表
city_list = jsonpath.jsonpath(unicodestr, "$..name")
#for item in city_list:
#  print item
# dumps()默认中文为ascii编码格式，ensure_ascii默认为Ture
# 禁用ascii编码格式，返回的Unicode字符串，方便使用
array = json.dumps(city_list, ensure_ascii=False)
#json.dumps(city_list)
#array = json.dumps(city_list)
with open("lagoucity.json", "w") as f:
  f.write(array.encode("utf-8"))

结果：

糗事百科爬取

利用XPATH的模糊查询

获取每个帖子里的内容

保存到 json 文件内

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
import json
from lxml import etree
url = "http://www.qiushibaike.com/8hr/page/2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)
html = urllib2.urlopen(request).read()
# 响应返回的是字符串，解析为HTML DOM模式 text = etree.HTML(html)
text = etree.HTML(html)
# 返回所有段子的结点位置，contains()模糊查询方法，第一个参数是要匹配的标签，第二个参数是标签名部分内容
node_list = text.xpath('//div[contains(@id, "qiushi_tag")]')
items ={}
for node in node_list:
  # xpath返回的列表，这个列表就这一个参数，用索引方式取出来，用户名
  username = node.xpath('./div/a/@title')[0]
  # 取出标签下的内容,段子内容
  content = node.xpath('.//div[@class="content"]/span')[0].text
  # 取出标签里包含的内容，点赞
  zan = node.xpath('.//i')[0].text
  # 评论
  comments = node.xpath('.//i')[1].text
  items = {
    "username" : username,
    "content" : content,
    "zan" : zan,
    "comments" : comments
  }
  with open("qiushi.json", "a") as f:
    f.write(json.dumps(items, ensure_ascii=False).encode("utf-8") + "
")

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python修改全局变量可以不加global吗?
这篇文章主要探讨的是python修改全局变量可不可以不加global，我们在局部作用域内使用全局变量，需要使用global关键字进行声明，不然便不可用，但下面小编就和大家分享可以修改的数据类型在函数内部做修改操作是不需要声明global的商务情况,需要的朋友可以参考下
2022-02-02
深入了解和应用Python 装饰器 @decorator
在编程过程中，经常遇到这样的场景：登录校验，权限校验，日志记录等，这些功能代码在各个环节都可能需要，但又十分雷同，通过装饰器来抽象、剥离这部分代码可以很好解决这类场景，这篇文章主要介绍了Python的装饰器 @decorator，探讨了使用的方式，需要的朋友可以参考下
2019-04-04
pandas取出重复数据的方法
今天小编就为大家分享一篇pandas取出重复数据的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
使用fdopen实现对Python进程产生的文件进行权限最小化配置
用python进行文件的创建和读写操作时，我们很少关注所创建的文件的权限配置。本文就来聊聊如何使用fdopen实现对Python进程产生的文件进行权限最小化配置吧
2023-03-03
Python中安装库的常用方法介绍
大家好，本篇文章主要讲的是Python中安装库的常用方法介绍，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2022-01-01
python删除文件、清空目录的实现方法
这篇文章主要介绍了python删除文件、清空目录的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
Python脚本传参数argparse模块的使用
这篇文章主要介绍了Python脚本传参数argparse模块的使用，文章围绕argparse模块的相关资料展开具体的使用方法，具有一的参考价值，需要的小伙伴可以参考一下
2022-03-03
巧用Python装饰器免去调用父类构造函数的麻烦
巧用Python装饰器免去调用父类构造函数的麻烦，需要的朋友可以参考下
2012-05-05
python实现多图像叠置输出
这篇文章主要为大家详细介绍了python实现多图像叠置输出，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-04-04
解决Numpy报错:ImportError: numpy.core.multiarray faile
这篇文章主要介绍了解决Numpy报错:ImportError: numpy.core.multiarray failed问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-01-01

Python爬虫JSON及JSONPath运行原理详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具