1分钟快速生成用于网页内容提取的xslt

更新时间：2018年02月23日 14:51:21 作者：fullerhua

这篇文章主要教大家如何1分钟快速生成用于网页内容提取的xslt，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

1分钟快速生成用于网页内容提取的xslt，具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫，而且能节省程序员大半的时间，而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文，我们已经看到这个提取规则是xslt程序，在示例程序中，直接把一长段xslt赋值给变量，但是没有讲这一段xslt是怎么来的。

网友必然会质疑：这个xslt这么长，编写不是要花很长时间？

实际情况是，这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的，熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面，把一系列html解析工具集成在一起，包括：

基于直观标注自动生成XSLT
即时测试XSLT的正确性
树状的DOM结构展示
剖析某个DOM节点的属性
为DOM节点生成XPath，可选择定位到class、或者id、或者绝对定位
根据xpath搜索DOM节点

MS谋数台界面分成三部分：DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表，下面一步步讲解操作方法：
第一步，打开GooSeeker的MS谋数台，输入要抓取的网址
第二步，在MS谋数台的浏览器显示窗口里，直接选取要提取的内容，并且起个名字，点击确认

第三步，点击工作台的“测试”按钮，xslt就生成了，在“数据规则”窗口显示出来

通过以上的操作，不用编程，用图形化界面直接在页面上标注，1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文，我们把生成xslt作为一个字符串交给程序，给人感觉好像一下子回到了史前文明，前面讲的那么好，最后用了很原始的拷贝。其实不然，那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了，有多种注入xslt的方式，最自动化的方式是api，将在后续文章中详细讲解。

5、文档修改历史

2016-05-28：V3.0，增加第二章
2016-05-26：V2.0，增补文字说明

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Pytorch to(device)用法
今天小编就为大家分享一篇Pytorch to(device)用法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
python中文乱码的解决方法
乱码在哪种语言里都会出现，今天给你二个解决python中文乱码的方法。
2013-11-11
Python实现的端口扫描功能示例
这篇文章主要介绍了Python实现的端口扫描功能,涉及Python针对端口的连接、打开、关闭及线程相关操作技巧,需要的朋友可以参考下
2018-04-04
Python多线程编程（七）：使用Condition实现复杂同步
这篇文章主要介绍了Python多线程编程（七）：使用Condition实现复杂同步,本文讲解通过很著名的“生产者-消费者”模型来来演示在Python中使用Condition实现复杂同步,需要的朋友可以参考下
2015-04-04
python重要函数eval多种用法解析
这篇文章主要介绍了python重要函数eval多种用法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
Django的用户模块与权限系统的示例代码
这篇文章主要介绍了Django的用户模块与权限系统的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
pytest之assert断言的具体使用
这篇文章主要介绍了pytest之assert断言的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
像线程一样管理进程的Python multiprocessing库
multiprocessing库是基于threading API,它可以把工作划分为多个进程.有些情况下,multiprocessing可以作为临时替换取代threading来利用多个CPU内核,相应地避免Python全局解释器锁所带来的计算瓶颈.本文详细介绍了Python multiprocessing库,需要的朋友可以参考下
2021-05-05
Python3实现Web网页图片下载
这篇文章主要介绍了Python3通过request.urlopen实现Web网页图片下载，感兴趣的小伙伴们可以参考一下
2016-01-01
Python查找函数f（x）=0根的解决方法
这篇文章主要介绍了Python查找函数f（x）=0根的解决方法,涉及Python数学运算函数求解的相关技巧,需要的朋友可以参考下
2015-05-05

1分钟快速生成用于网页内容提取的xslt

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具