使用phpQuery采集网页的方法

更新时间：2013年11月13日 10:36:44 作者：

使用phpQuery轻松采集网页内容,像使用jQuery一样处理页面内容

phpQuery是一个基于PHP的服务端开源项目，它可以让PHP开发人员轻松处理DOM文档内容，比如获取某新闻网站的头条信息。更有意思的是，它采用了jQuery的思想，你可以像使用jQuery一样处理页面内容，获取你想要的页面信息。
采集头条
先看一实例，现在我要采集新浪网国内新闻的头条，代码如下：

复制代码代码如下:

include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('https://www.jb51.net'); 
echo pq(".blkTop h1:eq(0)")->html();

简单的三行代码，就可以获取头条内容。首先在程序中包含phpQuery.php核心程序，然后调用读取目标网页，最后输出对应标签下的内容。
pq()是一个功能强大的方法，跟jQuery的$()如出一辙，jQuery的选择器基本上都能使用在phpQuery上，只要把“.”变成“->”。如上例中，pq(“.blkTop h1:eq(0)”)抓取了页面class属性为blkTop的DIV元素，并找到该DIV内部的第一个h1标签，然后用html()方法获取h1标签里的内容（带html标签），也就是我们要获取的头条信息，如果使用text()方法，则只获取头条的文本内容。当然要使用好phpQuery，关键是要找对文档中对应内容的节点。
采集文章列表
下面再来看一个例子，获取helloweba.com网站的blog列表，请看代码：

复制代码代码如下:

include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('https://www.jb51.net'); 
$artlist = pq(".blog_li"); 
foreach($artlist as $li){ 
   echo pq($li)->find('h2')->html().""; 
}

通过循环列表中的DIV，找出文章标题并输出，就是这么简单。
解析XML文档
假设现在有一个这样的test.xml文档：

复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?> 
<root> 
  <contact> 
     <name>张三</name> 
     <age>22</age> 
  </contact> 
  <contact> 
     <name>王五</name> 
     <age>18</age> 
  </contact> 
</root>

现在我要获取名字为张三的联系人的年龄，代码如下：

复制代码代码如下:

include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('test.xml'); 
echo pq('contact > age:eq(0)');
结果输出：22

像jQuery一样，精准查找文档节点，输出节点下的内容，解析一个XML文档就是这么简单。现在你不必为采集网站内容而使用那些头疼的正则算法、内容替换等繁琐的代码了，有了phpQuery，一切就变得轻松多了。
phpquery项目官网地址：http://code.google.com/p/phpquery/

您可能感兴趣的文章:

php文件后缀不强制为.php的实操方法
在本篇文章里小编给大家整理的是一篇关于php文件后缀不强制为.php的实操方法，有需要的朋友们参考下。
2019-09-09
PHP实现的无限分类类库定义与用法示例【基于thinkPHP】
这篇文章主要介绍了PHP实现的无限分类类库定义与用法,结合实例形式分析了基于thinkPHP实现的无限分类类库相关定义及具体使用操作技巧,需要的朋友可以参考下
2018-08-08
php实现可用于mysql,mssql,pg数据库操作类
这篇文章主要介绍了php实现可用于mysql,mssql,pg数据库操作类,以类的形式封装了对mysql,mssql,pg三种数据库的操作,非常具有实用价值,需要的朋友可以参考下
2014-12-12
PHP调用存储过程返回值不一致问题的解决方法分析
这篇文章主要介绍了PHP调用存储过程返回值不一致问题的解决方法,结合实例形式分析了存储过程调用返回值不一致的原因与解决方法,需要的朋友可以参考下
2016-04-04
php dirname(__FILE__) 获取当前文件的绝对路径
dirname(__FILE__) 取到的是当前文件的绝对路径，也就是说，比起相对路径，查找速度是最快的。
2011-06-06
PHP实现的各种进制相互转换功能小工具示例
这篇文章主要介绍了PHP实现的各种进制相互转换功能小工具,涉及php常见的二进制、八进制、十六进制等相互转换操作实现技巧,需要的朋友可以参考下
2018-03-03
php设计模式 Template (模板模式)
定义一个操作中的算法骨架,而将一些步骤延迟到子类中,使得子类可以不改变一个算法的结构可以定义该算法的某些特定步骤
2011-06-06
PHP中foreach循环中使用引用要注意的地方
发现了一个容易出错，但是不懂得原理却解释不明白的问题，碰到类似问题的朋友可以参考下。
2011-01-01
使用PHP连接多种数据库的实现代码(mysql,access,sqlserver,Oracle)
我们今天为大家介绍的PHP连接数据库的方法包括在MYSQL数据库、ACCESS数据库、MS SQL数据库和Oracle数据库中实现
2016-12-12
PHP中的Iterator迭代对象属性详解
这篇文章主要给大家介绍了关于PHP中Iterator迭代对象属性的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用PHP具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-04-04