PHP实现采集抓取淘宝网单个商品信息

 更新时间:2015年01月08日 11:53:58   投稿:junjie  
这篇文章主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

复制代码 代码如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图:

复制代码 代码如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

复制代码 代码如下:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)

C.获取价格:

复制代码 代码如下:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型

D.获取属性:

这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如

复制代码 代码如下:


 
<div id=”xxx”>
 

 
<ul>
 

 
</ul>
 
<div>…
 
<div>…
 
</div>
 
</div>
 
</div>
 

这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>,所以我们可以采用变通法达到获取属性标签内容的目的。

复制代码 代码如下:

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//这个正则会抓取<div开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。
 
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。
 
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。

E.获取描述:

通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。

好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<div id=”detail”> </div>

复制代码 代码如下:

<div id="description">
 
<div id="J_DivItemDesc">描述加载中</div>
 
</div>

这几个div是加载描述所必须的,那么下面就是写代码了:

复制代码 代码如下:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本
 $content=$content[0];
 $description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述加载中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。

相关文章

  • 实现PHP多线程异步请求的3种方法

    实现PHP多线程异步请求的3种方法

    实现PHP多线程异步请求的方法有很多,在本文整理了3种不多的常用方法,大家可以参考下
    2014-01-01
  • 深入理解curl类,可用于模拟get,post和curl下载

    深入理解curl类,可用于模拟get,post和curl下载

    本篇文章是对curl类,可用于模拟get,post和curl下载进行了详细的分析介绍,需要的朋友参考下
    2013-06-06
  • php防止用户重复提交表单

    php防止用户重复提交表单

    这篇文章主要介绍了解决php表单重复提交实现方法,需要的朋友可以参考下
    2015-11-11
  • PHP简洁函数(PHP简单明了函数语法)

    PHP简洁函数(PHP简单明了函数语法)

    笔者由于碰到用户多次修改页面,所以在麻烦的情况下,改用php完成技术开发,这篇文章主要记录PHP简洁函数,讲述PHP简单明了函数语法,适合人群为对开源社区感兴趣,对php感兴趣,有一点时间了解下php,希望对读者带来快乐
    2012-06-06
  • 浅谈PHP设计模式之对象池模式Pool

    浅谈PHP设计模式之对象池模式Pool

    对象池模式是一种提前准备了一组已经初始化了的对象『池』而不是按需创建或者销毁的创建型设计模式。对象池客户端会向对象池中请求一个对象,然后使用这个返回的对象执行相关操作。当客户端使用完毕,它将把这个特定类型的工厂对象返回给对象池,而不是销毁掉这个对象。
    2021-05-05
  • PHP常见错误提示含义解释(实用!值得收藏)

    PHP常见错误提示含义解释(实用!值得收藏)

    这篇文章主要介绍了PHP常见错误提示含义解释,包含了各种常见的PHP错误提示及具体含义,便于查询参考,需要的朋友可以参考下
    2016-04-04
  • PHP获取汉字笔画数功能【测试可用】

    PHP获取汉字笔画数功能【测试可用】

    这篇文章主要介绍了PHP获取汉字笔画数功能,涉及PHP针对常用汉字进行数组归类与遍历、运算等相关操作技巧,需要的朋友可以参考下
    2017-09-09
  • php时区转换转换函数

    php时区转换转换函数

    godaddy主机在国外。把站点建站国外,显示时间时可能需要时区转换,下面是个方便的工具函数,用于时区转换
    2014-01-01
  • php自定义函数实现统计中文字符串长度的方法小结

    php自定义函数实现统计中文字符串长度的方法小结

    这篇文章主要介绍了php自定义函数实现统计中文字符串长度的方法,结合实例形式总结分析了php针对中文的判定、编码与运算相关操作技巧,需要的朋友可以参考下
    2017-04-04
  • php查询mysql数据库并将结果保存到数组的方法

    php查询mysql数据库并将结果保存到数组的方法

    这篇文章主要介绍了php查询mysql数据库并将结果保存到数组的方法,实例分析了php使用mysql_fetch_assoc查询数据库的技巧,需要的朋友可以参考下
    2015-03-03

最新评论