Node.JS利用PhantomJs抓取网页入门教程

 更新时间:2017年05月19日 08:33:35   作者:6666  
现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性,下面这篇文章主要给大家介绍了Node.JS利用PhantomJs抓取网页的方法教程,需要的朋友可以参考借鉴,下面来一起看看吧。

前言

当想用 nodejs 抓取一些网页 , 我第一反应想到的就是使用 http 模块 , 比如抓取百度首页:

var http = require('http');
var req = http.request('http://www.baidu.com/', function (res) {
 res.setEncoding('utf8');
 res.on('data', function (chunk) {
  //响应内容
  console.log(chunk)
 });
});
req.end(function () {
 // console.log('连接关闭');
});

但是 , 这仅限于简单地抓取 html , 有很大的局限性。

假如你想要的内容不在 html 里 , 而是 js 动态生成的 , 那 http 模块就不能满足你的需求了 ;

假如网页使 gbk 编码的 , 上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一个更强大 , 但使用起来也不麻烦的工具。

PhantomJs

用 PhantomJs 就可以解决上述问题。

PhantomJs 就是一个没有界面的浏览器。

安装

使用 cnpm 安装 PhantomJS 即可:

cnpm install phantomjs --save-dev

这里我没有选择全局安装 , 因为全局安装的话 , 别人使用我的源码的时候 , 不知道还有这么一个依赖 , 项目就跑不起来了。

如果你也选择局部安装 , 那么你需要在 package.json 里的 scripts 中加入一段 :

"phantomjs":"node_modules/.bin/phantomjs"

等下会用到这个的 , 到这里 , 安装算完成了。

写代码

我们新建一个文件 , 名字随意 , 这里我新建一个 main.js :

var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
 var data;
 if (status === 'fail') {
  console.log('open page fail!');
 } else {
  console.log(page.content);//打印出HTML内容
 }
 page.close();//关闭网页
 phantom.exit();//退出phantomjs命令行
});

这里有个 webpage 模块 , 我们刚才明明没有这个模块 , 为什么能引用这个模块 ???

当然不能引用 , 假如我们使用 node main.js 来跑这段代码 , 是跑不起来的 , 应该这样运行这段代码 :

npm run phantomjs main.js

这里的 npm run phantomjs 对应的就是前面我们在 package.json 里加入的那段命令 , 很方便吧 , 几乎和 http 模块一样方便。

page.content 就是 html 代码了 , 这个 page 对象还有很多的属性 , 功能更强大。

到这里 , 你就已经算入门了 , 想知道更多可以去 phantomjs 官网看看文档了。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • 进阶之初探nodeJS

    进阶之初探nodeJS

    本文主要介绍了nodeJS的相关知识。具有很好的参考价值,下面跟着小编一起来看下吧
    2017-01-01
  • 基于Node-red的在线评语系统(可视化编程,公网访问)

    基于Node-red的在线评语系统(可视化编程,公网访问)

    Node-Red是IBM公司开发的一个可视化的编程工具,在网页内编程,主要是拖拽控件,代码量很小,这篇文章主要介绍了基于Node-red的在线评语系统(可视化编程,公网访问),需要的朋友可以参考下
    2022-01-01
  • node爬取新型冠状病毒的疫情实时动态

    node爬取新型冠状病毒的疫情实时动态

    这篇文章主要介绍了node爬取新型冠状病毒的疫情实时动态,非常不错,本文通过实例代码给大家讲解的非常详细,需要的朋友可以参考下
    2020-02-02
  • 配置node服务器并且链接微信公众号接口配置步骤详解

    配置node服务器并且链接微信公众号接口配置步骤详解

    这篇文章主要介绍了配置node服务器并且链接微信公众号接口配置步骤详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,,需要的朋友可以参考下
    2019-06-06
  • 浅谈node.js 命令行工具(cli)

    浅谈node.js 命令行工具(cli)

    nodejs开发命令行工具,流程相对简单,但一套完整的命令行程序开发流程下来,还是需要下点功夫,这篇文章主要介绍了浅谈node.js 命令行工具(cli),感兴趣的小伙伴们可以参考一下
    2018-05-05
  • 如何用Node写页面爬虫的工具集

    如何用Node写页面爬虫的工具集

    这篇文章主要介绍了如何用Node写页面爬虫的工具集,主要介绍了三种方法,分别是Puppeteer、cheerio和Auto.js,感兴趣的小伙伴们可以参考一下
    2018-10-10
  • 利用node.js如何创建子进程详解

    利用node.js如何创建子进程详解

    之前看多进程这一章节时发现这块东西挺多,写Process模块的时候也有提到,今天下午午休醒来静下心来好好的看了一遍,发现也不是太难理解。所以下面这篇文章主要给大家介绍了关于利用node.js如何创建子进程的相关资料,需要的朋友可以参考下。
    2017-12-12
  • 解决node.js中bcrypt遇到的安装问题

    解决node.js中bcrypt遇到的安装问题

    这篇文章主要介绍了解决node.js中bcrypt遇到的安装问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-10-10
  • 说说如何利用 Node.js 代理解决跨域问题

    说说如何利用 Node.js 代理解决跨域问题

    这篇文章主要介绍了Node.js代理解决跨域问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • nvm报错Now using node v版本号(64-bit)图文解决方法

    nvm报错Now using node v版本号(64-bit)图文解决方法

    这篇文章主要给大家介绍了关于nvm报错Now using node v版本号(64-bit)的解决方法,文中将解决的办法介绍的非常详细,对遇到这个问题的朋友具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-11-11

最新评论