Phantomjs抓取渲染JS后的网页（Python代码）

更新时间：2016年05月13日 09:09:10 投稿：hebedich

phantomjs：我的理解就是它是一个无显示的浏览器，也就是说除了不能显示页面内容以外，浏览器能干的活儿它基本上都能干。下面我们就来利用他做点有趣的事情

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小编），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]
安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模拟浏览器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient数量
  async=False # 同步还是异步
  )
# 开始连接Phantomjs的代码，可以渲染JS！
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

您可能感兴趣的文章:

Python网页正文转换语音文件的操作方法
这篇文章主要介绍了Python网页正文转换语音文件的操作方法,需要的朋友可以参考下
2018-12-12
Python-jenkins模块获取jobs的执行状态操作
这篇文章主要介绍了Python-jenkins模块获取jobs的执行状态操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
python 自定义对象的打印方法
今天小编就为大家分享一篇python 自定义对象的打印方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Matplotlib绘图基础之动画绘制详解
matplotlib的动画一直是一个强大但使用频率不高的功能，通过动画来展示数据和模型的变化过程，可使数据的可视化更加生动形象,下面就跟随小编一起学习一下Matplotlib是如何绘制动画的吧
2023-08-08
python中常用的数据结构介绍
这篇文章主要介绍了python中常用的数据结构介绍，帮助大家更好的理解和学习python的基础知识，感兴趣的朋友可以了解下
2021-01-01
Python使用穷举法求两个数的最大公约数问题
这篇文章主要介绍了Python使用穷举法求两个数的最大公约数问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12
Django视图函数的具体使用
这篇文章主要介绍了Django视图函数的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
Opencv判断颜色相似的图片示例代码
这篇文章主要介绍了Opencv判断颜色相似的图片示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
Python脚本实现小猿口算
最近小猿口算已经被不少大学生攻占,一个好好的给小学生的口算题已经变成了大学生的计算机大战,下面我们就来看看如何使用Python脚本就行吧小猿口算
2024-10-10
python编程使用selenium模拟登陆淘宝实例代码
这篇文章主要介绍了python编程使用selenium模拟登陆淘宝实例代码，涉及selenium的简介及Windows下的安装，分享了相关代码示例，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下
2018-01-01

Phantomjs抓取渲染JS后的网页（Python代码）

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具