Python即时网络爬虫项目启动说明详解

 更新时间:2018年02月23日 14:12:10   作者:fullerhua  
这篇文章主要为大家详细介绍了Python即时网络爬虫项目启动说明,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心。

我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷。我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python)。 但是,我还是启动了这个Python即时网络爬虫项目。我用C++、Java和Javascript编写爬虫相关程序超过10年,要追求高性能,非C++莫属,同时有完善的标准体系,让你和你的系统十分自信,只要充分测试,就能按照预期的方式运行。在GooSeeker项目中,我们不断向一个方向努力——“收割数据”,而且让广大用户(不仅是专业的数据采集用户)都能体验到收割互联网数据的快感。“收割”的一个重要含义就是大批量。现在,我要启动“即时网络爬虫”,目的是要补充“收割”没有覆盖的场景,我看到的是:

  • 在系统层面:“即时”代表快速部署数据应用系统
  • 在数据流层面:“即时”代表采集数据到数据使用是即时的,单个数据对象可以独自全流程处理,不用等待一批存入数据库,然后从数据库中拿出来用
  • “即时”另一个含义就是网络爬虫是一个嵌入模块,跟整个信息处理系统集成在一起

        一众程序员都在玩Python网络爬虫,我拟定了一个计划:建立一个模块化更强的软件部件,专门解决最耗费精力的内容提取问题(有人总结说大数据和数据分析整个链条上,数据准备占了80%工作量,我们不妨延展一下,网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则)。

        我把他想象成一个小机器(见上图),输入的是原始网页,输出的是提取出来的结构化的内容,这个小机器还有一个可替换部件:将输入转化成输出结构的一个指令块,我们成为“提取器”,让大家不再为调试正则表达式或者XPath而苦恼。

        这是一个开放的项目,两年前启动了一个手机上的即时网络爬虫项目,因为是给某商业集团开发的,所以不便开放,同样的思想和方法将开放到这个项目中,而且用当前最热的python来做,希望大家能共同参与。在执行过程中,我们会开放所有资料和成果、已经遇到的坑。

近期做的实验是

python使用xslt提取网页数据
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python和Perl绘制中国北京跑步地图的方法

    Python和Perl绘制中国北京跑步地图的方法

    当你在一个城市,穿越大街小巷,跑步跑了几千公里之后,一个显而易见的想法是,我到底和之前比快了多少,跑量有何变化,如果能把在这个城市的所有路线全部画出来,会是怎样的景象呢,接下来通过本文给大家介绍Python和Perl绘制中国北京跑步地图的方法,需要的朋友参考下
    2016-03-03
  • Python socket.error: [Errno 98] Address already in use的原因和解决方法

    Python socket.error: [Errno 98] Address already in use的原因和解决

    这篇文章主要介绍了Python socket.error: [Errno 98] Address already in use的原因和解决方法,在Python的socket编程中可能会经常遇到这个问题,需要的朋友可以参考下
    2014-08-08
  • Python numpy有哪些常用数据类型

    Python numpy有哪些常用数据类型

    Numpy提供了两种基本的对象:ndarray(N-dimensional Array Object)和 ufunc(Universal Function Object)。ndarray是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数
    2023-02-02
  • Python DataFrame设置/更改列表字段/元素类型的方法

    Python DataFrame设置/更改列表字段/元素类型的方法

    今天小编就为大家分享一篇Python DataFrame设置/更改列表字段/元素类型的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 如何在 Matplotlib 中更改绘图背景的实现

    如何在 Matplotlib 中更改绘图背景的实现

    这篇文章主要介绍了如何在 Matplotlib 中更改绘图背景的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • 跟老齐学Python之玩转字符串(2)更新篇

    跟老齐学Python之玩转字符串(2)更新篇

    本文是玩转字符串的续篇,继续对字符串的连接方法进行介绍,以及字符串复制、字符串长度、字符大小写的转换。非常不错的文章,希望对大家有所帮助
    2014-09-09
  • Python中的 Set 与 dict

    Python中的 Set 与 dict

    这篇文章主要介绍了Python中的 Set 与 dict,Set 集合类型有无序 , 自动去重等特点,dict 字典类型 键值对存储的数据,可获取,可修改 表面上有序,实际存储时无序,下面更多详细内容,需要的朋友可以参考一下
    2022-03-03
  • 通过python读取txt文件和绘制柱形图的实现代码

    通过python读取txt文件和绘制柱形图的实现代码

    这篇文章主要介绍了通过python读取txt文件和绘制柱形图的实现代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • 关于Python中几个有趣的函数和推导式解析

    关于Python中几个有趣的函数和推导式解析

    这篇文章主要介绍了关于Python中几个有趣的函数和推导式解析,推导式comprehensions,又称解析式,是Python的一种独有特性,推导式是可以从一个数据序列构建另一个新的数据序列的结构体,需要的朋友可以参考下
    2023-08-08
  • python基础教程之五种数据类型详解

    python基础教程之五种数据类型详解

    这篇文章主要介绍了python基础教程之五种数据类型详解的相关资料,这里对Python 的数据类型进行了详细介绍,需要的朋友可以参考下
    2017-01-01

最新评论