详情介绍
火车采集器V7正式版新版本对程序进行了完全的重构,是一个全新的采集平台。火车头采集器v7.6企业版包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。
火车采集器的产品特点:
1、无限级多页采集,可以实现无限深度的采集
2、任务队列运行管理,支持Cron表达式
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口查看运行情况
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Http接口管理采集器运行
25、Mongodb数据库保存数据
26、主从服务器分布式采集
更新日志
火车采集器v7.6绿色正式版更新列表:
1、gif的图片不再加水印,修复加水印文字时没有判断加水印条件的问题;
2、增加了迅雷快传,YunFile,千脑,金山网盘文件上传功能;
3、增加了用户可以选择删除记录时是否删除下载文件的选项;
4、增加了日志记录,通过上传文件功能;
5、增加了批量导入数据导入网址功能;
6、添加了发布时使用代理功能;
7、修复当使用一般采一边发方式时保存为本地excel不起作用的bug;
8、文件保存格式中支持[标签:ID],可以将记录的id做为目录的一部分了;
9、处理了一个将$编码错误的问题;
10、增加若干个错误检查,防止采集器退出;
11、更换汉字转拼音词库,汉字增加到1万8;
12、更新自动补全链接中迅雷地址补全不对的问题。
软件安装使用说明:
火车头采集平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。
此软件版本为火车采集器v7.7绿色正式版,软件下载后直接解压即可。注意:软件运行时,要有.net2.0框架,vista及win7系统用户可能会提示请求管理员权限,请放行。如果没有请下载!
安装说明★★
火车头数据采集平台要求:您的电脑必须安装.net framework2.0或2.0以上框架.如果您的采集器打不开,请下载并安装该框架
附windows .net framework 2.0
升级说明
若要从3.2sp5,2008,2009或2010版直接升级到火车头数据采集平台最新版,请运行程序目录下的 UpdateToV7.exe,按提示进行升级。升级程序不会对原来的数据进行任何的修改,但为了防止用户误操作,请在升级前备份旧版本数据和配置。备份方法是将原采集器完整复制一份。
采集相关术语
1.采集规则
简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
2.采集任务
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。
3.发布模块
发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)
下载地址
人气软件
相关文章
-
搜外内容管家(关键词挖掘采集)V1.8.0 官方绿色版
搜外内容管家支持键词挖掘、文章采集、问答组合功能,同时支持将文章自动发布到网站上,本站提供的是这款软件的安装版本...
-
水淼网站权重查询助手 V1.0.0.0 绿色便携版
水淼网站权重查询助手支持查询百度PC、百度移动、搜狗PC、搜狗移动等,本站提供的是这款软件的绿色版本...
-
讯飞绘文(智能写作分析软件)v3.1.3 官方安装版
讯飞绘文是一款AI智能写作软件,支持选题、写作、配图、排版、润色、发布、数据分析等功能,适用于公众号、头条号和新闻等多种场景,该软件集成了内容运营的全流程,能够实时捕...
-
网站爬虫实时分析 VovSoft SEO Checker v9.4 多语绿色便携版
VovSoft SEO Checker是一款易于使用的网站爬虫,能够高效地爬取小型和超大型网站,同时让您找到失效链接,实时分析结果,收集现场数据,欢迎需要的朋友下载使用...
-
全网热点要闻采集器 V2.0 绿色便携版
全网热点要闻采集器支持一键采集全网热点要闻,是自媒体从业者必备神器等...
-
VovSoft Bulk Domain Appraisal 破解补丁/注册机 v3.4 绿色版 附激活教程
VovSoft Bulk Domain Appraisal 激活补丁,域名评估软件,VovSoft Bulk Domain Appraisal是一款域名评估软件,也是站长必备工具之一,但是VovSoft Bulk Domain Appraisal需...
下载声明
☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
☉ 本站提供的火车采集器(LocoySpider)网络数据采集器 v7.6 正式绿色免费版资源来源互联网,版权归该下载资源的合法拥有者所有。