nodejs爬虫抓取数据之编码问题

 更新时间:2015年07月03日 09:48:26   投稿:hebedich  
这篇文章主要介绍了nodejs爬虫抓取数据之编码问题的相关资料,需要的朋友可以参考下

cheerio DOM化并解析的时候

1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时,可能就需要转义一番了

类似这些 因为需要作数据存储,所有需要转换

复制代码 代码如下:

Халк крушит. Новый способ исполнен

大多数都是&#(x)?\w+的格式

所以就用正则转换一番

var body = ....//这里就是请求后获得的返回数据,或者那些 .html()后获取的

//一般可以先转换为标准unicode格式(有需要就添加:当返回的数据呈现太多\\\u 之类的时)
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制,$1就是匹配是否有x ,$2就是匹配出的第二个括号捕获到的内容,将$2以对应进制表示转换
body = body.replace(/&#(x)?(\w+);/g,function($,$1,$2){
        return String.fromCharCode(parseInt($2,$1?16:10));
       });

ok ~

当然了,网上也有很多个转换的版本,适用的就行了

后记:

当使用爬虫抓取网页数据时,cheerio模块是经常使用到底,它像jq那样方便快捷

(但有些功能并未支持或者换了某种形式,比如 jq的 jQuery('.myClass').prop('outerHTML') ,cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514

相关文章

  • 浅谈Node.js 沙箱环境

    浅谈Node.js 沙箱环境

    本篇文章主要介绍了Node.js 沙箱环境 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • Nodejs中的this详解

    Nodejs中的this详解

    本文给大家汇总介绍了下nodejs中的this,nodejs中的this和在浏览器中javascript中的this还是有很大的差异的,小伙伴们可以研究下
    2016-03-03
  • Node.js连接mongo数据库上传文件的方法步骤

    Node.js连接mongo数据库上传文件的方法步骤

    本文主要介绍了Node.js连接mongo数据库上传文件的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-05-05
  • Node.js中文件操作模块File System的详细介绍

    Node.js中文件操作模块File System的详细介绍

    FileSystem模块是类似UNIX(POSIX)标准的文件操作API,用于操作文件系统——读写目录、读写文件——Node.js底层使用C程序来实现,这些功能是客户端JS所不具备的。下面这篇文章就给大家详细介绍了Node.js中的文件操作模块File System,有需要的朋友们可以参考借鉴。
    2017-01-01
  • PostgreSQL Node.js实现函数计算方法示例

    PostgreSQL Node.js实现函数计算方法示例

    这篇文章主要给大家介绍了关于PostgreSQL Node.js实现函数计算的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-02-02
  • Node.js Buffer模块功能及常用方法实例分析

    Node.js Buffer模块功能及常用方法实例分析

    这篇文章主要介绍了Node.js Buffer模块功能及常用方法,结合实例形式分析了Buffer模块的各种常用函数及相关使用技巧,需要的朋友可以参考下
    2019-01-01
  • 分享五个Node.js开发的优秀实践 

    分享五个Node.js开发的优秀实践 

    这篇文章主要介绍了分享五个Node.js开发的优秀实践,文章围绕主题展开详细的分享内容,需要的小伙伴可以参考一下,希望对你的工作有所帮助
    2022-04-04
  • Node.js利用Express实现用户注册登陆功能(推荐)

    Node.js利用Express实现用户注册登陆功能(推荐)

    这篇文章主要介绍了Node.js利用Express实现用户注册登陆功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-10-10
  • 详解nodeJS之二进制buffer对象

    详解nodeJS之二进制buffer对象

    本篇文章主要介绍了nodeJS之二进制buffer对象,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • 详解nodejs微信公众号开发——6.自定义菜单

    详解nodejs微信公众号开发——6.自定义菜单

    这篇文章主要介绍了详解nodejs微信公众号开发——6.自定义菜单,自定义菜单能够帮助公众号丰富界面,让用户更好更快地理解公众号的功能。
    2017-04-04

最新评论