Node.js实现简单的爬取的示例代码

 更新时间:2019年06月25日 09:35:43   作者:毛寸头少年*  
这篇文章主要介绍了Node.js实现简单的爬取的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

学习【node.js】也有几天时间了,所以打算写着练练手;索然我作为一个后端的选手,写起来还有那么一丝熟悉的感觉。emmm~~ ‘货'不多讲 ,开搞........

首先是依赖选择:

代码块如下:

//引入依赖

//https请求

const https = require('https');

//简称node版的jquery

const cheerio = require('cheerio');

//解决防止出现乱码

const iconv = require('iconv-lite')

//http请求

const request = require("request");

//负责读写文件

const fs = require('fs');

//处理文件路径

const path = require('path');

爬取路径:

代码块:(PS:这里单独拿出来是因为这个站的素材比较推荐,可以上去瞅瞅~~)

const url = 'https://unsplash.com/';

初步实现:

网站的基本构成

这里主要是我们直接确认一下需要的【img】标签,以及外面的【figure】,然后直接就可以开工了....

核心代码:

//方法对象

const util = {

 

  getsrc: function (url) {

    https.get(url, res => {

      const chunks = [];

      res.on('data', chunk => {

        // chunks里面存储着网页的html内容

        chunks.push(chunk);

      });

      res.on('end', e => {

 

        let ALL = [];

        //编码格式

        let html = iconv.decode(Buffer.concat(chunks), 'utf8');

        let $ = cheerio.load(html, { decodeEntities: false });

 

        //标签遍历

        $("figure img").each(function (idex, elent) {

          let $elent = $(elent);

          let $srcset = $elent.attr("srcset");

          if ($srcset != undefined) {

            let src = ($srcset.split(',').pop()).split('?')[0];

            ALL.push({

              src: src

            })

          }

        });

        //遍历数组 每个后面加.jpg

        ALL.forEach(item => {

          util.downloadimg(item.src, path.basename(item.src) + ".jpg", function () {

            console.log(path.basename(item.src) + ".jpg");

          });

        })

      });

 

      res.on('error', e => {

        console.log('Error: ' + e.message);

      });

    });

  },

 

  //运行主函数

  main: function () {

    console.log("------start--------");

    util.getsrc(url);

  },

  //下载图片函数

  downloadimg: function (src, srcname, callback) {

 

    //http请求

    request.head(src, function (err, res, body) {

      if (err) {

        console.log('err:' + err);

        return false;

      }

      console.log('res: ' + res);

      //保存数据,这里是防止未来得及记录数据又开始读取数据而导致数据丢失

      request(src).pipe(fs.createWriteStream('./img/' + srcname)).on('close', callback);

    });

  }

}

 

//主函数

util.main();

然后就可以运行 node xxx.js 看运行结果。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • NPM全局安装与本地安装的区别详析

    NPM全局安装与本地安装的区别详析

    NPM是随同NodeJS一起安装的包管理工具,能解决NodeJS代码部署上的很多问题,下面这篇文章主要给大家介绍了关于NPM全局安装与本地安装区别的相关资料,需要的朋友可以参考下
    2022-10-10
  • 详解Node.js如何开发命令行工具

    详解Node.js如何开发命令行工具

    追求更高的效率是码农不断的追求。选择合适的工具,合理搭配使用,既能提高一部分开发效率,又能改善写代码时的心情。使用Node.js开发命令行工具是开发者应该掌握的一项技能,适当编写命令行工具以提高开发效率。
    2016-08-08
  • nodejs使用express获取get和post传值及session验证的方法

    nodejs使用express获取get和post传值及session验证的方法

    这篇文章主要介绍了nodejs使用express获取get和post传值及session验证的方法,结合实例形式分析了nodejs使用express实现获取get和post传值及session验证功能的具体操作步骤与注意事项,需要的朋友可以参考下
    2017-11-11
  • Nodejs实现图片上传、压缩预览、定时删除功能

    Nodejs实现图片上传、压缩预览、定时删除功能

    本文分步骤给大家介绍了Nodejs实现图片的上传、压缩预览、定时删除功能,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • Node.js高级编程使用RPC通信示例详解

    Node.js高级编程使用RPC通信示例详解

    这篇文章主要为大家介绍了Node.js高级编程使用RPC通信示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-01-01
  • 解决await在forEach中不起作用的问题

    解决await在forEach中不起作用的问题

    这篇文章主要介绍了解决await在forEach中不起作用的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • 在Node.js中实现获取用户频道信息的功能

    在Node.js中实现获取用户频道信息的功能

    在构建社交或视频分享平台时,允许用户查看其他用户的频道信息是一个基本需求,本文将介绍如何在Node.js应用中,使用Express框架和Mongoose库来实现这一功能,文中有相关的代码示例供大家参考,需要的朋友可以参考下
    2024-04-04
  • node中使用shell脚本的方法步骤

    node中使用shell脚本的方法步骤

    这篇文章主要介绍了node中使用shell脚本的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • nodejs实现邮箱发送验证码功能

    nodejs实现邮箱发送验证码功能

    开发个人网站时,注册页面可以使用邮箱验证,于是记录一下如何用nodejs/express服务器实现邮箱发送验证码,不仅可以在邮箱注册时使用,还可以拓展用于各种安全验证,本文给大家介绍了使用nodejs实现邮箱发送验证码功能,需要的朋友可以参考下
    2024-07-07
  • Node.js中使用jQuery的做法

    Node.js中使用jQuery的做法

    在Node.js中使用jQuery的做法,需要先安装jquery,npm install jquery ,安装后的版本是 3.1.0,本文介绍的非常详细,具有参考借鉴价值,感兴趣的朋友一起看下吧
    2016-08-08

最新评论