Node.js实现爬取网站图片的示例代码

 更新时间:2022年04月04日 10:19:53   作者:小六公子  
本文将利用Node.js开发一个小示例—爬取某图片网站的图片,文中涉及的知识点有https模块、cheerio模块、fs模块和闭包,感兴趣的可以了解一下

涉及知识点

开发一个小爬虫,涉及的知识点如下所示:

  • https模块,主要是用户获取网络资源,如:网页源码,图片资源等。
  • cheerio模块,主要用于解析html源码,并可访问,查找html节点内容。
  • fs模块,主要用于文件的读写操作,如保存图片,日志等。
  • 闭包,主要是对于异步操作,对象的隔离保护。

cheerio简介

什么是cheerio ?

cheerio是为服务器特别定制的,快速、灵活、实施的jQuery核心实现。主要用于在服务端解析html。特点如下所示:

  • 易用,语法类似jQuery语法,从jQuery库中去除了所有 DOM不一致性和浏览器尴尬的部分。
  • 解析快,比JSDOM快八倍。
  • 灵活,Cheerio 封装了兼容的htmlparser。Cheerio 几乎能够解析任何的 HTML 和 XML document。

安装cheerio

首先在命令行,切换到程序目录,然后输入安装命令进行安装,如下所示:

cnpm install cheerio

安装过程,如下所示:

准备工作

在编写爬虫之前,首先需要分析目标内容,本次需要爬取的是某网站,星空类型的图片内容,经过分析,发现所有的图片都是在ul下每一个li中的a标签内的img中,本次只需要解析出img的src属性,即可获取图片的下载路径。如下所示:

核心代码

经过以上分析,通过Node.js编写代码,分为两步,获取所有图片的url路径,即解析所有目标img元素的src属性。然后再下载具体图片进行保存即可。

引用所需要的功能模块,如下所示:

var https = require('https');
var cheerio = require('cheerio');
var fs = require('fs');

获取并解析html页面内容,如下所示:

//爬取的网址
var addrs=['https://www.*****.com/topic/show_27202_1.html','https://www.******.com/topic/show_27202_2.html','https://www.*****.com/topic/show_27202_3.html'];
var logger = fs.createWriteStream('./download/log.txt',{flags:'a+',autoClose:'true'});

for(i in addrs){
    (function(num){
   var addr = addrs[num];
   //创建目录
   var p1 = new Promise(function(resolve,reject){
     fs.access('./download',function(err){
       if(err){
           fs.mkdir('./download',function(e){
               if(e){
                   console.log('创建失败');
               }
           });
        }else{
            resolve("success");
        }
       });
   });

   p1.then(function(datas){
       var html='';
       var p2 = new Promise(function(resolve,reject){
           https.get(addr,function(res){
                res.on('data',function(data){
                    html+=data.toString();
                })
                res.on('end',function(){
                    resolve("success");
                });

            });

       });
      p2.then(function(data){
        //下载完成后,进行解析
        const $ =cheerio.load(html);
        var lis = $('#img-list-outer').find('li');
        for(var j=0;j<lis.length-1;j++){
            var li = lis[j];
            var src =$(li).find('a').find('img').attr('src');
            //console.log(src);
            //console.log('-------------------------');
            var imgurl='https:'+src;
            download(imgurl);
            var msg='['+j+']下载成功:'+imgurl;
            logger.write(msg+'\n');
            console.log(msg);
        }
      });
   });
   })(i);
}

注意:因为所有爬取的目标共分为3页,所以用到了循环,并且在循环中用到了闭包。

下载并保存单张图片代码,如下所示:

//下载图片
function download(imgurl){
    var p1 = new Promise(function(resolve,reject){
        https.get(imgurl,function(res){
            var imgName=imgurl.substr(imgurl.lastIndexOf('/')+1);
            var stream = fs.createWriteStream('./download/'+imgName);
            res.pipe(stream);
            setTimeout(function(){
                resolve('success');
            },300);

        });
    });
    p1.then(function(data){
        return;
    });
}

示例截图

开发完成后,运行代码,如下所示

爬取的图片,保存在文件夹中,如下所示:

注意:添加日志,是为了方便记录程序执行过程,对比图片和日志,便于发现问题。

到此这篇关于Node.js实现爬取网站图片的示例代码的文章就介绍到这了,更多相关Node.js爬取图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 浅谈node.js 命令行工具(cli)

    浅谈node.js 命令行工具(cli)

    nodejs开发命令行工具,流程相对简单,但一套完整的命令行程序开发流程下来,还是需要下点功夫,这篇文章主要介绍了浅谈node.js 命令行工具(cli),感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Vue+Node服务器查询Mongo数据库及页面数据传递操作实例分析

    Vue+Node服务器查询Mongo数据库及页面数据传递操作实例分析

    这篇文章主要介绍了Vue+Node服务器查询Mongo数据库及页面数据传递操作,结合实例形式分析了node.js查询MongoDB数据库及vue前台页面渲染等相关操作技巧,需要的朋友可以参考下
    2019-12-12
  • 详解node中创建服务进程

    详解node中创建服务进程

    本篇文章主要介绍了详解node中创建服务进程,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-05-05
  • 使用nodejs下载风景壁纸

    使用nodejs下载风景壁纸

    本文主要介绍了使用nodejs下载风景壁纸的方法。具有一定的参考价值,下面跟着小编一起来看下吧
    2017-02-02
  • Node.JS使用Sequelize操作MySQL的示例代码

    Node.JS使用Sequelize操作MySQL的示例代码

    Node.JS提供了操作数据库的基础接口,本篇文章主要介绍了Node.JS使用Sequelize操作MySQL的示例代码,具有一定的参考价值,有兴趣的可以了解一下
    2017-10-10
  • node.js中的fs.truncateSync方法使用说明

    node.js中的fs.truncateSync方法使用说明

    这篇文章主要介绍了node.js中的fs.truncateSync方法使用说明,本文介绍了fs.truncateSync的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • 利用forever和pm2部署node.js项目过程

    利用forever和pm2部署node.js项目过程

    这篇文章主要给大家介绍了如何利用forever和pm2部署node.js项目的相关资料,文中给出了详细的介绍和示例代码供大家参考学习,相信对大家的学习或者工作具有一定的学习价值,需要的朋友们下面随着小编一起来看看吧。
    2017-05-05
  • 利用node.js启动本地服务器的操作指南(超详细)

    利用node.js启动本地服务器的操作指南(超详细)

    这篇文章主要介绍了利用node.js启动本地服务器的操作指南(超详细),有很多小伙伴制作网站或者小程序时,需要通过服务器来把前端和后端连接起来,那么我们今天学习启动node.js服务器,文中有详细的代码示例和图文供大家参考,具有一定的参考价值,需要的朋友可以参考下
    2024-05-05
  • 一文教你如何使用Node进程管理工具-pm2

    一文教你如何使用Node进程管理工具-pm2

    这篇文章详细介绍了如何使用node进程管理工具pm2,文中代码示例讲解的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以借鉴一下
    2023-04-04
  • node.js中grunt和gulp的区别详解

    node.js中grunt和gulp的区别详解

    这篇文章主要介绍了node.js中grunt和gulp的区别详解的相关资料,需要的朋友可以参考下
    2017-07-07

最新评论