Node.js 利用cheerio制作简单的网页爬虫示例

 更新时间:2018年03月01日 09:44:13   作者:Karuru  
本篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例,分享给大家,具有如下:

1. 目标

  1. 完成对网站的标题信息获取
  2. 将获取到的信息输出在一个新文件
  3. 工具: cheerio,使用npm下载npm install cheerio
  4. cheerio的API使用方法和jQuery的使用方法基本一致
  5. 如果熟练使用jQuery,那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题,将获取到的标题列表编号,最终输出到pageTitle.txt文件里

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html += data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Node.js发起HTTP请求的6种不同方法小结

    Node.js发起HTTP请求的6种不同方法小结

    本文主要介绍了Node.js发起HTTP请求的6种不同方法小结,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • node.js中TCP Socket多进程间的消息推送示例详解

    node.js中TCP Socket多进程间的消息推送示例详解

    这篇文章主要给大家介绍了关于node.js中TCP Socket多进程间的消息推送的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-07-07
  • Node 升级到最新稳定版的方法分享

    Node 升级到最新稳定版的方法分享

    今天小编就为大家分享一篇Node 升级到最新稳定版的方法分享,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Node.js模块化的使用详细介绍

    Node.js模块化的使用详细介绍

    nodejs中的模块化是指将每个js文件会被认为单独一个的模块。模块之间是互相不可见的。如果一个模块需要使用另一个模块,那么需要通过指定语法来引入要使用的模块,而且只能使用引入模块所暴露的内容
    2022-08-08
  • Node.js 中exports 和 module.exports 的区别

    Node.js 中exports 和 module.exports 的区别

    这篇文章主要介绍了Node.js 中exports 和 module.exports 的区别的相关资料,需要的朋友可以参考下
    2017-03-03
  • NodeJS创建最简单的HTTP服务器

    NodeJS创建最简单的HTTP服务器

    这篇文章主要介绍了NodeJS创建最简单的HTTP服务器的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-05-05
  • Node快速切换版本、版本回退(降级)、版本更新(升级)

    Node快速切换版本、版本回退(降级)、版本更新(升级)

    这篇文章主要介绍了Node快速切换版本、版本回退(降级)、版本更新(升级),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • node.js中的fs.symlinkSync方法使用说明

    node.js中的fs.symlinkSync方法使用说明

    这篇文章主要介绍了node.js中的fs.symlinkSync方法使用说明,本文介绍了fs.symlinkSync的方法说明、语法、接收参数、使用实例和实现源码,需要的朋友可以参考下
    2014-12-12
  • nodejs实现HTTPS发起POST请求

    nodejs实现HTTPS发起POST请求

    这篇文章主要介绍了nodejs实现HTTPS发起POST请求的实例代码,非常的简单实用,有需要的小伙伴可以参考下。
    2015-04-04
  • 云服务器部署Node.js项目的方法步骤(小白系列)

    云服务器部署Node.js项目的方法步骤(小白系列)

    这篇文章主要介绍了云服务器部署Node.js项目的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03

最新评论