Node批量爬取头条视频并保存方法

更新时间：2018年09月20日 08:37:03 投稿：laozhang

在本篇文章中我们给大家介绍了node爬取头条里面的视频，并进行批量保存的方法，有需要的朋友可以测试以下。

简介

一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过 writeFile 等方法逐个保存文件。然而，头条的视频，在需要爬取的 html 文件（服务端渲染输出）中，无法捕捉视频链接。视频链接是页面在客户端渲染时，通过某些 js 文件内的算法或者解密方法，根据视频的已知 key 或者 hash 值，动态计算出来并添加到 video 标签的。这也是网站的一种反爬措施。

我们在浏览这些页面时，通过审核元素，可以看到计算后的文件地址。然而在批量下载时，逐个手动的获取视频链接显然不可取。开心的是，puppeteer 提供了模拟访问 Chrome 的功能，使我们可以爬取经过浏览器渲染出来的最终页面。

项目启动

命令

npm i
npm start

Notice: 安装 puppeteer 的过程稍慢，耐心等待。

配置文件

// 配置相关
module.exports = {
 originPath: 'https://www.ixigua.com', // 页面请求地址
 savePath: 'D:/videoZZ' // 存放路径
}

技术点

puppeteer

官方API

puppeteer 提供一个高级 API 来控制 Chrome 或者 Chromium。

puppeteer 主要作用：

利用网页生成 PDF、图片

爬取SPA应用，并生成预渲染内容（即“SSR” 服务端渲染）

可以从网站抓取内容

自动化表单提交、UI测试、键盘输入等

使用到的 API：

puppeteer.launch() 启动浏览器实例

browser.newPage() 创建一个新页面

page.goto() 进入指定网页

page.screenshot() 截图

page.waitFor() 页面等待，可以是时间、某个元素、某个函数

page.$eval() 获取一个指定元素，相当于 document.querySelector

page.$$eval() 获取某类元素，相当于 document.querySelectorAll

page.$('#id .className') 获取文档中的某个元素，操作类似jQuery

代码示例

const puppeteer = require('puppeteer');
 
(async () => {
 const browser = await puppeteer.launch();
 const page = await browser.newPage();
 await page.goto('https://example.com');
 await page.screenshot({path: 'example.png'});
 
 await browser.close();
})();

视频文件下载方法

下载视频主方法

const downloadVideo = async video => {
 // 判断视频文件是否已经下载
 if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
 await getVideoData(video.src, 'binary').then(fileData => {
  console.log('下载视频中：', video.title)
  savefileToPath(video.title, fileData).then(res =>
  console.log(`${res}: ${video.title}`)
  )
 })
 } else {
 console.log(`视频文件已存在：${video.title}`)
 }
}

获取视频数据

getVideoData (url, encoding) {
 return new Promise((resolve, reject) => {
 let req = http.get(url, function (res) {
  let result = ''
  encoding && res.setEncoding(encoding)
  res.on('data', function (d) {
  result += d
  })
  res.on('end', function () {
  resolve(result)
  })
  res.on('error', function (e) {
  reject(e)
  })
 })
 req.end()
 })
}

将视频数据保存到本地

savefileToPath (fileName, fileData) {
 let fileFullName = `${config.savePath}/${fileName}.mp4`
 return new Promise((resolve, reject) => {
 fs.writeFile(fileFullName, fileData, 'binary', function (err) {
  if (err) {
  console.log('savefileToPath error:', err)
  }
  resolve('已下载')
 })
 })
}

目标网站：西瓜视频

项目功能：下载头条号【维辰财经】下的最新20个视频

项目地址：Github 地址

您可能感兴趣的文章:

Node.js使用WebAssembly
本文主要介绍了Node.js使用WebAssembly，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-05-05
浅析node.js中close事件
本文简单介绍了http.ServerRespose对象的close事件，并给出了相关实例，推荐给需要的小伙伴参考下吧。
2014-11-11
解决Node.js包管理器安装报错npm ERR! code 1的问题
在开发过程中,我们经常需要使用各种Node.js包来扩展我们的应用程序功能,这些包通常通过npm（Node.js包管理器）进行安装和管理,有时候我们可能会遇到一些关于npm的错误,本文将详细介绍如何解决这个问题,并提供一个详细的实例,需要的朋友可以参考下
2024-03-03
nodejs分页类代码分享
最近在写nodejs项目，没有发现合适或者特别好用的分页插件，今天晚上自己写了一个，分享给大家，也希望大家能够拍砖!
2014-06-06
使用Node.js为其他程序编写扩展的基本方法
这篇文章主要介绍了使用Node.js为其他程序编写扩展的基本方法 ,文中示例是通过Node让JavaScript代码与C++应用产生交互,需要的朋友可以参考下
2015-06-06
nodejs如何将高版本降为低版本
在遇到项目依赖低版本Node.js时,直接安装低版本可能会遇到困难,本文提供了一种通过卸载当前高版本Node.js并使用NVM（Node Version Manager）来管理和安装低版本Node.js的方法,首先,需要卸载现有的Node.js环境并清理相关文件
2024-10-10
npm查看镜像源与切换镜像源方法详解
这篇文章主要为大家介绍了npm查看镜像源与切换镜像源方法详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-06-06
Nodejs Socket连接池及TCP HTTP网络模型详解
这篇文章主要为大家介绍了Nodejs Socket连接池及TCP HTTP网络模型,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-08-08
NodeJS远程代码执行
这篇文章主要介绍了NodeJS远程代码执行方法的相关资料,需要的朋友可以参考下
2016-08-08
NodeJS制作爬虫全过程（续）
本文是接上篇NodeJS制作爬虫全过程，是最上文的一个补充以及优化，给需要的小伙伴参考下
2014-12-12

Node批量爬取头条视频并保存方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具