node.js突破nginx防盗链机制,下载图片案例分析 原创

原创  更新时间:2023年04月15日 15:58:19   原创 投稿:shichen2014  
这篇文章主要介绍了node.js突破nginx防盗链机制,下载图片的方法,结合具体案例形式分析了防盗链的相关原理与node.js使用axios库下载防盗链图片的相关操作技巧,需要的朋友可以参考下

问题

今天项目需求要求采集几个网站的信息,包括一些区块链统计图表之类的信息。

笔者使用的是node.js+axios库发送get请求来获取在图片,下载到本地。测试代码如下:

import fs from 'fs';
import path from 'path';
import http from 'http';
import https from 'https';

const __dirname = path.resolve();
let filePath = path.join(__dirname,'/imgtmp/');
async function downloadfile(url,filename,callback){
    try {
        let ext = path.extname(url);
        
        console.log('下载的文件名:',filename)
        let mod = null;//http、https 别名
        if(url.indexOf('https://')!==-1){
            mod = https;
        }else{
            mod = http;
        }
        const req = mod.get(url, {
            headers:{
                "Content-Type": "application/x-www-form-urlencoded"
              }
        },(res)=>{
            let writePath = '';
            writePath = filePath + '/' + filename;
            const file = fs.createWriteStream(writePath)
            res.pipe (file)
            file.on ("error", (error) => {
                console.log (`There was an error writing the file. Details: `,error)
                return false;
            })
            file.on ("close", () => {
                callback (filename)
            })

            file.on ('finish', () => {
                file.close ()
                console.log ("Completely downloaded.")
            })
        })

        req.on ("error", (error) => {
            console.log (`Error downloading file. Details: $ {error}`)
        })
    } catch (error) {
        console.log('图片下载失败!',error);
    }
    
}

let url = 'https://xx.xxxx.com/d/file/zxgg/a2cffb8166f07c0232eca49f8c9cc242.jpg';//图片url
let filename = path.basename(url);
await downloadfile(url,filename,()=>{
    console.log(filename,"文件已下载成功");
})

运行代码,图示文件下载成功!

然而当笔者打开图片一看,就傻眼了~图片显示损坏,再看大小,只有304字节~

目测应该是图片保存了一些错误信息,于是用editplus以文本形式打开该图片,果然看到了错误信息~

解决方法

百度了一下,确定是图片nginx服务器Referer防盗链设置,于是继续百度,找到了问题的关键~

谷歌浏览器打开网址,在控制台上看到了这段Referer信息:

对方的网站在Referer设置的就是他的网址,于是改进代码,在headers中加入Referer参数"referer":'https://www.xxxx.com/'

import fs from 'fs';
import path from 'path';
import http from 'http';
import https from 'https';

const __dirname = path.resolve();
let filePath = path.join(__dirname,'/imgtmp/');
async function downloadfile(url,filename,callback){
    try {
        let ext = path.extname(url);
        
        console.log('下载的文件名:',filename)
        let mod = null;//http、https 别名
        if(url.indexOf('https://')!==-1){
            mod = https;
        }else{
            mod = http;
        }
        const req = mod.get(url, {
            headers:{
                "Content-Type": "application/x-www-form-urlencoded",
                "referer":'https://www.xxxx.com/'
              }
        },(res)=>{
            let writePath = '';
            writePath = filePath + '/' + filename;
            const file = fs.createWriteStream(writePath)
            res.pipe (file)
            file.on ("error", (error) => {
                console.log (`There was an error writing the file. Details: `,error)
                return false;
            })
            file.on ("close", () => {
                callback (filename)
            })

            file.on ('finish', () => {
                file.close ()
                console.log ("Completely downloaded.")
            })
        })

        req.on ("error", (error) => {
            console.log (`Error downloading file. Details: $ {error}`)
        })
    } catch (error) {
        console.log('图片下载失败!',error);
    }
    
}

let url = 'https://xx.xxxx.com/d/file/zxgg/a2cffb8166f07c0232eca49f8c9cc242.jpg';//图片url
let filename = path.basename(url);
await downloadfile(url,filename,()=>{
    console.log(filename,"文件已下载成功");
})

再次运行代码,图片文件下载成功,打开显示一切正常!

后记

笔者又测试了另一种实现方法,即使用playwright调用浏览器打开页面,再使用await page.locator('selector路径').screenshot({ path: 'image图片保存路径'}); 将图片网页截图保存下载。

对比了一番,发现使用playwright截图的方法需要在遍历图片元素的时候根据当前元素逆向获取parentNode节点以及遍历childNodes节点,算法相对比较复杂!而且screenshot函数截图的效果也会比原图略显模糊,因此推荐使用axios传递Referer参数的方法获取原图。

PS:方法二的调试过程中写了一段逆向遍历selector的函数,提供给大家参考,如有不足之处,欢迎指正~

/**
 * 获取selector
*/
function getSelectorPath(element) {
    if (!!element.id !== false) {
      return '#' + element.id;
    }
    if (element === document.body && !!element) {
      return element.tagName.toLowerCase();
    }
  
    let ix = 0;
    const siblings = element.parentNode?.childNodes;
    for (let i = 0; i < siblings?.length; i++) {
      const sibling = siblings[i];
      if (sibling.innerHTML === element.innerHTML && !!element.parentNode) {
        return `${getSelectorPath(element.parentNode)} > ${element.tagName.toLowerCase()}:nth-child(${ix + 1})`;
      }
      if (sibling.nodeType === 1) {
        ix++;
      }
    }
}

相关文章

  • 从零开始在webstorm配置nodejs

    从零开始在webstorm配置nodejs

    WebStorm是作为JS开发IDE存在的,并且支持流行的Node.js以及JQuery等js框架,下面这篇文章主要给大家介绍了关于如何从零开始在webstorm配置nodejs的相关资料,需要的朋友可以参考下
    2024-08-08
  • nodejs项目windows下开机自启动的方法

    nodejs项目windows下开机自启动的方法

    今天小编就为大家分享一篇nodejs项目windows下开机自启动的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-11-11
  • 详解Node.js 中使用 ECDSA 签名遇到的坑

    详解Node.js 中使用 ECDSA 签名遇到的坑

    这篇文章主要介绍了详解Node.js 中使用 ECDSA 签名遇到的坑,主要是使用 Node.js 的 Crypto 模块无法校验网络传输过来的签名结果,感兴趣的小伙伴们可以参考一下
    2018-11-11
  • 详解基于node的前端项目编译时内存溢出问题

    详解基于node的前端项目编译时内存溢出问题

    本篇文章主要介绍了基于node的前端项目编译时内存溢出问题,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • Node.js中Sequelize hook的使用方法小结

    Node.js中Sequelize hook的使用方法小结

    Sequelize 提供了多个 hook,用于在执行数据库操作时执行一些自定义逻辑,本文为大家整理了一些常用的 Sequelize hook 列表及其作用,希望对大家有所帮助
    2024-02-02
  • nodejs中模块定义实例详解

    nodejs中模块定义实例详解

    这篇文章主要介绍了nodejs中模块定义方法,结合实例形式分析了nodejs模块的原理、常见模块及相应的定义方法,需要的朋友可以参考下
    2017-03-03
  • Node.js+Express+Mysql 实现增删改查

    Node.js+Express+Mysql 实现增删改查

    这篇文章主要介绍了Node.js+Express+Mysql 实现增删改查,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • 基于Express实现递归遍历文件和CRUD操作

    基于Express实现递归遍历文件和CRUD操作

    在现代的 Web 应用开发中,文件管理是一个常见而重要的需求,所以本文就来讲讲如何利用 Express 框架,在递归遍历文件之后实现强大的 CRUD 操作,构建一个功能完善的文件管理系统,感兴趣的可以了解一下
    2023-06-06
  • node.js中fs.stat与fs.fstat的区别详解

    node.js中fs.stat与fs.fstat的区别详解

    fs.stat和fs.fstat他们都是用来获取文件的状态信息,下面这篇文章主要给大家介绍了关于node.js中fs.stat与fs.fstat区别的相关资料,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-06-06
  • nodejs模块系统源码分析

    nodejs模块系统源码分析

    这篇文章主要介绍了nodejs模块系统源码分析,对nodejs感兴趣的同学,可以参考下
    2021-05-05

最新评论