pyppeteer执行js绕过webdriver监测方法下

更新时间：2022年04月12日 14:33:59 作者：Jeff的技术栈

这篇文章主要为大家介绍了pyppeteer上执行js并绕过webdriver监测常见方法的上篇，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步早日升职加薪

官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    print(await page.content())  # 返回html代码
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS，enabled设为False，则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
	resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    cookies = page.cookies()
    print(resp_headers)
    print(resp_status)
    print(page.cookies())
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
     # 打开一个页面
    page = await browser.newPage()
	# 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
 # 等待
 await asyncio.sleep(2)
print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 滑到底部
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# js
window.scrollTo(0,100)  # 向下滑动100
window.scrollTo(0,500)  # 向下滑动500
window.scrollTo(0,document.body.scrollHeight)  # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器
Page.querySelectorAll()  # CSS选择器选所有
Page.xpath()  # xpath选择器
# 简写方式为：
Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
# 方式一：获取h2标签内容--执行JS方式
element = await page.querySelector('h2')
title = await page.evaluate('(element) => element.textContent', element)
# 方式二：获取文本
element = await page.querySelector('h2')
title = await (await item.getProperty('textContent')).jsonValue()
# 方式三：获取属性src,href
element = await page.querySelector('h2')
title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):
    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
    page = await  browser.newPage()
    res = await page.goto(url, options={'timeout': 3000})
    data = await page.content()
    title = await page.title()
    resp_cookies = await page.cookies()  # cookie
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    print(data)
    print(title)
    print(resp_headers)
    print(resp_status)
    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", )
await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio
from pyppeteer import launch
async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    await page.setViewport(viewport={'width': 1280, 'height': 800})
    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
    await page.type('#fm-login-id', "123456")
    await page.type('#fm-login-password', "aaa", )
    await page.waitFor(1000)  # 等待时间
    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
    if slider:
        try:
            print('有滑块')
            await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。
            await page.mouse.down()
            # X，Y坐标，steps 是指分成几步来完成，steps越大，滑动速度越慢。(在源码中，steps是指移动到指定x,y 分段滑动的次数，但是每次启动滑动都会花费一定时间，可以认为steps是滑动的速度)
            # 如果是每次移动的距离，可以用for循环尝试正负移动
            await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
            await page.mouse.up()
        except Exception as e:
            print(e)
            input('验证失败，人工登录：')
    else:
        print('没有滑块')
        input()
    await page.click("#login-form > div.fm-btn > button")  # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')  # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')
# 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制
# 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
# await page.screenshot({'path': './headless-test-result.png'})    # 截图测试
def input_time_random():
    return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮
.down()   # 按下按钮
.up()     # 释放按钮
.move()   # 移动光标

键盘事件

您可以使用down()，up()和 sendCharacter()手动触发事件，就好像事件是由真实键盘生成的一样。
await page.keyboard.press('ArrowLeft')
await page.keyboard.down('Shift')
for i in ' World':
    await page.keyboard.press('ArrowLeft')
await page.keyboard.up('Shift')
await page.keyboard.press('Backspace')
# Result text will end up saying 'Hello!'.

按下键盘A：

await page.keyboard.down('Shift')
await page.keyboard.press('KeyA')
await page.keyboard.press('Enter')
await page.keyboard.up('Shift')

注意
修饰键确实会影响down()。按住shift 将以大写形式键入文本。

参数：

key（str）–要按键的名称，例如ArrowLeft。

options（dict）–选项可以具有text字段，如果指定了此选项，则使用此文本生成输入事件。

使用ip代理ua

import asyncio
from pyppeteer import launch
async def register():
    browser = await launch({
        'headless': False,
        # 代理ip
        'args': ['--proxy-server=47.105.111.124:15525', ]
    })
    page = await browser.newPage()
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
asyncio.get_event_loop().run_until_complete(register())
# 更多参数
args: [
            '--disable-setuid-sandbox',
            '--no-sandbox',
            '--proxy-server=10.24.51.125:8411',
            '--ignore-certificate-errors',
            '--window-size=375,812',
            '--remote-debugging-port=9222'
        ],

以上就是pyppeteer执行js并绕过webdriver监测的常见方法下篇的详细内容，更多关于pyppeteer执行js绕过webdriver监测的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

OpenCV半小时掌握基本操作之傅里叶变换
这篇文章主要介绍了OpenCV基本操作之傅里叶变换，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-09-09
Python中的xlrd模块使用整理
今天给大家带来的文章是关于Python的相关知识,文章围绕着xlrd模块的使用展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
Python如何用NumPy读取和保存点云数据
这篇文章主要介绍了Python如何用NumPy读取和保存点云数据，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-08-08
Python 处理数据库事务的操作方法
在Python中,处理数据库事务通常涉及使用特定的数据库驱动如sqlite3、PyMySQL和psycopg2等,这些库提供事务管理功能,允许开发者手动控制事务的提交和回滚,本文给大家介绍Python如何处理数据库事务,感兴趣的朋友一起看看吧
2024-10-10
python人工智能深度学习算法优化
这篇文章主要为大家介绍了python人工智能深度学习关于算法优化详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-11-11
Python实现的人工神经网络算法示例【基于反向传播算法】
这篇文章主要介绍了Python实现的人工神经网络算法,结合实例形式分析了Python基于反向传播算法实现的人工神经网络相关操作技巧,需要的朋友可以参考下
2017-11-11
pycharm 解除默认unittest模式的方法
今天小编就为大家分享一篇pycharm 解除默认unittest模式的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
150行python代码实现贪吃蛇游戏
这篇文章主要为大家详细介绍了150行python代码实现贪吃蛇游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-04-04
python中学习K-Means和图片压缩
大家在python中会遇到关于K-Means和图片压缩的问题，我先通过本次文章学习一下基本原理吧。
2017-11-11
TensorFlow实现指数衰减学习率的方法
这篇文章主要介绍了TensorFlow实现指数衰减学习率的方法，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-02-02