Python使用Selenium抓取动态网页的方法步骤

更新时间：2024年11月07日 09:09:40 作者：chusheng1840

在如今的网络中,许多网站是“动态”的,即网页内容不是静态的 HTML 文件,而是由 JavaScript 动态生成的,这种动态网页在数据抓取中带来了一些挑战,在本教程中,我们将详细介绍如何使用 Python 抓取动态网页,需要的朋友可以参考下

1. 什么是动态网页抓取？

动态网页抓取与传统静态网页抓取的主要区别在于：动态网页内容是通过 JavaScript 在客户端生成的。这意味着直接请求网页的 HTML 文件并不能得到完整的数据，需要等待 JavaScript 执行来加载数据。为了解决这个问题，动态网页抓取通常有以下几种方法：

使用自动化浏览器（如 Selenium）：直接让浏览器执行 JavaScript，然后抓取加载后的网页内容。
分析网络请求：有些网站会在后台向服务器发送额外的请求（通常是 JSON 格式的数据），可以直接模拟这些请求以获取数据。
借助工具库（如 Pyppeteer）：一些库能模拟浏览器行为，直接渲染页面以获得完整的内容。

2. 准备工作

在开始动态网页抓取之前，我们需要安装一些必要的库。

2.1 安装 Selenium

Selenium 是一个自动化测试工具，可以通过控制浏览器来执行 JavaScript，从而加载动态内容。安装 Selenium 后，还需要下载与之匹配的浏览器驱动（如 ChromeDriver）。

pip install selenium

下载 ChromeDriver（假设使用 Chrome 浏览器），然后将其路径添加到环境变量中。

2.2 安装 Pyppeteer

Pyppeteer 是另一个强大的动态抓取库，可以在无界面模式下执行浏览器任务。Pyppeteer 是 Puppeteer 的 Python 版本，Puppeteer 是一个用于 Node.js 的工具。

pip install pyppeteer

2.3 安装 Requests 和 BeautifulSoup

虽然 Requests 和 BeautifulSoup 主要用于静态网页抓取，但它们在获取动态网页中某些后台接口数据时也很有用。

pip install requests beautifulsoup4

3. 使用 Selenium 抓取动态网页

我们将通过 Selenium 抓取动态网页。首先，我们来看如何启动浏览器、访问网页并等待页面加载完成。假设我们要抓取一个动态加载的商品列表。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 设置 ChromeDriver 的路径
service = Service(executable_path='path/to/chromedriver')

# 初始化 Chrome 浏览器
driver = webdriver.Chrome(service=service)

# 打开目标网页
url = 'https://example.com/dynamic-page'
driver.get(url)

# 等待页面加载完成
try:
    # 等待特定元素加载，假设我们等待一个商品列表元素加载
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, "product-list"))
    )

    # 抓取页面的 HTML 内容
    page_content = driver.page_source
    print(page_content)

finally:
    # 关闭浏览器
    driver.quit()

3.1 查找元素并提取数据

当页面加载完成后，我们可以使用 Selenium 提供的查找方法来定位和提取特定元素的内容。

# 查找商品名称的元素（假设 class 为 product-name）
products = driver.find_elements(By.CLASS_NAME, 'product-name')

for product in products:
    print(product.text)

3.2 滚动页面加载更多内容

一些动态网页会在用户滚动时加载更多内容，Selenium 可以通过模拟滚动来抓取更多的数据：

# 模拟滚动，加载更多内容
SCROLL_PAUSE_TIME = 2

# 获取当前页面的高度
last_height = driver.execute_script("return document.body.scrollHeight")

while True:
    # 滚动到底部
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # 等待加载新内容
    time.sleep(SCROLL_PAUSE_TIME)

    # 获取新页面的高度
    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break  # 如果高度不变，说明已经加载完毕

    last_height = new_height

4. 使用 Pyppeteer 抓取动态网页

Pyppeteer 是 Puppeteer 的 Python 版本，它也可以用于抓取动态网页，并且支持无头浏览器（headless mode）。

4.1 简单示例

以下是一个使用 Pyppeteer 抓取动态内容的简单示例：

import asyncio
from pyppeteer import launch

async def fetch_dynamic_content(url):
    # 启动浏览器
    browser = await launch(headless=True)
    page = await browser.newPage()
    
    # 打开网页
    await page.goto(url)
    
    # 等待特定元素加载完成
    await page.waitForSelector('.product-list')

    # 获取页面内容
    content = await page.content()
    print(content)

    # 关闭浏览器
    await browser.close()

# 启动异步任务
url = 'https://example.com/dynamic-page'
asyncio.get_event_loop().run_until_complete(fetch_dynamic_content(url))

4.2 截图与调试

Pyppeteer 还支持截图功能，可以帮助我们进行调试。

await page.screenshot({'path': 'screenshot.png'})

5. 使用 Requests 抓取动态网页中的 API 数据

许多动态网站在加载内容时，实际上会向后端发送请求获取数据。我们可以在浏览器的“网络”面板中找到这些请求的 URL，并用 Requests 库模拟这些请求来抓取数据。

import requests

# 目标 URL（在浏览器网络面板中找到的 API 请求 URL）
url = 'https://example.com/api/products'

# 发送请求并获取数据
response = requests.get(url)
data = response.json()

# 打印数据
print(data)

6. 动态抓取的常见问题与技巧

6.1 JavaScript 渲染的内容未加载

如果页面中的内容是通过 JavaScript 渲染的，那么直接用 requests 获取 HTML 不会包含这些内容。这种情况可以考虑：

使用 Selenium 或 Pyppeteer，让浏览器真正执行 JavaScript 并加载内容。
找到 JavaScript 背后的 API 请求，直接获取数据。

6.2 遇到验证码或反爬虫措施

许多网站都有反爬虫措施。遇到这种情况，可以尝试：

调整请求频率：增加请求之间的间隔，避免高频率访问。
使用代理：避免使用固定 IP 地址。
设置浏览器头：在请求中添加浏览器头部信息，模拟正常的浏览器访问。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

7. 动态抓取的实际应用场景

电商数据采集：抓取产品列表和详细信息。
社交媒体分析：获取社交平台的动态内容，如推文或评论。
新闻数据收集：抓取新闻网站动态加载的新闻条目。

8. 小结

动态网页抓取比静态网页抓取复杂得多，因为它需要模拟浏览器行为来执行 JavaScript。然而，使用 Selenium 和 Pyppeteer 等工具，我们可以轻松地抓取动态网页内容。此外，分析网络请求并直接抓取 API 数据也可以是更高效的方式。希望通过本文的介绍，您能够了解 Python 动态网页抓取的基础知识，并运用这些工具来获取所需的数据。

以上就是Python使用Selenium抓取动态网页的方法步骤的详细内容，更多关于Python Selenium抓取网页的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python实现人脸识别
这篇文章主要介绍了Python实现人脸识别，首选抓取多张图片，从中获取特征数据集和平均特征值然后写入 csv 文件 - 计算特征数据集的欧式距离作对比，下面一起来看具体得实现过程吧
2022-01-01
Python3.5文件读与写操作经典实例详解
这篇文章主要介绍了Python3.5文件读与写操作,结合实例形式详细分析了Python针对文件的读写操作常用技巧与相关操作注意事项,需要的朋友可以参考下
2019-05-05
Python之ReportLab绘制条形码和二维码的实例
下面小编就为大家分享一篇Python之ReportLab绘制条形码和二维码的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-01-01
一起来了解python的运算符
这篇文章主要为大家详细介绍了python的运算符，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
python中15种3D绘图函数总结
这篇文章主要为大家详细介绍了python中15种3D绘图函数的用法,文中的示例代码讲解详细,具有一定的学习价值,感兴趣的小伙伴可以跟随小编一起了解一下
2023-09-09
使用Pandas的ExcelWriter操作excel的方法
这篇文章主要介绍了使用Pandas的ExcelWriter操作excel的方法,ExcelWriter这个插件有个坑,就是已经设置好的格式是无法更改的,因此,由pandas转成excel的时候,必须将格式清除,尤其是表头的格式需要大家多多注意,本文结合示例代码讲解的非常详细,需要的朋友参考下吧
2023-11-11
python轻松实现代码编码格式转换
由于某些原因，需要将代码从A机房迁移到B机房，这两个之间不能互相访问，但是历史原因导致A机房的代码全是utf8编码的，B机房要求是GBK编码，看看这个怎么解决。虽然很简单，但是还是要推荐给大家，需要的小伙伴参考下吧。
2015-03-03
python服务器端收发请求的实现代码
这篇文章主要介绍了python服务器端收发请求的实现代码,需要的朋友可以参考下
2014-09-09
python 遍历目录(包括子目录)下所有文件的实例
今天小编就为大家分享一篇python 遍历目录(包括子目录)下所有文件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python中带时区的日期转换工具类总结
这篇文章主要为大家详细介绍了一些Python中带时区的日期转换工具类，文中的示例代码讲解详细，具有一定的学习价值，感兴趣的小伙伴可以跟随小编一起了解一下
2023-05-05