C#爬取动态网页上信息得流程步骤

更新时间：2024年10月21日 08:46:15 作者：小码编匠

动态内容网站使用 JavaScript 脚本动态检索和渲染数据,爬取信息时需要模拟浏览器行为,否则获取到的源码基本是空的,这篇文章主要给大家详细介绍了C#爬取动态网页上信息得流程步骤,需要的朋友可以参考下

简介

动态内容网站使用 JavaScript 脚本动态检索和渲染数据，爬取信息时需要模拟浏览器行为，否则获取到的源码基本是空的。

本文使用的爬取步骤如下：

使用 Selenium 获取渲染后的 HTML 文档
使用 HtmlAgilityPack 解析 HTML 文档

新建项目，安装需要的库：

Selenium.WebDriver
HtmlAgilityPack

获取 HTML 文档

需要注意的主要是以下2点：

设置浏览器启动参数：无头模式、禁用GPU加速、设置启动时窗口大小
等待页面动态加载完成：等待5秒钟，设置一个合适的时间即可

private static string GetHtml(string url)
{
    ChromeOptions options = new ChromeOptions();
    // 不显示浏览器
    options.AddArgument("--headless");
    // GPU加速可能会导致Chrome出现黑屏及CPU占用率过高
    options.AddArgument("--nogpu");
    // 设置chrome启动时size大小
    options.AddArgument("--window-size=10,10");

    using (var driver = new ChromeDriver(options))
    {
        try
        {
            driver.Manage().Window.Minimize();
            driver.Navigate().GoToUrl(url);
            // 等待页面动态加载完成
            Thread.Sleep(5000);
            // 返回页面源码
            return driver.PageSource;
        }
        catch (NoSuchElementException)
        {
            Console.WriteLine("找不到该元素");
            return string.Empty;
        }
    }
}

解析 HTML 文档

这里以B站为例，爬取B站UP主主页上的视频信息，如视频的标题、链接、封面。

先定义一个类来保存信息：

class VideoInfo
{
    public string Title { get; set; }
    public string Href { get; set; }
    public string ImgUrl { get; set; }
}

定义解析函数，返回视频信息列表：

private static List<VideoInfo> GetVideoInfos(string url)
{
    List<VideoInfo> videoInfos = new List<VideoInfo>();

    // 加载文档
    var html = GetHtml(url);
    var htmlDoc = new HtmlDocument();
    htmlDoc.LoadHtml(html);

    // 解析文档，先定位到视频列表标签
    var xpath = "/html/body/div[2]/div[4]/div/div/div[1]/div[2]/div/div";
    var htmlNodes = htmlDoc.DocumentNode.SelectNodes(xpath);

    // 循环解析它的子节点视频信息
    foreach (var node in htmlNodes)
    {
        var titleNode = node.SelectSingleNode("a[2]");
        var imgNode = node.SelectSingleNode("a[1]/div[1]/picture/source[1]");

        var title = titleNode.InnerText;
        var href = titleNode.Attributes["href"].Value.Trim('/');
        var imgUrl = imgNode.Attributes["srcset"].Value.Split('@')[0].Trim('/');

        videoInfos.Add(new VideoInfo
        {
            Title = title,
            Href = href,
            ImgUrl = imgUrl
        });
    }
    return videoInfos;
}

视频列表标签的 XPath 路径是通过浏览器调试工具，在指定标签上右键 复制完整的XPath 得到：

分析代码中的 node 节点时，html文本格式可能很乱，可以通过在线 HTML 代码格式化工具格式后再进行分析。

测试

以B站UP主星瞳_Official 为例，爬取视频信息：

static void Main(string[] args)
{
    var url = @"https://space.bilibili.com/401315430";
    var videoInfos = GetVideoInfos(url);
    foreach (var videoInfo in videoInfos)
    {
        Console.WriteLine(videoInfo.Title);
        Console.WriteLine(videoInfo.Href);
        Console.WriteLine(videoInfo.ImgUrl);
        Console.WriteLine();
    }
    Console.ReadKey();
}

结果如下：

等一下，好妹妹
www.bilibili.com/video/BV1uyxLeJEM9
i0.hdslb.com/bfs/archive/46a15065d1b6722a04696ffaaa2235287ceaa452.jpg

一口一个?你的超甜辣椒
www.bilibili.com/video/BV1AQsDeiEn1
i0.hdslb.com/bfs/archive/d93d47d67323ee284483e963ffed34fb9884cf61.jpg

这里只是演示爬取动态页面的方法，如果想获取B站UP主的视频信息，建议直接使用 API 请求数据。

最后

以上就是C#爬取动态网页上信息得流程步骤的详细内容，更多关于C#爬取动态网页信息的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

c# DataView.ToTable()方法去除表的重复项问题
这篇文章主要介绍了c# DataView.ToTable()方法去除表的重复项问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12
C# 填充Excel图表、图例背景色的实例代码
下面的内容将分别介绍通过C#来设置Excel中图表背景色、以及图表中的图例背景色的方法,需要的朋友可以参考下
2019-04-04
C# SkinEngine控件给窗体添加皮肤的方法
我在网上搜索过，给窗体使用皮肤的方法有很多，不过C#中这种方法最简单。利用 IrisSkin2.dll 所提供的控件 SkinEngine 来为窗体添加皮肤。
2013-04-04
C#自定义DataGridViewColumn显示TreeView
我们可以自定义DataGridView的DataGridViewColumn来实现自定义的列，下面介绍一下如何通过扩展DataGridViewColumn来实现一个TreeViewColumn
2015-12-12
C#实现文件断点续传下载的方法
这篇文章主要介绍了C#实现文件断点续传下载的方法,涉及网络文件操作的相关技巧,非常具有实用价值,需要的朋友可以参考下
2015-05-05
c#读取excel内容内容示例分享
这篇文章主要介绍了c#读取excel内容内容示例，要求Excel需是.xls格式,需要的朋友可以参考下
2014-03-03
解析C#编程的通用结构和程序书写格式规范
这篇文章主要介绍了C#编程的通用结构和程序书写格式规范,这里我们根据C#语言的开发方微软给出的约定来作为编写样式参照,需要的朋友可以参考下
2016-01-01
C# 基于消息发布订阅模型的示例(下)
这篇文章主要介绍了C# 基于消息发布订阅模型的示例,帮助大家更好的理解和使用c#，感兴趣的朋友可以了解下
2021-03-03
Unity 如何获取鼠标停留位置下的物体
这篇文章主要介绍了Unity 如何获取鼠标停留位置下的物体，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-04-04
C#通过流写入一行数据到文件的方法
这篇文章主要介绍了C#通过流写入一行数据到文件的方法,涉及C#针对文本文件读写的基本技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07

C#爬取动态网页上信息得流程步骤

目录

简介

获取 HTML 文档

解析 HTML 文档

测试

最后

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具