用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)

 更新时间:2022年01月25日 17:31:25   作者:DotNetCore实战  
这篇文章主要介绍了用C#+Selenium+ChromeDriver爬取网页,模拟真实的用户浏览行为,需要的小伙伴可以参考一下

以下文章来源于公众号:DotNetCore实战

1.背景

 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。而对于爬虫来说,使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。这里,我将介绍selenium + 谷歌浏览器的一般使用。

2.需求

在平常的爬虫开发中,有时候网页是一堆js堆起来的代码,涉及很多异步计算,如果是普通的http 控制台请求,那么得到的源文件是一堆js ,需要自己在去组装数据,很费力;但是采用Selenium+ChromeDriver可以达到所见即所得的完美效果。

3.实现方式

项目结构:为了方便使用,用的winform程序,附nuget包

 以下是form1.cs的代码,这里就只放关键方法代码了。需要安装最新的chrome浏览器+代码中使用的chromedriver是 v2.9.248315

 #region 异常  退出chromedriver

        [DllImport("user32.dll", EntryPoint = "FindWindow")]
        private extern static IntPtr FindWindow(string lpClassName, string lpWindowName);

        [DllImport("user32.dll", EntryPoint = "SendMessage")]
        public static extern int SendMessage(IntPtr hWnd, int Msg, int wParam, int lParam);

        public const int SW_HIDE = 0;
        public const int SW_SHOW = 5;

        [DllImport("user32.dll", EntryPoint = "ShowWindow")]
        public static extern int ShowWindow(IntPtr hwnd, int nCmdShow);

        /// <summary>
        /// 获取窗口句柄
        /// </summary>
        /// <returns></returns>
        public IntPtr GetWindowHandle()
        {
            string name = (Environment.CurrentDirectory + "\\chromedriver.exe");
            IntPtr hwd = FindWindow(null, name);
            return hwd;
        }

        /// <summary>
        /// 关闭chromedriver窗口
        /// </summary>
        public void CloseWindow()
        {
            try
            {
                IntPtr hwd = GetWindowHandle();
                SendMessage(hwd, 0x10, 0, 0);
            }
            catch { }
        }

        /// <summary>
        /// 退出chromedriver
        /// </summary>
        /// <param name="driver"></param>
        public void CloseChromeDriver(IWebDriver driver)
        {
            try
            {
                driver.Quit();
                driver.Dispose();
            }
            catch { }
            CloseWindow();
        }

        #endregion 异常  退出chromedriver

效果:

说一下思路:

  • 1.跳转到指定的网页driver.Navigate().GoToUrl
  • 2.确定数据源,从driver.PageSource读取数据
  • 3.对html数据进行解析

到此这篇关于用C#+Selenium+ChromeDriver爬取网页(模拟真实的用户浏览行为)的文章就介绍到这了,更多相关用C#+Selenium+ChromeDriver 爬取网页内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C# 获取系统进程的用户名

    C# 获取系统进程的用户名

    这也是应一位网友的要求写的,写的比较仓促,凑合吧
    2009-06-06
  • C#从文件流读取xml文件到DataSet并显示的方法

    C#从文件流读取xml文件到DataSet并显示的方法

    这篇文章主要介绍了C#从文件流读取xml文件到DataSet并显示的方法,实例分析了C#操作XML文件的技巧与DataSet的使用方法,需要的朋友可以参考下
    2015-04-04
  • C#中闭包概念讲解

    C#中闭包概念讲解

    这篇文章主要介绍了C#中闭包概念讲解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-07-07
  • Unity常用音频操作类示例代码

    Unity常用音频操作类示例代码

    这篇文章主要介绍了Unity常用音频操作类,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-07-07
  • C#集合之位数组的用法

    C#集合之位数组的用法

    这篇文章介绍了C#集合之位数组的用法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-04-04
  • C# 线程切换后上下文都去了哪里(.NET高级调试分析)

    C# 线程切换后上下文都去了哪里(.NET高级调试分析)

    总会有一些朋友问一个问题,在 Windows 中线程做了上下文切换,请问被切的线程他的寄存器上下文都去了哪里?这个问题其实比较底层,如果对操作系统没有个体系层面的理解以及做过源码分析,其实很难说明白,这篇我们就从.NET高级调试的角度分析,需要的朋友可以参考下
    2023-12-12
  • C#实现文本文件读写方法汇总

    C#实现文本文件读写方法汇总

    本文给大家汇总介绍了C#实现文本文件读写的方法,十分的简单实用,有需要的小伙伴可以参考下。
    2015-06-06
  • c#中winform根据邮箱地址和密码一键发送email的实现

    c#中winform根据邮箱地址和密码一键发送email的实现

    本文主要介绍了c#winform根据邮箱地址和密码一键发送email的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • C#微信开发之发送模板消息

    C#微信开发之发送模板消息

    这篇文章主要为大家详细介绍了C#微信开发之发送模板消息的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • C# 数组删除元素的实现示例

    C# 数组删除元素的实现示例

    本文主要介绍了C# 数组删除元素的实现示例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08

最新评论