C# 爬虫简单教程

更新时间：2020年12月29日 14:37:48 作者：张缺缺

这篇文章主要介绍了C# 爬虫的简单教程，帮助大家更好的理解和使用c#，感兴趣的朋友可以了解下

1、使用第三方类库 HtmlAgilityPack

官方网址：https://html-agility-pack.net/?z=codeplex、

// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web  从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、这里介绍一下最后一种用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息，来处理一些特定的网站需求，比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串，而爬虫所做的就是在这堆字符串中，查询到我们想要的信息，挑选出来。
以往的筛选方法：正则（太麻烦了，写起来有些头疼）
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath？

网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息？

获取选中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封装的类库

 /// <summary>
  /// 下载HTML帮助类
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    /// 从Url地址下载页面
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    /// 获取单个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 获取多个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    /// 获取多个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    /// 获取单个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 下载图片
    /// </summary>
    /// <param name="url">地址</param>
    /// <param name="filpath">文件路径</param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("下载图片异常", ex);
      }
      
    }
  }

3、自己写的爬虫案例，爬取的网站https://www.meitu131.com/

数据存储层没有实现，懒得写了，靠你们喽，我是数据暂时存在了文件中
GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬虫简单教程的详细内容，更多关于c# 爬虫的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

c#
爬虫

C#中类的异常处理详解
大家好，本篇文章主要讲的是C#中类的异常处理详解，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02
C#队列Queue多线程用法实例
这篇文章主要介绍了C#队列Queue多线程用法,实例分析了队列的相关使用技巧,需要的朋友可以参考下
2015-05-05
C#简单嵌套flash读取数据的实现代码
这篇文章主要介绍了C#简单嵌套flash读取数据的实现代码，有需要的朋友可以参考一下
2013-11-11
C#实现伪装文件夹功能
这篇文章主要为大家详细介绍了如何利用C#实现伪装文件夹的功能，文中的示例代码讲解详细，对我们学习C#有一定的帮助，感兴趣的小伙伴可以跟随小编一起了解一下
2022-12-12
C# 根据字符串生成二维码的实例代码
这篇文章主要介绍了C# 根据字符串生成二维码的实例，文中示例代码非常详细，帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-07-07
Unity3D中脚本的执行顺序和编译顺序
在Unity中可以同时创建很多脚本，并且可以分别绑定到不同的游戏对象上，它们各自都在自己的生命周期中运行。与脚本有关的也就是编译和执行啦，本文就来研究一下Unity中脚本的编译和执行顺序的问题。
2014-11-11
C#使用时序数据库InfluxDB的教程详解
InfluxDB是一个开源的时序数据库,可以自动处理时间序列数据,这篇文章主要为大家详细介绍了C#如何使用InfluxDB,感兴趣的小伙伴可以跟随小编一起了解下
2023-11-11
C#操作Excel相关方法总结
这篇文章主要介绍了C#操作Excel相关方法总结，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-07-07
C#实现TreeView节点拖拽的方法
这篇文章主要介绍了C#实现TreeView节点拖拽的方法,涉及C#针对TreeView节点的动态添加及移除技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-09-09
C# OpenCvSharp实现通过特征点匹配图片
这篇文章主要为大家详细介绍了C#如何结合OpenCVSharp4实现通过特征点匹配图片,文中的示例代码简洁易懂,具有一定的学习价值,需要的小伙伴可以参考下
2023-11-11