C#使用for循环移除HTML标记

更新时间：2016年08月19日 09:18:55 作者：Jaxu

大家在项目开发阶段移除文字中的html标记最常用的方法就是使用正则表达式，但是正则表达式不能处理所有的html文档，所以采用迭代方式会更好，下面小编给大家解答下

移除一段文字中的HTML标记，以消除其中包含的样式和段落等，最常用的办法可能就是正则表达式了。但是请注意，正则表达式并不能处理所有的HTML文档，所以有时采用一个迭代的方式会更好，如for循环。

看下面的代码：

using System;
using System.Text.RegularExpressions;
/// <summary>
/// Methods to remove HTML from strings.
/// </summary>
public static class HtmlRemoval
{
/// <summary>
/// Remove HTML from string with Regex.
/// </summary>
public static string StripTagsRegex(string source)
{
return Regex.Replace(source, "<.*?>", string.Empty);
}
/// <summary>
/// Compiled regular expression for performance.
/// </summary>
static Regex _htmlRegex = new Regex("<.*?>", RegexOptions.Compiled);
/// <summary>
/// Remove HTML from string with compiled Regex.
/// </summary>
public static string StripTagsRegexCompiled(string source)
{
return _htmlRegex.Replace(source, string.Empty);
}
/// <summary>
/// Remove HTML tags from string using char array.
/// </summary>
public static string StripTagsCharArray(string source)
{
char[] array = new char[source.Length];
int arrayIndex = 0;
bool inside = false;
for (int i = 0; i < source.Length; i++)
{
char let = source[i];
if (let == '<')
{
inside = true;
continue;
}
if (let == '>')
{
inside = false;
continue;
}
if (!inside)
{
array[arrayIndex] = let;
arrayIndex++;
}
}
return new string(array, 0, arrayIndex);
}
}

代码中提供了两种不同的方式来移除给定字符串中的HTML标记，一个是使用正则表达式，一个是使用字符数组在for循环中进行处理。来看一下测试的结果：

using System;
using System.Text.RegularExpressions;
class Program
{
static void Main()
{
const string html = "<p>There was a <b>.NET</b> programmer " +
"and he stripped the <i>HTML</i> tags.</p>";
Console.WriteLine(HtmlRemoval.StripTagsRegex(html));
Console.WriteLine(HtmlRemoval.StripTagsRegexCompiled(html));
Console.WriteLine(HtmlRemoval.StripTagsCharArray(html));
}
}

　　输出结果如下：

There was a .NET programmer and he stripped the HTML tags.
There was a .NET programmer and he stripped the HTML tags.
There was a .NET programmer and he stripped the HTML tags.

　　上述代码中分别调用了HtmlRemoval类中的三个不同的方法，均返回了相同的结果，即去除了给定字符串中的HTML标记。推荐使用第二种方法，即直接引用一个预先定义好的RegexOptions.Compiled的正则表达式对象，它比第一种方法速度更快。但是RegexOptions.Compiled有一些缺点，在某些情况下它的启动时间会增加数十倍。具体的内容可以查看下面这两篇文章：

RegexOption.Compiled
Regex Performance

　　通常，正则表达式的执行效率并不是最高的，所以HtmlRemoval类中给定了另一种方法，使用字符数组来处理字符串。测试程序提供了1000个HTML文件，每个HTML文件中有大约8000个字符，所有的文件均通过File.ReadAllText方式进行读取，测试结果显示字符数组的方式执行速度是最快的。

Performance test for HTML removal

HtmlRemoval.StripTagsRegex: 2404 ms
HtmlRemoval.StripTagsRegexCompiled: 1366 ms
HtmlRemoval.StripTagsCharArray: 287 ms [最快]

File length test for HTML removal

File length before: 8085 chars
HtmlRemoval.StripTagsRegex: 4382 chars
HtmlRemoval.StripTagsRegexCompiled: 4382 chars
HtmlRemoval.StripTagsCharArray: 4382 chars

　　所以，使用字符数组来处理大批量的文件时可以节省时间。在字符数组方法中，仅仅只是将非HTML标记的字符添加到数组缓冲区，为了提高效率，它使用字符数组和一个新的字符串构造器来接收字符数组和范围，这个会比使用StringBuilder速度更快。

对于自关闭的HTML标记

　　在XHTML中，某些标记并不具有独立的关闭标签，如<br/>，<img/>等。上述代码应该能够正确处理自关闭的HTML标记。下面是一些支持的HTML标记，注意，正则表达式方法可能无法正确处理无效的HTML标记。

Supported tags

<img src="" />
<img src=""/>
<br />
<br/>
< div >
<!-- -->

HTML文档中的注释

　　本文给出的代码对移除HTML文档注释中的HTML标记可能会失效。有些时候，注释中可能会包含一些无效的HTML标记，在处理时这些HTML标记不会被完全移除。但是，扫描这些不正确的HTML标记有时可能是必要的。

如何验证

　　有许多种方法可以用来验证XHTML，我们可以采用和上面代码相同的方式来进行迭代。一个简单的方法是对'<'和'>'进行计数，从而确定它们是否匹配，或者采用正则表达式进行匹配。这里有一些资源介绍了这些方法：

HTML Brackets: Validation

Validate XHTML

　　有许多方法都可以用来去除给定字符串中的HTML标记，它们返回的结果也都是正确的。毫无疑问，采用字符数组进行迭代的效率最高。

以上所述是小编给大家介绍的C#使用for循环移除HTML标记，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！

您可能感兴趣的文章:

C#常见的几种集合 ArrayList，Hashtable，List<T>，Dictionary<K,
本文对C#中常见集合ArrayList，Hashtable，List<T>，Dictionary<K,V>遍历方法做了简单的对比和介绍，有需要的朋友可以参考一下。
2016-03-03
C#异步编程由浅入深(一)
这篇文章主要介绍了C#异步编程由浅入深(一),本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-03-03
C#文件操作、读取文件、Debug/Trace类用法
这篇文章介绍了C#文件操作、读取文件、Debug/Trace类的用法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-03-03
C# 填充Excel图表、图例背景色的实例代码
下面的内容将分别介绍通过C#来设置Excel中图表背景色、以及图表中的图例背景色的方法,需要的朋友可以参考下
2019-04-04
C#中事务处理和非事务处理方法实例分析
这篇文章主要介绍了C#中事务处理和非事务处理方法,较为详细的分析了C#中事务处理与非事务处理的使用技巧,对于使用C#进行数据库程序开发有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
C# 调用命令行执行Cmd命令的操作
这篇文章主要介绍了C# 调用命令行执行Cmd命令的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-04-04
C#实现的SQL备份与还原功能示例
这篇文章主要介绍了C#实现的SQL备份与还原功能,结合具体实例形式分析了C#操作数据库实现SQL备份与还原相关的控件、SQL连接、文件等操作技巧,需要的朋友可以参考下
2017-06-06
C#如何删除指定文件或文件夹
这篇文章主要介绍了C#如何删除指定文件或文件夹，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-01-01
C#实现计算器窗体程序
这篇文章主要为大家详细介绍了C#实现计算器窗体程序，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-01-01
C#/VB.NET实现创建PDF/UA文件的示例代码
PDF/UA，即Universally Accessible PDF，该格式的PDF文件是于2012年8月以ISO标准14289-1发布的、具有普遍可访问的PDF文档标准。本文将用C#实现DF/UA文件的创建，需要的可以参考一下
2022-08-08

C#使用for循环移除HTML标记

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具