asp.net正则表达式删除指定的HTML标签的代码

更新时间：2010年09月13日 00:14:20 作者：

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人费解的HTML标签,把预订的格式搅乱.

如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

复制代码代码如下:

 
<(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+> 

这个正则是判断HTML标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的HTML标签,这也是我摸索了很长时间才搞出来的.
(?!exp) 匹配后面跟的不是exp的位置
/?\s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除...

复制代码代码如下:

 
private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag 
// <(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@")|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 


return reg.Replace(ctx, ""); 
} 

修正:
上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 \b 断言.

复制代码代码如下:

 
<(?!((/?\s?li\b)|(/?\s?ul)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 

private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag 
// <(?!((/?\s?li\b)|(/?\s?ul\b)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@"\b)|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 

return reg.Replace(ctx, ""); 
} 

您可能感兴趣的文章:

ASP.NET的HtmlForm控件学习及Post与Get的区别概述
HtmlForm 控件用于控制form元素,本文主要介绍下HtmlForm控件的Method/Action方法(要提交数据的页面，即数据要传送至哪个网址)及Post与Get的区别感兴趣的朋友可以了解下，或许对你学习HtmlForm控件有所帮助
2013-02-02
把js文件编译成dll供页面调用的方法
这篇文章主要介绍了把js文件编译成dll供页面调用的方法,需要的朋友可以参考下
2014-08-08
asp.net 动态添加多个用户控件
动态添加多个相同用户控件，并使每个用户控件获取不同的内容。
2009-12-12
.NET Framework 的项目如何使用 FTP 下载文件
本文专门针对面向 .NET Framework 的项目, 对于面向 .NET 6 及更高版本的项目,不再支持 FTP,此示例演示如何从 FTP 服务器下载文件,感兴趣的朋友跟随小编一起看看吧
2024-01-01
服务器读取EXCEL不安装OFFICE如何实现
用asp.net做了一简单的游戏管理后台，涉及到了上传Excel导入数据的功能，在本地开发实现都好好的，可已上传的服务器上就悲剧了，下面有个不错的解决方法，大家可以参考下
2014-03-03
asp.net repeater手写分页实例代码
想用repeater实现手写分页的代码，想自己控制各种样式的朋友，可以用用。
2009-05-05
asp.net 过滤图片标签的正则
asp.net 图片过滤正则实现代码。
2009-07-07
解决asp.net core在输出中文时乱码的问题
最近在学习asp.net core的时候，尝试在控制台，或者页面上输出中文，会出现乱码的问题。那么这该如何解决呢？下面通过这篇文章来一起看看吧，文中给出了详细的解决方法，相信对大家有一定的参考价值。
2016-12-12
asp.net实现DropDownList,TreeView,ListBox的无限极分类目录树
这篇文章主要介绍了asp.net实现DropDownList,TreeView,ListBox的无限极分类目录树,结合实例形式较为详细的分析了asp.net常见控件实现无限极分类目录树的具体实现步骤与相关操作技巧,需要的朋友可以参考下
2016-06-06
EF使用Code First模式生成单数形式表名
这篇文章介绍了EF使用Code First模式生成单数形式表名的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-03-03