手机
当前位置:查字典教程网 >编程开发 >C#教程 >提取HTML代码中文字的C#函数
提取HTML代码中文字的C#函数
摘要://////去除HTML标记//////包括HTML的源码///已经去除后的文字publicstaticstringStripHTML(st...

///<summary>

///去除HTML标记

///</summary>

///<paramname="strHtml">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

publicstaticstringStripHTML(stringstrHtml)

{

string[]aryReg={

@"<script[^>]*?>.*?</script>",

@"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])([""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?>",

@"([rn])[s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

@"&(nbsp|#160);",

@"&(iexcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"",

@"-->",

@"<!--.*n"

};

string[]aryRep={

"",

"",

"",

""",

"&",

"<",

">",

"",

"xa1",//chr(161),

"xa2",//chr(162),

"xa3",//chr(163),

"xa9",//chr(169),

"",

"rn",

""

};

stringnewReg=aryReg[0];

stringstrOutput=strHtml;

for(inti=0;i<aryReg.Length;i++)

{

Regexregex=newRegex(aryReg[i],RegexOptions.IgnoreCase);

strOutput=regex.Replace(strOutput,aryRep[i]);

}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("rn","");

returnstrOutput;

}

【提取HTML代码中文字的C#函数】相关文章:

C#中的yield关键字的使用方法介绍

C# Base64编码函数

C# 获取枚举值的简单实例

c#给图片添加文字的代码小结

C# 打开电子邮件软件的具体方法

C# 获取属性名的方法

c#判断输入的是不是数字的小例子

C#词法分析器之输入缓冲和代码定位的应用分析

C#操作目录与文件的方法步骤

C# 读取指定路径配置文件的方法

精品推荐
分类导航