手机
当前位置:查字典教程网 >编程开发 >C#教程 >提取HTML代码中文字的C#函数
提取HTML代码中文字的C#函数
摘要://////去除HTML标记//////包括HTML的源码///已经去除后的文字publicstaticstringStripHTML(st...

///<summary>

///去除HTML标记

///</summary>

///<paramname="strHtml">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

publicstaticstringStripHTML(stringstrHtml)

{

string[]aryReg={

@"<script[^>]*?>.*?</script>",

@"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])([""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?>",

@"([rn])[s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

@"&(nbsp|#160);",

@"&(iexcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"",

@"-->",

@"<!--.*n"

};

string[]aryRep={

"",

"",

"",

""",

"&",

"<",

">",

"",

"xa1",//chr(161),

"xa2",//chr(162),

"xa3",//chr(163),

"xa9",//chr(169),

"",

"rn",

""

};

stringnewReg=aryReg[0];

stringstrOutput=strHtml;

for(inti=0;i<aryReg.Length;i++)

{

Regexregex=newRegex(aryReg[i],RegexOptions.IgnoreCase);

strOutput=regex.Replace(strOutput,aryRep[i]);

}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("rn","");

returnstrOutput;

}

【提取HTML代码中文字的C#函数】相关文章:

c#判断输入的是不是数字的小例子

C#下解析HTML的两种方法介绍

C#根据年月日计算星期几的函数小例子

浅析C# 基础语法的使用

C# 获取属性名的方法

c#给图片添加文字的代码小结

C# 读取指定路径配置文件的方法

c#中var关键字用法浅谈

C#中的yield关键字的使用方法介绍

C#对象与XMl文件之间的相互转换

精品推荐
分类导航