手机
当前位置:查字典教程网 >编程开发 >C#教程 >提取HTML代码中文字的C#函数
提取HTML代码中文字的C#函数
摘要://////去除HTML标记//////包括HTML的源码///已经去除后的文字publicstaticstringStripHTML(st...

///<summary>

///去除HTML标记

///</summary>

///<paramname="strHtml">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

publicstaticstringStripHTML(stringstrHtml)

{

string[]aryReg={

@"<script[^>]*?>.*?</script>",

@"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])([""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?>",

@"([rn])[s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

@"&(nbsp|#160);",

@"&(iexcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"",

@"-->",

@"<!--.*n"

};

string[]aryRep={

"",

"",

"",

""",

"&",

"<",

">",

"",

"xa1",//chr(161),

"xa2",//chr(162),

"xa3",//chr(163),

"xa9",//chr(169),

"",

"rn",

""

};

stringnewReg=aryReg[0];

stringstrOutput=strHtml;

for(inti=0;i<aryReg.Length;i++)

{

Regexregex=newRegex(aryReg[i],RegexOptions.IgnoreCase);

strOutput=regex.Replace(strOutput,aryRep[i]);

}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("rn","");

returnstrOutput;

}

【提取HTML代码中文字的C#函数】相关文章:

C#词法分析器之输入缓冲和代码定位的应用分析

C# Base64编码函数

C#操作目录与文件的方法步骤

HTML文本框的值改变后触发后台代码的方法

C#中计算时间差中的小数问题解决

c# 控件截图的简单实例

C#对象与XMl文件之间的相互转换

C#中英文混合字符串截取函数

解析StreamReader与文件乱码问题的解决方法

关于c#中枚举类型支持显示中文的扩展说明

精品推荐
分类导航