手机
当前位置:查字典教程网 >编程开发 >C语言 >C++中汉字字符串的截取
C++中汉字字符串的截取
摘要:1、复制代码代码如下:constchar*str="test测试test";while(*str){//这里只需要判断第一个字节大于0x80...

1、

复制代码 代码如下:

const char *str = "test测试test";

while(*str)

{

//这里只需要判断第一个字节大于0x80就行了,前提是输入的是合法的GBK字符串

//原因在于,如果第一个字节大于0x80,那么它必然和后面一个字节一起组成一个汉字

//所以就没有必要再去判断后面一个字节了

//再强调一下,前提条件是输入合法的GBK字符串

if(*str > 0x80)

{

// 汉字,计数器++

str += 2;//是汉字自然就该直接+2了

}

else

{

str++;

}

}

2、

参看下面的字符串转换函数。

复制代码 代码如下:

/**

* 用getBytes(encoding):返回字符串的一个byte数组

* 当b[0]为 63时,应该是转码错误

* A、不乱码的汉字字符串:

* 1、encoding用GB2312时,每byte是负数;

* 2、encoding用ISO8859_1时,b[i]全是63。

* B、乱码的汉字字符串:

* 1、encoding用ISO8859_1时,每byte也是负数;

* 2、encoding用GB2312时,b[i]大部分是63。

* C、英文字符串

* 1、encoding用ISO8859_1和GB2312时,每byte都大于0;

* 总结:给定一个字符串,用getBytes("iso8859_1")

* 1、如果b[i]有63,不用转码; A-2

* 2、如果b[i]全大于0,那么为英文字符串,不用转码; B-1

* 3、如果b[i]有小于0的,那么已经乱码,要转码。 C-1

*/

private static String toGb2312(String str) {

if (str == null) return null;

String retStr = str;

byte b[];

try {

b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {

byte b1 = b[i];

if (b1 == 63)

break; //1

else if (b1 > 0)

continue;//2

else if (b1 < 0) { //不可能为0,0为字符串结束符

retStr = new String(b, "GB2312");

break;

}

}

} catch (UnsupportedEncodingException e) {

// e.printStackTrace();

}

return retStr;

}

3、

复制代码 代码如下:

unsigned char *str = "test测试test";

int length;

int i;

length = strlen(str);

for (i = 0; i < length - 1; i++)

{

if ( *str >= 0x81 && *str <= 0xFE

&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)

{

// 汉字

}

}

unsignedchar*str="test测试test";//把字符串换成“汉A”试试,结果为2

有人说:“一个GBK汉字要占两个char空间(二字节),而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”

1、为什么第一个字节的值小于0呢?

2、如果仅通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字,这种逻辑是否保险?

3、因为还看到有人说,GBK编码的汉字有高位和低位两位,第一个是低位吧?需要第一个字节在160-254之间,第二个字节在64-254之间,这样是不是比2中提到的方法要保险?

4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,这个是GBK字符集?GBK兼容GB2312

似乎有些字符集中有些汉字占三个字节

“通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字”

//GBK汉字内码范围

//81-A0 ,40-7E 80-FE

//AA-AF ,40-7E 80-A0

//B0-D6 ,40-7E 80-FE

//D7 ,40-7E 80-F9

//D8-F7 ,40-7E 80-FE

//F8-FE ,40-7E 80-A0

例如://81-A0 ,40-7E 80-FE

表示字符的ascii码要在129-160,64-126,128-254这三个区间段内

4、

在工作中,遇到要截取字符串在屏幕上显示出来,因为字符串带有汉字,如果截取不好,会引起乱码,写了下面的函数

在uclinux下与VC6.0中测试可以通过。

view plaincopy to clipboardprint?

复制代码 代码如下:

/*截取字符串

name :要截取的字符串

store:要存储的字符串

len:要截取的长度

*/

void split_name( char * name , char * store , int len )

{

int i= 0 ;

char strTemp[L(NAMEL)]={0};

if ( strlen(name)

{

strcpy( store, name ); *name=0;

return ;

}

//从第1个字节开始判断

while( i < len )

{

if ( name[i]>>7&1 && name[i+1]>>7&1 ) //if ( name[i] < 0 && name[i+1] < 0 )

i = i + 2 ;

else

i = i + 1 ;

}

i = i > len ? i-3 :i-1;

strncpy( store , name , i+1 ); //截取前i+1位

*(store+i+1)=0;

strcpy( strTemp , name + i + 1 );

strcpy( name , strTemp );

}

【C++中汉字字符串的截取】相关文章:

C++中抽象类和接口的区别介绍

基于C++执行内存memcpy效率测试的分析

c++ 成员函数与非成员函数的抉择

浅谈C/C++中的static与extern关键字的使用详解

C++ 关于STL中sort()对struct排序的方法

C++调试追踪class成员变量的方法

C++中的类模板详解及示例

C++派生类与基类的转换规则

字符串中找出连续最长的数字字符串的实例代码

VC++中的字体设置方法详解

精品推荐
分类导航