电脑系统中的英文字符串和中文字符最根本的区别就在于:
1、英文的 ASCII 码,其最高位为 0,占一个字节
注:英文的ASCII码范围是在0到127,二进制为(0000 0000 ~ 0111 1111)
2、中文的 ASCII 码,其最高位为 1。占两个字节,
注:两个字节的最高位都是1
因此可以看出,可以拿字符串中的每个字节和ASC||的最高位也就是0x80(1000 0000)比较,如果一开始并且有两个连续的字符比0x80大,那么这两个字符合在一起为一个中文
再例如:若需要处理的字符是汉字的话,那么其 ASCII 码最高位为 1。位于汉字符号区的区位码,第一个汉字是从“啊”字开始的,其区位码是:1601,但是它的汉字内码是这样计算的:
区码 16:16+160 = 176,转换成十六进制:B0,其对应的二进制为:10110000
位码 01:01+160 = 161,转换成十六进制:A1,其对应的二进制为:10100001
gb2312码表:https://blog.csdn.net/oshan2012/article/details/79070705
通俗地说:
首先,汉字是双字节的编码格式!
汉字的第一字节:是从0xB0 开始编码
汉字的第二字节:是从0xA1 开始编码
有了以上的了解,就不难识别出是中文,还是其他的编码!
程序中只需要判断( 第一字节>=0xB0 && 第二字节>=0xA1 )就好!
#include<iostream>
using namespace std;
int IncludeChinese(char *str)//返回0:无中文,返回1:有中文
{
char c;
while(1)
{
c=*str++;
if (c==0) break; //如果到字符串尾则说明该字符串没有中文字符
if (c&0x80) //如果字符高位为1且下一字符高位也是1则有中文字符
if (*str & 0x80) return 1;
}
return 0;
}
int main(){
char s[11]={"我叫海贼王"};
cout<<IncludeChinese(s)<<endl;
char sztext[3]={0};
int time=0;
for(int i=0;i<10;i++){
if(s[i]>=0&&s[i]<=127); //不是全角字符
else time++;
}
cout<<"有"<<(time/2)<<"个汉字"<<endl;
}
运行结果:
第一个表示有汉字,第二个表示有5个汉字
原文链接:https://www.exueyuan.top/989.html,转载请注明出处。
请先
!