c++编程的字符集及其转换

一.两种字符集

  多字节字符集(MBCS):因为计算机最早是在英语国家诞生的,大多数英文信息是由英文字母、数字以及一些其它字符构成了一个128个字符的ASCII字符集。本来这对于英语国家来说够用了。但是随着计算机的普及,非英语国家的文字字符也需要用计算机来存储,这时字符集就需要一种扩展机制了。一种简单的扩展机制就是兼容ASCII字符集,在后面加上自己的编码。可以想象,不同字符的编号长度是不一样的,有些是两个字节,有些是三个字节甚至四个字节等等。这样的字符集就叫多字节字符集。多字节字符集就是多种字符集的统称,比如中文字符集GB2312和GBK、日文编码JIS都是多字节字符集.些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码

  UNICODE(万国码):由于多字节字符遵循的是各个国家的编码,要进行信息交换必须进行繁琐的转换。这时就有人想:有没有一种编码规则,能给全世界的字符都编上统一的编号呢?就这样unicode字符集诞生了。unicode字符集顾名思义就是每个字符都有一个唯一的编码。最早的unicode字符是采用两个字节也是16位对字符进行编码(也就是能够对65536个字符进行编号),故被称为utf-16。后来发现大多信息都是英文构成的,为了节省空间,同时为了兼容单字节的处理系统,就出现了一种变种的unicode字符集——utf8。utf8的实现原理和多字节字符集一样,前面是128个子符是ASCII字符,后面的采用变长的编码方式,就是一个字符可能用两个字节、三个字节或四个字节进行编码。再到后面发现16位的编码也不够用了,采用32位编码,这样就出现了utf-32:

二.c++中的常见的数据类型

  char          是C语言标准数据类型,字符型。通常由编译器决定一个char对象有多少个字节组成,一般是一字节。(ansi字符集) 

 LPSTR(char*) LPCSTR(const char*)

    wchar_t    是char的Unicode版本。相当于 unsigned short。一般两个字节。(unicode字符集) 

 LPWSTR(wchar_t*) LPCWSTR(const wchar_t*)

    CHAR       参照定义: typedef   char           CHAR; 

    WCHAR    参照定义:typedef    wchar_t     WHAR;

    TCAHR     通用版字符类型:在ANSI编译方式下为 char , 在Unicode 编译方式下为 wchar_t(这种是一种通用型的字符集,在不同的字符系统中有不同的作用,wcsxxxx是unicode版本的操作函数)  LPTSTR(CHAR*)

CString 类是微软的visual c++提供的MFC里面的一个类,所以只有支持MFC的工程才可以使用。如在linux上的工程就不能用CString了,只能用标准C++中的 string类了。另外,因为string类是在c++标准库中,所以它被封装在了std命名空间中,使用之前需要声明using namespace std;而CString类并不在std命名空间中,因为它不是c++的标准库,只是微软的一个封装库。这点看来用string类的程序的移植性更好。

三.数据类型之间的转换

  万能的转换方法:TEXT(),这种方法会检测系统现在的字符集然后自动的做出编码的选择.

  ANSI转换为宽字节:可以在字符串的前面加上"L";或是_T()

  cstring和char*的相互转换:

    cstring->char*:    

CString a=L"HAH";
CStringA temp=str;
char * pp=temp.GetBuffer();

   char*->cstring:直接用cstring的构造函数即可:a=CString("hahha");

  string 和cstring 要以char*为桥梁!!

原文地址:https://www.cnblogs.com/yskn/p/9679263.html