字符编码(续)---Unicode与ANSI字符串转换以及分辨字符编码形式

Unicode与ANSI字符串转换

我们使用windows函数MultiByteToWideChar将多字节字符串转换为宽字符字符串，如下：

int MultiByteToWideChar(
    UINT uCodePage,
    DWORD dwFlags,
    PCSTR pMultiByteStr,
    int cbMultiByte,
    PWSTR pWideCharStr,
    int cchWideChar);

uCodePage参数标识了与多字节字符串关联的一个代码页值。dwFlags参数允许我们进行额外的控制，它会影响带变音符号(比如重音)的字符。但是，一般情况下都不使用这些标

步，所以传给它的参数为0。pMultiByteStr参数指定要转换的字符串，cbMultiByte参数指定字符串的长度(字节数)。如果传给cbMultiByte参数的值是-1,函数便可自动判断源字符串的长度。函数将转换所得的Unicode版本的字符串写入内存缓冲区，其内存地址由pWideCharStr参数所指定。必须在cchWideChar参数中指定这个缓冲区的最大长度(字符数)。如果调用MultiByteToWideChar，并给cchWideChar参数传入0,函数就不会执行转换，而是返回一个宽字符数(包括终止字符'')，只有当缓冲区能够容纳该数量的宽字符时，转换才会成功。一般按照以下步骤将一个多字节字符串转换为Unicode形式。

(l)调用MultiByteToWideChar，为pMultiByteStr参数传入NULL，为cchWideChar参数传入0，为cbMultiByte参数传入-1。

(2)分配一块足以容纳转换后的Unicode字符串的内存。它的大小是上一个MultiByteToWideChar调用的返回值乘以sizeof(wchar_t)。

(3)再次调用MultiByteToWideChar，这一次将缓冲区地址作为pMultiByteStr参数的值传入，将第一次MultiByteToWideChar调用的返回值乘以sizeof(wchar_t)后得到的大小作为cchWideChar参数的值传入。
(4)使用转换后的字符串。
(5)释放Unicode字符串占用的内存块。
对应地，WideCharToMultiByte函数将宽字符字符串转换为多字节字符串，如下所示:

int WideCharToMultiByte(
    UINT uCodePage,
    DWORD dwFlags,
    PCWSTR pWideCharStr,
    int cchWideChar,
    PSTR pMultiByteStr,
    int cbMultiByte,
    PCSTR pDefaultChar,
    PBOOL pfUsedDefaultChar);

这个函数类似于MultiByteToWideChar函数。同样地，uCodePage标识了要与新转换的字符串关联的代码页。dwFlags参数允许我们指定额外的转换控制。这些标志会影响带变音符号的字符和系统不能转换的字符。但我们一般不需要进行这种程度的转换控制，因而为dwFlags参数传入0。

pWideCharStr参数指定要转换的字符串的内存地址，cchWideChar参数指出该字符串的长度(字符数)。如果为cchWideChar参数传入-1，则由函数来判断源字符串的一长度。

转换所得的多字节版本的字符串被写入pMultiByteStr参数所指定的缓冲区。必须在cbMultiByte参数中指定此缓冲区的最大大小(字节数)。调用WideCharToMultiByte函数时，如果将0作为cbMultiByte参数的值传入，会导致该函数返回目标缓冲区需要的大小。将宽字符字符串转换为多字节字符串时，采取的步骤和前面将多字节字符串转换为宽字符串的步骤相似;唯一不同的是，返回值直接就是确保转换成功所需的字节数，所以无需执行乘法运算。

注意，与MultiByteToWideChar函数相比，WideCharToMultiByte函数接受的参数要多两个，分别是pDefaultChar和pfUsedDefaultChar。只有一个字符在uCodePage指定的代码页中没有对应的表示时，WideCharToMultiByte函数才会使用这两个参数。在遇到一个不能转换的宽字符时，函数便使用pDefaultChar参数指向的字符。如果这个参数为NULL(这是很常见的一个情况)，函数就会使用一个系统默认的字符。这个字符通常是一个问号。这对文件名来说非常危险，因为问号是一个通配符。

pfUsedDefaultChar参数指向一个布尔变量;在宽字符字符串中，如果至少有一个字符不能转换为对应的多字节形式，函数就会把这个变量设为TRUE。如果所有字符都能成功转换，就会把这个变量设为FALSE。我们可以在函数返回后测试该变量，验证宽字符字符串是否已成功转换。同样地，我们通常为此参数传入NULL值。

分辨字符编码形式

IsTextUnicode函数可以分辨字符是ANSI还是Unicode形式，该函数由AdvApi32.dll导出并在WinBase.h中声明：

BOOL IsTextUnicode(CONST PVOID pvBuffer, int cb, PINT pResult);

IsTextUnicode函数使用一系列的统计性和确定性方法来猜测缓冲区中的内容，存在一定误差性。

它的第一个参数是pvBuffer，标识了要测试的缓冲区的地址。此数据是一个void指针，因为还不知道即将面对的是一组ANSI字符还是Unicode字符。

第二个参数是cb，它指定pvBuffer指向的缓冲区的字节数。同样地，由于不知道缓冲区中是什么，所以cb是一个字节数而不是字符数。注意：我们不必指定整个缓冲区的长度。当然，函数测试的字节数越多，结果越精确。

第三个参数是pResult,这是一个整数的地址，在调用IsTextUnicode函数之前，我们必须初始化这个整数。在这个整数的初始值中，应指出希望IsTextUnicode执行哪些测试。也可以为其传入NULL，这种情况下，IsTextUnicode函数将执行它能执行的每一项测试。

如果IsTextUnicode函数认为缓冲区包含的是Unicode文本，就会返回TRUE;反之则返回FALSE。在pResult参数指向的整数中，如果指定了具体的测试项目，那么函数在返回之前，还全设置此整数中的相应位，以反映每个测试项目的结果。