VC++的Unicode编程.pdf
【转】【转】VC+的的Unicode编程编程 一、什么是 Unicode 先从 ASCII 说起,ASCII 是用来表示英文字符的一种编码规范。每个 ASCII 字符占用 1 个字节,因此,ASCII 编码可以表示的最大字符数是 255(00HFFH)。其实,英文字符并没有那么多,一般只用前 128 个(00H7FH,最高位为 0),其中包括了控制字符、数字、大小写字母和其它一些符号。而最高位为 1 的另 128 个字符(80HFFH)被称为“扩展 ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其它符号。这种字符编码规则显然用来处理英文没有什么问题。但是面对中文、阿拉伯文等复杂的文字,255 个字符显然不够用。于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB231280”,它是和 ASCII 兼容的一种编码规范,其实就是利用扩展ASCII 没有真正标准化这一点,把一个中文字符用两个扩展 ASCII 字符来表示,以区分 ASCII 码部分。但是这个方法有问题,最大的问题就是中文的文字编码和扩展 ASCII 码有重叠。而很多软件利用扩展 ASCII 码的英文制表符来画表格,这样的软件用到中文系统中,这些表格就会被误认作中文字符,出现乱码。另外,由于各国和各地区都有自己的文字编码规则,它们互相冲突,这给各国和各地区交换信息带来了很大的麻烦。要真正解决这个问题,不能从扩展 ASCII 的角度入手,而必须有一个全新的编码系统,这个系统要可以将中文、法文、德文等等所有的文字统一起来考虑,为每一个文字都分配一个单独的编码。于是,Unicode 诞生了。Unicode 也是一种字符编码方法,它占用两个字节(0000HFFFFH),容纳 65536 个字符,这完全可以容纳全世界所有语言文字的编码。在 Unicode 里,所有的字符被一视同仁,汉字不再使用“两个扩展 ASCII”,而是使用“1 个 Unicode”,也就是说,所有的文字都按一个字符来处理,它们都有一个唯一的 Unicode 码。二、使用 Unicode 编码的好处 使用 Unicode 编码可以使您的工程同时支持多种语言,使您的工程国际化。另外,Windows NT 是使用 Unicode 进行开发的,整个系统都是基于 Unicode 的。如果调用一个 API 函数并给它传递一个 ANSI(ASCII 字符集以及由此派生并兼容的字符集,如:GB2312,通常称为 ANSI 字符集)字符串,那么系统首先要将字符串转换成 Unicode,然后将 Unicode 字符串传递给操作系统。如果希望函数返回 ANSI 字符串,系统就会首先将 Unicode 字符串转换成 ANSI 字符串,然后将结果返回给您的应用程序。进行这些字符串的转换需要占用系统的时间和内存。如果用 Unicode 来开发应用程序,就能够使您的应用程序更加有效地运行。下面例举几个字符的编码以简单演示 ANSI 和 Unicode 的区别:字符 A N 和 ANSI 码 41H 4eH cdbaH Unicode 码 0041H 004eH 548cH 三、使用 C+进行 Unicode 编程 对宽字符的支持其实是 ANSI C 标准的一部分,用以支持多字节表示一个字符。宽字符和 Unicode 并不完全等同,Unicode 只是宽字符的一种编码方式。1、宽字符的定义 在 ANSI 中,一个字符(char)的长度为一个字节(Byte)。使用 Unicode 时,一个字符占据一个字,C+在 wchar.h 头文件中定义了最基本的宽字符类型 wchar_t:typedef unsigned short wchar_t;从这里我们可以清楚地看到,所谓的宽字符就是无符号短整数。2、常量宽字符串 对 C+程序员而言,构造字符串常量是一项经常性的工作。那么,如何构造宽字符字符串常量呢?很简单,只要在字符串常量前加上一个大写的 L 就可以了,比如:wchar_t*str1=L Hello;这个 L 非常重要,只有带上它,编译器才知道你要将字符串存成一个字符一个字。还要注意,在 L 和字符串之间不能有空格。3、宽字符串库函数 为了操作宽字符串,C+专门定义了一套函数,比如求宽字符串长度的函数是 size_t _cdel wchlen(const wchar_t*);为什么要专门定义这些函数呢?最根本的原因是,ANSI 下的字符串都是以0来标识字符串尾的(Unicode 字符串以“00”结束),许多字符串函数的正确操作均是以此为基础进行。而我们知道,在宽字符的情况下,一个字符在内存中要占据一个字的空间,这就会使操作 ANSI 字符的字符串函数无法正确操作。以”Hello”字符串为例,在宽字符下,它的五个字符是:0 x0048 0 x0065 0 x006c 0 x006c 0 x006f 在内存中,实际的排列是:48 00 65 00 6c 00 6c 00 6f 00 于是,ANSI 字符串函数,如 strlen,在碰到第一个 48 后的 00 时,就会认为字符串到尾了,用 strlen 对宽字符串求长度的结果就永远会是 1!4、用宏实现对 ANSI 和 Unicode 通用的编程 可见,C+有一整套的数据类型和函数实现 Unicode 编程,也就是说,您完全可以使用 C+实现 Unicode 编程。如果我们想要我们的程序有两个版本:ANSI 版本和 Unicode 版本。当然,编写两套代码分别实现 ANSI 版本和 Unicode 版本完全是行得通的。但是,针对ANSI 字符和 Unicode 字符维护两套代码是非常麻烦的事情。为了减轻编程的负担,C+定义了一系列的宏,帮助您实现对 ANSI 和 Unicode 的通用编程。C+宏实现 ANSI 和 Unicode 的通用编程的本质是根据”_UNICODE”(注意,有下划线)定义与否,这些宏展开为 ANSI 或 Unicode 字符(字符串)。如下是 tchar.h 头文件中部分代码摘抄:#ifdef _UNICODE typedef wchar_t TCHAR;#define _T(x)L#x#define _T(x)_T(x)#else#define _T(x)x typedef char TCHAR;#endif 可见,这些宏根据”_UNICODE”定义与否,分别展开为 ANSI 或 Unicode 字符。tchar.h 头文件中定义的宏可以分为两类:A、实现字符和常量字符串定义的宏我们只列出两个最常用的宏:宏 未定义_UNICODE(ANSI字符)定义了_UNICODE(Unicode字符)TCHAR char wchar_t _T(x)x L#x 注意:注意:“#”是 ANSI C 标准的预处理语法,它叫做“粘贴符号”,表示将前面的 L 添加到宏参数上。也就是说,如果我们写_T(“Hello”),展开后即为 L“Hello”B、实现字符串函数调用的宏 C+为字符串函数也定义了一系列宏,同样,我们只例举几个常用的宏:宏 未定义_UNICODE(ANSI字符)定义了_UNICODE(Unicode字符)_tcschr strchr wcschr _tcscmp strcmp wcscmp _tcslen strlen wcslen 四、使用 Win32 API 进行 Unicode 编程 Win32 API 中定义了一些自己的字符数据类型。这些数据类型的定义在 winnt.h 头文件中。例如:typedef char CHAR;typedef unsigned short WCHAR;/wc,16-bit UNICODE character typedef CONST CHAR*LPCSTR,*PCSTR;Win32 API 在 winnt.h 头文件中定义了一些实现字符和常量字符串的宏进行 ANSI/Unicode 通用编程。同样,只例举几个最常用的:#ifdef UNICODE typedef WCHAR TCHAR,*PTCHAR;typedef LPWSTR LPTCH,PTCH;typedef LPWSTR PTSTR,LPTSTR;typedef LPCWSTR LPCTSTR;#define _TEXT(quote)L#quote /r_winnt#else /*UNICODE*/r_winnt typedef char TCHAR,*PTCHAR;typedef LPSTR LPTCH,PTCH;typedef LPSTR PTSTR,LPTSTR;typedef LPCSTR LPCTSTR;#define _TEXT(quote)quote /r_winnt#endif/*UNICODE*/r_winnt 从以上头文件可以看出,winnt.h 根据是否定义了 UNICODE(没有下划线),进行条件编译。Win32 API 也定义了一套字符串函数,它们根据是否定义了“UNICODE”分别展开为 ANSI 和 Unicode 字符串函数。如:lstrlen。API 的字符串操作函数和 C+的操作函数可以实现相同的功能,所以,如果需要的话,建议您尽可能使用 C+的字符串函数,没必要去花太多精力再去学习 API 的这些东西。也许您从来没有注意到,Win32 API 实际上有两个版本。一个版本接受 MBCS 字符串,另一个接受 Unicode 字符串。例如:其实根本没有SetWindowText()这个 API 函数,相反,有 SetWindowTextA()和 SetWindowTextW()。后缀 A 表明这是 MBCS 函数,后缀 W 表示这是 Unicode 版本的函数。这些 API 函数的头文件在 winuser.h 中声明,下面例举 winuser.h 中的 SetWindowText()函数的声明部分:#ifdef UNICODE#define SetWindowText SetWindowTextW#else#define SetWindowText SetWindowTextA#endif/!UNICODE 可见,API 函数根据定义 UNICODE 与否决定指向 Unicode 版本还是 MBCS 版本。细心的读者可能已经注意到了 UNICODE 和_UNICODE 的区别,前者没有下划线,专门用于 Windows 头文件;后者有一个前缀下划线,专门用于 C 运行时头文件。换句话说,也就是在 ANSI C+语言里面根据_UNICODE(有下划线)定义与否,各宏分别展开为 Unicode 或 ANSI 字符,在 Windows 里面根据 UNICODE(无下划线)定义与否,各宏分别展开为 Unicode 或 ANSI 字符。在后面我们将会看到,实际使用中我们不加严格区分,同时定义_UNICODE 和 UNICODE,以实现 UNICODE 版本编程。五、VC+6.0 中编写 Unicode 编码的应用程序 VC+6.0 支持 Unicode 编程,但默认的是 ANSI,所以开发人员只需要稍微改变一下编写代码的习惯便可以轻松编写支持 UNICODE 的应用程序。使用 VC+6.0 进行 Unicode 编程主要做以下几项工作:1、为工程添加 UNICODE 和_UNICODE 预处理选项。具体步骤:打开工程-设置对话框,如图 1 所示,在 C/C+标签对话框的“预处理程序定义”中去除_MBCS,加上_UNICODE,UNICODE。(注意中间用逗号隔开)改动后如图 2:图一 图二 在没有定义 UNICODE 和_UNICODE 时,所有函数和类型都默认使用 ANSI 的版本;在定义了 UNICODE 和_UNICODE 之后,所有的 MFC 类和Windows API 都变成了宽字节版本了。2、设置程序入口点 因为 MFC 应用程序有针对 Unicode 专用的程序入口点,我们要设置 entry point。否则就会出现连接错误。设置 entry point 的方法是:打开工程-设置对话框,在 Link 页的 Output 类别的 Entry Point 里填上 wWinMainCRTStartup。图三 3、使用 ANSI/Unicode 通用数据类型 微软提供了一些 ANSI 和 Unicode 兼容的通用数据类型,我们最常用的数据类型有_T,TCHAR,LPTSTR,LPCTSTR。顺便说一下,LPCTSTR 和 const TCHAR*是完全等同的。其中 L 表示 long 指针,这是为了兼容 Windows 3.1 等 16 位操作系统遗留下来的,在Win32 中以及其它的 32 位操作系统中,long 指针和 near 指针及 far 修饰符都是为了兼容的作用,没有实际意义。P(pointer)表示这是一个指针;C(const)表示是一个常量;T(_T 宏)表示兼容 ANSI 和 Unicode,STR(string)表示这个变量是一个字符串。综上可以看出,LPCTSTR 表示一个指向常固定地址的可以根据一些宏定义改变语义的字符串。比如:TCHAR*szText=_T(“Hello!”);TCHAR szText=_T(“I Love You”);LPCTSTR lpszText=_T(“大家好!”);使用函数中的参数最好也要有变化,比如:MessageBox(_T(“你好”);其实,在上面的语句中,即使您不加_T 宏,MessageBox 函数也会自动把“你好”字符串进行强制转换。但我还是推荐您使用_T 宏,以表示您有 Unicode 编码意识。4、修改字符串运算问题 一些字符串操作函数需要获取字符串的字符数(sizeof(szBuffer)/sizeof(TCHAR),而另一些函数可能需要获取字符串的字节数 sizeof(szBuffer)。您应该注意该问题并仔细分析字符串操作函数,以确定能够得到正确的结果。ANSI 操作函数以 str 开头,如 strcpy(),strcat(),strlen();Unicode 操作函数以 wcs 开头,如 wcscpy,wcscpy(),wcslen();ANSI/Unicode 操作函数以_tcs 开头 _tcscpy(C 运行期库);ANSI/Unicode 操作函数以 lstr 开头 lstrcpy(Windows 函数);考虑 ANSI 和 Unicode 的兼容,我们需要使用以_tcs 开头或 lstr 开头的通用字符串操作函数。六、举个 Unicode 编程的例子 第一步:打开 VC+6.0,新建基于对话框的工程 Unicode,主对话框 IDD_UNICODE_DIALOG 中加入一个按钮控件,双击该控件并添加该控件的响应函数:void CUnicodeDlg:OnButton1()TCHAR*str1=_T(ANSI 和 UNICODE 编码试验);m_disp=str1;UpdateData(FALSE);添加静态文本框 IDC_DISP,使用 ClassWizard 给该控件添加 CString 类型变量 m_disp。使用默认 ANSI 编码环境编译该工程,生成 Unicode.exe。第二步:打开“控制面板”,单击“日期、时间、语言和区域设置”选项,在“日期、时间、语言和区域设置”窗口中继续单击“区域和语言选项”选项,弹出“区域和语言选项”对话框。在该对话框中,单击“高级”标签,将“非 Unicode 的程序的语言”选项改为“日语”,单击“应用”按钮,如图四:图四 弹出的对话框单击“是”,重新启动计算机使设置生效。运行 Unicode.exe 程序并单击“Button1”按钮,看,静态文本框出现了乱码。第三步:改为 Unicode 编码环境编译该工程,生成 Unicode.exe。再次运行 Unicode.exe 程序并单击“Button1”按钮。看到 Unicode 编码的优势了吧。就说这些吧,祝您好运。转自:http:/