深入剖析JSP和Servlet对中文的处理

作者凌众技术来源互联网浏览发布时间 2012-01-14

世界上的各地区都有本地的语言。地区差异直接导致了语言环境的差异。在开发一个国际化程序的过程中，处理语言问题就显得很重要了。

　　这是一个世界范围内都存在的问题，所以，Java提供了世界性的解决方法。本文描述的方法是用于处理中文的，但是，推而广之，对于处理世界上其它国家和地区的语言同样适用。

　　汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位置（即16位），分别称为高位和低位。中国规定的汉字编码为GB2312，这是强制性的，目前几乎所有的能处理中文的应用程序都支持GB2312。GB2312包括了一二级汉字和9区符号，高位从0xa1到0xfe，低位也是从0xa1到0xfe，其中，汉字的编码范围为0xb0a1到0xf7fe。

　　另外有一种编码，叫做GBK，但这是一份规范，不是强制的。GBK提供了20902个汉字，它兼容GB2312，编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。

　　在不久的将来，中国会颁布另一种标准：GB18030-2000（GBK2K）。它收录了藏、蒙等少数民族的字型，从根本上解决了字位不足的问题。注意：它不再是定长的。其二字节部份与GBK兼容，四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe，二字节和第四字节从0x30到0x39。

　　本文不打算介绍Unicode，有兴趣的可以浏览“http://www.unicode.org/”查看更多的信息。Unicode有一个特性：它包括了世界上所有的字符字形。所以，各个地区的语言都可以建立与Unicode的映射关系，而Java正是利用了这一点以达到异种语言之间的转换。

　　在JDK中，与中文相关的编码有：

　　表1　JDK中与中文相关的编码列表

　　编码名称说明
　　ASCII 7位，与ascii7相同
　　ISO8859-1 8-位，与 8859_1,ISO-8859-1,ISO_8859-1,latin1...等相同
　　GB2312-80 16位，与gb2312,gb2312-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...等相同
　　GBK 与MS936相同，注意：区分大小写
　　UTF8 与UTF-8相同
　　GB18030 与cp1392、1392相同，目前支持的JDK很少

　　在实际编程时，接触得比较多的是GB2312（GBK）和ISO8859-1。

　　为什么会有“?”号

　　上文说过，异种语言之间的转换是通过Unicode来完成的。假设有两种不同的语言A和B，转换的步骤为：先把A转化为Unicode，再把Unicode转化为B。

　　举例说明。有GB2312中有一个汉字“李”，其编

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

1 2 3 4 5 6 7 8 9 10 11 下一页

分享到：更多

你可能对下面的文章感兴趣

上一篇: JSP和IIS的最佳解决方案实例分析下一篇: [JSP编程]

关于深入剖析JSP和Servlet对中文的处理的所有评论

随机推荐