深入剖析JSP和Servlet对中文的处理

作者凌众技术来源互联网浏览发布时间 2012-01-14

它当作GB2312来进行映射，得到的结果很可能是一大堆乱码，因为在GB2312中有可能没有（也有可能有）字符与00D6等字符对应（如果对应不上，将得到0x3f，也就是问号，如果对应上了，由于00D6等字符太靠前，估计也是一些特殊符号，真正的汉字在Unicode中的编码从4E00开始）。

　　各位看到了，同样的Unicode字符，可以解释成不同的样子。当然，这其中有一种是我们期望的结果。以上例而论，“D6 D0 CE C4”应该是我们所想要的，当把“D6 D0 CE C4”输出到IE中时，用“简体中文”方式查看，就能看到清楚的“中文”两个字了。（当然了，如果你一定要用“西欧字符”来看，那也没办法，你将得不到任何有何时何地的东西）为什么呢？因为“00D6 00D0 00CE 00C4”本来就是由ISO8859-1转化过去的。

　　给出如下结论：

　　在Class输出字符串前，会将Unicode的字符串按照某一种内码重新生成字节流，然后把字节流输入，相当于进行了一步“String.getBytes(???)”操作。???代表某一种字符集。

　　如果是Servlet，那么，这种内码就是在HttpServletResponse.setContentType()方法中指定的内码，也就是上文定义的＜Servlet-charset＞。

　　如果是JSP，那么，这种内码就是在＜%@ page contentType=""%＞中指定的内码，也就是上文定义的＜Jsp-charset＞。

　　如果是Java程序，那么，这种内码就是file.encoding中指定的内码，默认为ISO8859-1。

　　当输出对象是浏览器时

　　以流行的浏览器IE为例。IE支持多种内码。假如IE接收到了一个字节流“D6 D0 CE C4”，你可以尝试用各种内码去查看。你会发现用“简体中文”时能得到正确的结果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码。

　　OK，完整地看一遍。

JSP：源文件为GB2312格式的文本文件，且JSP源文件中有“中文”这两个汉字

　　如果指定了＜Jsp-charset＞为GB2312，转化过程如下表。

　　表4　Jsp-charset = GB2312时的变化过程

　　序号步骤说明结果

　　1 编写JSP源文件，且存为GB2312格式 D6 D0 CE C4
　　（D6D0=中 CEC4=文）
　　2 jspc把JSP源文件转化为临时JAVA文件，并把字符串按照GB2312映射到Unicode，并用UTF格式写入JAVA文件中 E4 B8 AD E6 96 87
　　3 把临时JAVA文件编译成CLASS文件 E4 B8 AD E6 96 87

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页

分享到：更多

你可能对下面的文章感兴趣

上一篇: JSP和IIS的最佳解决方案实例分析下一篇: [JSP编程]

关于深入剖析JSP和Servlet对中文的处理的所有评论

随机推荐