正在阅读：深入剖析JSP和Servlet对中文的处理深入剖析JSP和Servlet对中文的处理

2008-02-27 09:18 出处：PConline原创作者：JAVA中文站责任编辑：chenzhenjia

　　Servlet：从源文件到Class的过程

　　Servlet源文件是以“.java”结尾的文本文件。本节将讨论Servlet的编译过程并跟踪其中的中文变化。

　　用“javac”编译Servlet源文件。javac可以带“-encoding ＜Compile-charset＞”参数，意思是“用＜ Compile-charset ＞中指定的编码来解释Serlvet源文件”。

　　源文件在编译时，用＜Compile-charset＞来解释所有字符，包括中文字符和ASCII字符。然后把字符常量转变成Unicode字符，最后，把Unicode转变成UTF。

　　在Servlet中，还有一个地方设置输出流的CharSet。通常在输出结果前，调用HttpServletResponse的setContentType方法来达到与在JSP中设置＜Jsp-charset＞一样的效果，称之为＜Servlet-charset＞。

　　注意，文中一共提到了三个变量：＜Jsp-charset＞、＜Compile-charset＞和＜Servlet-charset＞。其中，JSP文件只与＜Jsp-charset＞有关，而＜Compile-charset＞和＜Servlet-charset＞只与Servlet有关。

　　看下例：

　　import javax.servlet.*;

　　import javax.servlet.http.*;

　　class testServlet extends HttpServlet
　　{
　　public void doGet(HttpServletRequest req,HttpServletResponse resp)
　　throws ServletException,java.io.IOException
　　{
　　resp.setContentType("text/html; charset=GB2312");
　　java.io.PrintWriter out=resp.getWriter();
　　out.println("＜html＞");
　　out.println("#中文#");
　　out.println("＜/html＞");
　　}
　　}

　　该文件也是用UltraEdit for Windows编写的，其中的“中文”两个字保存为“D6 D0 CE C4”（GB2312编码）。

　　开始编译。下表是＜Compile-charset＞不同时，CLASS文件中“中文”两字的十六进制码。在编译过程中，＜Servlet-charset＞不起任何作用。＜Servlet-charset＞只对CLASS文件的输出产生影响，实际上是＜Servlet-charset＞和＜Compile-charset＞一起，达到与JSP文件中的＜Jsp-charset＞相同的效果，因为＜Jsp-charset＞对编译和CLASS文件的输出都会产生影响。

　　表3　“中文”从Servlet源文件到Class的转变过程

　　Compile-charset Servlet源文件中 Class文件中等效的Unicode码
　　GB2312 D6 D0 CE C4
　　(GB2312) E4 B8 AD E6 96 87 (UTF) \u4E2D\u6587 (在Unicode中＝“中文”)
　　ISO-8859-1 D6 D0 CE C4
　　(GB2312) C3 96 C3 90 C3 8E C3 84 (UTF) \u00D6 \u00D0 \u00CE \u00C4 (在D6 D0 CE C4前面各加了一个00)
　　无（默认） D6 D0 CE C4 (GB2312) 同ISO-8859-1 同ISO-8859-1

　　普通Java程序的编译过程与Servlet完全一样。

　　CLASS文件中的中文表示法是不是昭然若揭了？OK，接下来看看CLASS又是怎样输出中文的呢？

　　Class：输出字符串

　　上文说过，字符串在内存中表现为Unicode编码。至于这种Unicode编码表示了什么，那要看它是从哪种字符集映射过来的，也就是说要看它的祖先。这好比在托运行李时，外观都是纸箱子，里面装了什么就要看寄邮件的人实际邮了什么东西。

　　看看上面的例子，如果给一串Unicode编码“00D6 00D0 00CE 00C4”，如果不作转换，直接用Unicode码表来对照它时，是四个字符（而且是特殊字符）；假如把它与“ISO8859-1”进行映射，则直接去掉前面的“00”即可得到“D6 D0 CE C4”，这是ASCII码表中的四个字符；而假如把它当作GB2312来进行映射，得到的结果很可能是一大堆乱码，因为在GB2312中有可能没有（也有可能有）字符与00D6等字符对应（如果对应不上，将得到0x3f，也就是问号，如果对应上了，由于00D6等字符太靠前，估计也是一些特殊符号，真正的汉字在Unicode中的编码从4E00开始）。

　　各位看到了，同样的Unicode字符，可以解释成不同的样子。当然，这其中有一种是我们期望的结果。以上例而论，“D6 D0 CE C4”应该是我们所想要的，当把“D6 D0 CE C4”输出到IE中时，用“简体中文”方式查看，就能看到清楚的“中文”两个字了。（当然了，如果你一定要用“西欧字符”来看，那也没办法，你将得不到任何有何时何地的东西）为什么呢？因为“00D6 00D0 00CE 00C4”本来就是由ISO8859-1转化过去的。

　　给出如下结论：

　　在Class输出字符串前，会将Unicode的字符串按照某一种内码重新生成字节流，然后把字节流输入，相当于进行了一步“String.getBytes(???)”操作。???代表某一种字符集。

　　如果是Servlet，那么，这种内码就是在HttpServletResponse.setContentType()方法中指定的内码，也就是上文定义的＜Servlet-charset＞。

　　如果是JSP，那么，这种内码就是在＜%@ page contentType=""%＞中指定的内码，也就是上文定义的＜Jsp-charset＞。

　　如果是Java程序，那么，这种内码就是file.encoding中指定的内码，默认为ISO8859-1。

　　当输出对象是浏览器时

　　以流行的浏览器IE为例。IE支持多种内码。假如IE接收到了一个字节流“D6 D0 CE C4”，你可以尝试用各种内码去查看。你会发现用“简体中文”时能得到正确的结果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码。

　　OK，完整地看一遍。