萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 783|回复: 0

1-1-16-1-5 java中文问题深入谈(转载)

[复制链接]
发表于 2003-2-8 00:49 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x

  1. 发信人: gree (不睡懒觉的乖乖猪), 信区: Java      
  2. 标  题: java中文问题深入谈(转载)
  3. 发信站: BBS 水木清华站 (Fri Mar 22 09:58:50 2002)

  4. [url]http://www.ChinaJavaWorld.com[/url]

  5. 一、主题:关于JAVA的中文问题
  6.     JAVA的中文问题比较突出,主要表现在控制面板输出,JSP页面输出和数据库访问上
  7. 。本文尽量避开字体问题,而只谈编码。通过本文,你可以了解JAVA中文问题的由来,
  8. 问题的解决方法,其中提了一下用JDBC访问数据库的方法。
  9. 二、问题描述:
  10. 1)在中文W2000中文窗口编译和运行,用的是国际版的JDK,连接的是中文W2000下的Cp
  11. 936编码的SQL SERVER数据库:
  12. J:\exercise\demo\encode\HelloWorld>make
  13.    Created by XCompiler. PhiloSoft All Rights Reserved.
  14.    Wed May 30 02:54:45 CST 2001
  15. J:\exercise\demo\encode\HelloWorld>run
  16.    Created by XRunner. PhiloSoft All Rights Reserved.
  17.    Wed May 30 02:51:33 CST 2001
  18. 中文
  19. [B@7bc8b569
  20. [B@7b08b569
  21. [B@7860b569
  22. 中文
  23. 中文
  24. ????
  25. 中文
  26. 中文
  27. ????
  28. ??
  29. ??
  30. ??
  31. 2)如果在中文W2000的西文窗口(编码为437)下编译,用JAVA运行则由于无字体而无法
  32. 正常显示,如果象上面一样在中文W2000的中文窗口运行,输出为:
  33. J:\exercise\demo\encode\HelloWorld>run
  34.    Created by XRunner. PhiloSoft All Rights Reserved.
  35.    Wed May 30 02:51:33 CST 2001
  36. ????
  37. [B@7bc0b66a
  38. [B@7b04b66a
  39. [B@7818b66a
  40. ????
  41. ????
  42. ????
  43. ????
  44. ????
  45. ????
  46. 中文
  47. 中文
  48. ????
  49. 三)分析
  50. 1)出现有乱码(也就是?)。由于只出现?而没出现小方框,说明只是编码有问题,而
  51. 不是字体问题。 在编码中,如果从一种字符集转换到别一种字符集,比较典型的是从G
  52. B2312转换到ISO8859_1(即ASCII),那么很多汉字(半个汉字)是无法映射到西文字符
  53. 中去的,在这种情形下,系统就把这些字符用?代替。同样,也存在小字符集无法到大
  54. 字符集的情况,具体原因这里就不详谈了。
  55. 2)出现了中文环境编译,中文环境运行时汉字显示有正确也有不正确的地方,同样,在
  56. 西文环境下编译,在中文环境下运行时也出现类似情况。这是由于自动(默认)或手工
  57. (也就new String(bytes[,encode])和bytes getBytes([encode]))转码的结果。
  58. 2.1)在JAVA源文件-->JAVAC-->Class-->Java-->getBytes()-->new String()-->显示的
  59. 过程中,每一步都有编码的转换过程,这个过程总是存在的,只是有的时候用默认的参
  60. 数进行。下面我们一步一步分析为什么出现上面的情形。
  61. 2.2)这里是源代码:
  62. HelloWorld.java:
  63. ------------------------
  64. public class HelloWorld
  65. {
  66. public static void main(String[] argv){
  67.     try{
  68. System.out.println("中文");//1
  69. System.out.println("中文".getBytes());//2
  70. System.out.println("中文".getBytes("GB2312"));//3
  71. System.out.println("中文".getBytes("ISO8859_1"));//4
  72. System.out.println(new String("中文".getBytes()));//5
  73. System.out.println(new String("中文".getBytes(),"GB2312"));//6
  74. System.out.println(new String("中文".getBytes(),"ISO8859_1"));//7
  75. System.out.println(new String("中文".getBytes("GB2312")));//8
  76. System.out.println(new String("中文".getBytes("GB2312"),"GB2312"));//9
  77. System.out.println(new
  78. String("中文".getBytes("GB2312"),"ISO8859_1"));//10
  79. System.out.println(new String("中文".getBytes("ISO8859_1")));//11
  80. System.out.println(new
  81. String("中文".getBytes("ISO8859_1"),"GB2312"));//12
  82. System.out.println(new
  83. String("中文".getBytes("ISO8859_1"),"ISO8859_1"));//13
  84. }
  85. catch(Exception e){
  86. e.printStackTrace();
  87. }
  88.   }
  89. }
  90. 为了方便起见,在每个转换的后面加了操作序号,分别为1,2,...,13。
  91. 2.3)需要说明的是,JAVAC是以系统默认编码读入源文件,然后按UNICODE进行编码的。
  92. 在JAVA运行的时候,JAVA也是采用UNICODE编码的,并且默认输入和输出的都是操作系统
  93. 的默认编码,也就是说在new String(bytes[,encode])中,系统认为输入的是编码为en
  94. code的字节流,换句话说,如果按encode来翻译bytes才能得到正确的结果,这个结果最
  95. 后要在JAVA中保存,它还是要从这个encode转换成Unicode,也就是说有bytes-->encod
  96. e字符-->Unicode字符的转换;而在String.getBytes([encode])中,系统要做一个Unic
  97. ode字符-->encode字符-->bytes的转换。
  98. 在这个例子中,除那个英文窗口编码的时候除外,其实情形下默认编码都是GBK(在本例
  99. 中,我们暂且把GBK和GB2312等同看待)。
  100. 2.4)由于在未指明在上面的两个用代码实现的转换中,如果未指定encode,系统将采用
  101. 默认的编码(这里为GBK),我们认为上面的5,6,7和8,9,10是一样的,8和9、11和12也
  102. 是一样的,所以我们在讨论中将只讨论1,9,10,12,13。其中的2,3,4只是用于测试,不在
  103. 我们的讨论范围之内。
  104. 2.5)下面我们来跟踪程序中的“中”字的转换历程,我们先说在中文窗口下作的编译和
  105. 运行过程,注意在下面的字母下标中,我有意识地使用了一些数字,以表示相同,相异
  106. 还是相关2.5.1)我们先以上面的13个代码段中的的代码9为例:
  107. 步骤 内容 地点 说明
  108. 01: C1 HelloWorld.java C1泛指一个GBK字符
  109. 02: U1 JAVAC读取 U1泛指一个Unicode字符
  110. 03: C1 getBytes()第一步 JAVA先和操作系统交流
  111. 04: B1,B2 getBytes()第二步 然后返回字节数组
  112. 05: C1 new String()第一步 JAVA先和操作系统交流
  113. 06: U1 new String()第二步 然后返回字符
  114. 07: C1 println(String) 能显示“中”字,内容和原来的相同
  115. 2.5.2)然后再以代码段10为例,我们注意到只是:
  116. 步骤 内容 地点 说明
  117. 01: C1 HelloWorld.java C1泛指一个GBK字符
  118. 02: U1 JAVAC读取 U1泛指一个Unicode字符
  119. 03: C1 getBytes()第一步 JAVA先和操作系统交流
  120. 04: B1,B2 getBytes()第二步 然后返回字节数组
  121. 05: C3,C4 new String()第一步 JAVA先和操作系统交流,这时解析错误
  122. 06: U5,U6 new String()第二步 然后返回字符
  123. 07: C3,C4 println(String) 由于中字给分成了两半,在ISO8859_1中刚好也没有字符

  124. 能映射上,所以显示为“??”。在上面的示例中,
  125. “中文”两个字就显示为“????”
  126. 2.5.3)在完全中文模式下的其它情形类似,我就不多说了
  127. 2.6)我们接着看为什么在西文DOS窗口下编译出来的类在中文窗口下也出现类似情形,
  128. 特别是为什么居然有的情形下还能正确显示汉字。
  129. 2.6.1)我们还是先以代码段9为例:
  130. 步骤 内容 地点 说明
  131. 01: C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符,“中”字被拆开
  132. 02: U3U4 JAVAC读取 U1U2泛指一个Unicode字符
  133. 03: C5C6 getBytes()第一步 JAVA先和操作系统交流,这时解析错误
  134. 04: B5B6B7B8 getBytes()第二步 然后返回字节数组
  135. 05: C5C6 new String()第一步 JAVA先和操作系统交流
  136. 06: U3U4 new String()第二步 然后返回字符
  137. 07: C5C6 println(String) 虽然同是两个字符,但已不是最初的“两个ISO8859_1字
  138. 符”,而是“两个BGK字符”,“中”显示成了“??”
  139. 而“中文”就显示成了“????”
  140. 2.6.2)下面我们以代码段12为例,因为它能正确显示汉字
  141. 步骤 内容 地点 说明
  142. 01: C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符,“中”字被拆开
  143. 02: U3U4 JAVAC读取 U1U2泛指一个Unicode字符
  144. 03: C1C2 getBytes()第一步 JAVA先和操作系统交流(注意还是正确的哦!)
  145. 04: B5B6 getBytes()第二步 然后返回字节数组(这是很关键的一步!)
  146. 05: C12 new String()第一步 JAVA先和操作系统交流(这是更关键的一步,JAVA已经
  147. 知道B5B6要解析成一个汉字!)
  148. 06: U7 new String()第二步 然后返回字符(真是一个项两!U7包含了U3U4的信息)
  149. 07: C12 println(String) 这就原来的“中”字,很委屈被JAVAC冤枉了一回,不过被
  150. 程序员拨乱反正了一下!当然,“中文”两个字都能正确显示了!
  151. 3)那为什么有的时候用JDBC的
  152. new String(Recordset.getBytes(int)[,encode])
  153. Recordset.getSting(int)
  154. Recordset.setBytes(String.getBytes([encode]))

  155. Recordset.setString(String)
  156. 的时候会出现乱码了呢?
  157. 其实问题就出现在编写JDBC的的也考虑了编码问题,它从数据库读取数据后,可能自作
  158. 主张做了一个从GB2312(默认编码)到Unicode的转换,我的这个WebLogic For SQL Se
  159. rver的JDBC Driver就是这样的,当我读字串的时候,发出读到的不是正确的汉字,可恨
  160. 的是我却可以直接写汉字字串,这让人多少有点难以接受!
  161. 也就是说,我们不得不在读或写的时候进行转码,尽管这个转码有的时候不是那么明显
  162. ,这是因为我们使用了默认的编码进行转码。JDBC Driver所做的操作,我们只有进入到
  163. 源代码内部才能清楚,不是吗?
复制代码
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网 |网站地图

GMT+2, 2024-6-14 19:15 , Processed in 1.192050 second(s), 18 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表