JAVA环境中处理中文字符

|

周末上线一个应用,具体功能是由客户端通过调用WEB服务,将一段xml格式的数据传输给服务器,使用HTTP协议。这个应用在线上已经运行很久,最近只是做了轻微的修改。客户使用时反馈,有时会出现中文字符乱码,我一直以为是客户填写的时候编码有问题,没有在意,周一让同事处理这个问题,web服务很多方面都在用,所以主要找客户端的问题。

等快下班的时候,这个问题还没有搞定,我原以为不是多大的事情,就跟同事一起来梳理,同事说,其中有电话号码一项,填8位就不会出错,填少了会出错。我想那也太诡异了,决定一点点找,先是用tcpdump截取了客户机发出的以及服务器接收到的报文信息,对比,然后又查看对应汉字的编码,都是正确的。因为已经到下班时间,就让同事先走,一个人排查。既然报文是正确的,那么肯定不是客户端的问题了,可是我们服务端那么多人用了好多个月,怎么会出问题呢。无奈,翻出代码来看,发现其中有这么一段:

byte[] b = new byte[1024];

int i = 0;

while ((i = in.read(b)) != -1) {

buf.append(new String(b, 0, i, "UTF-8"));

}

这段代码是用来收取信息并编码成string的,联系之前的一些现象,马上判断出,是byte[]有问题,定了1024的长度,如果恰好把一个汉字分成两次处理,就出问题了。于是给同事发邮件,按这种思路修改。

现在想来,之前这个应用一直有问题,只是客户传送的信息中汉字较少,所以没有暴露出来,而解决问题时太主观,没有考虑服务端还会有这么低级的错误。

联系方式|Contact Me: @Fengbin
文责声明|Responsibility: 本站内容仅代表个人观点,与其他任何组织、公司无关。

标签

订阅

博客归档