java 字符编码问题

编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。但是要保证汉字不被截半个，如“我ABC”4，应该截为“我AB”，输入“我ABC汉DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个

[原理]

我们知道，根据编码的不同，汉字在字符串中所占字节也不一样，如果是UTF-8编码，汉字占3个字节，如果是GBK编码（本文利用的是GBK编码的实现），汉字占2个字节。但是，英文单词在字符串中，始终占用1个字节。所以，把字符串先转化为字符数组和字节数组，然后同时遍历两个数组，比较在数组同位置的值是否相等，如果相等，那么说明该字符是英文字符，如果不相同则说明该字符是中文字符，同时记录下来。大致原理就是这样的，大家看代码实现

 1 public static String substr(String text, int maxLen) throws Exception {
 2     if (text == null) return null;
 3     StringBuilder buf = new StringBuilder();
 4     int i = 0;
 5     for (char ch : text.toCharArray()) {
 6         i += String.valueOf(ch).getBytes("GBK").length;
 7         if (i > maxLen) break;
 8         buf.append(ch);
 9     }
10     return buf.toString();
11 }
12 
13 public static void main(String[] args) throws Exception {
14     String text = "我ABC汉DEF";
15     System.out.println(substr(text, 6));
16 }