windows下编译java源文件的编码错误

Windows下编译Java源文件的编码错误

一、问题描述

==================

import java.util.Arrays;
public class ArrayAsAReference{    
public static void main(String[] args)    
{        
int[] arr = null;        
System.out.println(arr);        
arr = new int[]{1, 2, 3, 4};  // 静态创建数组对象        
System.out.println(Arrays.toString(arr));                
int[] prices;       
 prices = new int[5];          // 动态创建数组对象           
System.out.println(Arrays.toString(prices));                
System.out.println();        //使用普通循环遍历数组对象        
for(int i = 0; i < prices.length; i++)        {            
System.out.println("prices[" + i + "] = " + prices[i]);        
}                
System.out.println();       //使用foreach循环遍历数组对象        
for (int price : prices)        
{            
System.out.println("price:" + price);        
}    
}
}

然后在cmd.exe里用javac去编译，出现了如下的错误：

二、分析解决

=========

出现这种情况，表面原因是源文件中有GBK不可映射字符。根据这个信息可以得知源代码的字符编码不是GBK的，所以其中的一些字符不可映射为GBK编码，所以解决方法是很明显的，那就是把源代码的编码格式转换为GBK编码的。具体在notepad++中也很简单：选中目标源代码文件的tab，点击“格式”->“转为ANSI编码格式”，保存，再编译，这时候编译就可以通过了。

这个问题可以通过把源代码的编码方式转为GBK编码解决，但是如果我就是不想转，就是要用源代码本来的编码方式去编译该怎么做呢？

那就得在编译的时候用-encoding 参数来指定源代码的编码格式。比如，本例中通过notepad的格式菜单可以看到源代码本来的编码格式是utf-8，那么就可以这样编译：javac -encoding utf-8 ArrayAsAReference.java，也可以顺利的编译通过。

总之，如果在编译阶段出现编码问题，更为一般的解决方法就是搞清楚源程序的编码格式，通过-encoding参数指定源程序的编码格式，就肯定可以编译通过。

三、问题延伸

=========

源代码的编码格式为什么会引起编译错误呢？这个问题涉及到javac对源代码的编码格式处理方法。

在编译的时候，如果没有用-encoding参数指定java源程序的编码格式，则javac.exe认为源代码的编码格式是操作系统默认的编码格式，所以就会用按照操作系统默认的编码格式去处理源代码。上面由于windows下默认编码格式是GBK，编译的时候没有javac就会把ArrayAsAReference.java当成GBK编码的文件，但是实际上ArrayAsAReference.java是utf-8格式，所以转换就出现了错误。

javac编译源代码的是时候会先按照源程序的编码格式读取源程序，编译，编译生成.class类文件，此时.class文件也是unicode编码的，它暂放在内存中，最后javac将unicode编码的class文件保存到操作系统中形成.class文件。

因此，编码问题只会出现在编译阶段，而在运行阶段用java命令去执行class文件的时候从来不会出现编码问题，因为编译后的class文件必然是unicode编码的。