[科普]关于文件头的那些事

一个文件里面的内容到底是啥?用惯了Windows的人肯定是看后缀。但是后缀这个东西说改就改,不可靠。所以,最保险的还是把文件类型信息写到文件里面,通常来说,也就是写到文件开头的那几个字节。这是最方便,最快捷的用来辨别一个文件真实内容的方法。下面举几个例子:
  • Java class文件的魔数
每一个Java Class文件都是以0x CAFEBABE开头的。Java这么做的原因就是为了快速判断一个文件是不是有可能为class文件,以及这个class文件有没有受损(文件受损,文件开头受损的可能性最大)。
为什么是CAFEBABE呢?这个只能猜了,首先,16进制里面的字母只有A到F,十分的有限。Java一直以咖啡为代言,CAFEBABE可以认为是 Cafe Babe,读音上和Cafe Baby很近。所以这个也许就是代表Cafe Baby的意思。

  • 文本文件的BOM
比如说,对于文本文件,开头的几个字节可以叫做BOM(Byte Order Mark),它的作用是用来标记文本文件内部是用的哪种Unicode编码,以及其字节码顺序。UTF-8,UTF-16BE,UTF-16LE等等各种Unicode编码都有自己独一无二的BOM。一般的文本编辑器也都支持 BOM。这样就不会出现乱码了。

  • Zip文件的P.K.
所有的zip文件,都是以PK这两个字母开头的。所以,无论怎么去修改zip文件的后缀,解压程序都可以简单的判断一个文件是不是有可能为zip文件。
不信可以用二进制文本编辑器打开看看,比如notepad++:

PK代表的不是游戏里的Person Kill,而是zip算法(PKZIP算法)的发明者菲尔·卡茨(Phil Katz)名字首字母的缩写。
Phil Katz 在当时也算是个大牛级人物,不想为了一个压缩软件付钱就一跺脚自己写了一个更好的压缩算法,而且还完全无偿开放这个标准。不过,Phil Katz成就了 zip算法,zip算法却没有拯救Phil Katz。zip没有给他带来一分钱,这位无私奉献的工程师生活不顺,死于酗酒,甚至现在连一张像样的照片都流传下来,一声叹息呀。


常用文件的文件头如下: 

 

1. MIDI (mid),文件头:4D546864  

2.  JPEG (jpg),文件头:FFD8FF   

3.  PNG (png),文件头:89504E47   

4.  GIF (gif),文件头:47494638   

5.  TIFF (tif),文件头:49492A00   

6.  Windows Bitmap (bmp),文件头:424D   

7.  CAD (dwg),文件头:41433130   

8.  Adobe Photoshop (psd),文件头:38425053   

9.  Rich Text Format (rtf),文件头:7B5C727466   

10. XML (xml),文件头:3C3F786D6C   

11. HTML (html),文件头:68746D6C3E   

12. Email [thorough only] (eml),文件头:44656C69766572792D646174653A   

13. Outlook Express (dbx),文件头:CFAD12FEC5FD746F    

14. Outlook (pst),文件头:2142444E   

15. MS Word/Excel (xls.or.doc),文件头:D0CF11E0   

16. MS Access (mdb),文件头:5374616E64617264204A   

17. WordPerfect (wpd),文件头:FF575043   

18. Postscript (eps.or.ps),文件头:252150532D41646F6265   

19. Adobe Acrobat (pdf),文件头:255044462D312E   

20. Quicken (qdf),文件头:AC9EBD8F   

21. Windows Password (pwl),文件头:E3828596   

22. ZIP Archive (zip),文件头:504B0304   

23. RAR Archive (rar),文件头:52617221   

24. Wave (wav),文件头:57415645   

25. AVI (avi),文件头:52494646

26. Real Audio (ram),文件头:2E7261FD   

27. Real Media (rm),文件头:2E524D46   

28. Windows Media Audio(wma)(asf),文件头:3026b2758e66cf

29. wrf, 文件头:574f5446000600

29. MPEG (mpg),文件头:000001BA   

30. MPEG (mpg),文件头:000001B3   

31. Quicktime (mov),文件头:6D6F6F76   

32. Windows Media (asf),文件头:3026B2758E66CF11   

 

写一个代码测试一下:

[java] view plain copy
  1. public static String bytesToHexString(byte[] src) {    
  2.        StringBuilder stringBuilder = new StringBuilder();    
  3.        if (src == null || src.length <= 0) {    
  4.            return null;    
  5.        }    
  6.        for (int i = 0; i < src.length; i++) {    
  7.            int v = src[i] & 0xFF;    
  8.            String hv = Integer.toHexString(v);    
  9.            if (hv.length() < 2) {    
  10.                stringBuilder.append(0);    
  11.            }    
  12.            stringBuilder.append(hv);    
  13.        }    
  14.        return stringBuilder.toString();    
  15.    }    
  16.    
  17.    public static void main(String[] args) throws Exception {    
  18.        FileInputStream is = new FileInputStream("E:\学习\Java面试宝典2014版.pdf");    
  19.        byte[] b = new byte[7];    
  20.        is.read(b, 0, b.length);    
  21.        System.out.println(bytesToHexString(b));    
  22.    
  23.    }    

原文地址:https://www.cnblogs.com/jinhengyu/p/10258081.html