用C#实现pdf文件的完整性验证

        现在对文件的完整性验证,防止文件被篡改的技术已经比较成熟,一般使用数字签名,数字水印等,最近我在一个项目中也遇到了防篡改的需求。该项目要求用户将原始发票用专门的扫描程序扫描成pdf文件,然后将该pdf文件传到服务器上,在上传的同时必须要验证这个pdf是没有被手工修改过的。我刚一接触到这个需求想到的就是使用数字水印,要不然就直接使用PDF的数字签名功能,不过这些方法都感觉比较比较复杂,一大堆的英文文档也没有心思去研究,于是琢磨了半天,写了一个简化版的数字水印程序,实现了pdf文件完整性验证。
        验证的基本思路是:
            对文件全部内容计算其MD5值,这样无论用户修改了文件的任何一个地方,那么生成的MD5的是完全不一样的,我们可以将这个MD5写到文件的一个隐藏区,一般二进制文件格式都有文件头和文件体部分,而文件头是用户看不到的,一般也会预留一部分字节用于以后扩展,或可以在文件头写入特殊标记的数据。于是研究了一下pdf文件的格式,试着往其第10个字节插入了MD5值,结果文件虽然可以使用,但是每次打开的时候都会提示“文件修复”。原来是写在头上面的内容将pdf文件的字节数和文件中对象的地址改变了,导致了文件错误,原因找到了那么解决办法也就有了,为了不改变pdf文件中对象的地址,那么我们将这个md5写在文件尾不就可以了嘛!于是在客户端(扫描程序)将扫描出的pdf文件流计算MD5值,然后将该文件流和MD5值一起写到硬盘上,形成一个添加了MD5值的pdf文件。文件可以正常打开和使用,而且用户也不会看到我们添加的这个MD5值。
            在服务器端,我们将上传上来的文件流除了最后32个字节以为的部分计算MD5值(这儿取32个字节是因为最后这32字节是我们写的MD5),将前面部分算出的MD5和最后32个字节的MD5进行比较,如果一样那么说明这个文件从扫描程序生成以后没有被人为篡改过,否则说明该文件要么不是用我们这个扫描程序生成的要么就是被篡改了。这样验证通过以后我们才将该文件流写到服务器硬盘上。
相关程序代码

以上代码不仅仅只适用于PDF文件,对于其他一些格式也可以用,这主要是取决于文件的格式规范。关于PDF,官方有相关文档,不过大家觉得麻烦可以看看这篇文章:http://blog.csdn.net/pdfMaker/archive/2006/01/09/573990.aspx
【本文章出自博客园深蓝居,转载请注明作者出处,如果您觉得博主的文章对您有很大帮助,欢迎支付宝(studyzy@163.com)对博主进行打赏。】
原文地址:https://www.cnblogs.com/studyzy/p/694179.html