网页转文字版pdf

因为想把网页转化成文字版pdf供注释,高亮等操作,我尝试了很多的方法,现总结于此:

(1)adobe,福昕阅读器等虚拟打印生成pdf:

这种方法是我最先想到的,但是打印出来的是图片版本的pdf,不可编辑及注释,其实虚拟打印我早预料到不是文字版pdf可能性很大。

(2)网页另存为pdf:

这个根据浏览器和操作系统的不同操作稍微有些差异,不过大同小异。保存的确实是文字版pdf,但是对于充斥着大量数学公式的网页(维基百科),生成的pdf效果及其糟糕,基本上公式都挂掉了,在pdf中是空置的区域。不过我注意到图表在生成的pdf中还算凑合,显示正常,分辨率略低。这种方法,似乎对于一般的文字+普通图片的网页都够用了,如维基百科这样的网页相关的公式应该都是用类似LaTex的引擎生成的吧,所以普通图片生成成功,而它(公式)不可以。

(3)html 在线转化pdf:

我尝试了几个搜索引擎排在前面的网站,要么是页眉页脚打广告(文字版超级链接),要么是对于数学公式处理算不上完美(我用www.htmlpdf.com有一处,公式没有成功,出现马赛克)

PS: www.htmlpdf.com 这个网站还是不错的~,生成速度快,效果也还可以,没有推广广告的页眉页脚,不用软件~~~

(4)adobe acrobat:

我用的是adobe acrobat Pro DC,通过创建pdf(用网页链接来创建).用默认的设置,我的例子(维基百科)中,会出现一些问题:

  i)图片的公式过大,矢量的文字过小,这个可以在acrobat软件中:在创建pdf前的html的高级设置里通过调整文字的相关属性来解决。

      PS:此处还没有预览功能,“预览”只在最后决定要不要这个效果的pdf时才可见,这个文字调节大小只能是摸石头过河了,而且这个一般默认就得啦,我尝试了,这个调节大小也只是调节acrobatic它所认定的部分,和我们所想的还不是一回事,如果贸然调节,可能会出现参差不齐的文字效果!!!在这一点上,还是www.htmlpdf.com这个网站的效果好!!

  2)每一页pdf的页眉页脚会给出“源网页”的“文字”超链接,这个效果就和(3)中的有些软件给出的推广文字链接一样,这个也可以在acrobat高级设置里进行设置!!

原文地址:https://www.cnblogs.com/LzKlyhPorter/p/5557065.html