JAVA中pdf转图片的几种方法(二)

JAVA基于PDF box将PDF转为图片(转自阿里云社区)

1.引用:fontbox-2.0.16.jar、pdfbox-app-2.0.16.jar 版本一定要正确,否则代码会有问题。

main函数:

package kevin.cn;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import javax.imageio.ImageIO;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException;
import org.apache.pdfbox.rendering.ImageType;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.tools.PDFBox;

import kevin.cn.PdfUtil;
@SuppressWarnings("unused")
public class Test {

//经过测试,dpi为96,100,105,120,150,200中,105显示效果较为清晰,体积稳定,dpi越高图片体积越大,一般电脑显示分辨率为96
public static final float DEFAULT_DPI = 105;
//默认转换的图片格式为jpg
public static final String DEFAULT_FORMAT = "jpg";
public static void main(String[] args) throws Exception {
    pdfToImage("/media/kevin/FileData/JavaCode/pdfboxTest/企业信息化建设论文.pdf","/media/kevin/FileData/JavaCode/pdfboxTest/img/7.jpg",5);
}

  实现函数:

/**

 * pdf转图片
 *
 * @param pdfPath PDF路径
 * @imgPath img路径
 * @page_end 要转换的页码,也可以定义开始页码和结束页码,我这里只需要一页,根据需求自行添加
 */
public static void pdfToImage(String pdfPath, String imgPath,int page_end) {
    try {
        //图像合并使用参数
        // 总宽度
        int width = 0;
        // 保存一张图片中的RGB数据
        int[] singleImgRGB;
        int shiftHeight = 0;
        //保存每张图片的像素值
        BufferedImage imageResult = null;
        //利用PdfBox生成图像
        PDDocument pdDocument = PDDocument.load(new File(pdfPath));
        PDFRenderer renderer = new PDFRenderer(pdDocument);
        //循环每个页码
        for (int i = 0, len = pdDocument.getNumberOfPages(); i < len; i++) {
            if (i==page_end) {
                BufferedImage image = renderer.renderImageWithDPI(i, DEFAULT_DPI, ImageType.RGB);
                int imageHeight = image.getHeight();
                int imageWidth = image.getWidth();
               //计算高度和偏移量
                //使用第一张图片宽度;
                width = imageWidth;
                //保存每页图片的像素值
                imageResult = new BufferedImage(width, imageHeight, BufferedImage.TYPE_INT_RGB);
                //这里有高度,可以将imageHeight*len,我这里值提取一页所以不需要
                  singleImgRGB = image.getRGB(0, 0, width, imageHeight, null, 0, width);
                  // 写入流中
                  imageResult.setRGB(0, shiftHeight, width, imageHeight, singleImgRGB, 0, width);
        //合并pdf
          if(i==23){
          imageResult1 = imageResult;
        }else {
         imageResult = merge(imageResult1, imageResult);
        }
}else if(i>page_end) { continue; } } pdDocument.close();
// 写图片
ImageIO.write(imageResult, DEFAULT_FORMAT, new File(imgPath));
} catch (Exception e) { e.printStackTrace(); } //OVER }
相关的(版本必须一致)jar:
<!--pdf转图片-->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>3.0.0-alpha2</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>3.0.0-alpha2</version>
</dependency>
注意:

  根据3.0迁移指南,PDDocument.load方法已替换为Loader方法:

对于加载PDF,PDDocument.load已被Loader方法替换。加载FDF文档也是如此。

当保存一个PDF文件时,这将在默认的压缩模式下完成。使用CompressParameters.NO_COMPRESSION覆盖PDDocument.save。

PDFBox现在以增量方式加载PDF文档,以减少初始内存占用。如果只访问PDF的某些部分,这也将减少消耗PDF所需的内存。请注意,由于PDF的性质,诸如遍历所有页面、访问注释、签署PDF等用途可能仍然会超时加载PDF的所有部分,从而导致与PDFBox 2.0类似的内存消耗。

输入文件不能用作保存操作的输出。它将损坏文件并引发异常,因为在第一次保存文件时会读取部分文件。

因此,您可以切换到PDFBox的早期2.x版本,或者需要使用新的Loader方法。我认为这应该奏效:

File file = new File("C:\Meeting IDs.pdf");
PDDocument doc1 = Loader.loadPDF(file));

合并图片的工具方法

复制代码
 
//经过测试,dpi为96,100,105,120,150,200中,105显示效果较为清晰,体积稳定,dpi越高图片体积越大,一般电脑显示分辨率为96
public static final float DEFAULT_DPI = 105;
//默认转换的图片格式为png
public static final String DEFAULT_FORMAT = "png";
/**
* @description: pdf转成一张图片
* @author xiyun.zhao
* @param: pdfFile
* @param: outpath
* @return:
* @date: 2021/10/21 11:36
*/
public static void pdfToImage(String pdfFile, String outpath,Integer page) {
try {
InputStream is = new FileInputStream(pdfFile);
//利用PdfBox生成图像
PDDocument pdf = Loader.loadPDF(is);
PDFRenderer renderer = new PDFRenderer(pdf);
int actSize = pdf.getNumberOfPages();
List<BufferedImage> piclist = new ArrayList<>();
for (int i = 0; i < actSize; i++) {
if(i<page) {
BufferedImage image = renderer.renderImageWithDPI(i, DEFAULT_DPI, ImageType.RGB);
piclist.add(image);
}
}
yPic(piclist, outpath);
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}

/**
* 将宽度相同的图片,竖向追加在一起 ##注意:宽度必须相同
* @param piclist 文件流数组
* @param outPath 输出路径
*/
public static void yPic(java.util.List<BufferedImage> piclist, String outPath) {// 纵向处理图片
if (piclist == null || piclist.size() <= 0) {
System.out.println("图片数组为空!");
return;
}
try {
int height = 0, // 总高度
width = 0, // 总宽度
_height = 0, // 临时的高度 , 或保存偏移高度
__height = 0, // 临时的高度,主要保存每个高度
picNum = piclist.size();// 图片的数量
int[] heightArray = new int[picNum]; // 保存每个文件的高度
BufferedImage buffer = null; // 保存图片流
List<int[]> imgRGB = new ArrayList<int[]>(); // 保存所有的图片的RGB
int[] _imgRGB; // 保存一张图片中的RGB数据
for (int i = 0; i < picNum; i++) {
buffer = piclist.get(i);
heightArray[i] = _height = buffer.getHeight();// 图片高度
if (i == 0) {
width = buffer.getWidth();// 图片宽度
}
height += _height; // 获取总高度
_imgRGB = new int[width * _height];// 从图片中读取RGB
_imgRGB = buffer.getRGB(0, 0, width, _height, _imgRGB, 0, width);
imgRGB.add(_imgRGB);
}
_height = 0; // 设置偏移高度为0
// 生成新图片
BufferedImage imageResult = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB);
for (int i = 0; i < picNum; i++) {
__height = heightArray[i];
        //这样写有问题(有些pdf转不成功)
//if (i != 0) _height += __height; // 计算偏移高度
       //改为:
       if (i != 0) _height += heightArray[i-1]; // 计算偏移高度
            imageResult.setRGB(0, _height, width, __height, imgRGB.get(i), 0, width); // 写入流中
}
File outFile = new File(outPath);
ImageIO.write(imageResult, DEFAULT_FORMAT, outFile);// 写图片
} catch (Exception e) {
e.printStackTrace();
}
}




我是个双鱼座的小王子,沉浸在自己的代码世界里,去探索这未知的世界,希望遇到更多的小伙伴一起前行!
原文地址:https://www.cnblogs.com/zxy-come-on/p/15429569.html