Extract Images

Documentize PDF Extractor for .NET 插件使您能够轻松地从 PDF 文档中提取图像。它扫描您的 PDF 文件,识别嵌入的图像,并在保持其原始质量和格式的同时提取这些图像。该工具增强了视觉内容的可访问性,并简化了从 PDF 中检索图像的过程。

如何从 PDF 中提取图像

要从 PDF 文件中提取图像,请按照以下步骤操作:

  1. 创建 ExtractImagesOptions 类的实例。
  2. 使用 AddInput 方法将输入文件路径添加到选项中。
  3. 使用 AddOutput 方法设置图像的输出目录路径。
  4. 使用插件处理图像提取。
  5. 从结果容器中检索提取的图像。
 1// 创建 ExtractImagesOptions 以设置指令
 2var options = new ExtractImagesOptions();
 3// 添加输入文件路径
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// 设置输出目录路径
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// 执行该过程
 8var results = PdfExtractor.ExtractImages(options);
 9// 获取图像结果路径
10var imageExtracted = results.ResultCollection[0].ToFile();

从 PDF 文件提取图像到流而不使用文件夹

PdfExtractor 插件支持保存到流,这使您能够从 PDF 文件中提取图像到流,而不使用临时文件夹。

 1// 创建 ExtractImagesOptions 以设置指令
 2var options = new ExtractImagesOptions();
 3// 添加输入文件路径
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// 不设置输出 - 它将结果写入流
 6// 执行该过程
 7var results = PdfExtractor.ExtractImages(options);
 8// 获取流
 9var ms = results.ResultCollection[0].ToStream();
10// 为演示复制数据到文件
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

关键特点:

  • 提取嵌入图像:识别并提取 PDF 文档中的图像。
  • 保持图像质量:确保提取的图像保持其原始质量。
  • 灵活输出:以您喜欢的格式或位置保存提取的图像。
 中文