PDF Image Extractor
Documentize PDF Image Extractor for .NET 插件使您能够轻松地从PDF文档中提取图像。它扫描您的PDF文件,识别嵌入的图像,并在保持原始质量和格式的同时提取它们。这个工具提高了视觉内容的可访问性,并简化了从PDF中检索图像的过程。
如何从PDF中提取图像
要从PDF文件中提取图像,请遵循以下步骤:
- 创建
ImageExtractorOptions
类的实例。 - 使用
AddInput
方法将输入文件路径添加到选项中。 - 使用
AddOutput
方法设置图像的输出目录路径。 - 使用插件处理图像提取。
- 从结果容器中检索提取的图像。
1// 创建 ImageExtractorOptions 以设置指令
2var options = new ImageExtractorOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 设置输出目录路径
6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
7// 执行处理
8var results = ImageExtractor.Process(options);
9// 获取图像结果路径
10var imageExtracted = results.ResultCollection[0].ToFile();
从PDF文件提取图像到流,不使用文件夹
ImageExtractor 插件支持保存到流,这允许您从PDF文件中提取图像到流,而无需使用临时文件夹。
1// 创建 ImageExtractorOptions 以设置指令
2var options = new ImageExtractorOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 不设置输出 - 它将结果写入流
6// 执行处理
7var results = ImageExtractor.Process(options);
8// 获取流
9var ms = results.ResultCollection[0].ToStream();
10// 为演示复制数据到文件
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
主要特性:
- 提取嵌入图像:识别并提取PDF文档中的图像。
- 保持图像质量:确保提取的图像保留其原始质量。
- 灵活输出:以您喜欢的格式或位置保存提取的图像。