提取图像
The Documentize PDF Extractor for .NET 插件使您能够轻松从 PDF 文档中提取图像。它会扫描您的 PDF 文件,识别嵌入的图像,并在保持原始质量和格式的同时提取它们。此工具提升了视觉内容的可访问性,并简化了从 PDF 中检索图像的过程。
如何从 PDF 中提取图像
要从 PDF 文件中提取图像,请按照以下步骤操作:
- 创建
ExtractImagesOptions类的实例。 - 使用
AddInput方法将输入文件路径添加到选项中。 - 使用
AddOutput方法设置图像的输出目录路径。 - 使用插件执行图像提取过程。
- 从结果容器中获取提取的图像。
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output Directory path
6options.AddOutput(new DirectoryData("path_to_results_directory"));
7// Perform the process
8var results = PdfExtractor.Extract(options);
9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();在不使用文件夹的情况下将 PDF 文件的图像提取到流
PdfExtractor 插件支持保存到流,这使您可以在不使用临时文件夹的情况下将 PDF 文件中的图像提取到流中。
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Not set output - it will write results to streams
6// Perform the process
7var results = PdfExtractor.Extract(options);
8// Get Stream
9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}主要功能:
- 提取嵌入图像:识别并提取 PDF 文档中的图像。
- 保留图像质量:确保提取的图像保持原始质量。
- 灵活的输出:以您偏好的格式或位置保存提取的图像。