PDF Extractor

Extract Text

使用 Documentize 的 .NET 工具准确提取 PDF 中的文本——轻松检索、处理和分析内容。

Extract Images

轻松从 .NET 应用程序中提取 PDF 文档中的图像

Export Form Data

从 PDF 表单 (AcroForms) 中提取和导出数据到其他格式,如 CSV,使用 C# .NET

PDF Extractor 的子部分

Extract Text

Documentize PDF Extractor for .NET 使从 PDF 文档中提取文本变得简单。无论您需要纯文本、原始文本还是简洁文本,此插件都允许您高效地提取文本,同时根据您的需求保留格式或省略格式。

如何从 PDF 中提取文本

要从 PDF 文档中提取文本,请按照以下步骤操作:

  1. 创建一个 ExtractTextOptions 的实例以配置提取选项。
  2. 使用 AddInput 方法添加输入 PDF 文件。
  3. 运行 ExtractText 方法以提取文本。
  4. 使用 ResultContainer.ResultCollection 访问提取的文本。
1// 创建 ExtractTextOptions 对象以设置指令
2var options = new ExtractTextOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

文本提取模式

ExtractTextOptions 提供三种提取模式,根据您的需求提供灵活性。

  1. 纯模式:保留原始格式,包括空格和对齐。
  2. 原始模式:提取未经格式化的文本,适用于原始数据处理。
  3. 扁平模式:通过其坐标显示 PDF 内容的定位文本片段。
1// 创建 ExtractTextOptions 对象以设置 TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

主要特性:

  • 纯模式:提取文本时保留其原始格式。
  • 原始模式:提取文本时不进行任何格式化。
  • 扁平模式:提取文本时不带特殊字符或格式。

Extract Images

Documentize PDF Extractor for .NET 插件使您能够轻松地从 PDF 文档中提取图像。它扫描您的 PDF 文件,识别嵌入的图像,并在保持其原始质量和格式的同时提取这些图像。该工具增强了视觉内容的可访问性,并简化了从 PDF 中检索图像的过程。

如何从 PDF 中提取图像

要从 PDF 文件中提取图像,请按照以下步骤操作:

  1. 创建 ExtractImagesOptions 类的实例。
  2. 使用 AddInput 方法将输入文件路径添加到选项中。
  3. 使用 AddOutput 方法设置图像的输出目录路径。
  4. 使用插件处理图像提取。
  5. 从结果容器中检索提取的图像。
 1// 创建 ExtractImagesOptions 以设置指令
 2var options = new ExtractImagesOptions();
 3// 添加输入文件路径
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// 设置输出目录路径
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// 执行该过程
 8var results = PdfExtractor.ExtractImages(options);
 9// 获取图像结果路径
10var imageExtracted = results.ResultCollection[0].ToFile();

从 PDF 文件提取图像到流而不使用文件夹

PdfExtractor 插件支持保存到流,这使您能够从 PDF 文件中提取图像到流,而不使用临时文件夹。

 1// 创建 ExtractImagesOptions 以设置指令
 2var options = new ExtractImagesOptions();
 3// 添加输入文件路径
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// 不设置输出 - 它将结果写入流
 6// 执行该过程
 7var results = PdfExtractor.ExtractImages(options);
 8// 获取流
 9var ms = results.ResultCollection[0].ToStream();
10// 为演示复制数据到文件
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

关键特点:

  • 提取嵌入图像:识别并提取 PDF 文档中的图像。
  • 保持图像质量:确保提取的图像保持其原始质量。
  • 灵活输出:以您喜欢的格式或位置保存提取的图像。

Export Form Data

Documentize PDF Extractor for .NET 插件提供了一种无缝的方式来从 PDF 表单 (AcroForms) 中提取和导出数据到其他格式,如 CSV。这个动态工具简化了检索表单字段值的过程,便于数据管理、传输和分析。

如何从 PDF 导出表单数据

要将表单数据从 PDF 导出到 CSV,请按照以下步骤操作:

  1. 创建 ExtractImagesOptions 类的实例。
  2. 使用 FormExporterValuesToCsvOptions 类定义导出选项。
  3. 添加输入 PDF 文件并指定输出 CSV 文件。
  4. 运行 Process 方法以执行导出。
1// 创建 ExtractFormDataToDsvOptions 对象以设置指令
2var options = new ExtractFormDataToDsvOptions(',', true);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 设置输出文件路径
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// 执行处理
8PdfExtractor.ExtractFormData(options);

主要特性:

  • 导出表单数据:将 PDF 表单 (AcroForms) 中的数据提取到 CSV 或其他格式。
  • 数据过滤:使用谓词根据字段类型或页面号码等标准过滤特定表单字段以便导出。
  • 灵活输出:将导出的数据保存以供分析,或转移到电子表格、数据库或其他文档格式。
 中文