PDF 文本提取器

Documentize PDF 文本提取器 for .NET 简化了从 PDF 文档中提取文本的过程。无论您需要纯文本、原始文本还是简单文本,这个插件都允许您高效地提取文本,同时根据需要保留格式或省略它。

主要特点:

  • 纯模式:提取文本同时保留其原始格式。
  • 原始模式:提取没有任何格式的文本。
  • 简单模式:提取没有特殊字符或格式的文本。
  • 批处理:一次从多个 PDF 提取文本。

如何从 PDF 文档中提取文本

要从 PDF 文档中提取文本,请按照以下步骤操作:

  1. 创建 TextExtractor 类的实例。
  2. 创建 TextExtractorOptions 的实例以配置提取选项。
  3. 使用 AddInput 方法添加输入 PDF 文件。
  4. 运行 Process 方法以提取文本。
  5. 使用 ResultContainer.ResultCollection 访问提取的文本。
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 添加输入 PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 处理文本提取  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// 输出提取的文本  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

从多个 PDF 提取文本

该插件允许您同时从多个 PDF 提取文本,确保快速和高效的处理。

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 添加多个输入 PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// 处理提取  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 输出提取的文本  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

文本提取模式

TextExtractor 插件提供三种提取模式,根据您的需求提供灵活性。

  1. 纯模式:保留原始格式,包括空格和对齐。
  2. 原始模式:提取没有格式的文本,适合原始数据处理。
  3. 简单模式:提取没有特殊字符或附加格式的文本。
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// 设置为纯模式  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 处理并输出  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

如何处理批处理

对于大型文档集,您可以利用批处理,允许您一次从多个 PDF 提取文本。

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 添加多个输入 PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// 为每个文件定义输出  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 处理提取的文本  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 中文