PDF文本提取器
Documentize PDF文本提取器 for .NET 简化了从PDF文档中提取文本的过程。无论您需要纯文本、原始文本还是简单文本,此插件都允许您高效提取文本,同时根据需求保留格式或省略格式。
关键功能:
- 纯模式:提取文本时保留其原始格式。
- 原始模式:提取时不保留任何格式。
- 简单模式:提取文本时不包含特殊字符或格式。
- 批量处理:一次从多个PDF中提取文本。
如何从PDF文档中提取文本
要从PDF文档中提取文本,请按照以下步骤操作:
- 创建
TextExtractor
类的实例。 - 创建
TextExtractorOptions
的实例以配置提取选项。 - 使用
AddInput
方法添加输入PDF文件。 - 运行
Process
方法提取文本。 - 使用
ResultContainer.ResultCollection
访问提取的文本。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 添加输入PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 处理文本提取
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// 打印提取的文本
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
从多个PDF中提取文本
该插件允许您同时从多个PDF中提取文本,确保快速和高效的处理。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 添加多个输入PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// 处理提取
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 输出提取的文本
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
文本提取模式
TextExtractor 插件提供三种提取模式,根据您的需求提供灵活性。
- 纯模式:保留原始格式,包括空格和对齐。
- 原始模式:提取不带格式的文本,适用于原始数据处理。
- 简单模式:提取文本时不包含特殊字符或附加格式。
1var textExtractorOptions = new TextExtractorOptions();
2
3// 设置为纯模式
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 处理和输出
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
如何处理批量处理
对于大型文档集,您可以利用批量处理,使您能够一次从多个PDF中提取文本。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 添加多个输入PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// 为每个文件定义输出
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 处理提取的文本
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}