PDF Text Extractor

Documentize PDF 文本提取器 for .NET 简化了从 PDF 文档中提取文本的过程。无论您需要的是纯文本、原始文本还是普通文本，该插件都可以高效地提取文本，同时根据您的需要保留格式或省略格式。

如何从 PDF 中提取文本

要从 PDF 文档中提取文本，请按照以下步骤操作：

创建 TextExtractorOptions 的实例以配置提取选项。
使用 AddInput 方法添加输入 PDF 文件。
运行 Process 方法以提取文本。
使用 ResultContainer.ResultCollection 访问提取的文本。

1// 创建 TextExtractorOptions 对象以设置指令
2var options = new TextExtractorOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = TextExtractor.Process(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

文本提取模式

TextExtractor 插件提供三种提取模式，根据您的需求提供灵活性。

纯模式：保留原始格式，包括空格和对齐。
原始模式：提取不带格式的文本，适用于原始数据处理。
扁平模式：根据坐标表示 PDF 内容与定位文本片段。

1// 创建 TextExtractorOptions 对象以设置 TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = TextExtractor.Process(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

主要特点：

纯模式：在保留原始格式的同时提取文本。
原始模式：提取不带任何格式的文本。
扁平模式：提取没有特殊字符或格式的文本。