Extract Text

Documentize PDF Extractor for .NET 使从 PDF 文档中提取文本变得简单。无论您需要纯文本、原始文本还是简洁文本,此插件都允许您高效地提取文本,同时根据您的需求保留格式或省略格式。

如何从 PDF 中提取文本

要从 PDF 文档中提取文本,请按照以下步骤操作:

  1. 创建一个 ExtractTextOptions 的实例以配置提取选项。
  2. 使用 AddInput 方法添加输入 PDF 文件。
  3. 运行 ExtractText 方法以提取文本。
  4. 使用 ResultContainer.ResultCollection 访问提取的文本。
1// 创建 ExtractTextOptions 对象以设置指令
2var options = new ExtractTextOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

文本提取模式

ExtractTextOptions 提供三种提取模式,根据您的需求提供灵活性。

  1. 纯模式:保留原始格式,包括空格和对齐。
  2. 原始模式:提取未经格式化的文本,适用于原始数据处理。
  3. 扁平模式:通过其坐标显示 PDF 内容的定位文本片段。
1// 创建 ExtractTextOptions 对象以设置 TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();

主要特性:

  • 纯模式:提取文本时保留其原始格式。
  • 原始模式:提取文本时不进行任何格式化。
  • 扁平模式:提取文本时不带特殊字符或格式。
 中文