提取文本

The Documentize PDF Extractor for .NET 简化了从 PDF 文档中提取文本的过程。无论您需要纯文本、原始文本还是普通文本,此插件都能高效提取文本,并根据需要保留或省略格式。

如何从 PDF 中提取文本

要从 PDF 文档中提取文本,请遵循以下步骤:

  1. 创建 ExtractTextOptions 实例以配置提取选项。
  2. 使用 AddInput 方法添加输入 PDF 文件。
  3. 运行 Extract 方法进行文本提取。
  4. 通过 ResultContainer.ResultCollection 访问提取的文本。
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

文本提取模式

ExtractTextOptions 提供三种提取模式,根据您的需求提供灵活性。

  1. Pure Mode:保留原始格式,包括空格和对齐。
  2. Raw Mode:提取不带格式的文本,适用于原始数据处理。
  3. Flatten Mode:通过坐标将 PDF 内容表示为定位的文本片段。
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

关键特性:

  • Pure Mode:提取文本并保留其原始格式。
  • Raw Mode:提取不含任何格式的文本。
  • Flatten Mode:提取不含特殊字符或格式的文本。
 中文