Извлечение текста

The Documentize PDF Extractor for .NET упрощает извлечение текста из PDF‑документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших потребностей.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF‑документа, выполните следующие шаги:

  1. Создайте экземпляр ExtractTextOptions для настройки параметров извлечения.
  2. Добавьте входной PDF‑файл с помощью метода AddInput.
  3. Запустите метод Extract для выполнения извлечения.
  4. Получите извлечённый текст через ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

ExtractTextOptions предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших задач.

  1. Pure Mode: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Raw Mode: Извлекает текст без форматирования, удобно для обработки необработанных данных.
  3. Flatten Mode: Представляет содержимое PDF в виде позиционных фрагментов текста по их координатам.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

  • Pure Mode: Извлечение текста с сохранением оригинального форматирования.
  • Raw Mode: Извлечение текста без какого‑либо форматирования.
  • Flatten Mode: Извлечение текста без специальных символов и форматирования.
 Русский