Extract Text

Documentize PDF Extractor для .NET упрощает извлечение текста из PDF-документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет вам эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших нужд.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF-документа, выполните следующие шаги:

  1. Создайте экземпляр ExtractTextOptions, чтобы настроить параметры извлечения.
  2. Добавьте входной PDF-файл с помощью метода AddInput.
  3. Запустите метод ExtractText, чтобы извлечь текст.
  4. Получите доступ к извлеченному тексту с помощью ResultContainer.ResultCollection.
1// Создайте объект ExtractTextOptions для установки инструкций
2var options = new ExtractTextOptions();
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = PdfExtractor.ExtractText(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

ExtractTextOptions предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших нужд.

  1. Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Необработанный режим: Извлекает текст без форматирования, полезен для обработки сырых данных.
  3. Сглаженный режим: Представляет содержимое PDF с позиционированием текстовых фрагментов по их координатам.
1// Создайте объект ExtractTextOptions для установки TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = PdfExtractor.ExtractText(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

  • Чистый режим: Извлекает текст, сохраняя его оригинальное форматирование.
  • Необработанный режим: Извлекает текст без какого-либо форматирования.
  • Сглаженный режим: Извлекает текст без специальных символов или форматирования.
 Русский