PDF Text Extractor

Documentize PDF Text Extractor для .NET упрощает процесс извлечения текста из PDF-документов. Независимо от того, требуется ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя или опуская форматирование в зависимости от ваших потребностей.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF-документа, выполните следующие шаги:

  1. Создайте экземпляр TextExtractorOptions, чтобы настроить параметры извлечения.
  2. Добавьте входной PDF-файл, используя метод AddInput.
  3. Запустите метод Process для извлечения текста.
  4. Получите извлеченный текст, используя ResultContainer.ResultCollection.
1// Создайте объект TextExtractorOptions для установки инструкций
2var options = new TextExtractorOptions();
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

Плагин TextExtractor предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.

  1. Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Необработанный режим: Извлекает текст без форматирования, полезно для обработки необработанных данных.
  3. Сглаженный режим: Представляет содержимое PDF с позиционированием текстовых фрагментов по их координатам.
1// Создайте объект TextExtractorOptions для установки TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

  • Чистый режим: Извлекайте текст, сохраняя его оригинальное форматирование.
  • Необработанный режим: Извлекайте текст без какого-либо форматирования.
  • Сглаженный режим: Извлекайте текст без специальных символов или форматирования.
 Русский