Извлекатель текста из PDF

Documentize PDF Text Extractor для .NET упрощает извлечение текста из PDF-документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших потребностей.

Ключевые особенности:

  • Чистый режим: Извлекает текст, сохраняя его оригинальное форматирование.
  • Необработанный режим: Извлекает текст без какого-либо форматирования.
  • Простой режим: Извлекает текст без специальных символов или форматирования.
  • Пакетная обработка: Извлекает текст из нескольких PDF одновременно.

Как извлечь текст из PDF-документов

Чтобы извлечь текст из PDF-документа, выполните следующие шаги:

  1. Создайте экземпляр класса TextExtractor.
  2. Создайте экземпляр TextExtractorOptions, чтобы настроить параметры извлечения.
  3. Добавьте входной PDF-файл с помощью метода AddInput.
  4. Запустите метод Process, чтобы извлечь текст.
  5. Получите извлеченный текст с помощью ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Добавьте входной PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Обработайте извлечение текста
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Выведите извлеченный текст
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Извлечение текста из нескольких PDF

Плагин позволяет извлекать текст из нескольких PDF одновременно, обеспечивая быструю и эффективную обработку.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Добавьте несколько входных PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Обработайте извлечение
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Выведите извлеченный текст
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Режимы извлечения текста

Плагин TextExtractor предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.

  1. Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Необработанный режим: Извлекает текст без форматирования, полезен для обработки необработанных данных.
  3. Простой режим: Извлекает текст без специальных символов или дополнительного форматирования.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Установить в чистый режим
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Обработка и вывод
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Как обрабатывать пакетную обработку

Для больших наборов документов вы можете использовать пакетную обработку, позволяющую вам извлекать текст из нескольких PDF одновременно.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Добавьте несколько входных PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Определите вывод для каждого файла
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Обработайте извлеченный текст
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Русский