PDF Text Extractor

Documentize PDF Text Extractor для .NET спрощує витягування тексту з PDF документів. Якщо вам потрібно чистий, сирий або звичайний текст, цей плагін дозволяє вам ефективно витягувати текст, зберігаючи форматування або пропускаючи його залежно від ваших потреб.

Основні характеристики:

  • Чистий режим: Витягує текст, зберігаючи його оригінальне форматування.
  • Сирий режим: Витягує текст без будь-якого форматування.
  • Звичайний режим: Витягує текст без спеціальних символів або форматування.
  • Пакетна обробка: Витягує текст з кількох PDF одночасно.

Як витягувати текст з PDF документів

Щоб витягти текст з PDF документа, виконайте наступні кроки:

  1. Створіть екземпляр класу TextExtractor.
  2. Створіть екземпляр TextExtractorOptions, щоб налаштувати параметри витягування.
  3. Додайте вхідний PDF файл за допомогою методу AddInput.
  4. Запустіть метод Process, щоб витягти текст.
  5. Отримайте витягнутий текст за допомогою ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте вхідний PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Обробіть витягнення тексту  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Виведіть витягнутий текст  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Витягування тексту з кількох PDF

Плагін дозволяє витягувати текст з кількох PDF одночасно, забезпечуючи швидку та ефективну обробку.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте кілька вхідних PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Обробіть витягнення  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Виведіть витягнутий текст  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Режими витягування тексту

Плагін TextExtractor пропонує три режими витягування, що забезпечують гнучкість відповідно до ваших потреб.

  1. Чистий режим: Зберігає оригінальне форматування, включаючи пробіли та вирівнювання.
  2. Сирий режим: Витягує текст без форматування, корисно для обробки сирих даних.
  3. Звичайний режим: Витягує текст без спеціальних символів або додаткового форматування.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Встановіть чистий режим  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Обробіть та виведіть  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Як обробляти пакетну обробку

Для великих наборів документів ви можете скористатися пакетною обробкою, яка дозволяє вам витягувати текст з кількох PDF одночасно.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте кілька вхідних PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Визначте вихід для кожного файлу  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Обробіть витягнутий текст  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Українська