PDF Text Extractor

Documentize PDF Text Extractor для .NET спрощує процес витягування тексту з PDF-документів. Незалежно від того, чи потрібен вам чистий, сирий чи простий текст, цей плагін дозволяє ефективно витягувати текст, зберігаючи форматування або відкидаючи його залежно від ваших потреб.

Ключові особливості:

  • Чистий режим: Витягувати текст, зберігаючи його оригінальне форматування.
  • Сирий режим: Витягувати текст без будь-якого форматування.
  • Простий режим: Витягувати текст без спеціальних символів або форматування.
  • Пакетна обробка: Витягувати текст з кількох PDF одночасно.

Як витягнути текст з PDF-документів

Щоб витягнути текст з PDF-документа, дотримуйтесь цих кроків:

  1. Створіть екземпляр класу TextExtractor.
  2. Створіть екземпляр TextExtractorOptions для налаштування параметрів витягування.
  3. Додайте вхідний PDF-файл за допомогою методу AddInput.
  4. Запустіть метод Process для витягування тексту.
  5. Отримайте витягнутий текст за допомогою ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте вхідний PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Обробка витягування тексту  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Надрукуйте витягнутий текст  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Витягування тексту з кількох PDF

Плагін дозволяє витягувати текст з кількох PDF одночасно, що забезпечує швидку та ефективну обробку.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте кілька вхідних PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Обробка витягування  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Вивід витягнутого тексту  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Режими витягування тексту

Плагін TextExtractor пропонує три режими витягування, забезпечуючи гнучкість залежно від ваших потреб.

  1. Чистий режим: Зберігає оригінальне форматування, включаючи пробіли та вирівнювання.
  2. Сирий режим: Витягує текст без форматування, корисно для обробки сирих даних.
  3. Простий режим: Витягує текст без спеціальних символів або додаткового форматування.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Встановити в чистий режим  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Обробка та вивід  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Як обробляти пакетну обробку

Для великих наборів документів ви можете використовувати пакетну обробку, що дозволяє витягувати текст з кількох PDF одночасно.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Додайте кілька вхідних PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Визначте вихідні дані для кожного файлу  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Обробка витягнутого тексту  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Українська