PDF Text Extractor
Documentize PDF Text Extractor для .NET спрощує витягування тексту з PDF документів. Якщо вам потрібно чистий, сирий або звичайний текст, цей плагін дозволяє вам ефективно витягувати текст, зберігаючи форматування або пропускаючи його залежно від ваших потреб.
Основні характеристики:
- Чистий режим: Витягує текст, зберігаючи його оригінальне форматування.
- Сирий режим: Витягує текст без будь-якого форматування.
- Звичайний режим: Витягує текст без спеціальних символів або форматування.
- Пакетна обробка: Витягує текст з кількох PDF одночасно.
Як витягувати текст з PDF документів
Щоб витягти текст з PDF документа, виконайте наступні кроки:
- Створіть екземпляр класу
TextExtractor
. - Створіть екземпляр
TextExtractorOptions
, щоб налаштувати параметри витягування. - Додайте вхідний PDF файл за допомогою методу
AddInput
. - Запустіть метод
Process
, щоб витягти текст. - Отримайте витягнутий текст за допомогою
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте вхідний PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Обробіть витягнення тексту
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Виведіть витягнутий текст
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Витягування тексту з кількох PDF
Плагін дозволяє витягувати текст з кількох PDF одночасно, забезпечуючи швидку та ефективну обробку.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте кілька вхідних PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Обробіть витягнення
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Виведіть витягнутий текст
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Режими витягування тексту
Плагін TextExtractor пропонує три режими витягування, що забезпечують гнучкість відповідно до ваших потреб.
- Чистий режим: Зберігає оригінальне форматування, включаючи пробіли та вирівнювання.
- Сирий режим: Витягує текст без форматування, корисно для обробки сирих даних.
- Звичайний режим: Витягує текст без спеціальних символів або додаткового форматування.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Встановіть чистий режим
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Обробіть та виведіть
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Як обробляти пакетну обробку
Для великих наборів документів ви можете скористатися пакетною обробкою, яка дозволяє вам витягувати текст з кількох PDF одночасно.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте кілька вхідних PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Визначте вихід для кожного файлу
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Обробіть витягнутий текст
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}