PDF Text Extractor
Documentize PDF Text Extractor для .NET спрощує процес витягування тексту з PDF-документів. Незалежно від того, чи потрібен вам чистий, сирий чи простий текст, цей плагін дозволяє ефективно витягувати текст, зберігаючи форматування або відкидаючи його залежно від ваших потреб.
Ключові особливості:
- Чистий режим: Витягувати текст, зберігаючи його оригінальне форматування.
- Сирий режим: Витягувати текст без будь-якого форматування.
- Простий режим: Витягувати текст без спеціальних символів або форматування.
- Пакетна обробка: Витягувати текст з кількох PDF одночасно.
Як витягнути текст з PDF-документів
Щоб витягнути текст з PDF-документа, дотримуйтесь цих кроків:
- Створіть екземпляр класу
TextExtractor
. - Створіть екземпляр
TextExtractorOptions
для налаштування параметрів витягування. - Додайте вхідний PDF-файл за допомогою методу
AddInput
. - Запустіть метод
Process
для витягування тексту. - Отримайте витягнутий текст за допомогою
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте вхідний PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Обробка витягування тексту
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Надрукуйте витягнутий текст
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Витягування тексту з кількох PDF
Плагін дозволяє витягувати текст з кількох PDF одночасно, що забезпечує швидку та ефективну обробку.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте кілька вхідних PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Обробка витягування
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Вивід витягнутого тексту
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Режими витягування тексту
Плагін TextExtractor пропонує три режими витягування, забезпечуючи гнучкість залежно від ваших потреб.
- Чистий режим: Зберігає оригінальне форматування, включаючи пробіли та вирівнювання.
- Сирий режим: Витягує текст без форматування, корисно для обробки сирих даних.
- Простий режим: Витягує текст без спеціальних символів або додаткового форматування.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Встановити в чистий режим
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Обробка та вивід
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Як обробляти пакетну обробку
Для великих наборів документів ви можете використовувати пакетну обробку, що дозволяє витягувати текст з кількох PDF одночасно.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Додайте кілька вхідних PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Визначте вихідні дані для кожного файлу
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Обробка витягнутого тексту
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}