Извлекатель текста из PDF
Documentize PDF Text Extractor для .NET упрощает извлечение текста из PDF-документов. Независимо от того, нужен ли вам чистый, сырой или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя его форматирование или опуская его в зависимости от ваших потребностей.
Основные характеристики:
- Чистый режим: Извлечение текста с сохранением его оригинального форматирования.
- Сырой режим: Извлечение текста без какого-либо форматирования.
- Простой режим: Извлечение текста без специальных символов или форматирования.
- Пакетная обработка: Извлечение текста из нескольких PDF одновременно.
Как извлечь текст из PDF-документов
Чтобы извлечь текст из PDF-документа, выполните следующие шаги:
- Создайте экземпляр класса
TextExtractor
. - Создайте экземпляр
TextExtractorOptions
, чтобы настроить параметры извлечения. - Добавьте входной PDF-файл, используя метод
AddInput
. - Запустите метод
Process
для извлечения текста. - Получите извлечённый текст, используя
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Добавьте входной PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Процесс извлечения текста
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Вывод извлечённого текста
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Извлечение текста из нескольких PDF
Плагин позволяет извлекать текст из нескольких PDF одновременно, обеспечивая быструю и эффективную обработку.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Добавьте несколько входных PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Процесс извлечения
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Вывод извлечённого текста
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Режимы извлечения текста
Плагин TextExtractor предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.
- Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
- Сырой режим: Извлекает текст без форматирования, полезен для обработки сырых данных.
- Простой режим: Извлекает текст без специальных символов или дополнительного форматирования.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Установите в чистый режим
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Обработка и вывод
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Как обрабатывать пакетную обработку
Для больших наборов документов вы можете воспользоваться пакетной обработкой, что позволяет извлекать текст из нескольких PDF одновременно.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Добавьте несколько входных PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Определите вывод для каждого файла
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Обработка извлечённого текста
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}