PDF Text Extractor

Documentize PDF Text Extractor для .NET упрощает процесс извлечения текста из PDF-документов. Независимо от того, требуется ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя или опуская форматирование в зависимости от ваших потребностей.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF-документа, выполните следующие шаги:

Создайте экземпляр TextExtractorOptions, чтобы настроить параметры извлечения.
Добавьте входной PDF-файл, используя метод AddInput.
Запустите метод Process для извлечения текста.
Получите извлеченный текст, используя ResultContainer.ResultCollection.

1// Создайте объект TextExtractorOptions для установки инструкций
2var options = new TextExtractorOptions();
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

Плагин TextExtractor предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.

Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
Необработанный режим: Извлекает текст без форматирования, полезно для обработки необработанных данных.
Сглаженный режим: Представляет содержимое PDF с позиционированием текстовых фрагментов по их координатам.

1// Создайте объект TextExtractorOptions для установки TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

Чистый режим: Извлекайте текст, сохраняя его оригинальное форматирование.
Необработанный режим: Извлекайте текст без какого-либо форматирования.
Сглаженный режим: Извлекайте текст без специальных символов или форматирования.