PDF Text Extractor
Documentize PDF Text Extractor для .NET упрощает процесс извлечения текста из PDF-документов. Независимо от того, требуется ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя или опуская форматирование в зависимости от ваших потребностей.
Как извлечь текст из PDF
Чтобы извлечь текст из PDF-документа, выполните следующие шаги:
- Создайте экземпляр
TextExtractorOptions
, чтобы настроить параметры извлечения. - Добавьте входной PDF-файл, используя метод
AddInput
. - Запустите метод
Process
для извлечения текста. - Получите извлеченный текст, используя
ResultContainer.ResultCollection
.
1// Создайте объект TextExtractorOptions для установки инструкций
2var options = new TextExtractorOptions();
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Режимы извлечения текста
Плагин TextExtractor предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.
- Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
- Необработанный режим: Извлекает текст без форматирования, полезно для обработки необработанных данных.
- Сглаженный режим: Представляет содержимое PDF с позиционированием текстовых фрагментов по их координатам.
1// Создайте объект TextExtractorOptions для установки TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = TextExtractor.Process(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Ключевые особенности:
- Чистый режим: Извлекайте текст, сохраняя его оригинальное форматирование.
- Необработанный режим: Извлекайте текст без какого-либо форматирования.
- Сглаженный режим: Извлекайте текст без специальных символов или форматирования.