Извлечение текста
The Documentize PDF Extractor for .NET упрощает извлечение текста из PDF‑документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших требований.
Как извлечь текст из PDF‑файла
Чтобы извлечь текст из PDF‑файла, выполните следующие шаги:
- Создайте экземпляр
ExtractTextOptionsдля указания пути к входному файлу. - Запустите метод
Extractдля извлечения текста.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Как извлечь текст из PDF‑потока
Чтобы извлечь текст из PDF‑потока, выполните следующие шаги:
- Создайте экземпляр
ExtractTextOptionsдля указания входного потока. - Запустите метод
Extractдля извлечения текста.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Режимы извлечения текста
**ExtractTextOptions** предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших потребностей.
- Pure Mode: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
- Raw Mode: Извлекает текст без форматирования, полезно для обработки необработанных данных.
- Flatten Mode: Представляет содержимое PDF в виде позиционных фрагментов текста с их координатами.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Как извлечь текст из PDF‑файла в максимально короткой форме
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Ключевые особенности:
- Pure Mode: Извлекает текст, сохраняющий оригинальное форматирование.
- Raw Mode: Извлекает текст без какого‑либо форматирования.
- Flatten Mode: Извлекает текст без специальных символов и форматирования.