PDF Extractor

Извлечение текста

Точно извлекайте текст из PDF с помощью .NET‑инструментов Documentize — легко получайте, обрабатывайте и анализируйте содержимое.

Извлечение изображений

Легко извлекайте изображения из PDF‑документов из .NET‑приложений

Извлечение свойств / Метаданные

Точно извлекайте метаданные из PDF с Documentize, используя C#/.NET

Экспорт данных формы

Извлекать и экспортировать данные из PDF-форм (AcroForms) в другие форматы, такие как CSV, с использованием C#/.NET

Подразделы PDF Extractor

Извлечение текста

The Documentize PDF Extractor for .NET упрощает извлечение текста из PDF‑документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших потребностей.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF‑документа, выполните следующие шаги:

  1. Создайте экземпляр ExtractTextOptions для настройки параметров извлечения.
  2. Добавьте входной PDF‑файл с помощью метода AddInput.
  3. Запустите метод Extract для выполнения извлечения.
  4. Получите извлечённый текст через ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

ExtractTextOptions предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших задач.

  1. Pure Mode: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Raw Mode: Извлекает текст без форматирования, удобно для обработки необработанных данных.
  3. Flatten Mode: Представляет содержимое PDF в виде позиционных фрагментов текста по их координатам.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

  • Pure Mode: Извлечение текста с сохранением оригинального форматирования.
  • Raw Mode: Извлечение текста без какого‑либо форматирования.
  • Flatten Mode: Извлечение текста без специальных символов и форматирования.

Извлечение изображений

Плагин Documentize PDF Extractor for .NET позволяет без усилий извлекать изображения из PDF‑документов. Он сканирует ваши PDF‑файлы, определяет встроенные изображения и извлекает их, сохраняя исходное качество и формат. Этот инструмент повышает доступность визуального контента и упрощает процесс получения изображений из PDF‑файлов.

Как извлечь изображения из PDF

Чтобы извлечь изображения из PDF‑файла, выполните следующие шаги:

  1. Создайте экземпляр класса ExtractImagesOptions.
  2. Добавьте путь к входному файлу в параметры с помощью метода AddInput.
  3. Укажите путь к каталогу вывода для изображений с помощью метода AddOutput.
  4. Выполните процесс извлечения изображений с помощью плагина.
  5. Получите извлечённые изображения из контейнера результатов.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Извлечение изображений из PDF‑файла в потоки без папки

Плагин PdfExtractor поддерживает сохранение в потоки, что позволяет извлекать изображения из PDF‑файлов непосредственно в потоки без использования временных папок.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Ключевые возможности:

  • Извлечение встроенных изображений: Определение и извлечение изображений из PDF‑документов.
  • Сохранение качества изображений: Гарантирует, что извлечённые изображения сохранят оригинальное качество.
  • Гибкий вывод: Сохранение извлечённых изображений в желаемом формате или месте.

Извлечение свойств / Метаданные

The Documentize PDF Extractor for .NET упрощает извлечение метаданных из PDF‑документов. Доступные свойства, которые могут вас заинтересовать: Title, Author, Subject, Keywords, Number of Pages.

Как извлечь метаданные из PDF‑файла

В примере показано, как извлечь свойства (Title, Author, Subject, Keywords, Number of Pages) из PDF‑файла. Чтобы извлечь метаданные из PDF‑документа, выполните следующие шаги:

  1. Создайте экземпляр ExtractPropertiesOptions для настройки параметров извлечения и указания входного PDF‑файла.
  2. Запустите метод Extract класса PdfExtractor для получения метаданных.
  3. Получите извлечённые свойства через PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

Как извлечь метаданные из PDF‑потока

Вы можете открыть поток по своему усмотрению.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

Как извлечь метаданные из PDF‑файла в самом кратком виде

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Ключевые особенности:

  • Доступные метаданные: Title, Author, Subject, Keywords, Number of Pages.

Экспорт данных формы

The Documentize PDF Extractor for .NET плагин предоставляет простой способ извлечения и экспорта данных из PDF-форм (AcroForms) в другие форматы, такие как CSV. Этот динамический инструмент упрощает процесс получения значений полей формы, позволяя легко управлять данными, передавать их и анализировать.

Как экспортировать данные формы из PDF

Чтобы экспортировать данные формы из PDF в CSV, выполните следующие шаги:

  1. Создайте экземпляр класса ExtractImagesOptions.
  2. Определите параметры экспорта с помощью класса FormExporterValuesToCsvOptions.
  3. Добавьте входные PDF‑файлы и укажите выходной CSV‑файл.
  4. Запустите метод Extract для выполнения экспорта.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Ключевые возможности:

  • Экспорт данных формы: Извлекать данные из PDF-форм (AcroForms) в CSV или другие форматы.
  • Фильтрация данных: Использовать предикаты для фильтрации конкретных полей формы при экспорте на основе критериев, таких как тип поля или номер страницы.
  • Гибкий вывод: Сохранять экспортированные данные для анализа или передачи в электронные таблицы, базы данных или другие форматы документов.
 Русский