PDF Extractor

Extract Text

Извлекайте текст из PDF-документов точно с помощью инструментов .NET от Documentize — получайте, обрабатывайте и анализируйте содержимое без усилий.

Extract Images

Легко извлекайте изображения из PDF-документов из приложений .NET

Export Form Data

Извлечение и экспорт данных из PDF-форм (AcroForms) в другие форматы, такие как CSV, с использованием C# .NET

Подразделы PDF Extractor

Extract Text

Documentize PDF Extractor для .NET упрощает извлечение текста из PDF-документов. Независимо от того, нужен ли вам чистый, необработанный или простой текст, этот плагин позволяет вам эффективно извлекать текст, сохраняя форматирование или опуская его в зависимости от ваших нужд.

Как извлечь текст из PDF

Чтобы извлечь текст из PDF-документа, выполните следующие шаги:

  1. Создайте экземпляр ExtractTextOptions, чтобы настроить параметры извлечения.
  2. Добавьте входной PDF-файл с помощью метода AddInput.
  3. Запустите метод ExtractText, чтобы извлечь текст.
  4. Получите доступ к извлеченному тексту с помощью ResultContainer.ResultCollection.
1// Создайте объект ExtractTextOptions для установки инструкций
2var options = new ExtractTextOptions();
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = PdfExtractor.ExtractText(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Режимы извлечения текста

ExtractTextOptions предлагает три режима извлечения, обеспечивая гибкость в зависимости от ваших нужд.

  1. Чистый режим: Сохраняет оригинальное форматирование, включая пробелы и выравнивание.
  2. Необработанный режим: Извлекает текст без форматирования, полезен для обработки сырых данных.
  3. Сглаженный режим: Представляет содержимое PDF с позиционированием текстовых фрагментов по их координатам.
1// Создайте объект ExtractTextOptions для установки TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Добавьте путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Выполните процесс
6var results = PdfExtractor.ExtractText(options);
7// Получите извлеченный текст из объекта ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Ключевые особенности:

  • Чистый режим: Извлекает текст, сохраняя его оригинальное форматирование.
  • Необработанный режим: Извлекает текст без какого-либо форматирования.
  • Сглаженный режим: Извлекает текст без специальных символов или форматирования.

Extract Images

Плагин Documentize PDF Extractor for .NET позволяет вам без труда извлекать изображения из PDF-документов. Он сканирует ваши PDF-файлы, идентифицирует встроенные изображения и извлекает их, сохраняя их оригинальное качество и формат. Этот инструмент повышает доступность визуального контента и упрощает процесс извлечения изображений из PDF-файлов.

Как извлечь изображения из PDF

Чтобы извлечь изображения из PDF-файла, выполните следующие шаги:

  1. Создайте экземпляр класса ExtractImagesOptions.
  2. Добавьте путь к входному файлу в параметры с помощью метода AddInput.
  3. Установите путь к выходному каталогу для изображений с помощью метода AddOutput.
  4. Обработайте извлечение изображений с помощью плагина.
  5. Получите извлеченные изображения из контейнера результатов.
 1// Создайте ExtractImagesOptions для установки инструкций
 2var options = new ExtractImagesOptions();
 3// Добавьте путь к входному файлу
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Установите путь к выходному каталогу
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Выполните процесс
 8var results = PdfExtractor.ExtractImages(options);
 9// Получите путь к результату изображения
10var imageExtracted = results.ResultCollection[0].ToFile();

Извлечение изображений из PDF-файла в потоки без папки

Плагин PdfExtractor поддерживает сохранение в потоки, что позволяет извлекать изображения из PDF-файлов в потоки без использования временных папок.

 1// Создайте ExtractImagesOptions для установки инструкций
 2var options = new ExtractImagesOptions();
 3// Добавьте путь к входному файлу
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Не задавайте выходные параметры - это будет записывать результаты в потоки
 6// Выполните процесс
 7var results = PdfExtractor.ExtractImages(options);
 8// Получите поток
 9var ms = results.ResultCollection[0].ToStream();
10// Скопируйте данные в файл для демонстрации
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Ключевые особенности:

  • Извлечение встроенных изображений: Идентификация и извлечение изображений из PDF-документов.
  • Сохранение качества изображений: Обеспечивает сохранение оригинального качества извлеченных изображений.
  • Гибкий вывод: Сохраняйте извлеченные изображения в предпочтительном формате или местоположении.

Export Form Data

Плагин Documentize PDF Extractor for .NET предоставляет удобный способ извлечения и экспорта данных из PDF-форм (AcroForms) в другие форматы, такие как CSV. Этот динамичный инструмент упрощает процесс получения значений полей форм, позволяя легко управлять данными, передавать их и анализировать.

Как экспортировать данные формы из PDF

Чтобы экспортировать данные формы из PDF в CSV, выполните следующие шаги:

  1. Создайте экземпляр класса ExtractImagesOptions.
  2. Определите параметры экспорта, используя класс FormExporterValuesToCsvOptions.
  3. Добавьте входные PDF-файлы и укажите выходной CSV-файл.
  4. Запустите метод Process для выполнения экспорта.
1// Создать объект ExtractFormDataToDsvOptions для установки инструкций
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Добавить путь к входному файлу
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Установить путь к выходному файлу
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Выполнить процесс
8PdfExtractor.ExtractFormData(options);

Ключевые особенности:

  • Экспорт данных формы: Извлечение данных из PDF-форм (AcroForms) в CSV или другие форматы.
  • Фильтрация данных: Используйте предикаты для фильтрации конкретных полей форм для экспорта на основе таких критериев, как тип поля или номер страницы.
  • Гибкий выход: Сохраняйте экспортированные данные для анализа или передачи в электронные таблицы, базы данных или другие форматы документов.
 Русский