PDF Extractor

Extract Text

Extraiga texto de PDF de manera precisa con las herramientas .NET de Documentize—recupere, procese y analice contenido sin esfuerzo.

Extract Images

Extrae imágenes de documentos PDF sin esfuerzo desde aplicaciones .NET

Exportar datos del formulario

Extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV utilizando C# .NET

Subsecciones de PDF Extractor

Extract Text

El Extractor de PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, en bruto o plano, este complemento le permite extraer texto de manera eficiente mientras preserva el formato o lo omite según sus necesidades.

Cómo Extraer Texto de un PDF

Para extraer texto de un documento PDF, siga estos pasos:

  1. Cree una instancia de ExtractTextOptions para configurar las opciones de extracción.
  2. Agregue el archivo PDF de entrada utilizando el método AddInput.
  3. Ejecute el método ExtractText para extraer el texto.
  4. Acceda al texto extraído utilizando ResultContainer.ResultCollection.
1// Crear objeto ExtractTextOptions para establecer instrucciones
2var options = new ExtractTextOptions();
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extracción de Texto

Las ExtractTextOptions ofrecen tres modos de extracción, proporcionando flexibilidad según sus necesidades.

  1. Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
  2. Modo Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
  3. Modo Aplanado: Representa el contenido del PDF posicionando fragmentos de texto por sus coordenadas.
1// Crear objeto ExtractTextOptions para establecer TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Características Clave:

  • Modo Puro: Extraiga texto mientras preserva su formato original.
  • Modo Bruto: Extraiga texto sin ningún formato.
  • Modo Aplanado: Extraiga texto sin caracteres especiales ni formato.

Extract Images

El Documentize PDF Extractor for .NET permite extraer imágenes de documentos PDF sin esfuerzo. Escanea tus archivos PDF, identifica las imágenes incrustadas y las extrae manteniendo su calidad y formato originales. Esta herramienta mejora la accesibilidad del contenido visual y agiliza el proceso de recuperación de imágenes de los PDFs.

Cómo Extraer Imágenes de un PDF

Para extraer imágenes de un archivo PDF, sigue estos pasos:

  1. Crea una instancia de la clase ExtractImagesOptions.
  2. Agrega la ruta del archivo de entrada a las opciones utilizando el método AddInput.
  3. Establece la ruta del directorio de salida para las imágenes utilizando el método AddOutput.
  4. Procesa la extracción de imágenes utilizando el plugin.
  5. Recupera las imágenes extraídas del contenedor de resultados.
 1// Crea ExtractImagesOptions para establecer instrucciones
 2var options = new ExtractImagesOptions();
 3// Agrega la ruta del archivo de entrada
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Establece la ruta del directorio de salida
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Realiza el proceso
 8var results = PdfExtractor.ExtractImages(options);
 9// Obtén la ruta de la imagen resultante
10var imageExtracted = results.ResultCollection[0].ToFile();

Extrayendo Imágenes de un Archivo PDF a Streams sin Carpeta

El PdfExtractor admite guardar en streams, lo que te permite extraer imágenes de archivos PDF en streams sin utilizar carpetas temporales.

 1// Crea ExtractImagesOptions para establecer instrucciones
 2var options = new ExtractImagesOptions();
 3// Agrega la ruta del archivo de entrada
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// No establece la salida - escribirá resultados en streams
 6// Realiza el proceso
 7var results = PdfExtractor.ExtractImages(options);
 8// Obtén Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copia datos a archivo para demostración
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Características Clave:

  • Extraer Imágenes Incrustadas: Identifica y extrae imágenes de documentos PDF.
  • Preservar Calidad de Imagen: Asegura que las imágenes extraídas mantengan su calidad original.
  • Salida Flexible: Guarda imágenes extraídas en el formato o ubicación que prefieras.

Exportar datos del formulario

El Documentize PDF Extractor for .NET plugin proporciona una manera fluida de extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV. Esta herramienta dinámica simplifica el proceso de recuperación de valores de campos del formulario, permitiendo una fácil gestión, transferencia y análisis de datos.

Cómo exportar datos del formulario desde PDF

Para exportar datos del formulario de un PDF a CSV, sigue estos pasos:

  1. Crea una instancia de la clase ExtractImagesOptions.
  2. Define las opciones de exportación utilizando la clase FormExporterValuesToCsvOptions.
  3. Agrega archivos PDF de entrada y especifica el archivo CSV de salida.
  4. Ejecuta el método Process para realizar la exportación.
1// Crear objeto ExtractFormDataToDsvOptions para establecer instrucciones
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Establecer ruta del archivo de salida
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Ejecutar el proceso
8PdfExtractor.ExtractFormData(options);

Características clave:

  • Exportar datos del formulario: Extraer datos de formularios PDF (AcroForms) a CSV u otros formatos.
  • Filtrado de datos: Utilizar predicados para filtrar campos específicos del formulario para exportar según criterios como tipo de campo o número de página.
  • Salida flexible: Guardar los datos exportados para análisis o transferencia a hojas de cálculo, bases de datos u otros formatos de documento.
 Español