PDF Extractor

Extraer Texto

Extrae texto de documentos PDF con precisión usando las herramientas .NET de Documentize: recupera, procesa y analiza contenido sin esfuerzo.

Extract Images

Extraiga imágenes sin esfuerzo de documentos PDF desde aplicaciones .NET

Extraer Propiedades / Metadatos

Extrae metadatos de PDFs con precisión usando Documentize con C#/.NET

Exportar datos del formulario

Extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV usando C#/.NET

Subsecciones de PDF Extractor

Extraer Texto

El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, sin formato o simple, este complemento te permite extraer texto de manera eficiente, preservando el formato o omitiéndolo según tus requerimientos.

Cómo extraer texto de un archivo PDF

Para extraer texto de un archivo PDF, sigue estos pasos:

  1. Crea una instancia de ExtractTextOptions para configurar la ruta del archivo de entrada.
  2. Ejecuta el método Extract para extraer el texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cómo extraer texto de un flujo PDF

Para extraer texto de un flujo PDF, sigue estos pasos:

  1. Crea una instancia de ExtractTextOptions para configurar el flujo de entrada.
  2. Ejecuta el método Extract para extraer el texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de extracción de texto

El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.

  1. Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
  2. Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
  3. Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cómo extraer texto de un archivo PDF en el estilo más conciso posible

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Características clave:

  • Modo Puro: Extrae texto mientras preserva su formato original.
  • Modo Crudo: Extrae texto sin ningún formato.
  • Modo Aplanado: Extrae texto sin caracteres especiales ni formato.

Extract Images

El plugin Documentize PDF Extractor for .NET le permite extraer imágenes sin esfuerzo de documentos PDF. Escanea sus archivos PDF, identifica las imágenes incrustadas y las extrae manteniendo su calidad y formato originales. Esta herramienta mejora la accesibilidad del contenido visual y agiliza el proceso de recuperación de imágenes de PDFs.

Cómo extraer imágenes de un PDF

  1. Cree una instancia de la clase ExtractImagesOptions.
  2. Añada la ruta del archivo de entrada a las opciones usando el método AddInput.
  3. Establezca la ruta del directorio de salida para las imágenes usando el método AddOutput.
  4. Procese la extracción de imágenes usando el plugin.
  5. Recupere las imágenes extraídas del contenedor de resultados.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extracción de imágenes de un archivo PDF a streams sin carpeta

El plugin PdfExtractor admite guardar en streams, lo que le permite extraer imágenes de archivos PDF a streams sin usar carpetas temporales.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Características clave:

  • Extraer imágenes incrustadas: Identificar y extraer imágenes de documentos PDF.
  • Preservar la calidad de la imagen: Garantiza que las imágenes extraídas mantengan su calidad original.
  • Salida flexible: Guarde las imágenes extraídas en el formato o ubicación que prefiera.

Extraer Propiedades / Metadatos

El Documentize PDF Extractor for .NET simplifica la extracción de metadatos de documentos PDF.
Propiedades disponibles que pueden interesarte: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Cómo extraer metadatos de un archivo PDF

El ejemplo muestra cómo extraer propiedades (Title, Author, Subject, Keywords, Number of Pages) de un archivo PDF.
Para extraer metadatos de un documento PDF, sigue estos pasos:

  1. Crea una instancia de ExtractPropertiesOptions para configurar las opciones de extracción y el archivo PDF de entrada.
  2. Ejecuta el método Extract de PdfExtractor para obtener los metadatos.
  3. Accede a las propiedades extraídas mediante PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Cómo extraer metadatos de un flujo (stream) PDF

Puedes abrir el flujo a tu discreción.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Cómo extraer metadatos de un archivo PDF en el estilo más corto posible

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Características clave:

  • Metadatos disponibles: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exportar datos del formulario

El Documentize PDF Extractor for .NET plugin ofrece una forma fluida de extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV. Esta herramienta dinámica simplifica el proceso de obtención de los valores de los campos del formulario, permitiendo una gestión, transferencia y análisis de datos más sencillo.

Cómo exportar datos de formulario de PDF a CSV

Para exportar datos de formulario de un PDF a CSV, sigue estos pasos:

  1. Crea una instancia de la clase ExtractImagesOptions.
  2. Define las opciones de exportación usando la clase FormExporterValuesToCsvOptions.
  3. Añade los archivos PDF de entrada y especifica el archivo CSV de salida.
  4. Ejecuta el método Extract para realizar la exportación.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Cómo exportar datos de formulario de PDF a TSV

Usa Tab como delimitador.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9 Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11 Perform the process
12PdfExtractor.Extract(options);

Características clave:

  • Exportar datos de formulario: Extrae datos de formularios PDF (AcroForms) a CSV u otros formatos.
  • Filtrado de datos: Usa predicados para filtrar campos específicos del formulario para la exportación según criterios como tipo de campo o número de página.
  • Salida flexible: Guarda los datos exportados para su análisis o transferencia a hojas de cálculo, bases de datos u otros formatos de documento.
 Español