PDF Extractor

Extraer Texto

Extraiga texto de PDFs con precisión utilizando las herramientas .NET de Documentize: recupere, procese y analice contenido sin esfuerzo.

Extraer Imágenes

Extraiga imágenes sin esfuerzo de documentos PDF desde aplicaciones .NET

Extraer propiedades / metadatos

Extraer metadatos de PDFs con precisión con Documentize usando C#/.NET

Exportar datos del formulario

Extrae y exporta datos de formularios PDF (AcroForms) a otros formatos como CSV usando C#/.NET

Subsecciones de PDF Extractor

Extraer Texto

El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, sin formato o simple, este complemento le permite extraer texto de manera eficiente mientras conserva el formato o lo omite según sus necesidades.

Cómo extraer texto de PDF

Para extraer texto de un documento PDF, siga estos pasos:

  1. Cree una instancia de ExtractTextOptions para configurar las opciones de extracción.
  2. Añada el archivo PDF de entrada usando el método AddInput.
  3. Ejecute el método Extract para extraer el texto.
  4. Acceda al texto extraído mediante ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Modos de extracción de texto

El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según sus necesidades.

  1. Modo Puro: Conserva el formato original, incluidos los espacios y la alineación.
  2. Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
  3. Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Características clave:

  • Modo Puro: Extrae texto mientras preserva su formato original.
  • Modo Crudo: Extrae texto sin ningún formato.
  • Modo Aplanado: Extrae texto sin caracteres especiales ni formato.

Extraer Imágenes

El complemento Documentize PDF Extractor for .NET le permite extraer imágenes de documentos PDF de forma sencilla. Escanea sus archivos PDF, identifica las imágenes incrustadas y las extrae manteniendo su calidad y formato original. Esta herramienta mejora la accesibilidad del contenido visual y simplifica el proceso de obtención de imágenes de los PDFs.

Cómo extraer imágenes de un PDF

Para extraer imágenes de un archivo PDF, siga estos pasos:

  1. Cree una instancia de la clase ExtractImagesOptions.
  2. Añada la ruta del archivo de entrada a las opciones mediante el método AddInput.
  3. Establezca la ruta del directorio de salida para las imágenes mediante el método AddOutput.
  4. Procese la extracción de imágenes usando el complemento.
  5. Recupere las imágenes extraídas del contenedor de resultados.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extracción de imágenes de un archivo PDF a Streams sin carpeta

El complemento PdfExtractor admite la guardia en streams, lo que permite extraer imágenes de archivos PDF directamente a streams sin usar carpetas temporales.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Características clave:

  • Extraer imágenes incrustadas: Identifica y extrae imágenes de documentos PDF.
  • Preservar la calidad de la imagen: Garantiza que las imágenes extraídas mantengan su calidad original.
  • Salida flexible: Guarda las imágenes extraídas en el formato o ubicación que prefiera.

Extraer propiedades / metadatos

El Documentize PDF Extractor for .NET simplifica la extracción de metadatos de documentos PDF.
Propiedades disponibles que pueden interesarle: Title, Author, Subject, Keywords, Number of Pages.

Cómo extraer metadatos de un archivo PDF

El ejemplo muestra cómo Extraer propiedades (Title, Author, Subject, Keywords, Number of Pages) de un archivo PDF.
Para extraer metadatos de un documento PDF, siga estos pasos:

  1. Cree una instancia de ExtractPropertiesOptions para configurar las opciones de extracción y el archivo PDF de entrada.
  2. Ejecute el método Extract de PdfExtractor para extraer los metadatos.
  3. Acceda a las propiedades extraídas mediante PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

Cómo extraer metadatos de un flujo PDF

Puede abrir el flujo a su conveniencia.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

Cómo extraer metadatos de un archivo PDF en el estilo más breve posible

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Características clave:

  • Metadatos disponibles: Title, Author, Subject, Keywords, Number of Pages.

Exportar datos del formulario

El plugin Documentize PDF Extractor for .NET ofrece una manera sencilla de extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV. Esta herramienta dinámica simplifica el proceso de obtener los valores de los campos del formulario, permitiendo una gestión, transferencia y análisis de datos fáciles.

Cómo exportar datos de formulario desde PDF

Para exportar los datos de un formulario PDF a CSV, sigue estos pasos:

  1. Crea una instancia de la clase ExtractImagesOptions.
  2. Define las opciones de exportación usando la clase FormExporterValuesToCsvOptions.
  3. Añade los archivos PDF de entrada y especifica el archivo CSV de salida.
  4. Ejecuta el método Extract para realizar la exportación.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Características clave:

  • Exportar datos de formulario: Extrae datos de formularios PDF (AcroForms) a CSV u otros formatos.
  • Filtrado de datos: Usa predicados para filtrar campos específicos del formulario para la exportación según criterios como el tipo de campo o el número de página.
  • Salida flexible: Guarda los datos exportados para su análisis o transferencia a hojas de cálculo, bases de datos u otros formatos de documento.
 Español