Subsecciones de PDF Extractor
El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, sin formato o simple, este complemento te permite extraer texto de manera eficiente, preservando el formato o omitiéndolo según tus requerimientos.
Para extraer texto de un archivo PDF, sigue estos pasos:
- Crea una instancia de
ExtractTextOptions para configurar la ruta del archivo de entrada. - Ejecuta el método
Extract para extraer el texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
Para extraer texto de un flujo PDF, sigue estos pasos:
- Crea una instancia de
ExtractTextOptions para configurar el flujo de entrada. - Ejecuta el método
Extract para extraer el texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);
El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.
- Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
- Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
- Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));
Características clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo Crudo: Extrae texto sin ningún formato.
- Modo Aplanado: Extrae texto sin caracteres especiales ni formato.
El complemento Documentize PDF Extractor for .NET le permite extraer imágenes de documentos PDF de forma sencilla. Escanea sus archivos PDF, identifica las imágenes incrustadas y las extrae manteniendo su calidad y formato original. Esta herramienta mejora la accesibilidad del contenido visual y simplifica el proceso de obtención de imágenes de los PDFs.
Para extraer imágenes de un archivo PDF, siga estos pasos:
- Cree una instancia de la clase
ExtractImagesOptions. - Añada la ruta del archivo de entrada a las opciones mediante el método
AddInput. - Establezca la ruta del directorio de salida para las imágenes mediante el método
AddOutput. - Procese la extracción de imágenes usando el complemento.
- Recupere las imágenes extraídas del contenedor de resultados.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output Directory path
6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
7// Perform the process
8var results = PdfExtractor.Extract(options);
9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();
El complemento PdfExtractor admite la guardia en streams, lo que permite extraer imágenes de archivos PDF directamente a streams sin usar carpetas temporales.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Not set output - it will write results to streams
6// Perform the process
7var results = PdfExtractor.Extract(options);
8// Get Stream
9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
Características clave:
- Extraer imágenes incrustadas: Identifica y extrae imágenes de documentos PDF.
- Preservar la calidad de la imagen: Garantiza que las imágenes extraídas mantengan su calidad original.
- Salida flexible: Guarda las imágenes extraídas en el formato o ubicación que prefiera.
El Documentize PDF Extractor for .NET simplifica la extracción de metadatos de documentos PDF.
Propiedades disponibles que pueden interesarte: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
El ejemplo muestra cómo extraer propiedades (Title, Author, Subject, Keywords, Number of Pages) de un archivo PDF.
Para extraer metadatos de un documento PDF, sigue estos pasos:
- Crea una instancia de
ExtractPropertiesOptions para configurar las opciones de extracción y el archivo PDF de entrada. - Ejecuta el método
Extract de PdfExtractor para obtener los metadatos. - Accede a las propiedades extraídas mediante
PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var filename = pdfProperties.FileName;
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
Puedes abrir el flujo a tu discreción.
1// Create ExtractPropertiesOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractPropertiesOptions(stream);
4// Perform the process and get Properties
5var pdfProperties = PdfExtractor.Extract(options);
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));
Características clave:
- Metadatos disponibles: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
El plugin Documentize PDF Extractor for .NET ofrece una manera sencilla de extraer y exportar datos de formularios PDF (AcroForms) a otros formatos como CSV. Esta herramienta dinámica simplifica el proceso de obtener los valores de los campos del formulario, permitiendo una gestión, transferencia y análisis de datos fáciles.
Para exportar los datos de un formulario PDF a CSV, sigue estos pasos:
- Crea una instancia de la clase
ExtractImagesOptions. - Define las opciones de exportación usando la clase
FormExporterValuesToCsvOptions. - Añade los archivos PDF de entrada y especifica el archivo CSV de salida.
- Ejecuta el método
Extract para realizar la exportación.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);
Características clave:
- Exportar datos de formulario: Extrae datos de formularios PDF (AcroForms) a CSV u otros formatos.
- Filtrado de datos: Usa predicados para filtrar campos específicos del formulario para la exportación según criterios como el tipo de campo o el número de página.
- Salida flexible: Guarda los datos exportados para su análisis o transferencia a hojas de cálculo, bases de datos u otros formatos de documento.