Extractor de Texto PDF

El Extractor de Texto PDF Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, crudo o simple, este plugin te permite extraer texto de manera eficiente mientras preservas el formato o lo omites según tus necesidades.

Características Clave:

  • Modo Puro: Extrae texto mientras preserva su formato original.
  • Modo Crudo: Extrae texto sin ningún formato.
  • Modo Simple: Extrae texto sin caracteres especiales o formato.
  • Procesamiento por Lote: Extrae texto de múltiples PDFs a la vez.

Cómo Extraer Texto de Documentos PDF

Para extraer texto de un documento PDF, sigue estos pasos:

  1. Crea una instancia de la clase TextExtractor.
  2. Crea una instancia de TextExtractorOptions para configurar las opciones de extracción.
  3. Agrega el archivo PDF de entrada utilizando el método AddInput.
  4. Ejecuta el método Process para extraer el texto.
  5. Accede al texto extraído usando ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Agregar el PDF de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Procesar la extracción de texto  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Imprimir el texto extraído  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Extracción de Texto de Múltiples PDFs

El plugin te permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Agregar múltiples PDFs de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Procesar la extracción  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Salida del texto extraído  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Modos de Extracción de Texto

El plugin TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.

  1. Modo Puro: Preserva el formato original, incluyendo espacios y alineación.
  2. Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos en crudo.
  3. Modo Simple: Extrae texto sin caracteres especiales o formato adicional.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Establecer en modo Puro  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Procesar y salida  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Cómo Manejar el Procesamiento por Lote

Para conjuntos de documentos grandes, puedes aprovechar el procesamiento por lote, lo que te permite extraer texto de múltiples PDFs a la vez.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Agregar múltiples PDFs de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Definir salida para cada archivo  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Manejar el texto extraído  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Español