Extractor de Texto PDF
El Extractor de Texto PDF Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, crudo o simple, este plugin te permite extraer texto de manera eficiente mientras preservas el formato o lo omites según tus necesidades.
Características Clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo Crudo: Extrae texto sin ningún formato.
- Modo Simple: Extrae texto sin caracteres especiales o formato.
- Procesamiento por Lote: Extrae texto de múltiples PDFs a la vez.
Cómo Extraer Texto de Documentos PDF
Para extraer texto de un documento PDF, sigue estos pasos:
- Crea una instancia de la clase
TextExtractor
. - Crea una instancia de
TextExtractorOptions
para configurar las opciones de extracción. - Agrega el archivo PDF de entrada utilizando el método
AddInput
. - Ejecuta el método
Process
para extraer el texto. - Accede al texto extraído usando
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Agregar el PDF de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Procesar la extracción de texto
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Imprimir el texto extraído
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Extracción de Texto de Múltiples PDFs
El plugin te permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Agregar múltiples PDFs de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Procesar la extracción
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Salida del texto extraído
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Modos de Extracción de Texto
El plugin TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.
- Modo Puro: Preserva el formato original, incluyendo espacios y alineación.
- Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos en crudo.
- Modo Simple: Extrae texto sin caracteres especiales o formato adicional.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Establecer en modo Puro
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Procesar y salida
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Cómo Manejar el Procesamiento por Lote
Para conjuntos de documentos grandes, puedes aprovechar el procesamiento por lote, lo que te permite extraer texto de múltiples PDFs a la vez.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Agregar múltiples PDFs de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Definir salida para cada archivo
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Manejar el texto extraído
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}