Extractor de Texto PDF
El Extractor de Texto PDF Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, en bruto o simple, este plugin te permite extraer texto de manera eficiente mientras preserva el formato o lo omite según tus necesidades.
Características Clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo En Bruto: Extrae texto sin ningún formato.
- Modo Simple: Extrae texto sin caracteres especiales ni formato.
- Procesamiento por Lotes: Extrae texto de múltiples PDFs a la vez.
Cómo Extraer Texto de Documentos PDF
Para extraer texto de un documento PDF, sigue estos pasos:
- Crea una instancia de la clase
TextExtractor
. - Crea una instancia de
TextExtractorOptions
para configurar las opciones de extracción. - Añade el archivo PDF de entrada usando el método
AddInput
. - Ejecuta el método
Process
para extraer el texto. - Accede al texto extraído usando
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Añadir el PDF de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar la extracción de texto
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Imprimir el texto extraído
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extracción de Texto de Múltiples PDFs
El plugin te permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Añadir múltiples PDFs de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Procesar la extracción
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Salida del texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Modos de Extracción de Texto
El plugin TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.
- Modo Puro: Preserva el formato original, incluidos espacios y alineación.
- Modo En Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
- Modo Simple: Extrae texto sin caracteres especiales ni formato adicional.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Configurar en Modo Puro
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar y salida
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Cómo Manejar el Procesamiento por Lotes
Para grandes conjuntos de documentos, puedes aprovechar el procesamiento por lotes, lo que te permite extraer texto de múltiples PDFs a la vez.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Añadir múltiples PDFs de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definir salida para cada archivo
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Manejar el texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}