PDF Text Extractor
El Extractor de Texto PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, en bruto o sin formato, este complemento le permite extraer texto de manera eficiente mientras preserva el formato o lo omite según sus necesidades.
Cómo Extraer Texto de PDF
Para extraer texto de un documento PDF, siga estos pasos:
- Cree una instancia de la clase
TextExtractor
. - Cree una instancia de
TextExtractorOptions
para configurar las opciones de extracción. - Agregue el archivo PDF de entrada usando el método
AddInput
. - Ejecute el método
Process
para extraer el texto. - Acceda al texto extraído usando
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Agregar el PDF de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar la extracción de texto
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Imprimir el texto extraído
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extracción de Texto de Múltiples PDFs
El complemento le permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Agregar múltiples PDFs de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Procesar la extracción
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Salida del texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Modos de Extracción de Texto
El complemento TextExtractor ofrece tres modos de extracción, brindando flexibilidad según sus necesidades.
- Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
- Modo En Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
- Modo Simple: Extrae texto sin caracteres especiales ni formato adicional.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Establecer en modo Puro
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar y salida
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Cómo Manejar el Procesamiento por Lotes
Para grandes conjuntos de documentos, puede aprovechar el procesamiento por lotes, permitiendo extraer texto de múltiples PDFs a la vez.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Agregar múltiples PDFs de entrada
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definir salida para cada archivo
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Manejar el texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Características Clave:
- Modo Puro: Extraiga texto mientras preserva su formato original.
- Modo En Bruto: Extraiga texto sin ningún formato.
- Modo Simple: Extraiga texto sin caracteres especiales ni formato.
- Procesamiento por Lotes: Extraiga texto de múltiples PDFs a la vez.