Extractor de Texto PDF

El Extractor de Texto PDF Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, en bruto o simple, este plugin te permite extraer texto de manera eficiente mientras preserva el formato o lo omite según tus necesidades.

Características Clave:

  • Modo Puro: Extrae texto mientras preserva su formato original.
  • Modo En Bruto: Extrae texto sin ningún formato.
  • Modo Simple: Extrae texto sin caracteres especiales ni formato.
  • Procesamiento por Lotes: Extrae texto de múltiples PDFs a la vez.

Cómo Extraer Texto de Documentos PDF

Para extraer texto de un documento PDF, sigue estos pasos:

  1. Crea una instancia de la clase TextExtractor.
  2. Crea una instancia de TextExtractorOptions para configurar las opciones de extracción.
  3. Añade el archivo PDF de entrada usando el método AddInput.
  4. Ejecuta el método Process para extraer el texto.
  5. Accede al texto extraído usando ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Añadir el PDF de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Procesar la extracción de texto
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Imprimir el texto extraído
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extracción de Texto de Múltiples PDFs

El plugin te permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Añadir múltiples PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Procesar la extracción
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Salida del texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modos de Extracción de Texto

El plugin TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.

  1. Modo Puro: Preserva el formato original, incluidos espacios y alineación.
  2. Modo En Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
  3. Modo Simple: Extrae texto sin caracteres especiales ni formato adicional.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Configurar en Modo Puro
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar y salida
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Cómo Manejar el Procesamiento por Lotes

Para grandes conjuntos de documentos, puedes aprovechar el procesamiento por lotes, lo que te permite extraer texto de múltiples PDFs a la vez.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Añadir múltiples PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definir salida para cada archivo
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Manejar el texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Español