PDF Text Extractor

El Extractor de Texto PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, en bruto o sin formato, este complemento le permite extraer texto de manera eficiente mientras preserva el formato o lo omite según sus necesidades.

Cómo Extraer Texto de PDF

Para extraer texto de un documento PDF, siga estos pasos:

  1. Cree una instancia de la clase TextExtractor.
  2. Cree una instancia de TextExtractorOptions para configurar las opciones de extracción.
  3. Agregue el archivo PDF de entrada usando el método AddInput.
  4. Ejecute el método Process para extraer el texto.
  5. Acceda al texto extraído usando ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Agregar el PDF de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Procesar la extracción de texto
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Imprimir el texto extraído
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extracción de Texto de Múltiples PDFs

El complemento le permite extraer texto de múltiples PDFs simultáneamente, asegurando un procesamiento rápido y eficiente.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Agregar múltiples PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Procesar la extracción
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Salida del texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modos de Extracción de Texto

El complemento TextExtractor ofrece tres modos de extracción, brindando flexibilidad según sus necesidades.

  1. Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
  2. Modo En Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
  3. Modo Simple: Extrae texto sin caracteres especiales ni formato adicional.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Establecer en modo Puro
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Procesar y salida
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Cómo Manejar el Procesamiento por Lotes

Para grandes conjuntos de documentos, puede aprovechar el procesamiento por lotes, permitiendo extraer texto de múltiples PDFs a la vez.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Agregar múltiples PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definir salida para cada archivo
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Manejar el texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Características Clave:

  • Modo Puro: Extraiga texto mientras preserva su formato original.
  • Modo En Bruto: Extraiga texto sin ningún formato.
  • Modo Simple: Extraiga texto sin caracteres especiales ni formato.
  • Procesamiento por Lotes: Extraiga texto de múltiples PDFs a la vez.
 Español