PDF Text Extractor

El Extractor de Texto PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, crudo o plano, este complemento te permite extraer texto de manera eficiente mientras preserva el formato o lo omite según tus necesidades.

Cómo Extraer Texto de un PDF

Para extraer texto de un documento PDF, sigue estos pasos:

Crea una instancia de TextExtractorOptions para configurar las opciones de extracción.
Agrega el archivo PDF de entrada utilizando el método AddInput.
Ejecuta el método Process para extraer el texto.
Accede al texto extraído utilizando ResultContainer.ResultCollection.

1// Crea un objeto TextExtractorOptions para establecer las instrucciones
2var options = new TextExtractorOptions();
3// Agrega la ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realiza el proceso
6var results = TextExtractor.Process(options);
7// Obtén el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extracción de Texto

El complemento TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.

Modo Puro: Preserva el formato original, incluyendo espacios y alineación.
Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
Modo Aplanado: Representa el contenido PDF con fragmentos de texto posicionados por sus coordenadas.

1// Crea un objeto TextExtractorOptions para establecer TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Agrega la ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realiza el proceso
6var results = TextExtractor.Process(options);
7// Obtén el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Características Clave:

Modo Puro: Extrae texto mientras preserva su formato original.
Modo Crudo: Extrae texto sin ningún formato.
Modo Aplanado: Extrae texto sin caracteres especiales o formatos.