PDF Text Extractor
El Extractor de Texto PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, crudo o plano, este complemento te permite extraer texto de manera eficiente mientras preserva el formato o lo omite según tus necesidades.
Cómo Extraer Texto de un PDF
Para extraer texto de un documento PDF, sigue estos pasos:
- Crea una instancia de
TextExtractorOptions
para configurar las opciones de extracción. - Agrega el archivo PDF de entrada utilizando el método
AddInput
. - Ejecuta el método
Process
para extraer el texto. - Accede al texto extraído utilizando
ResultContainer.ResultCollection
.
1// Crea un objeto TextExtractorOptions para establecer las instrucciones
2var options = new TextExtractorOptions();
3// Agrega la ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realiza el proceso
6var results = TextExtractor.Process(options);
7// Obtén el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modos de Extracción de Texto
El complemento TextExtractor ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.
- Modo Puro: Preserva el formato original, incluyendo espacios y alineación.
- Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
- Modo Aplanado: Representa el contenido PDF con fragmentos de texto posicionados por sus coordenadas.
1// Crea un objeto TextExtractorOptions para establecer TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Agrega la ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realiza el proceso
6var results = TextExtractor.Process(options);
7// Obtén el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Características Clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo Crudo: Extrae texto sin ningún formato.
- Modo Aplanado: Extrae texto sin caracteres especiales o formatos.