Extract Text
El Extractor de PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, en bruto o plano, este complemento le permite extraer texto de manera eficiente mientras preserva el formato o lo omite según sus necesidades.
Cómo Extraer Texto de un PDF
Para extraer texto de un documento PDF, siga estos pasos:
- Cree una instancia de
ExtractTextOptions
para configurar las opciones de extracción. - Agregue el archivo PDF de entrada utilizando el método
AddInput
. - Ejecute el método
ExtractText
para extraer el texto. - Acceda al texto extraído utilizando
ResultContainer.ResultCollection
.
1// Crear objeto ExtractTextOptions para establecer instrucciones
2var options = new ExtractTextOptions();
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modos de Extracción de Texto
Las ExtractTextOptions ofrecen tres modos de extracción, proporcionando flexibilidad según sus necesidades.
- Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
- Modo Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
- Modo Aplanado: Representa el contenido del PDF posicionando fragmentos de texto por sus coordenadas.
1// Crear objeto ExtractTextOptions para establecer TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Características Clave:
- Modo Puro: Extraiga texto mientras preserva su formato original.
- Modo Bruto: Extraiga texto sin ningún formato.
- Modo Aplanado: Extraiga texto sin caracteres especiales ni formato.