Extraer Texto
El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, sin formato o simple, este complemento le permite extraer texto de manera eficiente mientras conserva el formato o lo omite según sus necesidades.
Cómo extraer texto de PDF
Para extraer texto de un documento PDF, siga estos pasos:
- Cree una instancia de
ExtractTextOptionspara configurar las opciones de extracción. - Añada el archivo PDF de entrada usando el método
AddInput. - Ejecute el método
Extractpara extraer el texto. - Acceda al texto extraído mediante
ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Modos de extracción de texto
El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según sus necesidades.
- Modo Puro: Conserva el formato original, incluidos los espacios y la alineación.
- Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
- Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Características clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo Crudo: Extrae texto sin ningún formato.
- Modo Aplanado: Extrae texto sin caracteres especiales ni formato.