Extraer Texto
El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, sin formato o simple, este complemento te permite extraer texto de manera eficiente, preservando el formato o omitiéndolo según tus requerimientos.
Cómo extraer texto de un archivo PDF
Para extraer texto de un archivo PDF, sigue estos pasos:
- Crea una instancia de
ExtractTextOptionspara configurar la ruta del archivo de entrada. - Ejecuta el método
Extractpara extraer el texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Cómo extraer texto de un flujo PDF
Para extraer texto de un flujo PDF, sigue estos pasos:
- Crea una instancia de
ExtractTextOptionspara configurar el flujo de entrada. - Ejecuta el método
Extractpara extraer el texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Modos de extracción de texto
El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.
- Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
- Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
- Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Cómo extraer texto de un archivo PDF en el estilo más conciso posible
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Características clave:
- Modo Puro: Extrae texto mientras preserva su formato original.
- Modo Crudo: Extrae texto sin ningún formato.
- Modo Aplanado: Extrae texto sin caracteres especiales ni formato.