Extraer Texto

El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesites texto puro, sin formato o simple, este complemento te permite extraer texto de manera eficiente, preservando el formato o omitiéndolo según tus requerimientos.

Cómo extraer texto de un archivo PDF

Para extraer texto de un archivo PDF, sigue estos pasos:

Crea una instancia de ExtractTextOptions para configurar la ruta del archivo de entrada.
Ejecuta el método Extract para extraer el texto.

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cómo extraer texto de un flujo PDF

Para extraer texto de un flujo PDF, sigue estos pasos:

Crea una instancia de ExtractTextOptions para configurar el flujo de entrada.
Ejecuta el método Extract para extraer el texto.

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de extracción de texto

El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según tus necesidades.

Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cómo extraer texto de un archivo PDF en el estilo más conciso posible

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Características clave:

Modo Puro: Extrae texto mientras preserva su formato original.
Modo Crudo: Extrae texto sin ningún formato.
Modo Aplanado: Extrae texto sin caracteres especiales ni formato.