Extraer Texto

El Documentize PDF Extractor for .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, sin formato o simple, este complemento le permite extraer texto de manera eficiente mientras conserva el formato o lo omite según sus necesidades.

Cómo extraer texto de PDF

Para extraer texto de un documento PDF, siga estos pasos:

  1. Cree una instancia de ExtractTextOptions para configurar las opciones de extracción.
  2. Añada el archivo PDF de entrada usando el método AddInput.
  3. Ejecute el método Extract para extraer el texto.
  4. Acceda al texto extraído mediante ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Modos de extracción de texto

El ExtractTextOptions ofrece tres modos de extracción, proporcionando flexibilidad según sus necesidades.

  1. Modo Puro: Conserva el formato original, incluidos los espacios y la alineación.
  2. Modo Crudo: Extrae el texto sin formato, útil para el procesamiento de datos sin procesar.
  3. Modo Aplanado: Representa el contenido del PDF con fragmentos de texto posicionados por sus coordenadas.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Características clave:

  • Modo Puro: Extrae texto mientras preserva su formato original.
  • Modo Crudo: Extrae texto sin ningún formato.
  • Modo Aplanado: Extrae texto sin caracteres especiales ni formato.
 Español