Extract Text

El Extractor de PDF de Documentize para .NET simplifica la extracción de texto de documentos PDF. Ya sea que necesite texto puro, en bruto o plano, este complemento le permite extraer texto de manera eficiente mientras preserva el formato o lo omite según sus necesidades.

Cómo Extraer Texto de un PDF

Para extraer texto de un documento PDF, siga estos pasos:

  1. Cree una instancia de ExtractTextOptions para configurar las opciones de extracción.
  2. Agregue el archivo PDF de entrada utilizando el método AddInput.
  3. Ejecute el método ExtractText para extraer el texto.
  4. Acceda al texto extraído utilizando ResultContainer.ResultCollection.
1// Crear objeto ExtractTextOptions para establecer instrucciones
2var options = new ExtractTextOptions();
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extracción de Texto

Las ExtractTextOptions ofrecen tres modos de extracción, proporcionando flexibilidad según sus necesidades.

  1. Modo Puro: Preserva el formato original, incluidos los espacios y la alineación.
  2. Modo Bruto: Extrae el texto sin formato, útil para el procesamiento de datos en bruto.
  3. Modo Aplanado: Representa el contenido del PDF posicionando fragmentos de texto por sus coordenadas.
1// Crear objeto ExtractTextOptions para establecer TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Agregar ruta del archivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Realizar el proceso
6var results = PdfExtractor.ExtractText(options);
7// Obtener el texto extraído del objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Características Clave:

  • Modo Puro: Extraiga texto mientras preserva su formato original.
  • Modo Bruto: Extraiga texto sin ningún formato.
  • Modo Aplanado: Extraiga texto sin caracteres especiales ni formato.
 Español