Extract Text

O Documentize PDF Extractor para .NET simplifica a extração de texto de documentos PDF. Seja você precisar de texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.

Como Extrair Texto de PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar as opções de extração.
  2. Adicione o arquivo PDF de entrada utilizando o método AddInput.
  3. Execute o método ExtractText para extrair o texto.
  4. Acesse o texto extraído usando ResultContainer.ResultCollection.
1// Crie um objeto ExtractTextOptions para definir as instruções
2var options = new ExtractTextOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extração de Texto

As ExtractTextOptions oferecem três modos de extração, proporcionando flexibilidade com base em suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamentos de dados brutos.
  3. Modo Flatten: Representa o conteúdo PDF com os fragmentos de texto posicionados por suas coordenadas.
1// Crie um objeto ExtractTextOptions para definir TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Principais Recursos:

  • Modo Puro: Extraia texto enquanto preserva sua formatação original.
  • Modo Bruto: Extraia texto sem qualquer formatação.
  • Modo Flatten: Extraia texto sem caracteres especiais ou formatação.
 Português