PDF Text Extractor

O Documentize PDF Text Extractor para .NET simplifica a extração de texto de documentos PDF. Seja para obter texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.

Como Extrair Texto de um PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância de TextExtractorOptions para configurar as opções de extração.
  2. Adicione o arquivo PDF de entrada usando o método AddInput.
  3. Execute o método Process para extrair o texto.
  4. Acesse o texto extraído usando o ResultContainer.ResultCollection.
1// Crie um objeto TextExtractorOptions para definir instruções
2var options = new TextExtractorOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extração de Texto

O plugin TextExtractor oferece três modos de extração, proporcionando flexibilidade com base em suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
  3. Modo Flatten: Representa conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Crie um objeto TextExtractorOptions para definir TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Principais Recursos:

  • Modo Puro: Extraia texto preservando sua formatação original.
  • Modo Bruto: Extraia texto sem nenhuma formatação.
  • Modo Flatten: Extraia texto sem caracteres especiais ou formatação.
 Português