PDF Text Extractor

O Documentize PDF Text Extractor para .NET simplifica a extração de texto de documentos PDF. Seja qual for sua necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.

Como Extrair Texto de PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância da classe TextExtractor.
  2. Crie uma instância de TextExtractorOptions para configurar as opções de extração.
  3. Adicione o arquivo PDF de entrada usando o método AddInput.
  4. Execute o método Process para extrair o texto.
  5. Acesse o texto extraído usando ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Adicione o PDF de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Processe a extração de texto
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Imprima o texto extraído
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extraindo Texto de Múltiplos PDFs

O plugin permite que você extraia texto de múltiplos PDFs simultaneamente, garantindo um processamento rápido e eficiente.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Adicione múltiplos PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Processe a extração
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Saída do texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modos de Extração de Texto

O TextExtractor oferece três modos de extração, proporcionando flexibilidade com base em suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
  3. Modo Simples: Extrai texto sem caracteres especiais ou formatação adicional.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Defina como Modo Puro
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Processe e imprima
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Como Lidar com Processamento em Lote

Para conjuntos de documentos grandes, você pode aproveitar o processamento em lote, permitindo que você extraia texto de múltiplos PDFs de uma vez.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Adicione múltiplos PDFs de entrada
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Defina a saída para cada arquivo
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Lide com o texto extraído
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Recursos Principais:

  • Modo Puro: Extraia texto enquanto preserva sua formatação original.
  • Modo Bruto: Extraia texto sem qualquer formatação.
  • Modo Simples: Extraia texto sem caracteres especiais ou formatação.
  • Processamento em Lote: Extraia texto de múltiplos PDFs de uma vez.
 Português