Extrator de Texto PDF

O Extrator de Texto PDF Documentize para .NET simplifica a extração de texto de documentos PDF. Se você precisa de texto puro, bruto ou simples, este plugin permite que você extraia texto de forma eficiente, preservando a formatação ou omitindo-a com base nas suas necessidades.

Principais Recursos:

  • Modo Puro: Extraia texto preservando sua formatação original.
  • Modo Bruto: Extraia texto sem nenhuma formatação.
  • Modo Simples: Extraia texto sem caracteres especiais ou formatação.
  • Processamento em Lote: Extraia texto de múltiplos PDFs ao mesmo tempo.

Como Extrair Texto de Documentos PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância da classe TextExtractor.
  2. Crie uma instância de TextExtractorOptions para configurar as opções de extração.
  3. Adicione o arquivo PDF de entrada usando o método AddInput.
  4. Execute o método Process para extrair o texto.
  5. Acesse o texto extraído usando ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4  
 5// Adicione o PDF de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7  
 8// Processar a extração de texto  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10  
11// Imprimir o texto extraído  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Extraindo Texto de Múltiplos PDFs

O plugin permite que você extraia texto de múltiplos PDFs simultaneamente, garantindo processamento rápido e eficiente.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4  
 5// Adicione múltiplos PDFs de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8  
 9// Processar a extração  
10var resultContainer = extractor.Process(textExtractorOptions);  
11  
12// Saída do texto extraído  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Modos de Extração de Texto

O plugin TextExtractor oferece três modos de extração, proporcionando flexibilidade com base nas suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
  3. Modo Simples: Extrai texto sem caracteres especiais ou formatação adicional.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3  
 4// Defina para o modo Puro  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7  
 8// Processar e saída  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Como Lidar com o Processamento em Lote

Para grandes conjuntos de documentos, você pode aproveitar o processamento em lote, permitindo que você extraia texto de múltiplos PDFs de uma só vez.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4  
 5// Adicione múltiplos PDFs de entrada  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8  
 9// Defina a saída para cada arquivo  
10var resultContainer = extractor.Process(textExtractorOptions);  
11  
12// Lidar com o texto extraído  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Português