Extrator de Texto PDF
O Extrator de Texto PDF Documentize para .NET simplifica a extração de texto de documentos PDF. Se você precisa de texto puro, bruto ou simples, este plugin permite que você extraia texto de forma eficiente, preservando a formatação ou omitindo-a com base nas suas necessidades.
Principais Recursos:
- Modo Puro: Extraia texto preservando sua formatação original.
- Modo Bruto: Extraia texto sem nenhuma formatação.
- Modo Simples: Extraia texto sem caracteres especiais ou formatação.
- Processamento em Lote: Extraia texto de múltiplos PDFs ao mesmo tempo.
Como Extrair Texto de Documentos PDF
Para extrair texto de um documento PDF, siga estas etapas:
- Crie uma instância da classe
TextExtractor
. - Crie uma instância de
TextExtractorOptions
para configurar as opções de extração. - Adicione o arquivo PDF de entrada usando o método
AddInput
. - Execute o método
Process
para extrair o texto. - Acesse o texto extraído usando
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Adicione o PDF de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Processar a extração de texto
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Imprimir o texto extraído
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Extraindo Texto de Múltiplos PDFs
O plugin permite que você extraia texto de múltiplos PDFs simultaneamente, garantindo processamento rápido e eficiente.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Adicione múltiplos PDFs de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Processar a extração
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Saída do texto extraído
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Modos de Extração de Texto
O plugin TextExtractor oferece três modos de extração, proporcionando flexibilidade com base nas suas necessidades.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
- Modo Simples: Extrai texto sem caracteres especiais ou formatação adicional.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Defina para o modo Puro
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Processar e saída
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Como Lidar com o Processamento em Lote
Para grandes conjuntos de documentos, você pode aproveitar o processamento em lote, permitindo que você extraia texto de múltiplos PDFs de uma só vez.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Adicione múltiplos PDFs de entrada
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Defina a saída para cada arquivo
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Lidar com o texto extraído
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}