PDF Text Extractor

O Documentize PDF Text Extractor para .NET simplifica a extração de texto de documentos PDF. Seja para obter texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.

Como Extrair Texto de um PDF

Para extrair texto de um documento PDF, siga estas etapas:

Crie uma instância de TextExtractorOptions para configurar as opções de extração.
Adicione o arquivo PDF de entrada usando o método AddInput.
Execute o método Process para extrair o texto.
Acesse o texto extraído usando o ResultContainer.ResultCollection.

1// Crie um objeto TextExtractorOptions para definir instruções
2var options = new TextExtractorOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extração de Texto

O plugin TextExtractor oferece três modos de extração, proporcionando flexibilidade com base em suas necessidades.

Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
Modo Flatten: Representa conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.

1// Crie um objeto TextExtractorOptions para definir TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Principais Recursos:

Modo Puro: Extraia texto preservando sua formatação original.
Modo Bruto: Extraia texto sem nenhuma formatação.
Modo Flatten: Extraia texto sem caracteres especiais ou formatação.