PDF Text Extractor
O Documentize PDF Text Extractor para .NET simplifica a extração de texto de documentos PDF. Seja para obter texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.
Como Extrair Texto de um PDF
Para extrair texto de um documento PDF, siga estas etapas:
- Crie uma instância de
TextExtractorOptions
para configurar as opções de extração. - Adicione o arquivo PDF de entrada usando o método
AddInput
. - Execute o método
Process
para extrair o texto. - Acesse o texto extraído usando o
ResultContainer.ResultCollection
.
1// Crie um objeto TextExtractorOptions para definir instruções
2var options = new TextExtractorOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modos de Extração de Texto
O plugin TextExtractor oferece três modos de extração, proporcionando flexibilidade com base em suas necessidades.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
- Modo Flatten: Representa conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Crie um objeto TextExtractorOptions para definir TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = TextExtractor.Process(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Principais Recursos:
- Modo Puro: Extraia texto preservando sua formatação original.
- Modo Bruto: Extraia texto sem nenhuma formatação.
- Modo Flatten: Extraia texto sem caracteres especiais ou formatação.