Extract Text
O Documentize PDF Extractor para .NET simplifica a extração de texto de documentos PDF. Seja você precisar de texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.
Como Extrair Texto de PDF
Para extrair texto de um documento PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptions
para configurar as opções de extração. - Adicione o arquivo PDF de entrada utilizando o método
AddInput
. - Execute o método
ExtractText
para extrair o texto. - Acesse o texto extraído usando
ResultContainer.ResultCollection
.
1// Crie um objeto ExtractTextOptions para definir as instruções
2var options = new ExtractTextOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modos de Extração de Texto
As ExtractTextOptions oferecem três modos de extração, proporcionando flexibilidade com base em suas necessidades.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamentos de dados brutos.
- Modo Flatten: Representa o conteúdo PDF com os fragmentos de texto posicionados por suas coordenadas.
1// Crie um objeto ExtractTextOptions para definir TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Principais Recursos:
- Modo Puro: Extraia texto enquanto preserva sua formatação original.
- Modo Bruto: Extraia texto sem qualquer formatação.
- Modo Flatten: Extraia texto sem caracteres especiais ou formatação.