Extrair Texto
O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.
Como Extrair Texto de um Arquivo PDF
Para extrair texto de um arquivo PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptionspara configurar o caminho do arquivo de entrada. - Execute o método
Extractpara extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Como Extrair Texto de um Stream PDF
Para extrair texto de um stream PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptionspara configurar o stream de entrada. - Execute o método
Extractpara extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Modos de Extração de Texto
O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
- Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Principais Recursos:
- Modo Puro: Extrai texto preservando sua formatação original.
- Modo Bruto: Extrai texto sem qualquer formatação.
- Modo Plano: Extrai texto sem caracteres especiais ou formatação.