Extrair Texto

O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.

Como Extrair Texto de um Arquivo PDF

Para extrair texto de um arquivo PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o caminho do arquivo de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Stream PDF

Para extrair texto de um stream PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o stream de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de Extração de Texto

O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
  3. Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principais Recursos:

  • Modo Puro: Extrai texto preservando sua formatação original.
  • Modo Bruto: Extrai texto sem qualquer formatação.
  • Modo Plano: Extrai texto sem caracteres especiais ou formatação.
 Português