PDF Extractor

Extract Text

Extraia texto de PDFs com precisão usando as ferramentas .NET do Documentize — recupere, processe e analise conteúdo sem esforço.

Extrair Imagens

Extraia facilmente imagens de documentos PDF a partir de aplicações .NET

Exportar Dados do Formulário

Extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV usando C# .NET

Subsecções de PDF Extractor

Extract Text

O Documentize PDF Extractor para .NET simplifica a extração de texto de documentos PDF. Seja você precisar de texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a com base em suas necessidades.

Como Extrair Texto de PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar as opções de extração.
  2. Adicione o arquivo PDF de entrada utilizando o método AddInput.
  3. Execute o método ExtractText para extrair o texto.
  4. Acesse o texto extraído usando ResultContainer.ResultCollection.
1// Crie um objeto ExtractTextOptions para definir as instruções
2var options = new ExtractTextOptions();
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extração de Texto

As ExtractTextOptions oferecem três modos de extração, proporcionando flexibilidade com base em suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamentos de dados brutos.
  3. Modo Flatten: Representa o conteúdo PDF com os fragmentos de texto posicionados por suas coordenadas.
1// Crie um objeto ExtractTextOptions para definir TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Execute o processo
6var results = PdfExtractor.ExtractText(options);
7// Obtenha o texto extraído do objeto ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Principais Recursos:

  • Modo Puro: Extraia texto enquanto preserva sua formatação original.
  • Modo Bruto: Extraia texto sem qualquer formatação.
  • Modo Flatten: Extraia texto sem caracteres especiais ou formatação.

Extrair Imagens

O plugin Documentize PDF Extractor for .NET permite que você extraia facilmente imagens de documentos PDF. Ele analisa seus arquivos PDF, identifica imagens incorporadas e as extrai mantendo sua qualidade e formato originais. Esta ferramenta melhora a acessibilidade do conteúdo visual e simplifica o processo de recuperação de imagens de PDFs.

Como Extrair Imagens de um PDF

Para extrair imagens de um arquivo PDF, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Adicione o caminho do arquivo de entrada às opções usando o método AddInput.
  3. Defina o caminho do diretório de saída para as imagens usando o método AddOutput.
  4. Processar a extração de imagens utilizando o plugin.
  5. Recupere as imagens extraídas do contêiner de resultados.
 1// Criar ExtractImagesOptions para definir instruções
 2var options = new ExtractImagesOptions();
 3// Adicionar caminho do arquivo de entrada
 4options.AddInput(new FileDataSource("caminho_para_seu_arquivo_pdf.pdf"));
 5// Definir caminho do diretório de saída
 6options.AddOutput(new DirectoryDataSource("caminho_para_diretorio_de_resultados"));
 7// Realizar o processo
 8var results = PdfExtractor.ExtractImages(options);
 9// Obter caminho do resultado da imagem
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraindo Imagens de Arquivo PDF para Streams sem pasta

O plugin PdfExtractor suporta salvar em streams, o que permite que você extraia imagens de arquivos PDF em streams sem usar pastas temporárias.

 1// Criar ExtractImagesOptions para definir instruções
 2var options = new ExtractImagesOptions();
 3// Adicionar caminho do arquivo de entrada
 4options.AddInput(new FileDataSource("caminho_para_seu_arquivo_pdf.pdf"));
 5// Não defina saída - ele gravará resultados em streams
 6// Realizar o processo
 7var results = PdfExtractor.ExtractImages(options);
 8// Obter Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copiar dados para arquivo para demonstração
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("arquivo_teste.png"))
13{
14    ms.CopyTo(fs);
15}

Principais Características:

  • Extrair Imagens Incorporadas: Identificar e extrair imagens de documentos PDF.
  • Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham sua qualidade original.
  • Saída Flexível: Salve as imagens extraídas no seu formato ou local preferido.

Exportar Dados do Formulário

O plugin Documentize PDF Extractor for .NET fornece uma maneira simples de extrair e exportar dados de formulários PDF (AcroForms) para outros formatos, como CSV. Esta ferramenta dinâmica simplifica o processo de recuperação de valores de campos de formulário, permitindo fácil gerenciamento, transferência e análise de dados.

Como Exportar Dados do Formulário de um PDF

Para exportar dados de um formulário de um PDF para CSV, siga estes passos:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Defina opções de exportação usando a classe FormExporterValuesToCsvOptions.
  3. Adicione arquivos PDF de entrada e especifique o arquivo CSV de saída.
  4. Execute o método Process para realizar a exportação.
1// Crie um objeto ExtractFormDataToDsvOptions para definir instruções
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Adicione o caminho do arquivo de entrada
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Defina o caminho do arquivo de saída
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Execute o processo
8PdfExtractor.ExtractFormData(options);

Principais Recursos:

  • Exportar Dados do Formulário: Extraia dados de formulários PDF (AcroForms) para CSV ou outros formatos.
  • Filtragem de Dados: Use predicados para filtrar campos de formulário específicos para exportação com base em critérios como tipo de campo ou número da página.
  • Saída Flexível: Salve dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documentos.
 Português