PDF Extractor

Extrair Texto

Extrair texto de PDFs com precisão usando as ferramentas .NET da Documentize — recupere, processe e analise o conteúdo sem esforço.

Extract Images

Extraia imagens de documentos PDF sem esforço a partir de aplicações .NET

Extrair Propriedades / Metadados

Extrair Metadados de PDFs com precisão usando Documentize com C#/.NET

Exportar Dados de Formulário

Extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV usando C#/.NET

Subsecções de PDF Extractor

Extrair Texto

O Documentize PDF Extractor para .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade de texto puro, bruto ou simples, este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme suas necessidades.

Como Extrair Texto de PDF

Para extrair texto de um documento PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar as opções de extração.
  2. Adicione o arquivo PDF de entrada usando o método AddInput.
  3. Execute o método Extract para extrair o texto.
  4. Acesse o texto extraído usando ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Modos de Extração de Texto

O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme suas necessidades.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados brutos.
  3. Modo Achatar: Representa o conteúdo do PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Recursos Principais:

  • Modo Puro: Extrair texto enquanto preserva sua formatação original.
  • Modo Bruto: Extrair texto sem qualquer formatação.
  • Modo Achatar: Extrair texto sem caracteres especiais ou formatação.

Extract Images

O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de forma simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta melhora a acessibilidade do conteúdo visual e simplifica o processo de recuperação de imagens de PDFs.

Como Extrair Imagens de um PDF

Para extrair imagens de um arquivo PDF, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Adicione o caminho do arquivo de entrada às opções usando o método AddInput.
  3. Defina o caminho do diretório de saída para as imagens usando o método AddOutput.
  4. Processar a extração de imagens usando o plugin.
  5. Recupere as imagens extraídas do contêiner de resultados.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraindo Imagens de Arquivo PDF para Streams sem Pasta

O plugin PdfExtractor oferece suporte a gravação em streams, permitindo extrair imagens de arquivos PDF diretamente para streams sem a necessidade de pastas temporárias.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principais Recursos:

  • Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
  • Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham a qualidade original.
  • Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.

Extrair Propriedades / Metadados

O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF.
Propriedades disponíveis que podem ser de seu interesse: Título, Autor, Assunto, Palavras‑chave, Número de Páginas.

Como Extrair Metadados de um Arquivo PDF

O exemplo demonstra como Extrair Propriedades (Título, Autor, Assunto, Palavras‑chave, Número de Páginas) de um arquivo PDF.
Para extrair metadados de um documento PDF, siga estes passos:

  1. Crie uma instância de ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada.
  2. Execute o método Extract de PdfExtractor para extrair os metadados.
  3. Acesse as propriedades extraídas usando o PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywordss;
9var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um Stream PDF

Você pode abrir o stream à sua discrição.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um Arquivo PDF da Forma Mais Curta Possível

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Recursos Principais:

  • Metadados disponíveis: Título, Autor, Assunto, Palavras‑chave, Número de Páginas.

Exportar Dados de Formulário

The Documentize PDF Extractor for .NET plugin provides a seamless way to extract and export data from PDF forms (AcroForms) into other formats like CSV. This dynamic tool simplifies the process of retrieving form field values, allowing for easy data management, transfer, and analysis.

Como Exportar Dados de Formulário de um PDF

Para exportar dados de formulário de um PDF para CSV, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Defina as opções de exportação usando a classe FormExporterValuesToCsvOptions.
  3. Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
  4. Execute o método Extract para realizar a exportação.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Principais Recursos:

  • Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
  • Filtragem de Dados: Use predicados para filtrar campos de formulário específicos para exportação com base em critérios como tipo de campo ou número da página.
  • Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.
 Português