PDF Extractor

Extrair Texto

Extraia texto de documentos PDF com precisão usando as ferramentas .NET da Documentize — recupere, processe e analise o conteúdo sem esforço.

Extract Images

Extraia imagens de documentos PDF sem esforço a partir de aplicações .NET

Extrair Propriedades / Metadados

Extrair Metadados de PDFs com precisão usando Documentize com C#/.NET

Exportar Dados de Formulário

Extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV usando C#/.NET

Subsecções de PDF Extractor

Extrair Texto

O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.

Como Extrair Texto de um Arquivo PDF

Para extrair texto de um arquivo PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o caminho do arquivo de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Stream PDF

Para extrair texto de um stream PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o stream de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de Extração de Texto

O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
  3. Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principais Recursos:

  • Modo Puro: Extrai texto preservando sua formatação original.
  • Modo Bruto: Extrai texto sem qualquer formatação.
  • Modo Plano: Extrai texto sem caracteres especiais ou formatação.

Extract Images

O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de forma simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta melhora a acessibilidade do conteúdo visual e simplifica o processo de recuperação de imagens de PDFs.

Como Extrair Imagens de um PDF

Para extrair imagens de um arquivo PDF, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Adicione o caminho do arquivo de entrada às opções usando o método AddInput.
  3. Defina o caminho do diretório de saída para as imagens usando o método AddOutput.
  4. Processar a extração de imagens usando o plugin.
  5. Recupere as imagens extraídas do contêiner de resultados.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraindo Imagens de Arquivo PDF para Streams sem Pasta

O plugin PdfExtractor oferece suporte a gravação em streams, permitindo extrair imagens de arquivos PDF diretamente para streams sem a necessidade de pastas temporárias.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principais Recursos:

  • Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
  • Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham a qualidade original.
  • Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.

Extrair Propriedades / Metadados

O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF. Propriedades disponíveis que podem interessar a você: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Como Extrair Metadados de um arquivo PDF

O exemplo demonstra como Extrair Propriedades (Title, Author, Subject, Keywords, Number of Pages) de um arquivo PDF. Para extrair metadados de um documento PDF, siga estas etapas:

  1. Crie uma instância de ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada.
  2. Execute o método Extract de PdfExtractor para extrair os metadados.
  3. Acesse as propriedades extraídas usando o PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um stream PDF

Você pode abrir o stream conforme sua necessidade.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um arquivo PDF da forma mais curta possível

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principais recursos:

  • Metadados disponíveis: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exportar Dados de Formulário

The Documentize PDF Extractor for .NET plugin provides a seamless way to extract and export data from PDF forms (AcroForms) into other formats like CSV. This dynamic tool simplifies the process of retrieving form field values, allowing for easy data management, transfer, and analysis.

Como Exportar Dados de Formulário de um PDF

Para exportar dados de formulário de um PDF para CSV, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Defina as opções de exportação usando a classe FormExporterValuesToCsvOptions.
  3. Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
  4. Execute o método Extract para realizar a exportação.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Principais Recursos:

  • Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
  • Filtragem de Dados: Use predicados para filtrar campos de formulário específicos para exportação com base em critérios como tipo de campo ou número da página.
  • Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.
 Português