PDF Extractor

Extrair Texto

Extraia texto de documentos PDF com precisão usando as ferramentas .NET da Documentize — recupere, processe e analise o conteúdo sem esforço.

Extrair Imagens

Extraia imagens de documentos PDF de forma simples a partir de aplicativos .NET

Extrair Propriedades / Metadados

Extrair Metadados de PDFs com precisão usando Documentize com C#/.NET

Exportar Dados de Formulário

Extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV usando C#/.NET

Subsecções de PDF Extractor

Extrair Texto

O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.

Como Extrair Texto de um Arquivo PDF

Para extrair texto de um arquivo PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o caminho do arquivo de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Stream PDF

Para extrair texto de um stream PDF, siga estas etapas:

  1. Crie uma instância de ExtractTextOptions para configurar o stream de entrada.
  2. Execute o método Extract para extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de Extração de Texto

O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.

  1. Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
  2. Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
  3. Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principais Recursos:

  • Modo Puro: Extrai texto preservando sua formatação original.
  • Modo Bruto: Extrai texto sem qualquer formatação.
  • Modo Plano: Extrai texto sem caracteres especiais ou formatação.

Extrair Imagens

O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de maneira simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta aumenta a acessibilidade do conteúdo visual e simplifica o processo de obtenção de imagens de PDFs.

Como Extrair Imagens de um PDF

Para extrair imagens de um arquivo PDF, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Adicione o caminho do arquivo de entrada às opções usando o método AddInput.
  3. Defina o caminho do diretório de saída para as imagens usando o método AddOutput.
  4. Processar a extração de imagens usando o plugin.
  5. Recupere as imagens extraídas do contêiner de resultados.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraindo Imagens de Arquivo PDF para Streams sem pasta

O plugin PdfExtractor oferece suporte a gravação em streams, permitindo que você extraia imagens de arquivos PDF diretamente para streams, sem a necessidade de pastas temporárias.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principais Funcionalidades:

  • Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
  • Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham sua qualidade original.
  • Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.

Extrair Propriedades / Metadados

O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF. Propriedades disponíveis que podem interessar a você: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Como Extrair Metadados de um arquivo PDF

O exemplo demonstra como Extrair Propriedades (Title, Author, Subject, Keywords, Number of Pages) de um arquivo PDF. Para extrair metadados de um documento PDF, siga estas etapas:

  1. Crie uma instância de ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada.
  2. Execute o método Extract de PdfExtractor para extrair os metadados.
  3. Acesse as propriedades extraídas usando o PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um stream PDF

Você pode abrir o stream conforme sua necessidade.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um arquivo PDF da forma mais curta possível

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principais recursos:

  • Metadados disponíveis: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exportar Dados de Formulário

O plugin Documentize PDF Extractor for .NET oferece uma maneira simples de extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV. Esta ferramenta dinâmica simplifica o processo de recuperação dos valores dos campos do formulário, permitindo gerenciamento, transferência e análise de dados de forma fácil.

Como Exportar Dados de Formulário de PDF para CSV

Para exportar dados de formulário de um PDF para CSV, siga estas etapas:

  1. Crie uma instância da classe ExtractImagesOptions.
  2. Defina as opções de exportação usando a classe FormExporterValuesToCsvOptions.
  3. Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
  4. Execute o método Extract para realizar a exportação.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Como Exportar Dados de Formulário de PDF para TSV

Use a Tabulação como delimitador.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

Principais Recursos:

  • Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
  • Filtragem de Dados: Use predicados para filtrar campos específicos do formulário a serem exportados com base em critérios como tipo de campo ou número da página.
  • Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.
 Português