PDF Extractor

Extrair Texto

Extraia texto de documentos PDF com precisão usando as ferramentas .NET da Documentize — recupere, processe e analise o conteúdo sem esforço.

Extrair Imagens

Extraia imagens de documentos PDF de forma simples a partir de aplicativos .NET

Extrair Propriedades / Metadados

Extrair Metadados de PDFs com precisão usando Documentize com C#/.NET

Exportar Dados de Formulário

Extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV usando C#/.NET

Extrair Texto

O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.

Como Extrair Texto de um Arquivo PDF

Para extrair texto de um arquivo PDF, siga estas etapas:

Crie uma instância de ExtractTextOptions para configurar o caminho do arquivo de entrada.
Execute o método Extract para extrair o texto.

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Stream PDF

Para extrair texto de um stream PDF, siga estas etapas:

Crie uma instância de ExtractTextOptions para configurar o stream de entrada.
Execute o método Extract para extrair o texto.

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modos de Extração de Texto

O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.

Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principais Recursos:

Modo Puro: Extrai texto preservando sua formatação original.
Modo Bruto: Extrai texto sem qualquer formatação.
Modo Plano: Extrai texto sem caracteres especiais ou formatação.

Extrair Imagens

O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de maneira simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta aumenta a acessibilidade do conteúdo visual e simplifica o processo de obtenção de imagens de PDFs.

Como Extrair Imagens de um PDF

Para extrair imagens de um arquivo PDF, siga estas etapas:

Crie uma instância da classe ExtractImagesOptions.
Adicione o caminho do arquivo de entrada às opções usando o método AddInput.
Defina o caminho do diretório de saída para as imagens usando o método AddOutput.
Processar a extração de imagens usando o plugin.
Recupere as imagens extraídas do contêiner de resultados.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraindo Imagens de Arquivo PDF para Streams sem pasta

O plugin PdfExtractor oferece suporte a gravação em streams, permitindo que você extraia imagens de arquivos PDF diretamente para streams, sem a necessidade de pastas temporárias.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principais Funcionalidades:

Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham sua qualidade original.
Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.

Extrair Propriedades / Metadados

O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF. Propriedades disponíveis que podem interessar a você: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Como Extrair Metadados de um arquivo PDF

O exemplo demonstra como Extrair Propriedades (Title, Author, Subject, Keywords, Number of Pages) de um arquivo PDF. Para extrair metadados de um documento PDF, siga estas etapas:

Crie uma instância de ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada.
Execute o método Extract de PdfExtractor para extrair os metadados.
Acesse as propriedades extraídas usando o PdfProperties.

 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um stream PDF

Você pode abrir o stream conforme sua necessidade.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Como Extrair Metadados de um arquivo PDF da forma mais curta possível

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principais recursos:

Metadados disponíveis: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exportar Dados de Formulário

O plugin Documentize PDF Extractor for .NET oferece uma maneira simples de extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV. Esta ferramenta dinâmica simplifica o processo de recuperação dos valores dos campos do formulário, permitindo gerenciamento, transferência e análise de dados de forma fácil.

Como Exportar Dados de Formulário de PDF para CSV

Para exportar dados de formulário de um PDF para CSV, siga estas etapas:

Crie uma instância da classe ExtractImagesOptions.
Defina as opções de exportação usando a classe FormExporterValuesToCsvOptions.
Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
Execute o método Extract para realizar a exportação.

1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Como Exportar Dados de Formulário de PDF para TSV

Use a Tabulação como delimitador.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

Principais Recursos:

Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
Filtragem de Dados: Use predicados para filtrar campos específicos do formulário a serem exportados com base em critérios como tipo de campo ou número da página.
Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.

PDF Extractor

Extrair Texto

Extrair Imagens

Extrair Propriedades / Metadados

Exportar Dados de Formulário

Subsecções de PDF Extractor

Extrair Texto

Como Extrair Texto de um Arquivo PDF

Como Extrair Texto de um Stream PDF

Modos de Extração de Texto

Como Extrair Texto de um Arquivo PDF da Forma Mais Concisa Possível

Principais Recursos:

Extrair Imagens

Como Extrair Imagens de um PDF

Extraindo Imagens de Arquivo PDF para Streams sem pasta

Principais Funcionalidades:

Extrair Propriedades / Metadados

Como Extrair Metadados de um arquivo PDF

Como Extrair Metadados de um stream PDF

Como Extrair Metadados de um arquivo PDF da forma mais curta possível

Principais recursos:

Exportar Dados de Formulário

Como Exportar Dados de Formulário de PDF para CSV

Como Exportar Dados de Formulário de PDF para TSV

Principais Recursos: