Subsecções de PDF Extractor
O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.
Para extrair texto de um arquivo PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptions para configurar o caminho do arquivo de entrada. - Execute o método
Extract para extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
Para extrair texto de um stream PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptions para configurar o stream de entrada. - Execute o método
Extract para extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);
O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
- Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));
Principais Recursos:
- Modo Puro: Extrai texto preservando sua formatação original.
- Modo Bruto: Extrai texto sem qualquer formatação.
- Modo Plano: Extrai texto sem caracteres especiais ou formatação.
O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de maneira simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta aumenta a acessibilidade do conteúdo visual e simplifica o processo de obtenção de imagens de PDFs.
Para extrair imagens de um arquivo PDF, siga estas etapas:
- Crie uma instância da classe
ExtractImagesOptions. - Adicione o caminho do arquivo de entrada às opções usando o método
AddInput. - Defina o caminho do diretório de saída para as imagens usando o método
AddOutput. - Processar a extração de imagens usando o plugin.
- Recupere as imagens extraídas do contêiner de resultados.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output Directory path
6options.AddOutput(new DirectoryData("path_to_results_directory"));
7// Perform the process
8var results = PdfExtractor.Extract(options);
9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();
O plugin PdfExtractor oferece suporte a gravação em streams, permitindo que você extraia imagens de arquivos PDF diretamente para streams, sem a necessidade de pastas temporárias.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Not set output - it will write results to streams
6// Perform the process
7var results = PdfExtractor.Extract(options);
8// Get Stream
9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
Principais Funcionalidades:
- Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
- Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham sua qualidade original.
- Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.
O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF.
Propriedades disponíveis que podem interessar a você: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
O exemplo demonstra como Extrair Propriedades (Title, Author, Subject, Keywords, Number of Pages) de um arquivo PDF.
Para extrair metadados de um documento PDF, siga estas etapas:
- Crie uma instância de
ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada. - Execute o método
Extract de PdfExtractor para extrair os metadados. - Acesse as propriedades extraídas usando o
PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var filename = pdfProperties.FileName;
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
Você pode abrir o stream conforme sua necessidade.
1// Create ExtractPropertiesOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractPropertiesOptions(stream);
4// Perform the process and get Properties
5var pdfProperties = PdfExtractor.Extract(options);
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));
Principais recursos:
- Metadados disponíveis: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
O plugin Documentize PDF Extractor for .NET oferece uma maneira simples de extrair e exportar dados de formulários PDF (AcroForms) para outros formatos como CSV. Esta ferramenta dinâmica simplifica o processo de recuperação dos valores dos campos do formulário, permitindo gerenciamento, transferência e análise de dados de forma fácil.
Para exportar dados de formulário de um PDF para CSV, siga estas etapas:
- Crie uma instância da classe
ExtractImagesOptions. - Defina as opções de exportação usando a classe
FormExporterValuesToCsvOptions. - Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
- Execute o método
Extract para realizar a exportação.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);
Use a Tabulação como delimitador.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions();
3//Set Delimiter
4options.Delimiter = '\t';
5//Add Field Names to result
6options.AddFieldName = true;
7// Add input file path
8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);
Principais Recursos:
- Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
- Filtragem de Dados: Use predicados para filtrar campos específicos do formulário a serem exportados com base em critérios como tipo de campo ou número da página.
- Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.