Subsecções de PDF Extractor
O Documentize PDF Extractor for .NET simplifica a extração de texto de documentos PDF. Seja qual for a necessidade — texto puro, bruto ou simples — este plugin permite extrair texto de forma eficiente, preservando a formatação ou omitindo-a conforme sua necessidade.
Para extrair texto de um arquivo PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptions para configurar o caminho do arquivo de entrada. - Execute o método
Extract para extrair o texto.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
Para extrair texto de um stream PDF, siga estas etapas:
- Crie uma instância de
ExtractTextOptions para configurar o stream de entrada. - Execute o método
Extract para extrair o texto.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);
O ExtractTextOptions oferece três modos de extração, proporcionando flexibilidade conforme sua necessidade.
- Modo Puro: Preserva a formatação original, incluindo espaços e alinhamento.
- Modo Bruto: Extrai o texto sem formatação, útil para processamento de dados crus.
- Modo Plano: Representa o conteúdo PDF com fragmentos de texto posicionados por suas coordenadas.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));
Principais Recursos:
- Modo Puro: Extrai texto preservando sua formatação original.
- Modo Bruto: Extrai texto sem qualquer formatação.
- Modo Plano: Extrai texto sem caracteres especiais ou formatação.
O plugin Documentize PDF Extractor for .NET permite extrair imagens de documentos PDF de forma simples. Ele analisa seus arquivos PDF, identifica as imagens incorporadas e as extrai mantendo a qualidade e o formato originais. Esta ferramenta melhora a acessibilidade do conteúdo visual e simplifica o processo de recuperação de imagens de PDFs.
Para extrair imagens de um arquivo PDF, siga estas etapas:
- Crie uma instância da classe
ExtractImagesOptions. - Adicione o caminho do arquivo de entrada às opções usando o método
AddInput. - Defina o caminho do diretório de saída para as imagens usando o método
AddOutput. - Processar a extração de imagens usando o plugin.
- Recupere as imagens extraídas do contêiner de resultados.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output Directory path
6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
7// Perform the process
8var results = PdfExtractor.Extract(options);
9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();
O plugin PdfExtractor oferece suporte a gravação em streams, permitindo extrair imagens de arquivos PDF diretamente para streams sem a necessidade de pastas temporárias.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Not set output - it will write results to streams
6// Perform the process
7var results = PdfExtractor.Extract(options);
8// Get Stream
9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
Principais Recursos:
- Extrair Imagens Incorporadas: Identifica e extrai imagens de documentos PDF.
- Preservar a Qualidade da Imagem: Garante que as imagens extraídas mantenham a qualidade original.
- Saída Flexível: Salve as imagens extraídas no formato ou local de sua preferência.
O Documentize PDF Extractor for .NET simplifica a extração de Metadados de documentos PDF.
Propriedades disponíveis que podem interessar a você: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
O exemplo demonstra como Extrair Propriedades (Title, Author, Subject, Keywords, Number of Pages) de um arquivo PDF.
Para extrair metadados de um documento PDF, siga estas etapas:
- Crie uma instância de
ExtractPropertiesOptions para configurar as opções de extração e o arquivo PDF de entrada. - Execute o método
Extract de PdfExtractor para extrair os metadados. - Acesse as propriedades extraídas usando o
PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var filename = pdfProperties.FileName;
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
Você pode abrir o stream conforme sua necessidade.
1// Create ExtractPropertiesOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractPropertiesOptions(stream);
4// Perform the process and get Properties
5var pdfProperties = PdfExtractor.Extract(options);
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));
Principais recursos:
- Metadados disponíveis: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
The Documentize PDF Extractor for .NET plugin provides a seamless way to extract and export data from PDF forms (AcroForms) into other formats like CSV. This dynamic tool simplifies the process of retrieving form field values, allowing for easy data management, transfer, and analysis.
Para exportar dados de formulário de um PDF para CSV, siga estas etapas:
- Crie uma instância da classe
ExtractImagesOptions. - Defina as opções de exportação usando a classe
FormExporterValuesToCsvOptions. - Adicione os arquivos PDF de entrada e especifique o arquivo CSV de saída.
- Execute o método
Extract para realizar a exportação.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);
Principais Recursos:
- Exportar Dados de Formulário: Extrair dados de formulários PDF (AcroForms) para CSV ou outros formatos.
- Filtragem de Dados: Use predicados para filtrar campos de formulário específicos para exportação com base em critérios como tipo de campo ou número da página.
- Saída Flexível: Salve os dados exportados para análise ou transferência para planilhas, bancos de dados ou outros formatos de documento.