Sous-sections de PDF Extractor
Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’ignorant selon vos besoins.
Pour extraire le texte d’un fichier PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptions pour configurer le chemin du fichier d’entrée. - Exécutez la méthode
Extract pour extraire le texte.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
Pour extraire le texte d’un flux PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptions pour configurer le flux d’entrée. - Exécutez la méthode
Extract pour extraire le texte.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);
Le ExtractTextOptions offre trois modes d’extraction, offrant une flexibilité selon vos besoins.
- Mode Pur : préserve le formatage original, y compris les espaces et l’alignement.
- Mode Brut : extrait le texte sans formatage, utile pour le traitement de données brutes.
- Mode Aplat : représente le contenu PDF avec des fragments de texte positionnés selon leurs coordonnées.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));
Principales fonctionnalités :
- Mode Pur : extrait le texte tout en préservant son formatage d’origine.
- Mode Brut : extrait le texte sans aucun formatage.
- Mode Aplat : extrait le texte sans caractères spéciaux ni mise en forme.
Le plugin Documentize PDF Extractor for .NET vous permet d’extraire facilement des images de documents PDF. Il analyse vos fichiers PDF, identifie les images incorporées et les extrait tout en conservant leur qualité et leur format d’origine. Cet outil améliore l’accessibilité du contenu visuel et simplifie le processus de récupération des images à partir de PDF.
Pour extraire des images d’un fichier PDF, suivez ces étapes :
- Créez une instance de la classe
ExtractImagesOptions. - Ajoutez le chemin du fichier d’entrée aux options à l’aide de la méthode
AddInput. - Définissez le chemin du répertoire de sortie pour les images avec la méthode
AddOutput. - Lancez le processus d’extraction d’images avec le plugin.
- Récupérez les images extraites depuis le conteneur de résultats.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output Directory path
6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
7// Perform the process
8var results = PdfExtractor.Extract(options);
9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();
Le plugin PdfExtractor prend en charge la sauvegarde vers des flux, ce qui vous permet d’extraire des images de fichiers PDF directement dans des flux sans utiliser de dossiers temporaires.
1// Create ExtractImagesOptions to set instructions
2var options = new ExtractImagesOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Not set output - it will write results to streams
6// Perform the process
7var results = PdfExtractor.Extract(options);
8// Get Stream
9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
Principales fonctionnalités :
- Extraction d’images incorporées : Identifie et extrait les images des documents PDF.
- Préservation de la qualité des images : Garantit que les images extraites conservent leur qualité originale.
- Sortie flexible : Enregistrez les images extraites dans le format ou l’emplacement de votre choix.
Le Documentize PDF Extractor for .NET simplifie l’extraction des métadonnées des documents PDF.
Propriétés disponibles qui peuvent vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
L’exemple montre comment extraire les propriétés (Title, Author, Subject, Keywords, Number of Pages) d’un fichier PDF.
Pour extraire les métadonnées d’un document PDF, suivez ces étapes :
- Créez une instance de
ExtractPropertiesOptions pour configurer les options d’extraction et le fichier PDF d’entrée. - Exécutez la méthode
Extract de PdfExtractor pour extraire les métadonnées. - Accédez aux propriétés extraites à l’aide de
PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var filename = pdfProperties.FileName;
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
Vous pouvez ouvrir le flux à votre convenance.
1// Create ExtractPropertiesOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractPropertiesOptions(stream);
4// Perform the process and get Properties
5var pdfProperties = PdfExtractor.Extract(options);
6var title = pdfProperties.Title;
7var author = pdfProperties.Author;
8var subject = pdfProperties.Subject;
9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;
1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));
Principales fonctionnalités :
- Métadonnées disponibles : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.
Le plugin Documentize PDF Extractor for .NET offre une méthode fluide pour extraire et exporter les données des formulaires PDF (AcroForms) vers d’autres formats comme le CSV. Cet outil dynamique simplifie le processus de récupération des valeurs des champs de formulaire, permettant une gestion, un transfert et une analyse faciles des données.
Pour exporter les données d’un formulaire PDF vers un CSV, suivez ces étapes :
- Créez une instance de la classe
ExtractImagesOptions. - Définissez les options d’exportation à l’aide de la classe
FormExporterValuesToCsvOptions. - Ajoutez les fichiers PDF d’entrée et spécifiez le fichier CSV de sortie.
- Exécutez la méthode
Extract pour réaliser l’exportation.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);
Principales fonctionnalités :
- Export Form Data : Extraire les données des formulaires PDF (AcroForms) vers le CSV ou d’autres formats.
- Data Filtering : Utiliser des prédicats pour filtrer des champs de formulaire spécifiques à exporter selon des critères comme le type de champ ou le numéro de page.
- Flexible Output : Enregistrer les données exportées pour les analyser ou les transférer vers des feuilles de calcul, des bases de données ou d’autres formats de documents.