PDF Extractor

Extraire du texte

Extraire le texte des documents PDF avec précision grâce aux outils .NET de Documentize — récupérez, traitez et analysez le contenu en toute simplicité.

Extraire des images

Extrayez facilement des images de documents PDF depuis des applications .NET

Extraire les propriétés / métadonnées

Extraire les métadonnées des PDF avec précision grâce à Documentize en utilisant C#/.NET

Exporter les données de formulaire

Extraire et exporter les données des formulaires PDF (AcroForms) vers d'autres formats comme CSV en utilisant C#/.NET

Extraire du texte

Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’ignorant selon vos besoins.

Comment extraire du texte d’un fichier PDF

Pour extraire le texte d’un fichier PDF, suivez ces étapes :

Créez une instance de ExtractTextOptions pour configurer le chemin du fichier d’entrée.
Exécutez la méthode Extract pour extraire le texte.

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Comment extraire du texte d’un flux PDF

Pour extraire le texte d’un flux PDF, suivez ces étapes :

Créez une instance de ExtractTextOptions pour configurer le flux d’entrée.
Exécutez la méthode Extract pour extraire le texte.

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modes d’extraction de texte

Le ExtractTextOptions offre trois modes d’extraction, offrant une flexibilité selon vos besoins.

Mode Pur : préserve le formatage original, y compris les espaces et l’alignement.
Mode Brut : extrait le texte sans formatage, utile pour le traitement de données brutes.
Mode Aplat : représente le contenu PDF avec des fragments de texte positionnés selon leurs coordonnées.

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Comment extraire du texte d’un fichier PDF de la manière la plus concise possible

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principales fonctionnalités :

Mode Pur : extrait le texte tout en préservant son formatage d’origine.
Mode Brut : extrait le texte sans aucun formatage.
Mode Aplat : extrait le texte sans caractères spéciaux ni mise en forme.

Extraire des images

Le plugin Documentize PDF Extractor for .NET vous permet d’extraire facilement des images de documents PDF. Il analyse vos fichiers PDF, identifie les images incorporées et les extrait tout en conservant leur qualité et leur format d’origine. Cet outil améliore l’accessibilité du contenu visuel et simplifie le processus de récupération des images à partir des PDF.

Comment extraire des images d’un PDF

Pour extraire des images d’un fichier PDF, suivez ces étapes :

Créez une instance de la classe ExtractImagesOptions.
Ajoutez le chemin du fichier d’entrée aux options à l’aide de la méthode AddInput.
Définissez le chemin du répertoire de sortie pour les images avec la méthode AddOutput.
Lancez le processus d’extraction d’images avec le plugin.
Récupérez les images extraites depuis le conteneur de résultats.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraction d’images d’un fichier PDF vers des flux sans dossier

Le plugin PdfExtractor prend en charge la sauvegarde vers des flux, ce qui vous permet d’extraire des images de fichiers PDF directement dans des flux sans utiliser de dossiers temporaires.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Fonctionnalités clés :

Extraction d’images incorporées : Identifie et extrait les images des documents PDF.
Préservation de la qualité des images : Garantit que les images extraites conservent leur qualité d’origine.
Sortie flexible : Enregistrez les images extraites dans le format ou l’emplacement de votre choix.

Extraire les propriétés / métadonnées

Le Documentize PDF Extractor for .NET simplifie l’extraction des métadonnées des documents PDF. Propriétés disponibles qui peuvent vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Comment extraire les métadonnées d’un fichier PDF

L’exemple montre comment extraire les propriétés (Title, Author, Subject, Keywords, Number of Pages) d’un fichier PDF.
Pour extraire les métadonnées d’un document PDF, suivez ces étapes :

Créez une instance de ExtractPropertiesOptions pour configurer les options d’extraction et le fichier PDF d’entrée.
Exécutez la méthode Extract de PdfExtractor pour extraire les métadonnées.
Accédez aux propriétés extraites à l’aide de PdfProperties.

 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un flux PDF

Vous pouvez ouvrir le flux à votre convenance.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un fichier PDF de la manière la plus concise

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principales fonctionnalités :

Métadonnées disponibles : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exporter les données de formulaire

Le plugin Documentize PDF Extractor for .NET offre une manière fluide d’extraire et d’exporter les données des formulaires PDF (AcroForms) vers d’autres formats comme le CSV. Cet outil dynamique simplifie le processus de récupération des valeurs des champs de formulaire, permettant une gestion, un transfert et une analyse faciles des données.

Comment exporter les données d’un formulaire PDF vers CSV

Pour exporter les données d’un formulaire PDF vers CSV, suivez ces étapes :

Créez une instance de la classe ExtractImagesOptions.
Définissez les options d’exportation à l’aide de la classe FormExporterValuesToCsvOptions.
Ajoutez les fichiers PDF d’entrée et spécifiez le fichier CSV de sortie.
Exécutez la méthode Extract pour réaliser l’exportation.

1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Comment exporter les données d’un formulaire PDF vers TSV

Utilisez la tabulation comme délimiteur.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

Principales fonctionnalités :

Export Form Data : Extraire les données des formulaires PDF (AcroForms) vers CSV ou d’autres formats.
Data Filtering : Utiliser des prédicats pour filtrer des champs de formulaire spécifiques à exporter selon des critères comme le type de champ ou le numéro de page.
Flexible Output : Enregistrer les données exportées pour les analyser ou les transférer vers des feuilles de calcul, des bases de données ou d’autres formats de documents.

PDF Extractor

Extraire du texte

Extraire des images

Extraire les propriétés / métadonnées

Exporter les données de formulaire

Sous-sections de PDF Extractor

Extraire du texte

Comment extraire du texte d’un fichier PDF

Comment extraire du texte d’un flux PDF

Modes d’extraction de texte

Comment extraire du texte d’un fichier PDF de la manière la plus concise possible

Principales fonctionnalités :

Extraire des images

Comment extraire des images d’un PDF

Extraction d’images d’un fichier PDF vers des flux sans dossier

Fonctionnalités clés :

Extraire les propriétés / métadonnées

Comment extraire les métadonnées d’un fichier PDF

Comment extraire les métadonnées d’un flux PDF

Comment extraire les métadonnées d’un fichier PDF de la manière la plus concise

Principales fonctionnalités :

Exporter les données de formulaire

Comment exporter les données d’un formulaire PDF vers CSV

Comment exporter les données d’un formulaire PDF vers TSV

Principales fonctionnalités :

Principales fonctionnalités :

Principales fonctionnalités :