PDF Extractor

Extraire du texte

Extrayez le texte des PDF avec précision grâce aux outils .NET de Documentize — récupérez, traitez et analysez le contenu sans effort.

Extraire des images

Extrayez facilement des images des documents PDF depuis des applications .NET

Extraire les propriétés / métadonnées

Extraire les métadonnées des PDF avec précision grâce à Documentize en utilisant C#/.NET

Exporter les données du formulaire

Extraire et exporter les données des formulaires PDF (AcroForms) vers d'autres formats comme CSV en utilisant C#/.NET

Sous-sections de PDF Extractor

Extraire du texte

Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant la mise en forme ou en l’ignorant selon vos besoins.

Comment extraire du texte d’un PDF

Pour extraire le texte d’un document PDF, suivez ces étapes :

  1. Créez une instance de ExtractTextOptions pour configurer les options d’extraction.
  2. Ajoutez le fichier PDF d’entrée à l’aide de la méthode AddInput.
  3. Exécutez la méthode Extract pour extraire le texte.
  4. Accédez au texte extrait via ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Modes d’extraction de texte

Le ExtractTextOptions propose trois modes d’extraction, offrant une flexibilité adaptée à vos besoins.

  1. Mode Pur : préserve la mise en forme originale, y compris les espaces et l’alignement.
  2. Mode Brut : extrait le texte sans mise en forme, utile pour le traitement de données brutes.
  3. Mode Aplati : représente le contenu PDF avec des fragments de texte positionnés par leurs coordonnées.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Principales fonctionnalités :

  • Mode Pur : extrait le texte tout en préservant sa mise en forme d’origine.
  • Mode Brut : extrait le texte sans aucune mise en forme.
  • Mode Aplati : extrait le texte sans caractères spéciaux ni mise en forme.

Extraire des images

Le plugin Documentize PDF Extractor for .NET vous permet d’extraire facilement des images de documents PDF. Il analyse vos fichiers PDF, identifie les images incorporées et les extrait tout en conservant leur qualité et leur format d’origine. Cet outil améliore l’accessibilité du contenu visuel et simplifie le processus de récupération des images à partir de PDF.

Comment extraire des images d’un PDF

Pour extraire des images d’un fichier PDF, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Ajoutez le chemin du fichier d’entrée aux options à l’aide de la méthode AddInput.
  3. Définissez le chemin du répertoire de sortie pour les images avec la méthode AddOutput.
  4. Lancez le processus d’extraction d’images avec le plugin.
  5. Récupérez les images extraites depuis le conteneur de résultats.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraction d’images d’un fichier PDF vers des flux sans dossier

Le plugin PdfExtractor prend en charge la sauvegarde vers des flux, ce qui vous permet d’extraire des images de fichiers PDF directement dans des flux sans utiliser de dossiers temporaires.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principales fonctionnalités :

  • Extraction d’images incorporées : Identifie et extrait les images des documents PDF.
  • Préservation de la qualité des images : Garantit que les images extraites conservent leur qualité originale.
  • Sortie flexible : Enregistrez les images extraites dans le format ou l’emplacement de votre choix.

Extraire les propriétés / métadonnées

Le Documentize PDF Extractor pour .NET simplifie l’extraction des métadonnées des documents PDF.
Propriétés disponibles qui pourraient vous intéresser : Titre, Auteur, Sujet, Mots‑clés, Nombre de pages.

Comment extraire les métadonnées d’un fichier PDF

L’exemple montre comment extraire les propriétés (Titre, Auteur, Sujet, Mots‑clés, Nombre de pages) d’un fichier PDF.
Pour extraire les métadonnées d’un document PDF, suivez ces étapes :

  1. Créez une instance de ExtractPropertiesOptions pour configurer les options d’extraction et le fichier PDF d’entrée.
  2. Exécutez la méthode Extract de PdfExtractor pour extraire les métadonnées.
  3. Accédez aux propriétés extraites via le PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un flux PDF

Vous pouvez ouvrir le flux à votre convenance.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un fichier PDF de la manière la plus concise possible

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principales fonctionnalités :

  • Métadonnées disponibles : Titre, Auteur, Sujet, Mots‑clés, Nombre de pages.

Exporter les données du formulaire

Le plugin Documentize PDF Extractor for .NET offre une méthode fluide pour extraire et exporter les données des formulaires PDF (AcroForms) vers d’autres formats comme le CSV. Cet outil dynamique simplifie le processus de récupération des valeurs des champs de formulaire, permettant une gestion, un transfert et une analyse faciles des données.

Comment exporter les données d’un formulaire PDF

Pour exporter les données d’un formulaire PDF vers un CSV, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Définissez les options d’exportation à l’aide de la classe FormExporterValuesToCsvOptions.
  3. Ajoutez les fichiers PDF d’entrée et spécifiez le fichier CSV de sortie.
  4. Exécutez la méthode Extract pour réaliser l’exportation.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Principales fonctionnalités :

  • Export Form Data : Extraire les données des formulaires PDF (AcroForms) vers le CSV ou d’autres formats.
  • Data Filtering : Utiliser des prédicats pour filtrer des champs de formulaire spécifiques à exporter selon des critères comme le type de champ ou le numéro de page.
  • Flexible Output : Enregistrer les données exportées pour les analyser ou les transférer vers des feuilles de calcul, des bases de données ou d’autres formats de documents.
 Français