PDF Extractor

Extraire du texte

Extraire le texte des documents PDF avec précision grâce aux outils .NET de Documentize — récupérez, traitez et analysez le contenu en toute simplicité.

Extraire des images

Extrayez facilement des images des documents PDF depuis des applications .NET

Extraire les propriétés / métadonnées

Extraire les métadonnées des PDF avec précision grâce à Documentize en utilisant C#/.NET

Exporter les données du formulaire

Extraire et exporter les données des formulaires PDF (AcroForms) vers d'autres formats comme CSV en utilisant C#/.NET

Sous-sections de PDF Extractor

Extraire du texte

Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’ignorant selon vos besoins.

Comment extraire du texte d’un fichier PDF

Pour extraire le texte d’un fichier PDF, suivez ces étapes :

  1. Créez une instance de ExtractTextOptions pour configurer le chemin du fichier d’entrée.
  2. Exécutez la méthode Extract pour extraire le texte.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Comment extraire du texte d’un flux PDF

Pour extraire le texte d’un flux PDF, suivez ces étapes :

  1. Créez une instance de ExtractTextOptions pour configurer le flux d’entrée.
  2. Exécutez la méthode Extract pour extraire le texte.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Modes d’extraction de texte

Le ExtractTextOptions offre trois modes d’extraction, offrant une flexibilité selon vos besoins.

  1. Mode Pur : préserve le formatage original, y compris les espaces et l’alignement.
  2. Mode Brut : extrait le texte sans formatage, utile pour le traitement de données brutes.
  3. Mode Aplat : représente le contenu PDF avec des fragments de texte positionnés selon leurs coordonnées.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Comment extraire du texte d’un fichier PDF de la manière la plus concise possible

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Principales fonctionnalités :

  • Mode Pur : extrait le texte tout en préservant son formatage d’origine.
  • Mode Brut : extrait le texte sans aucun formatage.
  • Mode Aplat : extrait le texte sans caractères spéciaux ni mise en forme.

Extraire des images

Le plugin Documentize PDF Extractor for .NET vous permet d’extraire facilement des images de documents PDF. Il analyse vos fichiers PDF, identifie les images incorporées et les extrait tout en conservant leur qualité et leur format d’origine. Cet outil améliore l’accessibilité du contenu visuel et simplifie le processus de récupération des images à partir de PDF.

Comment extraire des images d’un PDF

Pour extraire des images d’un fichier PDF, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Ajoutez le chemin du fichier d’entrée aux options à l’aide de la méthode AddInput.
  3. Définissez le chemin du répertoire de sortie pour les images avec la méthode AddOutput.
  4. Lancez le processus d’extraction d’images avec le plugin.
  5. Récupérez les images extraites depuis le conteneur de résultats.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Extraction d’images d’un fichier PDF vers des flux sans dossier

Le plugin PdfExtractor prend en charge la sauvegarde vers des flux, ce qui vous permet d’extraire des images de fichiers PDF directement dans des flux sans utiliser de dossiers temporaires.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Principales fonctionnalités :

  • Extraction d’images incorporées : Identifie et extrait les images des documents PDF.
  • Préservation de la qualité des images : Garantit que les images extraites conservent leur qualité originale.
  • Sortie flexible : Enregistrez les images extraites dans le format ou l’emplacement de votre choix.

Extraire les propriétés / métadonnées

Le Documentize PDF Extractor for .NET simplifie l’extraction des métadonnées des documents PDF. Propriétés disponibles qui peuvent vous intéresser : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Comment extraire les métadonnées d’un fichier PDF

L’exemple montre comment extraire les propriétés (Title, Author, Subject, Keywords, Number of Pages) d’un fichier PDF.
Pour extraire les métadonnées d’un document PDF, suivez ces étapes :

  1. Créez une instance de ExtractPropertiesOptions pour configurer les options d’extraction et le fichier PDF d’entrée.
  2. Exécutez la méthode Extract de PdfExtractor pour extraire les métadonnées.
  3. Accédez aux propriétés extraites à l’aide de PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un flux PDF

Vous pouvez ouvrir le flux à votre convenance.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Comment extraire les métadonnées d’un fichier PDF de la manière la plus concise

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Principales fonctionnalités :

  • Métadonnées disponibles : FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Exporter les données du formulaire

Le plugin Documentize PDF Extractor for .NET offre une méthode fluide pour extraire et exporter les données des formulaires PDF (AcroForms) vers d’autres formats comme le CSV. Cet outil dynamique simplifie le processus de récupération des valeurs des champs de formulaire, permettant une gestion, un transfert et une analyse faciles des données.

Comment exporter les données d’un formulaire PDF

Pour exporter les données d’un formulaire PDF vers un CSV, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Définissez les options d’exportation à l’aide de la classe FormExporterValuesToCsvOptions.
  3. Ajoutez les fichiers PDF d’entrée et spécifiez le fichier CSV de sortie.
  4. Exécutez la méthode Extract pour réaliser l’exportation.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Principales fonctionnalités :

  • Export Form Data : Extraire les données des formulaires PDF (AcroForms) vers le CSV ou d’autres formats.
  • Data Filtering : Utiliser des prédicats pour filtrer des champs de formulaire spécifiques à exporter selon des critères comme le type de champ ou le numéro de page.
  • Flexible Output : Enregistrer les données exportées pour les analyser ou les transférer vers des feuilles de calcul, des bases de données ou d’autres formats de documents.
 Français