PDF Extractor

Extract Text

Extraire le texte des PDF avec précision grâce aux outils .NET de Documentize—récupérer, traiter et analyser le contenu sans effort.

Extraire des Images

Extraction d'images des documents PDF sans effort depuis des applications .NET

Export Form Data

Extraire et exporter des données à partir de formulaires PDF (AcroForms) vers d'autres formats tels que CSV en utilisant C# .NET

Sous-sections de PDF Extractor

Extract Text

Le Documentize PDF Extractor pour .NET simplifie l’extraction de texte des documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant la mise en forme ou en l’omettant selon vos besoins.

Comment extraire le texte d’un PDF

Pour extraire le texte d’un document PDF, suivez ces étapes :

  1. Créez une instance de ExtractTextOptions pour configurer les options d’extraction.
  2. Ajoutez le fichier PDF d’entrée en utilisant la méthode AddInput.
  3. Exécutez la méthode ExtractText pour extraire le texte.
  4. Accédez au texte extrait en utilisant ResultContainer.ResultCollection.
1// Créer un objet ExtractTextOptions pour définir des instructions
2var options = new ExtractTextOptions();
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = PdfExtractor.ExtractText(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modes d’extraction de texte

Les ExtractTextOptions offrent trois modes d’extraction, fournissant de la flexibilité en fonction de vos besoins.

  1. Mode Pur : Préserve la mise en forme originale, y compris les espaces et l’alignement.
  2. Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
  3. Mode Aplati : Représente le contenu PDF en positionnant les fragments de texte par leurs coordonnées.
1// Créer un objet ExtractTextOptions pour définir TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = PdfExtractor.ExtractText(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Caractéristiques clés:

  • Mode Pur : Extraire le texte tout en préservant sa mise en forme originale.
  • Mode Brut : Extraire le texte sans aucune mise en forme.
  • Mode Aplati : Extraire le texte sans caractères spéciaux ni mise en forme.

Extraire des Images

Le plugin Documentize PDF Extractor for .NET vous permet d’extraire facilement des images des documents PDF. Il scanne vos fichiers PDF, identifie les images intégrées et les extrait tout en préservant leur qualité et leur format d’origine. Cet outil améliore l’accessibilité du contenu visuel et rationalise le processus de récupération des images dans les PDF.

Comment Extraire des Images d’un PDF

Pour extraire des images d’un fichier PDF, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Ajoutez le chemin du fichier d’entrée aux options en utilisant la méthode AddInput.
  3. Définissez le chemin du répertoire de sortie pour les images avec la méthode AddOutput.
  4. Traitez l’extraction d’image en utilisant le plugin.
  5. Récupérez les images extraites du conteneur de résultats.
 1  
 2// Créer ExtractImagesOptions pour définir les instructions  
 3var options = new ExtractImagesOptions();  
 4// Ajouter le chemin du fichier d'entrée  
 5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));  
 6// Définir le chemin du répertoire de sortie  
 7options.AddOutput(new DirectoryDataSource("path_to_results_directory"));  
 8// Effectuer le processus  
 9var results = PdfExtractor.ExtractImages(options);  
10// Obtenir le chemin du résultat d'image  
11var imageExtracted = results.ResultCollection[0].ToFile();  

Extraction d’Images d’un Fichier PDF vers des Flux sans Dossier

Le plugin PdfExtractor prend en charge l’enregistrement vers des flux, ce qui vous permet d’extraire des images de fichiers PDF vers des flux sans utiliser de dossiers temporaires.

 1  
 2// Créer ExtractImagesOptions pour définir les instructions  
 3var options = new ExtractImagesOptions();  
 4// Ajouter le chemin du fichier d'entrée  
 5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));  
 6// Pas de sortie définie - il écrira les résultats vers des flux  
 7// Effectuer le processus  
 8var results = PdfExtractor.ExtractImages(options);  
 9// Obtenir le flux  
10var ms = results.ResultCollection[0].ToStream();  
11// Copier les données dans un fichier pour la démo  
12ms.Seek(0, SeekOrigin.Begin);  
13using (var fs = File.Create("test_file.png"))  
14{  
15    ms.CopyTo(fs);  
16}  

Caractéristiques Principales :

  • Extraire des Images Intégrées : Identifier et extraire des images des documents PDF.
  • Préserver la Qualité des Images : Assure que les images extraites conservent leur qualité d’origine.
  • Sortie Flexible : Enregistrez les images extraites dans votre format ou emplacement préféré.

Export Form Data

Le plugin Documentize PDF Extractor for .NET offre un moyen fluide d’extraire et d’exporter des données à partir de formulaires PDF (AcroForms) vers d’autres formats comme CSV. Cet outil dynamique simplifie le processus de récupération des valeurs des champs de formulaire, permettant une gestion, un transfert et une analyse des données aisés.

Comment exporter des données de formulaire depuis un PDF

Pour exporter des données de formulaire d’un PDF vers CSV, suivez ces étapes :

  1. Créez une instance de la classe ExtractImagesOptions.
  2. Définissez les options d’exportation en utilisant la classe FormExporterValuesToCsvOptions.
  3. Ajoutez des fichiers PDF d’entrée et spécifiez le fichier CSV de sortie.
  4. Exécutez la méthode Process pour effectuer l’exportation.
1// Créez un objet ExtractFormDataToDsvOptions pour définir les instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Ajoutez le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Définissez le chemin du fichier de sortie
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Exécutez le processus
8PdfExtractor.ExtractFormData(options);

Caractéristiques clés :

  • Exporter des données de formulaire : Extraire des données à partir de formulaires PDF (AcroForms) vers CSV ou d’autres formats.
  • Filtrage des données : Utilisez des prédicats pour filtrer des champs de formulaire spécifiques pour l’exportation en fonction de critères tels que le type de champ ou le numéro de page.
  • Sortie flexible : Enregistrez les données exportées pour analyse ou transfert vers des tableurs, bases de données ou d’autres formats de documents.
 Français