Extract Text
Le Documentize PDF Extractor pour .NET simplifie l’extraction de texte des documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant la mise en forme ou en l’omettant selon vos besoins.
Comment extraire le texte d’un PDF
Pour extraire le texte d’un document PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptions
pour configurer les options d’extraction. - Ajoutez le fichier PDF d’entrée en utilisant la méthode
AddInput
. - Exécutez la méthode
ExtractText
pour extraire le texte. - Accédez au texte extrait en utilisant
ResultContainer.ResultCollection
.
1// Créer un objet ExtractTextOptions pour définir des instructions
2var options = new ExtractTextOptions();
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = PdfExtractor.ExtractText(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modes d’extraction de texte
Les ExtractTextOptions offrent trois modes d’extraction, fournissant de la flexibilité en fonction de vos besoins.
- Mode Pur : Préserve la mise en forme originale, y compris les espaces et l’alignement.
- Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
- Mode Aplati : Représente le contenu PDF en positionnant les fragments de texte par leurs coordonnées.
1// Créer un objet ExtractTextOptions pour définir TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = PdfExtractor.ExtractText(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Caractéristiques clés:
- Mode Pur : Extraire le texte tout en préservant sa mise en forme originale.
- Mode Brut : Extraire le texte sans aucune mise en forme.
- Mode Aplati : Extraire le texte sans caractères spéciaux ni mise en forme.