PDF Text Extractor
Le Documentize PDF Text Extractor pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin d’un texte pur, brut ou simple, ce plugin vous permet d’extraire le texte de manière efficace tout en préservant la mise en forme ou en l’omettant selon vos besoins.
Comment extraire du texte d’un PDF
Pour extraire du texte d’un document PDF, suivez ces étapes :
- Créez une instance de
TextExtractorOptions
pour configurer les options d’extraction. - Ajoutez le fichier PDF d’entrée à l’aide de la méthode
AddInput
. - Exécutez la méthode
Process
pour extraire le texte. - Accédez au texte extrait à l’aide de
ResultContainer.ResultCollection
.
1// Créer un objet TextExtractorOptions pour définir les instructions
2var options = new TextExtractorOptions();
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = TextExtractor.Process(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modes d’extraction de texte
Le plugin TextExtractor propose trois modes d’extraction, offrant de la flexibilité en fonction de vos besoins.
- Mode Pur : Préserve la mise en forme originale, y compris les espaces et l’alignement.
- Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
- Mode Aplati : Représente le contenu PDF avec les fragments de texte positionnés selon leurs coordonnées.
1// Créer un objet TextExtractorOptions pour définir TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = TextExtractor.Process(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Caractéristiques clés :
- Mode Pur : Extraire du texte tout en préservant sa mise en forme originale.
- Mode Brut : Extraire du texte sans aucune mise en forme.
- Mode Aplati : Extraire du texte sans caractères spéciaux ni mise en forme.