PDF Text Extractor

Le Documentize PDF Text Extractor pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin d’un texte pur, brut ou simple, ce plugin vous permet d’extraire le texte de manière efficace tout en préservant la mise en forme ou en l’omettant selon vos besoins.

Comment extraire du texte d’un PDF

Pour extraire du texte d’un document PDF, suivez ces étapes :

Créez une instance de TextExtractorOptions pour configurer les options d’extraction.
Ajoutez le fichier PDF d’entrée à l’aide de la méthode AddInput.
Exécutez la méthode Process pour extraire le texte.
Accédez au texte extrait à l’aide de ResultContainer.ResultCollection.

1// Créer un objet TextExtractorOptions pour définir les instructions
2var options = new TextExtractorOptions();
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = TextExtractor.Process(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modes d’extraction de texte

Le plugin TextExtractor propose trois modes d’extraction, offrant de la flexibilité en fonction de vos besoins.

Mode Pur : Préserve la mise en forme originale, y compris les espaces et l’alignement.
Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
Mode Aplati : Représente le contenu PDF avec les fragments de texte positionnés selon leurs coordonnées.

1// Créer un objet TextExtractorOptions pour définir TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Ajouter le chemin du fichier d'entrée
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Exécuter le processus
6var results = TextExtractor.Process(options);
7// Obtenir le texte extrait de l'objet ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Caractéristiques clés :

Mode Pur : Extraire du texte tout en préservant sa mise en forme originale.
Mode Brut : Extraire du texte sans aucune mise en forme.
Mode Aplati : Extraire du texte sans caractères spéciaux ni mise en forme.