Extraire du texte
Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant la mise en forme ou en l’ignorant selon vos besoins.
Comment extraire du texte d’un PDF
Pour extraire le texte d’un document PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptionspour configurer les options d’extraction. - Ajoutez le fichier PDF d’entrée à l’aide de la méthode
AddInput. - Exécutez la méthode
Extractpour extraire le texte. - Accédez au texte extrait via
ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Modes d’extraction de texte
Le ExtractTextOptions propose trois modes d’extraction, offrant une flexibilité adaptée à vos besoins.
- Mode Pur : préserve la mise en forme originale, y compris les espaces et l’alignement.
- Mode Brut : extrait le texte sans mise en forme, utile pour le traitement de données brutes.
- Mode Aplati : représente le contenu PDF avec des fragments de texte positionnés par leurs coordonnées.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Principales fonctionnalités :
- Mode Pur : extrait le texte tout en préservant sa mise en forme d’origine.
- Mode Brut : extrait le texte sans aucune mise en forme.
- Mode Aplati : extrait le texte sans caractères spéciaux ni mise en forme.