Extraire du texte
Le Documentize PDF Extractor for .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’ignorant selon vos besoins.
Comment extraire du texte d’un fichier PDF
Pour extraire le texte d’un fichier PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptionspour configurer le chemin du fichier d’entrée. - Exécutez la méthode
Extractpour extraire le texte.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Comment extraire du texte d’un flux PDF
Pour extraire le texte d’un flux PDF, suivez ces étapes :
- Créez une instance de
ExtractTextOptionspour configurer le flux d’entrée. - Exécutez la méthode
Extractpour extraire le texte.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Modes d’extraction de texte
Le ExtractTextOptions offre trois modes d’extraction, offrant une flexibilité selon vos besoins.
- Mode Pur : préserve le formatage original, y compris les espaces et l’alignement.
- Mode Brut : extrait le texte sans formatage, utile pour le traitement de données brutes.
- Mode Aplat : représente le contenu PDF avec des fragments de texte positionnés selon leurs coordonnées.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Comment extraire du texte d’un fichier PDF de la manière la plus concise possible
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Principales fonctionnalités :
- Mode Pur : extrait le texte tout en préservant son formatage d’origine.
- Mode Brut : extrait le texte sans aucun formatage.
- Mode Aplat : extrait le texte sans caractères spéciaux ni mise en forme.