Extracteur de texte PDF
L’Extracteur de texte PDF Documentize pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’omettant selon vos besoins.
Fonctionnalités clés :
- Mode Pur : Extraire le texte tout en préservant son formatage original.
- Mode Brut : Extraire le texte sans aucun formatage.
- Mode Simple : Extraire le texte sans caractères spéciaux ni formatage.
- Traitement par batch : Extraire du texte de plusieurs PDF à la fois.
Comment extraire du texte des documents PDF
Pour extraire du texte d’un document PDF, suivez ces étapes :
- Créez une instance de la classe
TextExtractor
. - Créez une instance de
TextExtractorOptions
pour configurer les options d’extraction. - Ajoutez le fichier PDF d’entrée en utilisant la méthode
AddInput
. - Exécutez la méthode
Process
pour extraire le texte. - Accédez au texte extrait en utilisant le
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter le PDF d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter l'extraction du texte
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Afficher le texte extrait
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extraction de texte à partir de plusieurs PDF
Le plugin vous permet d’extraire du texte de plusieurs PDF simultanément, garantissant un traitement rapide et efficace.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter plusieurs PDF d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Traiter l'extraction
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Afficher le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Modes d’extraction de texte
Le plugin TextExtractor offre trois modes d’extraction, fournissant flexibilité en fonction de vos besoins.
- Mode Pur : Préserve le formatage original, y compris les espaces et l’alignement.
- Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
- Mode Simple : Extrait du texte sans caractères spéciaux ni formatage supplémentaire.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Définir en mode Pur
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter et afficher
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Comment gérer le traitement par batch
Pour de grands ensembles de documents, vous pouvez tirer parti du traitement par batch, vous permettant d’extraire du texte de plusieurs PDF à la fois.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter plusieurs PDF d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Définir la sortie pour chaque fichier
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gérer le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}