Extracteur de texte PDF
L’Extracteur de texte PDF Documentize pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire du texte efficacement tout en préservant le format ou en l’omettant selon vos besoins.
Caractéristiques clés :
- Mode Pur : Extrayez le texte tout en préservant son formatage d’origine.
- Mode Brut : Extrayez le texte sans aucun formatage.
- Mode Simple : Extrayez le texte sans caractères spéciaux ni formatage.
- Traitement par lots : Extrayez le texte de plusieurs PDF à la fois.
Comment extraire du texte à partir de documents PDF
Pour extraire du texte d’un document PDF, suivez ces étapes :
- Créez une instance de la classe
TextExtractor
. - Créez une instance de
TextExtractorOptions
pour configurer les options d’extraction. - Ajoutez le fichier PDF d’entrée à l’aide de la méthode
AddInput
. - Exécutez la méthode
Process
pour extraire le texte. - Accédez au texte extrait à l’aide de
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter le PDF d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter l'extraction de texte
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Afficher le texte extrait
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extraction de texte à partir de plusieurs PDFs
Le plugin vous permet d’extraire du texte de plusieurs PDFs simultanément, garantissant un traitement rapide et efficace.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter plusieurs PDFs d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Traiter l'extraction
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Afficher le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Modes d’extraction de texte
Le plugin TextExtractor propose trois modes d’extraction, offrant une flexibilité en fonction de vos besoins.
- Mode Pur : Préserve le formatage d’origine, y compris les espaces et l’alignement.
- Mode Brut : Extrait le texte sans formatage, utile pour le traitement de données brutes.
- Mode Simple : Extrait du texte sans caractères spéciaux ni formatage supplémentaire.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Définir le mode Pur
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter et afficher
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Comment gérer le traitement par lots
Pour de grands ensembles de documents, vous pouvez tirer parti du traitement par lots, vous permettant d’extraire du texte de plusieurs PDFs à la fois.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ajouter plusieurs PDFs d'entrée
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Définir la sortie pour chaque fichier
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gérer le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}