Extracteur de texte PDF

L’Extracteur de texte PDF Documentize pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire le texte efficacement tout en préservant le formatage ou en l’omettant selon vos besoins.

Fonctionnalités clés :

  • Mode Pur : Extraire le texte tout en préservant son formatage original.
  • Mode Brut : Extraire le texte sans aucun formatage.
  • Mode Simple : Extraire le texte sans caractères spéciaux ni formatage.
  • Traitement par batch : Extraire du texte de plusieurs PDF à la fois.

Comment extraire du texte des documents PDF

Pour extraire du texte d’un document PDF, suivez ces étapes :

  1. Créez une instance de la classe TextExtractor.
  2. Créez une instance de TextExtractorOptions pour configurer les options d’extraction.
  3. Ajoutez le fichier PDF d’entrée en utilisant la méthode AddInput.
  4. Exécutez la méthode Process pour extraire le texte.
  5. Accédez au texte extrait en utilisant le ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter le PDF d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Traiter l'extraction du texte
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Afficher le texte extrait
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extraction de texte à partir de plusieurs PDF

Le plugin vous permet d’extraire du texte de plusieurs PDF simultanément, garantissant un traitement rapide et efficace.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter plusieurs PDF d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Traiter l'extraction
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Afficher le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modes d’extraction de texte

Le plugin TextExtractor offre trois modes d’extraction, fournissant flexibilité en fonction de vos besoins.

  1. Mode Pur : Préserve le formatage original, y compris les espaces et l’alignement.
  2. Mode Brut : Extrait le texte sans mise en forme, utile pour le traitement de données brutes.
  3. Mode Simple : Extrait du texte sans caractères spéciaux ni formatage supplémentaire.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Définir en mode Pur
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter et afficher
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Comment gérer le traitement par batch

Pour de grands ensembles de documents, vous pouvez tirer parti du traitement par batch, vous permettant d’extraire du texte de plusieurs PDF à la fois.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter plusieurs PDF d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Définir la sortie pour chaque fichier
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gérer le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Français