Extracteur de texte PDF

L’Extracteur de texte PDF Documentize pour .NET simplifie l’extraction de texte à partir de documents PDF. Que vous ayez besoin de texte pur, brut ou simple, ce plugin vous permet d’extraire du texte efficacement tout en préservant le format ou en l’omettant selon vos besoins.

Caractéristiques clés :

  • Mode Pur : Extrayez le texte tout en préservant son formatage d’origine.
  • Mode Brut : Extrayez le texte sans aucun formatage.
  • Mode Simple : Extrayez le texte sans caractères spéciaux ni formatage.
  • Traitement par lots : Extrayez le texte de plusieurs PDF à la fois.

Comment extraire du texte à partir de documents PDF

Pour extraire du texte d’un document PDF, suivez ces étapes :

  1. Créez une instance de la classe TextExtractor.
  2. Créez une instance de TextExtractorOptions pour configurer les options d’extraction.
  3. Ajoutez le fichier PDF d’entrée à l’aide de la méthode AddInput.
  4. Exécutez la méthode Process pour extraire le texte.
  5. Accédez au texte extrait à l’aide de ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter le PDF d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Traiter l'extraction de texte
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Afficher le texte extrait
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extraction de texte à partir de plusieurs PDFs

Le plugin vous permet d’extraire du texte de plusieurs PDFs simultanément, garantissant un traitement rapide et efficace.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter plusieurs PDFs d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Traiter l'extraction
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Afficher le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modes d’extraction de texte

Le plugin TextExtractor propose trois modes d’extraction, offrant une flexibilité en fonction de vos besoins.

  1. Mode Pur : Préserve le formatage d’origine, y compris les espaces et l’alignement.
  2. Mode Brut : Extrait le texte sans formatage, utile pour le traitement de données brutes.
  3. Mode Simple : Extrait du texte sans caractères spéciaux ni formatage supplémentaire.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Définir le mode Pur
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Traiter et afficher
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Comment gérer le traitement par lots

Pour de grands ensembles de documents, vous pouvez tirer parti du traitement par lots, vous permettant d’extraire du texte de plusieurs PDFs à la fois.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Ajouter plusieurs PDFs d'entrée
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Définir la sortie pour chaque fichier
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gérer le texte extrait
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Français