Estrattore di Testo PDF

L’Estrattore di Testo PDF Documentize per .NET semplifica l’estrazione di testo da documenti PDF. Sia che tu abbia bisogno di testo puro, grezzo o semplice, questo plugin ti consente di estrarre testo in modo efficiente preservando la formattazione o omettendola in base alle tue esigenze.

Caratteristiche Chiave:

  • Modalità Pura: Estrai testo preservando la sua formattazione originale.
  • Modalità Grezza: Estrai testo senza alcuna formattazione.
  • Modalità Semplice: Estrai testo senza caratteri speciali o formattazione.
  • Elaborazione in Batch: Estrai testo da più PDF contemporaneamente.

Come Estrarre Testo da Documenti PDF

Per estrarre testo da un documento PDF, segui questi passaggi:

  1. Crea un’istanza della classe TextExtractor.
  2. Crea un’istanza di TextExtractorOptions per configurare le opzioni di estrazione.
  3. Aggiungi il file PDF di input utilizzando il metodo AddInput.
  4. Esegui il metodo Process per estrarre il testo.
  5. Accedi al testo estratto utilizzando ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Aggiungi il PDF di input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Elabora l'estrazione del testo
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Stampa il testo estratto
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Estrazione di Testo da Più PDF

Il plugin ti consente di estrarre testo da più PDF simultaneamente, garantendo un’elaborazione rapida ed efficiente.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Aggiungi più PDF di input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Elabora l'estrazione
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Mostra il testo estratto
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Modalità di Estrazione del Testo

Il plugin TextExtractor offre tre modalità di estrazione, fornendo flessibilità in base alle tue esigenze.

  1. Modalità Pura: Preserva la formattazione originale, inclusi spazi e allineamento.
  2. Modalità Grezza: Estrae il testo senza formattazione, utile per l’elaborazione di dati grezzi.
  3. Modalità Semplice: Estrae testo senza caratteri speciali o formattazione aggiuntiva.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Imposta su modalità Pura
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Elabora e mostra
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Come Gestire l’Elaborazione in Batch

Per grandi set di documenti, puoi sfruttare l’elaborazione in batch, permettendoti di estrarre testo da più PDF contemporaneamente.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Aggiungi più PDF di input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definisci l'output per ogni file
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gestisci il testo estratto
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Italiano