Estrattore di Testo PDF

L’Estrattore di Testo PDF Documentize per .NET semplifica l’estrazione del testo da documenti PDF. Che tu abbia bisogno di testo puro, grezzo o semplice, questo plugin consente di estrarre testo in modo efficiente preservando la formattazione o omettendola in base alle tue preferenze.

Caratteristiche Principali:

  • Modalità Pura: Estrae testo preservando la formattazione originale.
  • Modalità Grezza: Estrae testo senza alcuna formattazione.
  • Modalità Semplice: Estrae testo senza caratteri speciali o formattazione.
  • Elaborazione Batch: Estrai testo da più PDF contemporaneamente.

Come Estrarre Testo da Documenti PDF

Per estrarre testo da un documento PDF, segui questi passaggi:

  1. Crea un’istanza della classe TextExtractor.
  2. Crea un’istanza di TextExtractorOptions per configurare le opzioni di estrazione.
  3. Aggiungi il file PDF di input utilizzando il metodo AddInput.
  4. Esegui il metodo Process per estrarre il testo.
  5. Accedi al testo estratto utilizzando ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Aggiungi il PDF di input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Elabora l'estrazione del testo  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Stampa il testo estratto  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Estrazione di Testo da Più PDF

Il plugin ti consente di estrarre testo da più PDF simultaneamente, garantendo un’elaborazione rapida ed efficiente.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Aggiungi più PDF di input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Elabora l'estrazione  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Output del testo estratto  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Modalità di Estrazione del Testo

Il plugin TextExtractor offre tre modalità di estrazione, fornendo flessibilità in base alle tue esigenze.

  1. Modalità Pura: Preserva la formattazione originale, inclusi spazi e allineamento.
  2. Modalità Grezza: Estrae il testo senza formattazione, utile per l’elaborazione di dati grezzi.
  3. Modalità Semplice: Estrae testo senza caratteri speciali o formattazione aggiuntiva.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Imposta in modalità Pura  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Elabora e output  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Come Gestire l’Elaborazione Batch

Per grandi quantità di documenti, puoi sfruttare l’elaborazione batch, permettendoti di estrarre testo da più PDF in una volta.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Aggiungi più PDF di input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Definisci l'output per ogni file  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Gestisci il testo estratto  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Italiano