Estrattore di Testo PDF
L’Estrattore di Testo PDF Documentize per .NET semplifica l’estrazione di testo da documenti PDF. Sia che tu abbia bisogno di testo puro, grezzo o semplice, questo plugin ti consente di estrarre testo in modo efficiente preservando la formattazione o omettendola in base alle tue esigenze.
Caratteristiche Chiave:
- Modalità Pura: Estrai testo preservando la sua formattazione originale.
- Modalità Grezza: Estrai testo senza alcuna formattazione.
- Modalità Semplice: Estrai testo senza caratteri speciali o formattazione.
- Elaborazione in Batch: Estrai testo da più PDF contemporaneamente.
Come Estrarre Testo da Documenti PDF
Per estrarre testo da un documento PDF, segui questi passaggi:
- Crea un’istanza della classe
TextExtractor
. - Crea un’istanza di
TextExtractorOptions
per configurare le opzioni di estrazione. - Aggiungi il file PDF di input utilizzando il metodo
AddInput
. - Esegui il metodo
Process
per estrarre il testo. - Accedi al testo estratto utilizzando
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Aggiungi il PDF di input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Elabora l'estrazione del testo
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Stampa il testo estratto
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Estrazione di Testo da Più PDF
Il plugin ti consente di estrarre testo da più PDF simultaneamente, garantendo un’elaborazione rapida ed efficiente.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Aggiungi più PDF di input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Elabora l'estrazione
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Mostra il testo estratto
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Modalità di Estrazione del Testo
Il plugin TextExtractor offre tre modalità di estrazione, fornendo flessibilità in base alle tue esigenze.
- Modalità Pura: Preserva la formattazione originale, inclusi spazi e allineamento.
- Modalità Grezza: Estrae il testo senza formattazione, utile per l’elaborazione di dati grezzi.
- Modalità Semplice: Estrae testo senza caratteri speciali o formattazione aggiuntiva.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Imposta su modalità Pura
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Elabora e mostra
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Come Gestire l’Elaborazione in Batch
Per grandi set di documenti, puoi sfruttare l’elaborazione in batch, permettendoti di estrarre testo da più PDF contemporaneamente.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Aggiungi più PDF di input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definisci l'output per ogni file
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Gestisci il testo estratto
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}