Estrattore di Testo PDF
L’Estrattore di Testo PDF Documentize per .NET semplifica l’estrazione del testo da documenti PDF. Che tu abbia bisogno di testo puro, grezzo o semplice, questo plugin consente di estrarre testo in modo efficiente preservando la formattazione o omettendola in base alle tue preferenze.
Caratteristiche Principali:
- Modalità Pura: Estrae testo preservando la formattazione originale.
- Modalità Grezza: Estrae testo senza alcuna formattazione.
- Modalità Semplice: Estrae testo senza caratteri speciali o formattazione.
- Elaborazione Batch: Estrai testo da più PDF contemporaneamente.
Come Estrarre Testo da Documenti PDF
Per estrarre testo da un documento PDF, segui questi passaggi:
- Crea un’istanza della classe
TextExtractor
. - Crea un’istanza di
TextExtractorOptions
per configurare le opzioni di estrazione. - Aggiungi il file PDF di input utilizzando il metodo
AddInput
. - Esegui il metodo
Process
per estrarre il testo. - Accedi al testo estratto utilizzando
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Aggiungi il PDF di input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Elabora l'estrazione del testo
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Stampa il testo estratto
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Estrazione di Testo da Più PDF
Il plugin ti consente di estrarre testo da più PDF simultaneamente, garantendo un’elaborazione rapida ed efficiente.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Aggiungi più PDF di input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Elabora l'estrazione
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Output del testo estratto
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Modalità di Estrazione del Testo
Il plugin TextExtractor offre tre modalità di estrazione, fornendo flessibilità in base alle tue esigenze.
- Modalità Pura: Preserva la formattazione originale, inclusi spazi e allineamento.
- Modalità Grezza: Estrae il testo senza formattazione, utile per l’elaborazione di dati grezzi.
- Modalità Semplice: Estrae testo senza caratteri speciali o formattazione aggiuntiva.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Imposta in modalità Pura
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Elabora e output
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Come Gestire l’Elaborazione Batch
Per grandi quantità di documenti, puoi sfruttare l’elaborazione batch, permettendoti di estrarre testo da più PDF in una volta.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Aggiungi più PDF di input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Definisci l'output per ogni file
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Gestisci il testo estratto
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}