PDF Text Extraktor
Der Documentize PDF Text Extraktor für .NET vereinfacht das Extrahieren von Text aus PDF-Dokumenten. Ob Sie reinen, rohen oder einfachen Text benötigen, dieses Plugin ermöglicht Ihnen, Text effizient zu extrahieren, während die Formatierung beibehalten oder je nach Bedarf weggelassen wird.
Hauptmerkmale:
- Reiner Modus: Text extrahieren und dabei die ursprüngliche Formatierung beibehalten.
- Rohmodus: Text ohne jegliche Formatierung extrahieren.
- Einfacher Modus: Text ohne Sonderzeichen oder Formatierung extrahieren.
- Batch-Verarbeitung: Text aus mehreren PDFs gleichzeitig extrahieren.
So extrahieren Sie Text aus PDF-Dokumenten
Um Text aus einem PDF-Dokument zu extrahieren, folgen Sie diesen Schritten:
- Erstellen Sie eine Instanz der Klasse
TextExtractor
. - Erstellen Sie eine Instanz von
TextExtractorOptions
, um die Extraktionsoptionen zu konfigurieren. - Fügen Sie die Eingabe-PDF-Datei mit der Methode
AddInput
hinzu. - Führen Sie die Methode
Process
aus, um den Text zu extrahieren. - Greifen Sie auf den extrahierten Text über
ResultContainer.ResultCollection
zu.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Eingabe-PDF hinzufügen
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Textextraktion verarbeiten
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Den extrahierten Text ausgeben
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Text aus mehreren PDFs extrahieren
Das Plugin ermöglicht es Ihnen, Text aus mehreren PDFs gleichzeitig zu extrahieren, um eine schnelle und effiziente Verarbeitung zu gewährleisten.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Mehrere Eingabe-PDFs hinzufügen
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Die Extraktion verarbeiten
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Den extrahierten Text ausgeben
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Textextraktionsmodi
Das TextExtractor Plugin bietet drei Extraktionsmodi, die Flexibilität je nach Bedarf bieten.
- Reiner Modus: Bewahrt die ursprüngliche Formatierung, einschließlich Abstände und Ausrichtung.
- Rohmodus: Extrahiert den Text ohne Formatierung, nützlich für die Verarbeitung roher Daten.
- Einfacher Modus: Extrahiert Text ohne Sonderzeichen oder zusätzliche Formatierung.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Auf reinen Modus setzen
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Verarbeiten und ausgeben
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
So gehen Sie mit der Batch-Verarbeitung um
Für große Dokumentensätze können Sie die Batch-Verarbeitung nutzen, um Text aus mehreren PDFs gleichzeitig zu extrahieren.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Mehrere Eingabe-PDFs hinzufügen
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Ausgabe für jede Datei definieren
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Extrahierten Text verarbeiten
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}