PDF Text Extractor
Der Documentize PDF Text Extractor für .NET vereinfacht das Extrahieren von Text aus PDF-Dokumenten. Egal, ob Sie reinen, rohen oder schlichten Text benötigen, dieses Plugin ermöglicht es Ihnen, Text effizient zu extrahieren, während die Formatierung beibehalten oder je nach Ihren Bedürfnissen weggelassen wird.
Wichtige Funktionen:
- Reiner Modus: Extrahiert Text und erhält dessen ursprüngliche Formatierung.
- Rohmodus: Extrahiert Text ohne jegliche Formatierung.
- Schlichter Modus: Extrahiert Text ohne Sonderzeichen oder Formatierung.
- Batch-Verarbeitung: Extrahiert Text aus mehreren PDFs gleichzeitig.
So extrahieren Sie Text aus PDF-Dokumenten
Um Text aus einem PDF-Dokument zu extrahieren, befolgen Sie diese Schritte:
- Erstellen Sie eine Instanz der Klasse
TextExtractor
. - Erstellen Sie eine Instanz von
TextExtractorOptions
, um die Extraktionsoptionen zu konfigurieren. - Fügen Sie die Eingabe-PDF-Datei mit der Methode
AddInput
hinzu. - Führen Sie die Methode
Process
aus, um den Text zu extrahieren. - Greifen Sie auf den extrahierten Text über
ResultContainer.ResultCollection
zu.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Fügen Sie die Eingabe-PDF hinzu
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Verarbeiten Sie die Textextraktion
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Drucken Sie den extrahierten Text
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Text aus mehreren PDFs extrahieren
Das Plugin ermöglicht es Ihnen, Text aus mehreren PDFs gleichzeitig zu extrahieren, was eine schnelle und effiziente Verarbeitung gewährleistet.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Fügen Sie mehrere Eingabe-PDFs hinzu
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Verarbeiten Sie die Extraktion
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Geben Sie den extrahierten Text aus
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Textextraktionsmodi
Das TextExtractor-Plugin bietet drei Extraktionsmodi, die Flexibilität je nach Bedarf bieten.
- Reiner Modus: Bewahrt die ursprüngliche Formatierung, einschließlich Leerzeichen und Ausrichtung.
- Rohmodus: Extrahiert den Text ohne Formatierung, nützlich für die Verarbeitung von Rohdaten.
- Schlichter Modus: Extrahiert Text ohne Sonderzeichen oder zusätzliche Formatierung.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Auf Reinen Modus setzen
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Verarbeiten und ausgeben
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
So gehen Sie mit der Batch-Verarbeitung um
Für große Dokumentensätze können Sie die Batch-Verarbeitung nutzen, mit der Sie Text aus mehreren PDFs gleichzeitig extrahieren können.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Fügen Sie mehrere Eingabe-PDFs hinzu
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Definieren Sie die Ausgabe für jede Datei
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Bearbeiten Sie den extrahierten Text
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}