Εξ extractor Κειμένου PDF
Ο Documentize Εξ extractor Κειμένου PDF για .NET απλοποιεί την εξαγωγή κειμένου από έγγραφα PDF. Είτε χρειάζεστε καθαρό, ακατέργαστο ή απλό κείμενο, αυτό το plugin σας επιτρέπει να εξάγετε κείμενο αποτελεσματικά ενώ διατηρείτε τη μορφοποίηση ή την παραλείπετε βάση των αναγκών σας.
Κύρια Χαρακτηριστικά:
- Καθαρός Τρόπος: Εξάγετε κείμενο διατηρώντας την πρωτότυπη μορφοποίηση του.
- Ακατέργαστος Τρόπος: Εξάγετε κείμενο χωρίς καμία μορφοποίηση.
- Απλός Τρόπος: Εξάγετε κείμενο χωρίς ειδικούς χαρακτήρες ή μορφοποίηση.
- Μαζική Επεξεργασία: Εξάγετε κείμενο από πολλαπλά PDF ταυτόχρονα.
Πώς να Εξάγετε Κείμενο από Έγγραφα PDF
Για να εξάγετε κείμενο από ένα έγγραφο PDF, ακολουθήστε αυτά τα βήματα:
- Δημιουργήστε μία εμφάνιση της κλάσης
TextExtractor
. - Δημιουργήστε μία εμφάνιση του
TextExtractorOptions
για να ρυθμίσετε τις επιλογές εξαγωγής. - Προσθέστε το αρχείο PDF εισόδου χρησιμοποιώντας τη μέθοδο
AddInput
. - Εκτελέστε τη μέθοδο
Process
για να εξάγετε το κείμενο. - Πρόσβαση στο εξαγόμενο κείμενο χρησιμοποιώντας το
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε το αρχείο PDF εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργασία της εξαγωγής κειμένου
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Εκτύπωση του εξαγόμενου κειμένου
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Εξαγωγή Κειμένου από Πολλαπλά PDFs
Το plugin σας επιτρέπει να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα, εξασφαλίζοντας γρήγορη και αποτελεσματική επεξεργασία.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε πολλαπλά PDF εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Επεξεργασία της εξαγωγής
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Εξαγωγή του εξαγόμενου κειμένου
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Τρόποι Εξαγωγής Κειμένου
Το TextExtractor plugin προσφέρει τρεις τρόπους εξαγωγής, παρέχοντας ευελιξία βάσει των αναγκών σας.
- Καθαρός Τρόπος: Διατηρεί την πρωτότυπη μορφοποίηση, συμπεριλαμβανομένων των κενών και της ευθυγράμμισης.
- Ακατέργαστος Τρόπος: Εξάγει το κείμενο χωρίς μορφοποίηση, χρήσιμο για την επεξεργασία ακατέργαστων δεδομένων.
- Απλός Τρόπος: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή πρόσθετη μορφοποίηση.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ορίστε σε Καθαρό τρόπο
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργασία και εξαγωγή
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Πώς να Διαχειριστείτε τη Μαζική Επεξεργασία
Για μεγάλες σειρές εγγράφων, μπορείτε να επωφεληθείτε από τη μαζική επεξεργασία, επιτρέποντάς σας να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε πολλαπλά PDF εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Ορίστε την εξαγωγή για κάθε αρχείο
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Διαχείριση του εξαγόμενου κειμένου
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}