Α extractor κειμένου PDF
Ο Extractor κειμένου PDF Documentize για .NET απλοποιεί την εξαγωγή κειμένου από έγγραφα PDF. Είτε χρειάζεστε καθαρό, ακατέργαστο ή απλό κείμενο, αυτό το πρόσθετο σας επιτρέπει να εξάγετε κείμενο αποτελεσματικά διατηρώντας τη μορφοποίηση ή παραλείποντάς την βάσει των αναγκών σας.
Κύρια Χαρακτηριστικά:
- Καθαρή Λειτουργία: Εξάγει κείμενο διατηρώντας τη αρχική του μορφοποίηση.
- Ακατέργαστη Λειτουργία: Εξάγει κείμενο χωρίς καμία μορφοποίηση.
- Απλή Λειτουργία: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή μορφοποίηση.
- Επεξεργασία Μαζικών Δεδομένων: Εξάγει κείμενο από πολλαπλά PDFs ταυτόχρονα.
Πώς να Εξαγάγετε Κείμενο από Έγγραφα PDF
Για να εξάγετε κείμενο από ένα έγγραφο PDF, ακολουθήστε αυτά τα βήματα:
- Δημιουργήστε μια λογισμική κλάση του
TextExtractor
. - Δημιουργήστε μια λογισμική κλάση του
TextExtractorOptions
για να ρυθμίσετε τις επιλογές εξαγωγής. - Προσθέστε το αρχείο PDF εισόδου χρησιμοποιώντας τη μέθοδο
AddInput
. - Εκτελέστε τη μέθοδο
Process
για να εξάγετε το κείμενο. - Προσπελάστε το εξαγόμενο κείμενο χρησιμοποιώντας το
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε το αρχείο PDF εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργαστείτε την εξαγωγή κειμένου
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Εκτυπώστε το εξαγόμενο κείμενο
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Εξαγωγή Κειμένου από Πολλαπλά PDFs
Το πρόσθετο σας επιτρέπει να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα, εξασφαλίζοντας γρήγορη και αποτελεσματική επεξεργασία.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε πολλαπλά PDFs εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Επεξεργαστείτε την εξαγωγή
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Εμφανίστε το εξαγόμενο κείμενο
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Λειτουργίες Εξαγωγής Κειμένου
Το TextExtractor πρόσθετο προσφέρει τρεις λειτουργίες εξαγωγής, παρέχοντας ευελιξία βάσει των αναγκών σας.
- Καθαρή Λειτουργία: Διατηρεί τη αρχική μορφοποίηση, συμπεριλαμβανομένων των διαστημάτων και της ευθυγράμμισης.
- Ακατέργαστη Λειτουργία: Εξάγει το κείμενο χωρίς μορφοποίηση, χρήσιμο για ακατέργαστη επεξεργασία δεδομένων.
- Απλή Λειτουργία: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή επιπλέον μορφοποίηση.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ρυθμίστε σε Καθαρή λειτουργία
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργασία και έξοδος
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Πώς να Χειριστείτε την Επεξεργασία Μαζικών Δεδομένων
Για μεγάλα σύνολα εγγράφων, μπορείτε να εκμεταλλευτείτε την επεξεργασία μαζικών δεδομένων, επιτρέποντάς σας να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Προσθέστε πολλαπλά PDFs εισόδου
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Ορίστε την έξοδο για κάθε αρχείο
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Χειριστείτε το εξαγόμενο κείμενο
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}