Α extractor κειμένου PDF

Ο Extractor κειμένου PDF Documentize για .NET απλοποιεί την εξαγωγή κειμένου από έγγραφα PDF. Είτε χρειάζεστε καθαρό, ακατέργαστο ή απλό κείμενο, αυτό το πρόσθετο σας επιτρέπει να εξάγετε κείμενο αποτελεσματικά διατηρώντας τη μορφοποίηση ή παραλείποντάς την βάσει των αναγκών σας.

Κύρια Χαρακτηριστικά:

  • Καθαρή Λειτουργία: Εξάγει κείμενο διατηρώντας τη αρχική του μορφοποίηση.
  • Ακατέργαστη Λειτουργία: Εξάγει κείμενο χωρίς καμία μορφοποίηση.
  • Απλή Λειτουργία: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή μορφοποίηση.
  • Επεξεργασία Μαζικών Δεδομένων: Εξάγει κείμενο από πολλαπλά PDFs ταυτόχρονα.

Πώς να Εξαγάγετε Κείμενο από Έγγραφα PDF

Για να εξάγετε κείμενο από ένα έγγραφο PDF, ακολουθήστε αυτά τα βήματα:

  1. Δημιουργήστε μια λογισμική κλάση του TextExtractor.
  2. Δημιουργήστε μια λογισμική κλάση του TextExtractorOptions για να ρυθμίσετε τις επιλογές εξαγωγής.
  3. Προσθέστε το αρχείο PDF εισόδου χρησιμοποιώντας τη μέθοδο AddInput.
  4. Εκτελέστε τη μέθοδο Process για να εξάγετε το κείμενο.
  5. Προσπελάστε το εξαγόμενο κείμενο χρησιμοποιώντας το ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε το αρχείο PDF εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Επεξεργαστείτε την εξαγωγή κειμένου
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Εκτυπώστε το εξαγόμενο κείμενο
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Εξαγωγή Κειμένου από Πολλαπλά PDFs

Το πρόσθετο σας επιτρέπει να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα, εξασφαλίζοντας γρήγορη και αποτελεσματική επεξεργασία.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε πολλαπλά PDFs εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Επεξεργαστείτε την εξαγωγή
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Εμφανίστε το εξαγόμενο κείμενο
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Λειτουργίες Εξαγωγής Κειμένου

Το TextExtractor πρόσθετο προσφέρει τρεις λειτουργίες εξαγωγής, παρέχοντας ευελιξία βάσει των αναγκών σας.

  1. Καθαρή Λειτουργία: Διατηρεί τη αρχική μορφοποίηση, συμπεριλαμβανομένων των διαστημάτων και της ευθυγράμμισης.
  2. Ακατέργαστη Λειτουργία: Εξάγει το κείμενο χωρίς μορφοποίηση, χρήσιμο για ακατέργαστη επεξεργασία δεδομένων.
  3. Απλή Λειτουργία: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή επιπλέον μορφοποίηση.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ρυθμίστε σε Καθαρή λειτουργία
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργασία και έξοδος
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Πώς να Χειριστείτε την Επεξεργασία Μαζικών Δεδομένων

Για μεγάλα σύνολα εγγράφων, μπορείτε να εκμεταλλευτείτε την επεξεργασία μαζικών δεδομένων, επιτρέποντάς σας να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε πολλαπλά PDFs εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Ορίστε την έξοδο για κάθε αρχείο
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Χειριστείτε το εξαγόμενο κείμενο
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Ελληνικά