Pengambil Teks PDF

Pengambil Teks PDF Documentize untuk .NET menyederhanakan proses ekstraksi teks dari dokumen PDF. Apakah Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau menghilangkannya berdasarkan kebutuhan Anda.

Fitur Utama:

  • Mode Murni: Ekstrak teks sambil mempertahankan format aslinya.
  • Mode Mentah: Ekstrak teks tanpa format apa pun.
  • Mode Biasa: Ekstrak teks tanpa karakter khusus atau format.
  • Pemrosesan Batch: Ekstrak teks dari beberapa PDF sekaligus.

Cara Mengekstrak Teks dari Dokumen PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance dari kelas TextExtractor.
  2. Buat instance dari TextExtractorOptions untuk mengonfigurasi opsi ekstraksi.
  3. Tambahkan file PDF input menggunakan metode AddInput.
  4. Jalankan metode Process untuk mengekstrak teks.
  5. Akses teks yang diekstrak menggunakan ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Tambahkan PDF input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Proses ekstraksi teks  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Cetak teks yang diekstrak  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Mengekstrak Teks dari Beberapa PDF

Plugin ini memungkinkan Anda untuk mengekstrak teks dari beberapa PDF secara bersamaan, memastikan pemrosesan yang cepat dan efisien.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Tambahkan beberapa PDF input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Proses ekstraksi  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Output teks yang diekstrak  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Mode Ekstraksi Teks

Plugin TextExtractor menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.

  1. Mode Murni: Mempertahankan format asli, termasuk spasi dan penyelarasan.
  2. Mode Mentah: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Mode Biasa: Mengekstrak teks tanpa karakter khusus atau format tambahan.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Atur ke mode Murni  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Proses dan output  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Cara Menangani Pemrosesan Batch

Untuk set dokumen besar, Anda dapat memanfaatkan pemrosesan batch, memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Tambahkan beberapa PDF input  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Tentukan output untuk setiap file  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Tangani teks yang diekstrak  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Indonesia