Ekstraktor Teks PDF

Documentize Ekstraktor Teks PDF untuk .NET menyederhanakan proses ekstraksi teks dari dokumen PDF. Apakah Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya berdasarkan kebutuhan Anda.

Fitur Utama:

  • Mode Murni: Ekstrak teks sambil mempertahankan format aslinya.
  • Mode Mentah: Ekstrak teks tanpa format apapun.
  • Mode Biasa: Ekstrak teks tanpa karakter khusus atau format.
  • Pemrosesan Batch: Ekstrak teks dari beberapa PDF sekaligus.

Cara Mengekstrak Teks dari Dokumen PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instansi dari kelas TextExtractor.
  2. Buat instansi TextExtractorOptions untuk mengonfigurasi opsi ekstraksi.
  3. Tambahkan file PDF input menggunakan metode AddInput.
  4. Jalankan metode Process untuk mengekstrak teks.
  5. Akses teks yang diekstrak menggunakan ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Proses ekstraksi teks
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Cetak teks yang diekstrak
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Mengekstrak Teks dari Beberapa PDF

Plugin ini memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus, memastikan pemrosesan yang cepat dan efisien.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan beberapa PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Proses ekstraksi
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Output teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Mode Ekstraksi Teks

Plugin TextExtractor menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.

  1. Mode Murni: Mempertahankan format asli, termasuk spasi dan penyesuaian.
  2. Mode Mentah: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Mode Biasa: Mengekstrak teks tanpa karakter khusus atau format tambahan.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Atur ke mode Murni
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Proses dan output
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Cara Menangani Pemrosesan Batch

Untuk kumpulan dokumen besar, Anda dapat memanfaatkan pemrosesan batch, memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan beberapa PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definisikan output untuk setiap file
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Tangani teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Indonesia