PDF Text Extractor

Documentize PDF Text Extractor untuk .NET menyederhanakan ekstraksi teks dari dokumen PDF. Apakah Anda membutuhkan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau menghilangkannya sesuai kebutuhan Anda.

Cara Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah ini:

  1. Buat instance dari kelas TextExtractor.
  2. Buat instance dari TextExtractorOptions untuk mengonfigurasi opsi ekstraksi.
  3. Tambahkan file PDF input menggunakan metode AddInput.
  4. Jalankan metode Process untuk mengekstrak teks.
  5. Akses teks yang telah diekstrak menggunakan ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan file PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Proses ekstraksi teks
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Cetak teks yang diekstrak
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Mengekstrak Teks dari Beberapa PDF

Plugin ini memungkinkan Anda untuk mengekstrak teks dari beberapa PDF secara bersamaan, memastikan pemrosesan yang cepat dan efisien.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan beberapa PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Proses ekstraksi
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Output teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Mode Ekstraksi Teks

Plugin TextExtractor menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.

  1. Mode Murni: Mempertahankan format asli, termasuk spasi dan penyelarasan.
  2. Mode Mentah: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Mode Biasa: Mengekstrak teks tanpa karakter khusus atau format tambahan.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Atur ke mode Murni
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Proses dan output
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Cara Menangani Pemrosesan Batch

Untuk set dokumen besar, Anda dapat memanfaatkan pemrosesan batch, memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Tambahkan beberapa PDF input
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Tentukan output untuk setiap file
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Tangani teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Fitur Utama:

  • Mode Murni: Ekstrak teks sambil mempertahankan format aslinya.
  • Mode Mentah: Ekstrak teks tanpa format apa pun.
  • Mode Biasa: Ekstrak teks tanpa karakter khusus atau format.
  • Pemrosesan Batch: Ekstrak teks dari beberapa PDF sekaligus.
 Indonesia