PDF Text Extractor

Documentize PDF Text Extractor untuk .NET menyederhanakan ekstraksi teks dari dokumen PDF. Baik Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya berdasarkan kebutuhan Anda.

Cara Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance dari TextExtractorOptions untuk mengonfigurasi opsi ekstraksi.
  2. Tambahkan file PDF input menggunakan metode AddInput.
  3. Jalankan metode Process untuk mengekstrak teks.
  4. Akses teks yang diekstrak menggunakan ResultContainer.ResultCollection.
1// Buat objek TextExtractorOptions untuk mengatur instruksi
2var options = new TextExtractorOptions();
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = TextExtractor.Process(options);
7// Ambil teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Modus Ekstraksi Teks

Plugin TextExtractor menawarkan tiga modus ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.

  1. Modus Murni: Mempertahankan format asli, termasuk spasi dan penyelarasan.
  2. Modus Mentah: Mengekstrak teks tanpa formatting, berguna untuk pemrosesan data mentah.
  3. Modus Rata: Merepresentasikan konten PDF dengan memposisikan fragmen teks berdasarkan koordinate mereka.
1// Buat objek TextExtractorOptions untuk mengatur TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = TextExtractor.Process(options);
7// Ambil teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Fitur Utama:

  • Modus Murni: Ekstrak teks sambil mempertahankan format aslinya.
  • Modus Mentah: Ekstrak teks tanpa formatting apapun.
  • Modus Rata: Ekstrak teks tanpa karakter khusus atau formatting.
 Indonesia