PDF Text Extractor
Documentize PDF Text Extractor untuk .NET menyederhanakan ekstraksi teks dari dokumen PDF. Baik Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya berdasarkan kebutuhan Anda.
Cara Mengekstrak Teks dari PDF
Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:
- Buat instance dari
TextExtractorOptions
untuk mengonfigurasi opsi ekstraksi. - Tambahkan file PDF input menggunakan metode
AddInput
. - Jalankan metode
Process
untuk mengekstrak teks. - Akses teks yang diekstrak menggunakan
ResultContainer.ResultCollection
.
1// Buat objek TextExtractorOptions untuk mengatur instruksi
2var options = new TextExtractorOptions();
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = TextExtractor.Process(options);
7// Ambil teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Modus Ekstraksi Teks
Plugin TextExtractor menawarkan tiga modus ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.
- Modus Murni: Mempertahankan format asli, termasuk spasi dan penyelarasan.
- Modus Mentah: Mengekstrak teks tanpa formatting, berguna untuk pemrosesan data mentah.
- Modus Rata: Merepresentasikan konten PDF dengan memposisikan fragmen teks berdasarkan koordinate mereka.
1// Buat objek TextExtractorOptions untuk mengatur TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = TextExtractor.Process(options);
7// Ambil teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Fitur Utama:
- Modus Murni: Ekstrak teks sambil mempertahankan format aslinya.
- Modus Mentah: Ekstrak teks tanpa formatting apapun.
- Modus Rata: Ekstrak teks tanpa karakter khusus atau formatting.