Ekstrak Teks
The Documentize PDF Extractor for .NET mempermudah mengekstrak teks dari dokumen PDF. Baik Anda membutuhkan teks murni, mentah, atau polos, plugin ini memungkinkan Anda mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya sesuai kebutuhan.
Cara Mengekstrak Teks dari PDF
Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:
- Buat instance
ExtractTextOptionsuntuk mengonfigurasi opsi ekstraksi. - Tambahkan file PDF input menggunakan metode
AddInput. - Jalankan metode
Extractuntuk mengekstrak teks. - Akses teks yang diekstrak melalui
ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Mode Ekstraksi Teks
**ExtractTextOptions** menawarkan tiga mode ekstraksi, memberikan fleksibilitas sesuai kebutuhan Anda.
- Pure Mode: Mempertahankan format asli, termasuk spasi dan perataan.
- Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
- Flatten Mode: Menyajikan konten PDF dengan fragmen teks yang diposisikan berdasarkan koordinatnya.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();Fitur Utama:
- Pure Mode: Mengekstrak teks sambil mempertahankan format aslinya.
- Raw Mode: Mengekstrak teks tanpa format apa pun.
- Flatten Mode: Mengekstrak teks tanpa karakter khusus atau format.