Ekstrak Teks
The Documentize PDF Extractor for .NET menyederhanakan proses mengekstrak teks dari dokumen PDF. Baik Anda membutuhkan teks murni, mentah, atau sederhana, plugin ini memungkinkan Anda mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya sesuai kebutuhan.
Cara Mengekstrak Teks dari File PDF
Untuk mengekstrak teks dari file PDF, ikuti langkah‑langkah berikut:
- Buat instance
ExtractTextOptionsuntuk mengonfigurasi jalur file input. - Jalankan metode
Extractuntuk mengekstrak teks.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Cara Mengekstrak Teks dari Stream PDF
Untuk mengekstrak teks dari stream PDF, ikuti langkah‑langkah berikut:
- Buat instance
ExtractTextOptionsuntuk mengonfigurasi stream input. - Jalankan metode
Extractuntuk mengekstrak teks.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Mode Ekstraksi Teks
ExtractTextOptions menawarkan tiga mode ekstraksi, memberikan fleksibilitas sesuai kebutuhan Anda.
- Pure Mode: Menjaga format asli, termasuk spasi dan penyelarasan.
- Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
- Flatten Mode: Menyajikan konten PDF dengan fragmen teks berposisi menurut koordinatnya.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);Cara Mengekstrak Teks dari File PDF dengan Gaya Paling Ringkas
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Fitur Utama:
- Pure Mode: Mengekstrak teks sambil mempertahankan format aslinya.
- Raw Mode: Mengekstrak teks tanpa format apa pun.
- Flatten Mode: Mengekstrak teks tanpa karakter khusus atau format.