Ekstrak Teks

The Documentize PDF Extractor for .NET mempermudah mengekstrak teks dari dokumen PDF. Baik Anda membutuhkan teks murni, mentah, atau polos, plugin ini memungkinkan Anda mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya sesuai kebutuhan.

Cara Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance ExtractTextOptions untuk mengonfigurasi opsi ekstraksi.
  2. Tambahkan file PDF input menggunakan metode AddInput.
  3. Jalankan metode Extract untuk mengekstrak teks.
  4. Akses teks yang diekstrak melalui ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Mode Ekstraksi Teks

**ExtractTextOptions** menawarkan tiga mode ekstraksi, memberikan fleksibilitas sesuai kebutuhan Anda.

  1. Pure Mode: Mempertahankan format asli, termasuk spasi dan perataan.
  2. Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Flatten Mode: Menyajikan konten PDF dengan fragmen teks yang diposisikan berdasarkan koordinatnya.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Fitur Utama:

  • Pure Mode: Mengekstrak teks sambil mempertahankan format aslinya.
  • Raw Mode: Mengekstrak teks tanpa format apa pun.
  • Flatten Mode: Mengekstrak teks tanpa karakter khusus atau format.
 Indonesia