PDF Extractor

Extract Text

Ekstrak teks dari PDF dengan akurat menggunakan alat .NET Documentize—ambil, proses, dan analisis konten dengan mudah.

Extract Images

Dengan mudah mengekstrak gambar dari dokumen PDF dari dalam aplikasi .NET

Export Form Data

Ekstrak dan ekspor data dari formulir PDF (AcroForms) ke format lain seperti CSV menggunakan C# .NET

Subbagian PDF Extractor

Extract Text

Documentize PDF Extractor untuk .NET menyederhanakan ekstraksi teks dari dokumen PDF. Apakah Anda memerlukan teks yang murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks dengan efisien sambil mempertahankan format atau menghilangkannya sesuai kebutuhan Anda.

Cara Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instansi dari ExtractTextOptions untuk mengonfigurasi opsi ekstraksi.
  2. Tambahkan file PDF input menggunakan metode AddInput.
  3. Jalankan metode ExtractText untuk mengekstrak teks.
  4. Akses teks yang diekstrak menggunakan ResultContainer.ResultCollection.
1// Buat objek ExtractTextOptions untuk mengatur instruksi
2var options = new ExtractTextOptions();
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = PdfExtractor.ExtractText(options);
7// Dapatkan teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Mode Ekstraksi Teks

ExtractTextOptions menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.

  1. Pure Mode: Mempertahankan format asli, termasuk spasi dan penjajaran.
  2. Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Flatten Mode: Mewakili konten PDF dengan memposisikan fragmen teks berdasarkan koordinat mereka.
1// Buat objek ExtractTextOptions untuk mengatur TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Tambahkan jalur file input
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Lakukan proses
6var results = PdfExtractor.ExtractText(options);
7// Dapatkan teks yang diekstrak dari objek ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Fitur Utama:

  • Pure Mode: Ekstrak teks sambil mempertahankan format aslinya.
  • Raw Mode: Ekstrak teks tanpa format apapun.
  • Flatten Mode: Ekstrak teks tanpa karakter khusus atau format.

Extract Images

Plugin Documentize PDF Extractor untuk .NET memungkinkan Anda untuk dengan mudah mengekstrak gambar dari dokumen PDF. Ini memindai file PDF Anda, mengidentifikasi gambar tersemat, dan mengekstraknya sambil mempertahankan kualitas dan format aslinya. Alat ini meningkatkan aksesibilitas konten visual dan memperlancar proses pengambilan gambar dari PDF.

Cara Mengekstrak Gambar dari PDF

Untuk mengekstrak gambar dari file PDF, ikuti langkah-langkah berikut:

  1. Buat instansi dari kelas ExtractImagesOptions.
  2. Tambahkan jalur file input ke opsi menggunakan metode AddInput.
  3. Atur jalur direktori output untuk gambar menggunakan metode AddOutput.
  4. Proses ekstraksi gambar menggunakan plugin.
  5. Ambil gambar yang diekstraksi dari wadah hasil.
 1// Buat ExtractImagesOptions untuk mengatur instruksi
 2var options = new ExtractImagesOptions();
 3// Tambahkan jalur file input
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Atur jalur direktori output
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Lakukan proses
 8var results = PdfExtractor.ExtractImages(options);
 9// Dapatkan jalur ke hasil gambar
10var imageExtracted = results.ResultCollection[0].ToFile();

Mengekstrak Gambar dari File PDF ke Streams tanpa folder

Plugin PdfExtractor mendukung penyimpanan ke stream, yang memungkinkan Anda mengekstrak gambar dari file PDF ke stream tanpa menggunakan folder sementara.

 1// Buat ExtractImagesOptions untuk mengatur instruksi
 2var options = new ExtractImagesOptions();
 3// Tambahkan jalur file input
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Tidak mengatur output - ini akan menulis hasil ke stream
 6// Lakukan proses
 7var results = PdfExtractor.ExtractImages(options);
 8// Dapatkan Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Salin data ke file untuk demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Fitur Utama:

  • Ekstrak Gambar Tersemat: Identifikasi dan ekstrak gambar dari dokumen PDF.
  • Pertahankan Kualitas Gambar: Memastikan gambar yang diekstraksi tetap mempertahankan kualitas aslinya.
  • Output Fleksibel: Simpan gambar yang diekstrak dalam format atau lokasi yang Anda inginkan.

Export Form Data

Plugin Documentize PDF Extractor for .NET menyediakan cara yang mulus untuk mengekstrak dan mengekspor data dari formulir PDF (AcroForms) ke format lain seperti CSV. Alat dinamis ini menyederhanakan proses pengambilan nilai bidang formulir, memungkinkan pengelolaan, transfer, dan analisis data yang mudah.

Cara Mengekspor Data Formulir dari PDF

Untuk mengekspor data formulir dari PDF ke CSV, ikuti langkah-langkah berikut:

  1. Buat instance dari kelas ExtractImagesOptions.
  2. Tentukan opsi ekspor menggunakan kelas FormExporterValuesToCsvOptions.
  3. Tambahkan file PDF masukan dan tentukan file CSV keluaran.
  4. Jalankan metode Process untuk melakukan ekspor.
1// Buat objek ExtractFormDataToDsvOptions untuk menetapkan instruksi
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Tambahkan jalur file masukan
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Tetapkan jalur file keluaran
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Lakukan proses
8PdfExtractor.ExtractFormData(options);

Fitur Utama:

  • Ekspor Data Formulir: Ekstrak data dari formulir PDF (AcroForms) ke CSV atau format lain.
  • Penyaringan Data: Gunakan predikat untuk menyaring bidang formulir tertentu untuk diekspor berdasarkan kriteria seperti tipe bidang atau nomor halaman.
  • Keluaran Fleksibel: Simpan data yang diekspor untuk analisis atau transfer ke spreadsheet, basis data, atau format dokumen lainnya.
 Indonesia