PDF Extractor

Ekstrak Teks

Ekstrak teks dari dokumen PDF dengan akurat menggunakan alat .NET dari Documentize—mengambil, memproses, dan menganalisis konten dengan mudah.

Ekstrak Gambar

Ekstrak gambar dengan mudah dari dokumen PDF dari dalam aplikasi .NET

Ekstrak Properti / Metadata

Ekstrak Metadata dari PDF secara akurat dengan Documentize menggunakan C#/.NET

Ekspor Data Formulir

Mengekstrak dan mengekspor data dari formulir PDF (AcroForms) ke format lain seperti CSV menggunakan C#/.NET

Subbagian PDF Extractor

Ekstrak Teks

The Documentize PDF Extractor for .NET menyederhanakan proses mengekstrak teks dari dokumen PDF. Baik Anda membutuhkan teks murni, mentah, atau sederhana, plugin ini memungkinkan Anda mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya sesuai kebutuhan.

Cara Mengekstrak Teks dari File PDF

Untuk mengekstrak teks dari file PDF, ikuti langkah‑langkah berikut:

  1. Buat instance ExtractTextOptions untuk mengonfigurasi jalur file input.
  2. Jalankan metode Extract untuk mengekstrak teks.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cara Mengekstrak Teks dari Stream PDF

Untuk mengekstrak teks dari stream PDF, ikuti langkah‑langkah berikut:

  1. Buat instance ExtractTextOptions untuk mengonfigurasi stream input.
  2. Jalankan metode Extract untuk mengekstrak teks.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Mode Ekstraksi Teks

ExtractTextOptions menawarkan tiga mode ekstraksi, memberikan fleksibilitas sesuai kebutuhan Anda.

  1. Pure Mode: Menjaga format asli, termasuk spasi dan penyelarasan.
  2. Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Flatten Mode: Menyajikan konten PDF dengan fragmen teks berposisi menurut koordinatnya.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

Cara Mengekstrak Teks dari File PDF dengan Gaya Paling Ringkas

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Fitur Utama:

  • Pure Mode: Mengekstrak teks sambil mempertahankan format aslinya.
  • Raw Mode: Mengekstrak teks tanpa format apa pun.
  • Flatten Mode: Mengekstrak teks tanpa karakter khusus atau format.

Ekstrak Gambar

The Documentize PDF Extractor for .NET plugin memungkinkan Anda mengekstrak gambar dari dokumen PDF dengan mudah. Plugin ini memindai file PDF Anda, mengidentifikasi gambar yang tertanam, dan mengekstraknya sambil mempertahankan kualitas serta format aslinya. Alat ini meningkatkan aksesibilitas konten visual dan mempermudah proses pengambilan gambar dari PDF.

Cara Mengekstrak Gambar dari PDF

Untuk mengekstrak gambar dari file PDF, ikuti langkah‑langkah berikut:

  1. Buat instance dari kelas ExtractImagesOptions.
  2. Tambahkan jalur file input ke opsi menggunakan metode AddInput.
  3. Atur jalur Direktori output untuk gambar menggunakan metode AddOutput.
  4. Proses ekstraksi gambar dengan plugin.
  5. Ambil gambar yang telah diekstrak dari kontainer hasil.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Menyimpan Gambar Hasil Ekstraksi ke Stream Tanpa Folder

Plugin PdfExtractor mendukung penyimpanan ke stream, yang memungkinkan Anda mengekstrak gambar dari file PDF ke dalam stream tanpa harus menggunakan folder sementara.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Fitur Utama:

  • Ekstrak Gambar Tertanam: Mengidentifikasi dan mengekstrak gambar dari dokumen PDF.
  • Pertahankan Kualitas Gambar: Menjamin gambar yang diekstrak tetap mempertahankan kualitas aslinya.
  • Output Fleksibel: Simpan gambar yang diekstrak dalam format atau lokasi pilihan Anda.

Ekstrak Properti / Metadata

The Documentize PDF Extractor for .NET menyederhanakan proses mengekstrak Metadata dari dokumen PDF.
Properti yang tersedia yang mungkin menarik bagi Anda: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Cara Mengekstrak Metadata dari File PDF

Contoh ini menunjukkan cara mengekstrak Properti (Title, Author, Subject, Keywords, Number of Pages) dari file PDF.
Untuk mengekstrak metadata dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance ExtractPropertiesOptions untuk mengonfigurasi opsi ekstraksi dan file PDF input.
  2. Jalankan metode Extract dari PdfExtractor untuk mengekstrak metadata.
  3. Akses properti yang telah diekstrak menggunakan PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Cara Mengekstrak Metadata dari Stream PDF

Anda dapat membuka stream sesuai keinginan Anda.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

Cara Mengekstrak Metadata dari File PDF dengan Gaya Paling Singkat

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Fitur Utama:

  • Metadata yang tersedia: FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages.

Ekspor Data Formulir

The Documentize PDF Extractor for .NET plugin menyediakan cara yang mulus untuk mengekstrak dan mengekspor data dari formulir PDF (AcroForms) ke format lain seperti CSV. Alat dinamis ini menyederhanakan proses pengambilan nilai bidang formulir, memungkinkan manajemen data, transfer, dan analisis yang mudah.

Cara Mengekspor Data Formulir dari PDF ke CSV

Untuk mengekspor data formulir dari PDF ke CSV, ikuti langkah‑langkah berikut:

  1. Buat instance dari kelas ExtractImagesOptions.
  2. Tentukan opsi ekspor menggunakan kelas FormExporterValuesToCsvOptions.
  3. Tambahkan file PDF input dan tentukan file CSV output.
  4. Jalankan metode Extract untuk melakukan ekspor.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Cara Mengekspor Data Formulir dari PDF ke TSV

Gunakan Tab sebagai Pemisah.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

Fitur Utama:

  • Ekspor Data Formulir: Ekstrak data dari formulir PDF (AcroForms) ke CSV atau format lain.
  • Penyaringan Data: Gunakan predikat untuk memfilter bidang formulir tertentu yang akan diekspor berdasarkan kriteria seperti tipe bidang atau nomor halaman.
  • Output Fleksibel: Simpan data yang diekspor untuk analisis atau transfer ke spreadsheet, basis data, atau format dokumen lainnya.
 Indonesia