PDF Extractor

Ekstrak Teks

Ekstrak teks dari PDF secara akurat dengan alat .NET Documentize—ambil, proses, dan analisis konten dengan mudah.

Ekstrak Gambar

Mengekstrak gambar dari dokumen PDF dengan mudah dari dalam aplikasi .NET

Ekstrak Properti / Metadata

Ekstrak Metadata dari PDF secara akurat dengan Documentize menggunakan C#/.NET

Ekspor Data Formulir

Ekstrak dan ekspor data dari formulir PDF (AcroForms) ke format lain seperti CSV menggunakan C#/.NET

Subbagian PDF Extractor

Ekstrak Teks

The Documentize PDF Extractor for .NET mempermudah mengekstrak teks dari dokumen PDF. Baik Anda membutuhkan teks murni, mentah, atau polos, plugin ini memungkinkan Anda mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya sesuai kebutuhan.

Cara Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance ExtractTextOptions untuk mengonfigurasi opsi ekstraksi.
  2. Tambahkan file PDF input menggunakan metode AddInput.
  3. Jalankan metode Extract untuk mengekstrak teks.
  4. Akses teks yang diekstrak melalui ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Mode Ekstraksi Teks

**ExtractTextOptions** menawarkan tiga mode ekstraksi, memberikan fleksibilitas sesuai kebutuhan Anda.

  1. Pure Mode: Mempertahankan format asli, termasuk spasi dan perataan.
  2. Raw Mode: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
  3. Flatten Mode: Menyajikan konten PDF dengan fragmen teks yang diposisikan berdasarkan koordinatnya.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Fitur Utama:

  • Pure Mode: Mengekstrak teks sambil mempertahankan format aslinya.
  • Raw Mode: Mengekstrak teks tanpa format apa pun.
  • Flatten Mode: Mengekstrak teks tanpa karakter khusus atau format.

Ekstrak Gambar

The Documentize PDF Extractor for .NET plugin enables you to effortlessly extract images from PDF documents. It scans your PDF files, identifies embedded images, and extracts them while maintaining their original quality and format. This tool enhances the accessibility of visual content and streamlines the process of retrieving images from PDFs.

Cara Mengekstrak Gambar dari PDF

Untuk mengekstrak gambar dari file PDF, ikuti langkah‑langkah berikut:

  1. Buat instance dari kelas ExtractImagesOptions.
  2. Tambahkan jalur file input ke opsi menggunakan metode AddInput.
  3. Atur jalur Direktori output untuk gambar menggunakan metode AddOutput.
  4. Proses ekstraksi gambar menggunakan plugin.
  5. Ambil gambar yang telah diekstrak dari kontainer hasil.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

Mengekstrak Gambar dari File PDF ke Stream tanpa folder

The PdfExtractor plugin supports saving to streams, which allows you to extract images from PDF files into streams without using temporary folders.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Fitur Utama:

  • Ekstrak Gambar Tersemat: Identifikasi dan ekstrak gambar dari dokumen PDF.
  • Pertahankan Kualitas Gambar: Memastikan gambar yang diekstrak tetap mempertahankan kualitas aslinya.
  • Output Fleksibel: Simpan gambar yang diekstrak dalam format atau lokasi pilihan Anda.

Ekstrak Properti / Metadata

The Documentize PDF Extractor for .NET mempermudah ekstraksi Metadata dari dokumen PDF.
Properti yang tersedia yang mungkin menarik bagi Anda: Title, Author, Subject, Keywords, Number of Pages.

Cara Mengekstrak Metadata dari File PDF

Contoh ini menunjukkan cara Ekstrak Properti (Title, Author, Subject, Keywords, Number of Pages) dari file PDF.
Untuk mengekstrak metadata dari dokumen PDF, ikuti langkah-langkah berikut:

  1. Buat instance ExtractPropertiesOptions untuk mengonfigurasi opsi ekstraksi dan file PDF input.
  2. Jalankan metode Extract dari PdfExtractor untuk mengekstrak metadata.
  3. Akses properti yang telah diekstrak menggunakan PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

Cara Mengekstrak Metadata dari Stream PDF

Anda dapat membuka stream sesuai keinginan Anda.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

Cara Mengekstrak Metadata dari File PDF dengan Gaya Paling Ringkas

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Fitur Utama:

  • Metadata yang tersedia: Title, Author, Subject, Keywords, Number of Pages.

Ekspor Data Formulir

The Documentize PDF Extractor for .NET plugin provides a seamless way to extract and export data from PDF forms (AcroForms) into other formats like CSV. This dynamic tool simplifies the process of retrieving form field values, allowing for easy data management, transfer, and analysis.

Cara Mengekspor Data Formulir dari PDF

Untuk mengekspor data formulir dari PDF ke CSV, ikuti langkah-langkah berikut:

  1. Buat instance dari kelas ExtractImagesOptions.
  2. Tentukan opsi ekspor menggunakan kelas FormExporterValuesToCsvOptions.
  3. Tambahkan file PDF masukan dan tentukan file CSV keluaran.
  4. Jalankan metode Extract untuk melakukan ekspor.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Fitur Utama:

  • Export Form Data: Extract data from PDF forms (AcroForms) into CSV or other formats.
  • Data Filtering: Use predicates to filter specific form fields for export based on criteria like field type or page number.
  • Flexible Output: Save exported data for analysis or transfer to spreadsheets, databases, or other document formats.
 Indonesia