Pengambil Teks PDF
Pengambil Teks PDF Documentize untuk .NET menyederhanakan proses ekstraksi teks dari dokumen PDF. Apakah Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau menghilangkannya berdasarkan kebutuhan Anda.
Fitur Utama:
- Mode Murni: Ekstrak teks sambil mempertahankan format aslinya.
- Mode Mentah: Ekstrak teks tanpa format apa pun.
- Mode Biasa: Ekstrak teks tanpa karakter khusus atau format.
- Pemrosesan Batch: Ekstrak teks dari beberapa PDF sekaligus.
Cara Mengekstrak Teks dari Dokumen PDF
Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:
- Buat instance dari kelas
TextExtractor
. - Buat instance dari
TextExtractorOptions
untuk mengonfigurasi opsi ekstraksi. - Tambahkan file PDF input menggunakan metode
AddInput
. - Jalankan metode
Process
untuk mengekstrak teks. - Akses teks yang diekstrak menggunakan
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Tambahkan PDF input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Proses ekstraksi teks
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Cetak teks yang diekstrak
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Mengekstrak Teks dari Beberapa PDF
Plugin ini memungkinkan Anda untuk mengekstrak teks dari beberapa PDF secara bersamaan, memastikan pemrosesan yang cepat dan efisien.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Tambahkan beberapa PDF input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Proses ekstraksi
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Output teks yang diekstrak
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Mode Ekstraksi Teks
Plugin TextExtractor menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.
- Mode Murni: Mempertahankan format asli, termasuk spasi dan penyelarasan.
- Mode Mentah: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
- Mode Biasa: Mengekstrak teks tanpa karakter khusus atau format tambahan.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Atur ke mode Murni
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Proses dan output
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Cara Menangani Pemrosesan Batch
Untuk set dokumen besar, Anda dapat memanfaatkan pemrosesan batch, memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Tambahkan beberapa PDF input
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Tentukan output untuk setiap file
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Tangani teks yang diekstrak
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}