Ekstraktor Teks PDF
Documentize Ekstraktor Teks PDF untuk .NET menyederhanakan proses ekstraksi teks dari dokumen PDF. Apakah Anda memerlukan teks murni, mentah, atau biasa, plugin ini memungkinkan Anda untuk mengekstrak teks secara efisien sambil mempertahankan format atau mengabaikannya berdasarkan kebutuhan Anda.
Fitur Utama:
- Mode Murni: Ekstrak teks sambil mempertahankan format aslinya.
- Mode Mentah: Ekstrak teks tanpa format apapun.
- Mode Biasa: Ekstrak teks tanpa karakter khusus atau format.
- Pemrosesan Batch: Ekstrak teks dari beberapa PDF sekaligus.
Cara Mengekstrak Teks dari Dokumen PDF
Untuk mengekstrak teks dari dokumen PDF, ikuti langkah-langkah berikut:
- Buat instansi dari kelas
TextExtractor
. - Buat instansi
TextExtractorOptions
untuk mengonfigurasi opsi ekstraksi. - Tambahkan file PDF input menggunakan metode
AddInput
. - Jalankan metode
Process
untuk mengekstrak teks. - Akses teks yang diekstrak menggunakan
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Tambahkan PDF input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Proses ekstraksi teks
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Cetak teks yang diekstrak
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Mengekstrak Teks dari Beberapa PDF
Plugin ini memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus, memastikan pemrosesan yang cepat dan efisien.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Tambahkan beberapa PDF input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Proses ekstraksi
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Output teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Mode Ekstraksi Teks
Plugin TextExtractor menawarkan tiga mode ekstraksi, memberikan fleksibilitas berdasarkan kebutuhan Anda.
- Mode Murni: Mempertahankan format asli, termasuk spasi dan penyesuaian.
- Mode Mentah: Mengekstrak teks tanpa format, berguna untuk pemrosesan data mentah.
- Mode Biasa: Mengekstrak teks tanpa karakter khusus atau format tambahan.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Atur ke mode Murni
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Proses dan output
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Cara Menangani Pemrosesan Batch
Untuk kumpulan dokumen besar, Anda dapat memanfaatkan pemrosesan batch, memungkinkan Anda untuk mengekstrak teks dari beberapa PDF sekaligus.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Tambahkan beberapa PDF input
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definisikan output untuk setiap file
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Tangani teks yang diekstrak
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}