PDF Metin Çıkartıcı
Documentize PDF Metin Çıkartıcı for .NET, PDF belgelerinden metin çıkarmayı basitleştirir. İster saf, ham, ister düz metin ihtiyacınız olsun, bu eklenti, biçimlendirmeyi korurken veya ihtiyaçlarınıza göre atlayarak metni verimli bir şekilde çıkarmanıza olanak tanır.
Ana Özellikler:
- Saf Mod: Metni, orijinal biçimlendirmesini koruyarak çıkartır.
- Ham Mod: Biçimlendirme olmadan metni çıkartır.
- Düz Mod: Özel karakterler veya biçimlendirme olmadan metni çıkartır.
- Toplu İşleme: Aynı anda birden fazla PDF’den metin çıkartır.
PDF Belgelerinden Metin Çıkartma Yöntemi
Bir PDF belgesinden metin çıkartmak için bu adımları izleyin:
TextExtractor
sınıfının bir örneğini oluşturun.- Çıkarma seçeneklerini yapılandırmak için
TextExtractorOptions
örneğini oluşturun. - Giriş PDF dosyasını
AddInput
yöntemiyle ekleyin. - Metni çıkarmak için
Process
yöntemini çalıştırın. - Çıkarılan metne
ResultContainer.ResultCollection
kullanarak erişin.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Giriş PDF'yi ekle
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Metin çıkarımını işle
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Çıkarılan metni yazdır
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Birden Fazla PDF’den Metin Çıkartma
Eklenti, aynı anda birden fazla PDF’den metin çıkartmanıza olanak tanır; hızlı ve verimli bir işlem sağlar.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Birden fazla giriş PDF'sini ekle
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Çıkarımı işle
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Çıkarılan metni çıktı al
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Metin Çıkartma Modları
TextExtractor eklentisi, ihtiyaçlarınıza göre esneklik sağlayan üç çıkarım modu sunar.
- Saf Mod: Boşluklar ve hizalamalar dahil, orijinal biçimlendirmeyi korur.
- Ham Mod: Biçimlendirme olmadan metni çıkarır; ham veri işleme için kullanılır.
- Düz Mod: Özel karakterler veya ek biçimlendirme olmadan metni çıkarır.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Saf moda ayarla
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// İşle ve çıktıyı al
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Toplu İşlem Nasıl Yapılır
Büyük belge setleri için, birden fazla PDF’den aynı anda metin çıkarmanıza olanak tanıyan toplu işlemi kullanabilirsiniz.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Birden fazla giriş PDF'sini ekle
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Her dosya için çıkışı tanımla
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Çıkarılan metni işle
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}