استخراج کننده متن PDF
استخراج کننده متن PDF Documentize برای .NET استخراج متن از اسناد PDF را ساده میکند. چه به متن خالص، خام یا ساده نیاز داشته باشید، این پلاگین به شما این امکان را میدهد که متن را به طور کارآمد استخراج کنید در حالی که فرمت بندی را حفظ کرده یا بسته به نیازتان آن را حذف کنید.
ویژگیهای کلیدی:
- حالت خالص: متن را در حین حفظ فرمت اصلی آن استخراج کنید.
- حالت خام: متن را بدون فرمت استخراج کنید.
- حالت ساده: متن را بدون کاراکترهای خاص یا فرمت استخراج کنید.
- پردازش تکی: متن را از چندین PDF به صورت همزمان استخراج کنید.
چگونه متن را از اسناد PDF استخراج کنیم
برای استخراج متن از یک سند PDF، مراحل زیر را دنبال کنید:
- یک نمونه از کلاس
TextExtractor
ایجاد کنید. - یک نمونه از
TextExtractorOptions
برای پیکربندی گزینههای استخراج ایجاد کنید. - فایل PDF ورودی را با استفاده از متد
AddInput
اضافه کنید. - متد
Process
را اجرا کنید تا متن استخراج شود. - به متن استخراج شده با استفاده از
ResultContainer.ResultCollection
دسترسی پیدا کنید.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// افزودن PDF ورودی
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// پردازش استخراج متن
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// چاپ متن استخراج شده
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
استخراج متن از چندین PDF
این پلاگین به شما این امکان را میدهد که متن را به طور همزمان از چندین PDF استخراج کنید و پردازش سریع و کارآمدی را تضمین کند.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// افزودن چندین PDF ورودی
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// پردازش استخراج
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// خروجی متن استخراج شده
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
حالتهای استخراج متن
پلاگین TextExtractor سه حالت استخراج ارائه میدهد که انعطافپذیری را بر اساس نیازهای شما فراهم میکند.
- حالت خالص: فرمت اصلی را حفظ میکند، از جمله فاصلهها و تراز.
- حالت خام: متن را بدون فرمت استخراج میکند، که برای پردازش دادههای خام مفید است.
- حالت ساده: متن را بدون کاراکترهای خاص یا فرمت اضافی استخراج میکند.
1var textExtractorOptions = new TextExtractorOptions();
2
3// تنظیم به حالت خالص
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// پردازش و خروجی
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
چگونه با پردازش تکی کنار بیاییم
برای مجموعههای بزرگ اسناد، میتوانید از پردازش تکی استفاده کنید که به شما امکان میدهد متن را از چندین PDF به صورت همزمان استخراج کنید.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// افزودن چندین PDF ورودی
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// تعریف خروجی برای هر فایل
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// مدیریت متن استخراج شده
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}