استخراج کننده متن PDF

استخراج کننده متن PDF Documentize برای .NET استخراج متن از اسناد PDF را ساده می‌کند. چه به متن خالص، خام یا ساده نیاز داشته باشید، این پلاگین به شما این امکان را می‌دهد که متن را به طور کارآمد استخراج کنید در حالی که فرمت بندی را حفظ کرده یا بسته به نیازتان آن را حذف کنید.

ویژگی‌های کلیدی:

حالت خالص: متن را در حین حفظ فرمت اصلی آن استخراج کنید.
حالت خام: متن را بدون فرمت استخراج کنید.
حالت ساده: متن را بدون کاراکترهای خاص یا فرمت استخراج کنید.
پردازش تکی: متن را از چندین PDF به صورت همزمان استخراج کنید.

چگونه متن را از اسناد PDF استخراج کنیم

برای استخراج متن از یک سند PDF، مراحل زیر را دنبال کنید:

یک نمونه از کلاس TextExtractor ایجاد کنید.
یک نمونه از TextExtractorOptions برای پیکربندی گزینه‌های استخراج ایجاد کنید.
فایل PDF ورودی را با استفاده از متد AddInput اضافه کنید.
متد Process را اجرا کنید تا متن استخراج شود.
به متن استخراج شده با استفاده از ResultContainer.ResultCollection دسترسی پیدا کنید.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// افزودن PDF ورودی
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// پردازش استخراج متن
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// چاپ متن استخراج شده
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

استخراج متن از چندین PDF

این پلاگین به شما این امکان را می‌دهد که متن را به طور همزمان از چندین PDF استخراج کنید و پردازش سریع و کارآمدی را تضمین کند.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// افزودن چندین PDF ورودی
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// پردازش استخراج
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// خروجی متن استخراج شده
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

حالت‌های استخراج متن

پلاگین TextExtractor سه حالت استخراج ارائه می‌دهد که انعطاف‌پذیری را بر اساس نیازهای شما فراهم می‌کند.

حالت خالص: فرمت اصلی را حفظ می‌کند، از جمله فاصله‌ها و تراز.
حالت خام: متن را بدون فرمت استخراج می‌کند، که برای پردازش داده‌های خام مفید است.
حالت ساده: متن را بدون کاراکترهای خاص یا فرمت اضافی استخراج می‌کند.

1var textExtractorOptions = new TextExtractorOptions();
2
3// تنظیم به حالت خالص
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// پردازش و خروجی
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

چگونه با پردازش تکی کنار بیاییم

برای مجموعه‌های بزرگ اسناد، می‌توانید از پردازش تکی استفاده کنید که به شما امکان می‌دهد متن را از چندین PDF به صورت همزمان استخراج کنید.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// افزودن چندین PDF ورودی
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// تعریف خروجی برای هر فایل
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// مدیریت متن استخراج شده
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}