Extract Text
يسهل مستخرج PDF من Documentize لـ .NET استخراج النص من مستندات PDF. سواء كنت بحاجة إلى نص نقي، أو خام، أو نص عادي، فإن هذه الإضافة تتيح لك استخراج النص بكفاءة مع الحفاظ على التنسيق أو حذفه بناءً على احتياجاتك.
كيفية استخراج النص من ملف PDF
لاستخراج النص من مستند PDF، اتبع الخطوات التالية:
- أنشئ مثيلاً لـ
ExtractTextOptions
لتكوين خيارات الاستخراج. - أضف ملف PDF المدخل باستخدام طريقة
AddInput
. - قم بتشغيل طريقة
ExtractText
لاستخراج النص. - الوصول إلى النص المستخرج باستخدام
ResultContainer.ResultCollection
.
1// إنشاء كائن ExtractTextOptions لتعيين التعليمات
2var options = new ExtractTextOptions();
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
أوضاع استخراج النص
يوفر ExtractTextOptions ثلاث أوضاع للاستخراج، مما يوفر المرونة بناءً على احتياجاتك.
- الوضع النقي: يحافظ على التنسيق الأصلي، بما في ذلك المسافات والمحاذاة.
- الوضع الخام: يستخرج النص دون تنسيق، وهو مفيد لمعالجة البيانات الخام.
- الوضع المفلطح: يمثل محتوى PDF مع تمييز أجزاء النص حسب إحداثياتها.
1// إنشاء كائن ExtractTextOptions لتعيين TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
الميزات الرئيسية:
- الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
- الوضع الخام: استخراج النص بدون أي تنسيق.
- الوضع المفلطح: استخراج النص بدون أحرف خاصة أو تنسيق.