PDF Extractor

Extract Text

استخراج النص من ملفات PDF بدقة باستخدام أدوات Documentize لـ .NET - استرجاع، معالجة، وتحليل المحتوى بسهولة.

Extract Images

استخرج الصور بسهولة من مستندات PDF من داخل تطبيقات .NET

تصدير بيانات النموذج

استخراج وتصدير البيانات من استمارات PDF (AcroForms) إلى تنسيقات أخرى مثل CSV باستخدام C# .NET

PDF Extractor الأقسام الفرعية

Extract Text

يسهل مستخرج PDF من Documentize لـ .NET استخراج النص من مستندات PDF. سواء كنت بحاجة إلى نص نقي، أو خام، أو نص عادي، فإن هذه الإضافة تتيح لك استخراج النص بكفاءة مع الحفاظ على التنسيق أو حذفه بناءً على احتياجاتك.

كيفية استخراج النص من ملف PDF

لاستخراج النص من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ مثيلاً لـ ExtractTextOptions لتكوين خيارات الاستخراج.
  2. أضف ملف PDF المدخل باستخدام طريقة AddInput.
  3. قم بتشغيل طريقة ExtractText لاستخراج النص.
  4. الوصول إلى النص المستخرج باستخدام ResultContainer.ResultCollection.
1// إنشاء كائن ExtractTextOptions لتعيين التعليمات
2var options = new ExtractTextOptions();
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

أوضاع استخراج النص

يوفر ExtractTextOptions ثلاث أوضاع للاستخراج، مما يوفر المرونة بناءً على احتياجاتك.

  1. الوضع النقي: يحافظ على التنسيق الأصلي، بما في ذلك المسافات والمحاذاة.
  2. الوضع الخام: يستخرج النص دون تنسيق، وهو مفيد لمعالجة البيانات الخام.
  3. الوضع المفلطح: يمثل محتوى PDF مع تمييز أجزاء النص حسب إحداثياتها.
1// إنشاء كائن ExtractTextOptions لتعيين TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص بدون أي تنسيق.
  • الوضع المفلطح: استخراج النص بدون أحرف خاصة أو تنسيق.

Extract Images

تتيح لك الــ Documentize PDF Extractor for .NET إضافة استخراج الصور بسهولة من مستندات PDF. يقوم بمسح ملفات PDF الخاصة بك، ويحدد الصور المدمجة، ويستخرجها مع الحفاظ على جودتها الأصلية وتنسيقها. تعزز هذه الأداة إمكانية الوصول إلى المحتوى المرئي وتبسط عملية استرجاع الصور من ملفات PDF.

كيفية استخراج الصور من ملف PDF

لاستخراج الصور من ملف PDF، اتبع هذه الخطوات:

  1. إنشاء مثيل من فئة ExtractImagesOptions.
  2. إضافة مسار الملف المدخل إلى الخيارات باستخدام طريقة AddInput.
  3. تعيين مسار الدليل الذي سيتم حفظ الصور فيه باستخدام طريقة AddOutput.
  4. معالجة استخراج الصور باستخدام الإضافة.
  5. استرجاع الصور المستخرجة من حاوية النتائج.
 1  
 2// إنشاء ExtractImagesOptions لتحديد التعليمات  
 3var options = new ExtractImagesOptions();  
 4// إضافة مسار ملف المدخل  
 5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));  
 6// تعيين مسار الدليل المخرج  
 7options.AddOutput(new DirectoryDataSource("path_to_results_directory"));  
 8// تنفيذ العملية  
 9var results = PdfExtractor.ExtractImages(options);  
10// الحصول على مسار نتيجة الصورة  
11var imageExtracted = results.ResultCollection[0].ToFile();  

استخراج الصور من ملف PDF إلى تدفقات دون استخدام مجلد

تدعم إضافة PdfExtractor حفظ النتائج في تدفقات، مما يتيح لك استخراج الصور من ملفات PDF إلى تدفقات دون استخدام مجلدات مؤقتة.

 1  
 2// إنشاء ExtractImagesOptions لتحديد التعليمات  
 3var options = new ExtractImagesOptions();  
 4// إضافة مسار ملف المدخل  
 5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));  
 6// عدم تعيين المخرج - سيتم كتابة النتائج إلى تدفقات  
 7// تنفيذ العملية  
 8var results = PdfExtractor.ExtractImages(options);  
 9// الحصول على تدفق  
10var ms = results.ResultCollection[0].ToStream();  
11// نسخ البيانات إلى ملف للتجربة  
12ms.Seek(0, SeekOrigin.Begin);  
13using (var fs = File.Create("test_file.png"))  
14{  
15    ms.CopyTo(fs);  
16}  

الميزات الرئيسية:

  • استخراج الصور المدمجة: التعرف على الصور المستخرجة من مستندات PDF.
  • الحفاظ على جودة الصورة: يضمن أن الصور المستخرجة تحتفظ بجودتها الأصلية.
  • مخرجات مرنة: حفظ الصور المستخرجة بتنسيقك أو موقعك المفضل.

تصدير بيانات النموذج

يقدم ملحق Documentize PDF Extractor for .NET طريقة سلسة لاستخراج وتصدير البيانات من نماذج PDF (AcroForms) إلى تنسيقات أخرى مثل CSV. تبسط هذه الأداة الديناميكية عملية استرجاع قيم حقول النموذج، مما يسمح بإدارة البيانات ونقلها وتحليلها بسهولة.

كيفية تصدير بيانات النموذج من PDF

لتصدير بيانات النموذج من PDF إلى CSV، اتبع الخطوات التالية:

  1. أنشئ مثيلًا من فئة ExtractImagesOptions.
  2. عرّف خيارات التصدير باستخدام فئة FormExporterValuesToCsvOptions.
  3. أضف ملفات PDF المدخلة وحدد ملف CSV الناتج.
  4. قم بتشغيل طريقة Process لتنفيذ عملية التصدير.
1  
2// Create ExtractFormDataToDsvOptions object to set instructions  
3var options = new ExtractFormDataToDsvOptions(',', true);  
4// Add input file path  
5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));  
6// Set output file path  
7options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));  
8// Perform the process  
9PdfExtractor.ExtractFormData(options);  

الميزات الرئيسية:

  • تصدير بيانات النموذج: استخراج البيانات من نماذج PDF (AcroForms) إلى CSV أو تنسيقات أخرى.
  • تصفية البيانات: استخدم المتنبئات لتصفية حقول النموذج المحددة للتصدير بناءً على معايير مثل نوع الحقل أو رقم الصفحة.
  • إخراج مرن: حفظ البيانات المصدرة للتحليل أو نقلها إلى جداول بيانات، أو قواعد بيانات، أو تنسيقات مستندات أخرى.
 عربي