PDF Extractor

Extract Text

استخراج النص من ملفات PDF بدقة باستخدام أدوات .NET الخاصة بـ Documentize—استرجاع، معالجة، وتحليل المحتوى بسهولة.

استخراج الصور

استخراج الصور بسهولة من مستندات PDF من داخل تطبيقات .NET

استخراج الخصائص / البيانات الوصفية

استخراج البيانات الوصفية من ملفات PDF بدقة باستخدام Documentize مع C#/.NET

تصدير بيانات النموذج

استخراج وتصدير البيانات من نماذج PDF (AcroForms) إلى تنسيقات أخرى مثل CSV باستخدام C#/.NET

PDF Extractor الأقسام الفرعية

Extract Text

The Documentize PDF Extractor for .NET يبسط عملية استخراج النص من مستندات PDF. سواء كنت بحاجة إلى نص نقي، خام، أو بسيط، يتيح لك هذا الملحق استخراج النص بفعالية مع الحفاظ على التنسيق أو إهماله حسب احتياجاتك.

كيفية استخراج النص من PDF

لاستخراج النص من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ مثالًا من ExtractTextOptions لتكوين خيارات الاستخراج.
  2. أضف ملف PDF الإدخال باستخدام طريقة AddInput.
  3. شغّل طريقة Extract لاستخراج النص.
  4. احصل على النص المستخرج عبر ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

أوضاع استخراج النص

توفر ExtractTextOptions ثلاث أوضاع للاستخراج، مما يمنحك المرونة حسب احتياجاتك.

  1. الوضع النقي (Pure Mode): يحافظ على تنسيق النص الأصلي بما في ذلك المسافات والمحاذاة.
  2. الوضع الخام (Raw Mode): يستخرج النص دون تنسيق، مفيد لمعالجة البيانات الخام.
  3. الوضع المسطح (Flatten Mode): يمثل محتوى PDF بنصوص موضوعة حسب إحداثياتها.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص دون أي تنسيق.
  • الوضع المسطح: استخراج النص دون أحرف خاصة أو تنسيق.

استخراج الصور

تمكنك الإضافة Documentize PDF Extractor for .NET من استخراج الصور بسهولة من مستندات PDF. تقوم بمسح ملفات PDF الخاصة بك، وتحديد الصور المدمجة، واستخراجها مع الحفاظ على جودتها الأصلية وتنسيقها. هذه الأداة تعزز إمكانية الوصول إلى المحتوى المرئي وتبسط عملية استرداد الصور من ملفات PDF.

كيفية استخراج الصور من ملف PDF

لاستخراج الصور من ملف PDF، اتبع الخطوات التالية:

  1. أنشئ مثيلًا من الفئة ExtractImagesOptions.
  2. أضف مسار ملف الإدخال إلى الخيارات باستخدام الطريقة AddInput.
  3. حدد مسار دليل الإخراج للصور باستخدام الطريقة AddOutput.
  4. نفّذ عملية استخراج الصور باستخدام الإضافة.
  5. استرجع الصور المستخرجة من حاوية النتيجة.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

استخراج الصور من ملف PDF إلى تدفقات بدون مجلد

تدعم الإضافة PdfExtractor حفظ النتائج إلى تدفقات، مما يتيح لك استخراج الصور من ملفات PDF إلى تدفقات دون الحاجة إلى مجلدات مؤقتة.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

الميزات الرئيسية:

  • استخراج الصور المدمجة: تحديد واستخراج الصور من مستندات PDF.
  • الحفاظ على جودة الصورة: يضمن أن الصور المستخرجة تحتفظ بجودتها الأصلية.
  • الإخراج المرن: حفظ الصور المستخرجة بالتنسيق أو الموقع الذي تفضله.

استخراج الخصائص / البيانات الوصفية

يُبسط Documentize PDF Extractor for .NET عملية استخراج البيانات الوصفية من مستندات PDF.
الخصائص المتاحة التي قد تهمك: العنوان، المؤلف، الموضوع، الكلمات المفتاحية، عدد الصفحات.

كيفية استخراج البيانات الوصفية من ملف PDF

يوضح المثال كيفية استخراج الخصائص (العنوان، المؤلف، الموضوع، الكلمات المفتاحية، عدد الصفحات) من ملف PDF.
لاستخراج البيانات الوصفية من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ مثلاً من ExtractPropertiesOptions لتكوين خيارات الاستخراج وملف PDF المدخل.
  2. نفّذ طريقة Extract في PdfExtractor لاستخراج البيانات الوصفية.
  3. احصل على الخصائص المستخرجة باستخدام PdfProperties.
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

كيفية استخراج البيانات الوصفية من تدفق PDF

يمكنك فتح التدفق حسب رغبتك.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

كيفية استخراج البيانات الوصفية من ملف PDF بأقصر طريقة ممكنة

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

الميزات الرئيسية:

  • البيانات الوصفية المتاحة: العنوان، المؤلف، الموضوع، الكلمات المفتاحية، عدد الصفحات.

تصدير بيانات النموذج

توفر إضافة Documentize PDF Extractor for .NET طريقة سلسة لاستخراج وتصدير البيانات من نماذج PDF (AcroForms) إلى تنسيقات أخرى مثل CSV. هذه الأداة الديناميكية تبسط عملية استرجاع قيم حقول النموذج، مما يسمح بإدارة البيانات، نقلها وتحليلها بسهولة.

How to Export Form Data from PDF

لتصدير بيانات النموذج من ملف PDF إلى CSV، اتبع الخطوات التالية:

  1. أنشئ مثالًا من الفئة ExtractImagesOptions.
  2. عرّف خيارات التصدير باستخدام الفئة FormExporterValuesToCsvOptions.
  3. أضف ملفات PDF الإدخالية وحدد ملف CSV الناتج.
  4. نفّذ طريقة Extract لإجراء التصدير.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Key Features:

  • Export Form Data: استخراج البيانات من نماذج PDF (AcroForms) إلى CSV أو تنسيقات أخرى.
  • Data Filtering: استخدام الدوال الشرطية لتصفية حقول النموذج المحددة للتصدير بناءً على معايير مثل نوع الحقل أو رقم الصفحة.
  • Flexible Output: حفظ البيانات المصدرة للتحليل أو النقل إلى جداول البيانات أو قواعد البيانات أو تنسيقات المستندات الأخرى.
 عربي