PDF Extractor

استخراج النص

استخراج النص من مستندات PDF بدقة باستخدام أدوات Documentize .NET — استرجاع، معالجة، وتحليل المحتوى بسهولة.

استخراج الصور

استخراج الصور بسهولة من مستندات PDF من داخل تطبيقات .NET

استخراج الخصائص / البيانات الوصفية

استخراج البيانات الوصفية من ملفات PDF بدقة باستخدام Documentize بلغة C#/.NET

تصدير بيانات النموذج

استخراج وتصدير البيانات من نماذج PDF (AcroForms) إلى صيغ أخرى مثل CSV باستخدام C#/.NET

PDF Extractor الأقسام الفرعية

استخراج النص

The Documentize PDF Extractor for .NET يبسط عملية استخراج النص من مستندات PDF. سواء كنت تحتاج إلى نص نقي، خام، أو نص عادي، يتيح لك هذا المكوّن استخراج النص بفاعلية مع الحفاظ على التنسيق أو حذفه حسب احتياجاتك.

كيفية استخراج النص من ملف PDF

لاستخراج النص من ملف PDF، اتبع الخطوات التالية:

  1. أنشئ كائنًا من ExtractTextOptions لتحديد مسار ملف الإدخال.
  2. نفّذ طريقة Extract لاستخراج النص.
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

كيفية استخراج النص من تدفق PDF

لاستخراج النص من تدفق PDF، اتبع الخطوات التالية:

  1. أنشئ كائنًا من ExtractTextOptions لتحديد تدفق الإدخال.
  2. نفّذ طريقة Extract لاستخراج النص.
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

أوضاع استخراج النص

توفر ExtractTextOptions ثلاثة أوضاع للاستخراج، مما يمنحك مرونة حسب احتياجاتك.

  1. الوضع النقي (Pure Mode): يحافظ على تنسيق النص الأصلي، بما في ذلك المسافات والمحاذاة.
  2. الوضع الخام (Raw Mode): يُستخرج النص دون تنسيق، وهو مفيد لمعالجة البيانات الخام.
  3. الوضع المسطح (Flatten Mode): يمثل محتوى PDF بقطاعات نصية موضعية حسب إحداثياتها.
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

كيفية استخراج النص من ملف PDF بأقصر طريقة ممكنة

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص بدون أي تنسيق.
  • الوضع المسطح: استخراج النص بدون أحرف خاصة أو تنسيق.

استخراج الصور

يتيح لك Documentize PDF Extractor for .NET استخراج الصور بسهولة من مستندات PDF. يقوم بمسح ملفات PDF الخاصة بك، يحدد الصور المدمجة، ويستخرجها مع الحفاظ على جودتها الأصلية وتنسيقها. تُحسّن هذه الأداة من إمكانية وصول المحتوى المرئي وتُبسّط عملية استرجاع الصور من ملفات PDF.

كيفية استخراج الصور من ملف PDF

لاستخراج الصور من ملف PDF، اتبع الخطوات التالية:

  1. أنشئ مثيلًا من الفئة ExtractImagesOptions.
  2. أضف مسار ملف الإدخال إلى الخيارات باستخدام الطريقة AddInput.
  3. عيّن مسار دليل الإخراج للصور باستخدام الطريقة AddOutput.
  4. نفّذ عملية استخراج الصور باستخدام المكوّن الإضافي.
  5. استرجع الصور المستخرجة من حاوية النتائج.
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

استخراج الصور من ملف PDF إلى تدفقات دون مجلد

يدعم المكوّن الإضافي PdfExtractor الحفظ إلى التدفقات، مما يتيح لك استخراج الصور من ملفات PDF إلى تدفقات دون الحاجة إلى مجلدات مؤقتة.

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

الميزات الرئيسية:

  • استخراج الصور المدمجة: تحديد واستخراج الصور من مستندات PDF.
  • الحفاظ على جودة الصورة: يضمن أن الصور المستخرجة تحتفظ بجودتها الأصلية.
  • إخراج مرن: احفظ الصور المستخرجة بالتنسيق أو الموقع المفضل لديك.

استخراج الخصائص / البيانات الوصفية

يُبسط Documentize PDF Extractor for .NET عملية استخراج البيانات الوصفية من مستندات PDF. الخصائص المتاحة التي قد تهمك: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.

كيفية استخراج البيانات الوصفية من ملف PDF

يوضح المثال كيفية استخراج الخصائص (Title، Author، Subject، Keywords، Number of Pages) من ملف PDF. لاستخراج البيانات الوصفية من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ كائنًا من ExtractPropertiesOptions لتكوين خيارات الاستخراج وملف PDF المدخل.
  2. استدعِ طريقة Extract في PdfExtractor لاستخراج البيانات الوصفية.
  3. احصل على الخصائص المستخرجة باستخدام PdfProperties.
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

كيفية استخراج البيانات الوصفية من تدفق PDF

يمكنك فتح التدفق حسب رغبتك.

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

كيفية استخراج البيانات الوصفية من ملف PDF بأقصر طريقة ممكنة

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

الميزات الرئيسية:

  • البيانات الوصفية المتاحة: FileName، Title، Author، Subject، Keywords، Created، Modified، Application، PDF Producer، Number of Pages.

تصدير بيانات النموذج

يقدم ملحق Documentize PDF Extractor for .NET طريقة سلسة لاستخراج وتصدير البيانات من نماذج PDF (AcroForms) إلى صيغ أخرى مثل CSV. هذه الأداة الديناميكية تبسط عملية استرجاع قيم حقول النموذج، مما يتيح إدارة سهلة للبيانات، ونقلها، وتحليلها.

كيفية تصدير بيانات النموذج من PDF إلى CSV

لتصدير بيانات النموذج من PDF إلى CSV، اتبع الخطوات التالية:

  1. أنشئ مثيلاً من الفئة ExtractImagesOptions.
  2. عرّف خيارات التصدير باستخدام الفئة FormExporterValuesToCsvOptions.
  3. أضف ملفات PDF المدخلة وحدد ملف CSV الناتج.
  4. نفّذ طريقة Extract لإجراء التصدير.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

كيفية تصدير بيانات النموذج من PDF إلى TSV

استخدام Tab كفاصل.

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

الميزات الرئيسية:

  • تصدير بيانات النموذج: استخراج البيانات من نماذج PDF (AcroForms) إلى CSV أو صيغ أخرى.
  • تصفية البيانات: استخدم الشروط لتصفية حقول النموذج المحددة للتصدير بناءً على معايير مثل نوع الحقل أو رقم الصفحة.
  • إخراج مرن: احفظ البيانات المصدَّرة للتحليل أو النقل إلى جداول البيانات أو قواعد البيانات أو صيغ المستندات الأخرى.
 عربي