โปรแกรมดึงข้อความจาก PDF

โปรแกรม Documentize PDF Text Extractor สำหรับ .NET ช่วยให้การดึงข้อความจากเอกสาร PDF ง่ายขึ้น ไม่ว่าคุณจะต้องการข้อความที่บริสุทธิ์ ดิบ หรือเรียบง่าย ปลั๊กอินนี้ให้คุณสามารถดึงข้อความได้อย่างมีประสิทธิภาพขณะที่รักษารูปแบบหรือเว้นรูปแบบตามที่คุณต้องการ.

คุณสมบัติหลัก:

  • โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษารูปแบบเดิมของมัน
  • โหมดดิบ: ดึงข้อความโดยไม่มีการจัดรูปแบบใดๆ
  • โหมดเรียบง่าย: ดึงข้อความโดยไม่มีอักขระพิเศษหรือการจัดรูปแบบ
  • การประมวลผลแบบเป็นกลุ่ม: ดึงข้อความจากหลาย PDF พร้อมกัน

วิธีการดึงข้อความจากเอกสาร PDF

ในการดึงข้อความจากเอกสาร PDF ให้ทำตามขั้นตอนเหล่านี้:

  1. สร้างอินสแตนซ์ของคลาส TextExtractor
  2. สร้างอินสแตนซ์ของ TextExtractorOptions เพื่อกำหนดตัวเลือกการดึงข้อมูล
  3. เพิ่มไฟล์ PDF ที่นำเข้าโดยใช้วิธี AddInput
  4. เรียกใช้วิธี Process เพื่อตัดข้อความ
  5. เข้าถึงข้อความที่ดึงมาได้โดยใช้ ResultContainer.ResultCollection
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่ม PDF ที่นำเข้า  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// ประมวลผลการดึงข้อความ  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// พิมพ์ข้อความที่ดึงมา  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

การดึงข้อความจาก PDF หลายแฟ้ม

ปลั๊กอินนี้อนุญาตให้คุณดึงข้อความจาก PDF หลายแฟ้มในเวลาเดียวกัน เพื่อให้การประมวลผลรวดเร็วและมีประสิทธิภาพ

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่ม PDF หลายแฟ้ม  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// ประมวลผลการดึงข้อมูล  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// แสดงข้อความที่ดึงมา  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

โหมดการดึงข้อความ

ปลั๊กอิน TextExtractor เสนอสามโหมดการดึงข้อมูล เพื่อความยืดหยุ่นตามความต้องการของคุณ

  1. โหมดบริสุทธิ์: รักษาการจัดรูปแบบเดิม รวมถึงช่องว่างและการจัดแนว
  2. โหมดดิบ: ดึงข้อความโดยไม่มีการจัดรูปแบบ ซึ่งมีประโยชน์สำหรับการประมวลผลข้อมูลดิบ
  3. โหมดเรียบง่าย: ดึงข้อความโดยไม่มีอักขระพิเศษหรือการจัดรูปแบบเพิ่มเติม
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// ตั้งค่าเป็นโหมดบริสุทธิ์  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// ประมวลผลและแสดงผล  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

วิธีการจัดการการประมวลผลแบบเป็นกลุ่ม

สำหรับชุดเอกสารขนาดใหญ่ คุณสามารถใช้การประมวลผลแบบเป็นกลุ่ม ซึ่งช่วยให้คุณดึงข้อความจาก PDF หลายแฟ้มพร้อมกัน

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่ม PDF หลายแฟ้ม  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// กำหนดผลลัพธ์สำหรับแต่ละไฟล์  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// จัดการข้อความที่ดึงมา  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 แบบไทย