โปรแกรมดึงข้อความจาก PDF
โปรแกรม Documentize PDF Text Extractor สำหรับ .NET ช่วยให้การดึงข้อความจากเอกสาร PDF ง่ายขึ้น ไม่ว่าคุณจะต้องการข้อความที่บริสุทธิ์ ดิบ หรือเรียบง่าย ปลั๊กอินนี้ให้คุณสามารถดึงข้อความได้อย่างมีประสิทธิภาพขณะที่รักษารูปแบบหรือเว้นรูปแบบตามที่คุณต้องการ.
คุณสมบัติหลัก:
- โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษารูปแบบเดิมของมัน
- โหมดดิบ: ดึงข้อความโดยไม่มีการจัดรูปแบบใดๆ
- โหมดเรียบง่าย: ดึงข้อความโดยไม่มีอักขระพิเศษหรือการจัดรูปแบบ
- การประมวลผลแบบเป็นกลุ่ม: ดึงข้อความจากหลาย PDF พร้อมกัน
วิธีการดึงข้อความจากเอกสาร PDF
ในการดึงข้อความจากเอกสาร PDF ให้ทำตามขั้นตอนเหล่านี้:
- สร้างอินสแตนซ์ของคลาส
TextExtractor
- สร้างอินสแตนซ์ของ
TextExtractorOptions
เพื่อกำหนดตัวเลือกการดึงข้อมูล - เพิ่มไฟล์ PDF ที่นำเข้าโดยใช้วิธี
AddInput
- เรียกใช้วิธี
Process
เพื่อตัดข้อความ - เข้าถึงข้อความที่ดึงมาได้โดยใช้
ResultContainer.ResultCollection
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่ม PDF ที่นำเข้า
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// ประมวลผลการดึงข้อความ
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// พิมพ์ข้อความที่ดึงมา
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
การดึงข้อความจาก PDF หลายแฟ้ม
ปลั๊กอินนี้อนุญาตให้คุณดึงข้อความจาก PDF หลายแฟ้มในเวลาเดียวกัน เพื่อให้การประมวลผลรวดเร็วและมีประสิทธิภาพ
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่ม PDF หลายแฟ้ม
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// ประมวลผลการดึงข้อมูล
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// แสดงข้อความที่ดึงมา
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
โหมดการดึงข้อความ
ปลั๊กอิน TextExtractor เสนอสามโหมดการดึงข้อมูล เพื่อความยืดหยุ่นตามความต้องการของคุณ
- โหมดบริสุทธิ์: รักษาการจัดรูปแบบเดิม รวมถึงช่องว่างและการจัดแนว
- โหมดดิบ: ดึงข้อความโดยไม่มีการจัดรูปแบบ ซึ่งมีประโยชน์สำหรับการประมวลผลข้อมูลดิบ
- โหมดเรียบง่าย: ดึงข้อความโดยไม่มีอักขระพิเศษหรือการจัดรูปแบบเพิ่มเติม
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// ตั้งค่าเป็นโหมดบริสุทธิ์
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// ประมวลผลและแสดงผล
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
วิธีการจัดการการประมวลผลแบบเป็นกลุ่ม
สำหรับชุดเอกสารขนาดใหญ่ คุณสามารถใช้การประมวลผลแบบเป็นกลุ่ม ซึ่งช่วยให้คุณดึงข้อความจาก PDF หลายแฟ้มพร้อมกัน
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่ม PDF หลายแฟ้ม
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// กำหนดผลลัพธ์สำหรับแต่ละไฟล์
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// จัดการข้อความที่ดึงมา
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}