โมเดล OCR

OpenTyphoon.ai มีโมเดล OCR เฉพาะทางที่ได้รับการปรับให้เหมาะสมสำหรับการรู้จำข้อความภาษาไทยและการประมวลผลเอกสาร โมเดล OCR ของเราได้รับการออกแบบมาเพื่อจัดการกับเอกสาร รูปภาพ และแบบฟอร์มประเภทต่างๆ ด้วยความแม่นยำสูง
คุณสมบัติ
Section titled “คุณสมบัติ”โมเดล OCR ของเรามีความสามารถดังต่อไปนี้:
- แปลงรูปภาพเป็น PDF เพื่อการประมวลผลแบบรวม
- ดึงข้อมูลข้อความและเค้าโครงจาก PDF และรูปภาพ
- สร้างข้อความพร้อมสำหรับการประมวลผล OCR ด้วยโมเดล Typhoon OCR
- มีเทมเพลตพรอมต์ในตัวสำหรับงานประมวลผลเอกสารประเภทต่างๆ
- ประมวลผลหน้าที่ระบุจากเอกสาร PDF หลายหน้า
โมเดลที่มีให้ใช้งาน
Section titled “โมเดลที่มีให้ใช้งาน”ปัจจุบัน เรามีโมเดล OCR ดังต่อไปนี้:
| Model ID | คำอธิบาย | สถานะ | ข้อจำกัดอัตราการใช้งาน | วันที่เผยแพร่ |
|---|---|---|---|---|
typhoon-ocr | Typhoon OCR 1.5 (2B) | โมเดลล่าสุด (ให้บริการอยู่บนหน้า Playground) | 2 req/s, 20 req/min | 2025-11-14 |
typhoon-ocr-preview | Typhoon OCR 1 (7B) | โมเดลรุ่นแรก | 2 req/s, 20 req/min | 2025-05-19 |
typhoon-ocr (Typhoon OCR 1.5) เป็นโมเดล OCR รุ่นล่าสุด เราขอแนะนำให้ใช้ตัวนี้
typhoon-ocr-preview ให้บริการ OCR รุ่นแรก สำหรับคนที่เคยใช้งานรุ่นแรกอยู่และยังต้องการใช้ต่อ ทั้งนี้ endpoint นี้จะยุติการให้บริการในวันที่ 31 ธันวาคม 2025 หลังจากนั้นเป็นต้นไป ให้ย้ายไปใช้ endpoint typhoon-ocr
ประเภทไฟล์ที่รองรับ
Section titled “ประเภทไฟล์ที่รองรับ”โมเดล typhoon-ocr รองรับรูปแบบไฟล์ต่อไปนี้:
- รูปภาพ: PNG, JPEG
- เอกสาร: PDF
เริ่มต้นใช้งาน
Section titled “เริ่มต้นใช้งาน”ในการใช้โมเดล OCR ของเรา คุณจะต้อง:
- ติดตั้งแพ็คเกจที่จำเป็น:
pip install typhoon-ocrติดตั้งคำสั่งต่อไปนี้เพิ่มเติมสำหรับ Mac
brew install poppler# The following binaries are required and provided by poppler:# - pdfinfo# - pdftoppmLinux
sudo apt-get updatesudo apt-get install poppler-utils# The following binaries are required and provided by poppler-utils:# - pdfinfo# - pdftoppm- ตั้งค่าคีย์ API ของคุณเป็นตัวแปรสภาพแวดล้อม:
export TYPHOON_OCR_API_KEY=your_api_key_here- เริ่มใช้ฟังก์ชัน OCR:
from typhoon_ocr import ocr_document
# ตัวอย่างการใช้กับ PDFmarkdown = ocr_document( pdf_or_image_path="document.pdf", page_num=2 # ประมวลผลหน้าที่ 2 ของ PDF (ค่าเริ่มต้นคือ 1, สำหรับรูปภาพจะเป็น 1 เสมอ))
# ตัวอย่างการใช้กับรูปภาพmarkdown = ocr_document( pdf_or_image_path="scan.jpg")หมายเหตุ: หากใช้ endpoint typhoon-ocr-preview ซึ่งเรียกใช้โมเดล Typhoon OCR รุ่นดั้งเดิม จะมีพารามิเตอร์ที่ชื่อ task_type ที่ปรับเปลี่ยนค่าได้ระหว่าง default (โหมดที่เหมาะกับเอกสารทั่วไป) หรือ structure (โหมดที่เหมาะกับเอกสารที่มีโครงสร้าง)
แต่สำหรับโมเดล typhoon-ocr (v1.5) พารามิเตอร์นี้ไม่ต้องใช้แล้วเพราะโมเดลใหม่ถูกออกแบบมาให้ใช้ง่ายและให้ผลลัพธ์ที่ดีโดยไม่ต้องระบุค่า
ตัวอย่างการใช้งาน
Section titled “ตัวอย่างการใช้งาน”# ตัวอย่างคำสั่งประมวลผล PDF หน้าที่ 2 - หากคุณต้องการประมวลผลหลายหน้า ให้เขียน Loop ขึ้นมาmarkdown = ocr_document( pdf_or_image_path="document.pdf", page_num=2)print(markdown)
# ตัวอย่างคำสั่งประมวลผลรูปภาพmarkdown = ocr_document( pdf_or_image_path="invoice.jpg")print(markdown)