โมเดล OCR

OpenTyphoon.ai มีโมเดล OCR เฉพาะทางที่ได้รับการปรับให้เหมาะสมสำหรับการรู้จำข้อความภาษาไทยและการประมวลผลเอกสาร โมเดล OCR ของเราได้รับการออกแบบมาเพื่อจัดการกับเอกสาร รูปภาพ และแบบฟอร์มประเภทต่างๆ ด้วยความแม่นยำสูง

คุณสมบัติ

โมเดล OCR ของเรามีความสามารถดังต่อไปนี้:

แปลงรูปภาพเป็น PDF เพื่อการประมวลผลแบบรวม
ดึงข้อมูลข้อความและเค้าโครงจาก PDF และรูปภาพ
สร้างข้อความพร้อมสำหรับการประมวลผล OCR ด้วยโมเดล Typhoon OCR
มีเทมเพลตพรอมต์ในตัวสำหรับงานประมวลผลเอกสารประเภทต่างๆ
ประมวลผลหน้าที่ระบุจากเอกสาร PDF หลายหน้า

โมเดลที่มีให้ใช้งาน

ปัจจุบัน เรามีโมเดล OCR ดังต่อไปนี้:

Model ID	คำอธิบาย	สถานะ	ข้อจำกัดอัตราการใช้งาน	วันที่เผยแพร่
`typhoon-ocr`	Typhoon OCR 1.5 (2B)	โมเดลล่าสุด (ให้บริการอยู่บนหน้า Playground)	2 req/s, 20 req/min	2025-11-14
`typhoon-ocr-preview`	Typhoon OCR 1 (7B)	โมเดลรุ่นแรก	2 req/s, 20 req/min	2025-05-19

typhoon-ocr (Typhoon OCR 1.5) เป็นโมเดล OCR รุ่นล่าสุด เราขอแนะนำให้ใช้ตัวนี้ typhoon-ocr-preview ให้บริการ OCR รุ่นแรก สำหรับคนที่เคยใช้งานรุ่นแรกอยู่และยังต้องการใช้ต่อ ทั้งนี้ endpoint นี้จะยุติการให้บริการในวันที่ 31 ธันวาคม 2025 หลังจากนั้นเป็นต้นไป ให้ย้ายไปใช้ endpoint typhoon-ocr

ประเภทไฟล์ที่รองรับ

โมเดล typhoon-ocr รองรับรูปแบบไฟล์ต่อไปนี้:

รูปภาพ: PNG, JPEG
เอกสาร: PDF

เริ่มต้นใช้งาน

ในการใช้โมเดล OCR ของเรา คุณจะต้อง:

ติดตั้งแพ็คเกจที่จำเป็น:

pip install typhoon-ocr

ติดตั้งคำสั่งต่อไปนี้เพิ่มเติมสำหรับ Mac

brew install poppler
# The following binaries are required and provided by poppler:
# - pdfinfo
# - pdftoppm

Linux

sudo apt-get update
sudo apt-get install poppler-utils
# The following binaries are required and provided by poppler-utils:
# - pdfinfo
# - pdftoppm

ตั้งค่าคีย์ API ของคุณเป็นตัวแปรสภาพแวดล้อม:

export TYPHOON_OCR_API_KEY=your_api_key_here

เริ่มใช้ฟังก์ชัน OCR:

from typhoon_ocr import ocr_document

# ตัวอย่างการใช้กับ PDF
markdown = ocr_document(
    pdf_or_image_path="document.pdf",
    page_num=2                         # ประมวลผลหน้าที่ 2 ของ PDF (ค่าเริ่มต้นคือ 1, สำหรับรูปภาพจะเป็น 1 เสมอ)
)

# ตัวอย่างการใช้กับรูปภาพ
markdown = ocr_document(
    pdf_or_image_path="scan.jpg"
)

หมายเหตุ: หากใช้ endpoint typhoon-ocr-preview ซึ่งเรียกใช้โมเดล Typhoon OCR รุ่นดั้งเดิม จะมีพารามิเตอร์ที่ชื่อ task_type ที่ปรับเปลี่ยนค่าได้ระหว่าง default (โหมดที่เหมาะกับเอกสารทั่วไป) หรือ structure (โหมดที่เหมาะกับเอกสารที่มีโครงสร้าง)

แต่สำหรับโมเดล typhoon-ocr (v1.5) พารามิเตอร์นี้ไม่ต้องใช้แล้วเพราะโมเดลใหม่ถูกออกแบบมาให้ใช้ง่ายและให้ผลลัพธ์ที่ดีโดยไม่ต้องระบุค่า

ตัวอย่างการใช้งาน

# ตัวอย่างคำสั่งประมวลผล PDF หน้าที่ 2 - หากคุณต้องการประมวลผลหลายหน้า ให้เขียน Loop ขึ้นมา
markdown = ocr_document(
    pdf_or_image_path="document.pdf",
    page_num=2
)
print(markdown)

# ตัวอย่างคำสั่งประมวลผลรูปภาพ
markdown = ocr_document(
    pdf_or_image_path="invoice.jpg"
)
print(markdown)