Skip to content

โมเดล OCR

OpenTyphoon.ai มีโมเดล OCR เฉพาะทางที่ได้รับการปรับให้เหมาะสมสำหรับการรู้จำข้อความภาษาไทยและการประมวลผลเอกสาร โมเดล OCR ของเราได้รับการออกแบบมาเพื่อจัดการกับเอกสาร, รูปภาพ และแบบฟอร์มประเภทต่างๆ ด้วยความแม่นยำสูง

โมเดลที่มีให้ใช้งาน

ปัจจุบัน เรามีโมเดล OCR ดังต่อไปนี้:

รหัสโมเดลคำอธิบายข้อจำกัดอัตราการใช้งานวันที่เผยแพร่
typhoon-ocrโมเดลเฉพาะทางสำหรับ OCR และการแยกวิเคราะห์เอกสาร2 req/s, 20 req/m2025-05-19

เริ่มต้นใช้งาน

ในการใช้โมเดล OCR ของเรา คุณจะต้อง:

  1. ติดตั้งแพ็คเกจที่จำเป็น:
หน้าต่างเทอร์มินัล
pip install typhoon-ocr
  1. ตั้งค่าคีย์ API ของคุณเป็นตัวแปรสภาพแวดล้อม:
หน้าต่างเทอร์มินัล
export TYPHOON_OCR_API_KEY=your_api_key_here
  1. เริ่มใช้ฟังก์ชัน OCR:
from typhoon_ocr import ocr_document
markdown = ocr_document(
pdf_or_image_path="document.pdf", # ใช้ได้กับ PDF หรือรูปภาพ
task_type="default", # เลือกระหว่าง "default" หรือ "structure"
page_num=2 # ประมวลผลหน้าที่ 2 ของ PDF (ค่าเริ่มต้นคือ 1, สำหรับรูปภาพจะเป็น 1 เสมอ)
)
# หรือกับรูปภาพ
markdown = ocr_document(
pdf_or_image_path="scan.jpg", # ใช้ได้กับ PDF หรือรูปภาพ
task_type="default", # เลือกระหว่าง "default" หรือ "structure"
)

ประเภทไฟล์ที่รองรับ

โมเดล typhoon-ocr รองรับรูปแบบไฟล์ต่อไปนี้:

  • รูปภาพ: PNG, JPEG
  • เอกสาร: PDF
  • เอกสารที่สแกน
  • ภาพถ่ายของเอกสาร

คุณสมบัติ

โมเดล OCR ของเรามีความสามารถดังต่อไปนี้:

  • แปลงรูปภาพเป็น PDF เพื่อการประมวลผลแบบรวม
  • ดึงข้อมูลข้อความและเค้าโครงจาก PDF และรูปภาพ
  • สร้างข้อความพร้อมสำหรับการประมวลผล OCR ด้วยโมเดล Typhoon OCR
  • มีเทมเพลตพรอมต์ในตัวสำหรับงานประมวลผลเอกสารประเภทต่างๆ
  • ประมวลผลหน้าที่ระบุจากเอกสาร PDF หลายหน้า

ตัวอย่างการใช้งาน

นี่คือตัวอย่างที่ละเอียดขึ้นของการใช้โมเดล OCR:

from typhoon_ocr import ocr_document
# ประมวลผลหน้าที่ระบุจาก PDF
markdown = ocr_document(
pdf_or_image_path="document.pdf",
task_type="default",
page_num=2
)
print(markdown)
# ประมวลผลรูปภาพด้วยผลลัพธ์แบบมีโครงสร้าง
markdown = ocr_document(
pdf_or_image_path="invoice.jpg",
task_type="structure"
)
print(markdown)

ขั้นตอนถัดไป