คำแนะนำด้านฮาร์ดแวร์ในการโฮสต์และรัน Inference
คู่มือนี้ช่วยให้คุณเข้าใจ ฮาร์ดแวร์ขั้นต่ำที่ต้องใช้ รวมถึงผลทดสอบและคำแนะนำสำหรับการทำ inference (การใช้งาน) โมเดล Typhoon
อัปเดตล่าสุด: กันยายน 2025
สเปกขั้นต่ำในการรันโมเดล Typhoon
Section titled “สเปกขั้นต่ำในการรันโมเดล Typhoon”Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”- ใช้เพียง RAM 8 GB และ CPU; ยิ่งมีคอร์ CPU มาก ยิ่งรองรับ concurrency ได้มากขึ้น
Typhoon OCR และ Typhoon 2.1 Gemma 12B
Section titled “Typhoon OCR และ Typhoon 2.1 Gemma 12B”เมื่อ deploy โมเดลขนาดใหญ่ขึ้น เช่น Typhoon OCR (7B) และ Typhoon 2.1 Gemma (12B) บนคลาวด์ การเลือก GPU จะสำคัญมากเพราะต้องการ VRAM และคอมพิวต์สูง ผู้ให้บริการคลาวด์แต่ละรายมีตระกูล GPU ต่างกัน และความพร้อมใช้งานอาจแตกต่างตามภูมิภาค
-
AWS → มี L4 ให้เลือกใช้ เหมาะกับงาน inference ที่ต้องการ throughput สูง และมี A100/H100 ในบาง region สำหรับงานที่ต้องการ latency ต่ำหรืองานขนาดใหญ่
-
GCP → มี L4 เป็นตัวเลือกหลักสำหรับ inference และมี A100/H100 สำหรับงานระดับเอนเตอร์ไพรซ์
-
Azure → โดยทั่วไปมี A100 เป็นมาตรฐานสำหรับโมเดลขนาดนี้ และมี H100 ในบาง regionสำหรับงานที่หนักขึ้น
สรุปการเลือกใช้งานจริง:
-
ถ้าใช้ AWS หรือ GCP แนะนำ L4 เป็นตัวเลือกหลักสำหรับงานโปรดักชัน
-
ถ้าใช้ Azure มักต้อง A100
-
งานระดับองค์กรที่ต้องการสเกลสูง ทุกคลาวด์มี A100/H100 ให้เลือก แต่ค่าใช้จ่ายสูงกว่า
แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon
Section titled “แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon”โมเดล | ขนาด | 💻 แล็ปท็อปหรือ Consumer GPU ขนาดเล็กพอไหม? | สเปกที่แนะนำสำหรับงานโปรดักชัน | GPU บนคลาวด์ที่ใกล้เคียง ☁️ | หมายเหตุ |
---|---|---|---|---|---|
Typhoon ASR Real-Time | ~1B | ✅ รันบนแล็ปท็อปที่ใช้ CPU ได้ หากมี RAM ≥ 8 GB | เซิร์ฟเวอร์ CPU (เพิ่ม core = เพิ่ม concurrency) | ไม่จำเป็นต้องใช้ GPU | โมเดลนี้น้ำหนักเบา ปรับให้เหมาะกับ CPU |
Typhoon OCR | 3B | ✅ Mac M1/M2 (RAM 16 GB) หรือ RTX 3060+ | เซิร์ฟเวอร์ CPU RAM 16 GB หรือ GPU ระดับกลาง (≥16 GB) | GPU ขนาดเล็ก (เช่น AWS T4, L4) | ใช้ GPU จะช่วยเพิ่ม throughput ได้มาก แต่ CPU ก็ใช้งานได้ |
Typhoon OCR | 7B | ⚠️ ต้องใช้ GPU VRAM สูง (RTX 4090, ≥24 GB) | A100 40GB, L4, หรือ Enterprise GPU | AWS L4, GCP L4, Azure A100 | งาน OCR ขนาดใหญ่ ไม่เหมาะกับแล็ปท็อประดับล่าง |
Typhoon Text (Gemma 2.1) | 12B | ⚠️ รันได้บน RTX 3090/4090 (≥24 GB); รันบนแล็ปท็อปผ่าน quantized version | A100 40GB, L4, หรือ Enterprise GPU | AWS L4, GCP L4, Azure A100 | เหมาะกับโปรดักชันที่ยอมรับ latency ระดับกลาง |
ผลทดสอบรัน Typhoon บน GPU ยอดนิยม
Section titled “ผลทดสอบรัน Typhoon บน GPU ยอดนิยม”เราทดสอบบน GPU ของ NVIDIA ที่ใช้กันแพร่หลายบนคลาวด์ ได้แก่
- RTX 2000 Ada (16 GB VRAM)
- L4 (24 GB VRAM)
- A100 (80 GB VRAM)
- H100 (80 GB VRAM)
หมายเหตุ: GPU เหล่านี้ ไม่ใช่ ตัวเลือกเดียวที่รองรับ Typhoon การ์ดที่สเปกใกล้เคียงกันควรให้ผลลัพธ์ใกล้เคียง
ตัวชี้วัด (Metrics) ในการทดสอบ
-
**Throughput Metrics: **
- Requests / sec
- Tokens / sec
-
Latency Metrics:
- Avg Latency (sec)
- Avg TTFT (เวลาได้โทเค็นแรก) (วินาที)
-
**Cost Metrics: **
- ค่าใช้จ่าย/ล้านโทเคน (ดอลล่าร์)
- ค่าใช้จ่าย/คำขอ (Cost/request)
-
Resource Metrics:
- Peak Memory (MB)
- Avg CPU (%)
เราได้ทำการทดสอบโดยการตั้งสมมติฐานการใช้งานโมเดล ดังรายละเอียดต่อจากนี้ ผลลัพธ์จริงของคุณอาจต่างออกไปตามเวิร์กโหลดและการตั้งค่า
RTX 2000 Ada (16 GB VRAM)
Section titled “RTX 2000 Ada (16 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง (RunPod): $0.25
สรุป:
เหมาะสำหรับ ASR/OCR ที่ต้องการประหยัด และงานทดสอบ/พัฒนา ใช้ต้นทุนต่ำมาก OCR ทำงานได้ดี แต่ LLM มี latency สูง ไม่เหมาะกับโมเดลข้อความขนาดใหญ่
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 8,000
-
สมมติฐานที่ใช้ทดสอบ: prompt 512 tokens + response 512 tokens
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.03 | 13.8 | 30.8 | 2.2 | $0.0021 | $2.22 | 1047.0 | 7.3 |
8 | 0.12 | 56.4 | 62.0 | 21.8 | $0.0006 | $0.57 | 897.5 | 13.8 |
16 | 0.11 | 52.5 | 131.6 | 90.9 | $0.0006 | $0.61 | 897.3 | 13.0 |
Typhoon OCR 3B
Section titled “Typhoon OCR 3B”-
**Max context length: **16,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.06 | 30.8 | 16.5 | 0.18 | $0.0012 | $2.23 | 858.4 | 8.7 |
17 | 0.86 | 382.9 | 17.3 | 0.44 | $0.0001 | $0.18 | 1248.3 | 16.2 |
32 | 1.34 | 678.9 | 21.7 | 0.84 | $0.00004 | $0.10 | 1656.3 | 23.4 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
---|---|---|---|
1 | 402.4 | 402.4 | $0.0006 |
64 | 981.1 | 981.1 | $0.0003 |
L4 (24 GB VRAM)
Section titled “L4 (24 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $0.71 (GCP ใช้คำนวณต้นทุนตามตาราง) | $0.42 (RunPod ใช้ทดสอบ)
สรุป:
ถือเป็นสมดุลที่ดีสำหรับงานโปรดักชัน คุ้มค่าสำหรับ LLM (12B) ที่ concurrency 16–32 และ OCR ก็ทำงานได้ดีมาก อีกทั้งยังเป็น GPU ที่ประหยัดสุดสำหรับ ASR บนคลาวด์
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 16,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.03 | 16.3 | 28.5 | 0.63 | $0.0056 | $5.62 | 918.8 | 13.7 |
16 | 0.30 | 142.2 | 51.7 | 8.7 | $0.0007 | $0.65 | 900.4 | 12.6 |
32 | 0.35 | 160.0 | 86.0 | 17.1 | $0.0006 | $0.57 | 900.3 | 6.1 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 16,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.04 | 16.4 | 27.5 | 0.81 | $0.0054 | $11.88 | 858.5 | 11.5 |
17 | 0.53 | 211.4 | 30.2 | 0.46 | $0.0004 | $0.92 | 1270.3 | 13.3 |
32 | 0.84 | 391.7 | 35.4 | 1.53 | $0.0002 | $0.50 | 1490.0 | 13.1 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
---|---|---|---|
1 | 312.8 | 312.8 | $0.0023 |
64 | 1096.0 | 1096.0 | $0.0006 |
A100 (80 GB VRAM)
Section titled “A100 (80 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $3.67 (อ้างอิงราคาจาก Azure) | $1.19 (RunPod ใช้ทดสอบ)
สรุป:
เหมาะกับงานองค์กร/เอนเตอร์ไพรซ์ ขยายสเกลได้ดีทั้ง LLM และ OCR มี latency ต่ำและ throughput สูง ค่าบริการต่อชั่วโมงค่อนข้างสูง จึงคุ้มเมื่อ ใช้งานต่อเนื่องเต็มโหลด
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 50,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.10 | 43.2 | 10.1 | 0.62 | $0.0103 | $10.61 | 902.8 | 10.7 |
16 (run 1) | 0.35 | 162.3 | 43.7 | 12.1 | $0.0029 | $2.89 | 903.0 | 10.1 |
16 (run 2) | 0.96 | 477.1 | 15.6 | 0.81 | $0.0011 | $1.03 | 902.4 | 9.2 |
32 | 1.46 | 725.6 | 20.4 | 0.44 | $0.0007 | $0.67 | 903.5 | 9.9 |
64 | 1.80 | 900.5 | 32.0 | 1.14 | $0.0006 | $0.55 | 904.6 | 13.1 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 32,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.14 | 66.7 | 6.9 | 1.09 | $0.0071 | $15.08 | 722.9 | 12.0 |
16 | 1.98 | 917.9 | 7.4 | 0.49 | $0.0005 | $1.10 | 1080.3 | 5.7 |
32 | 3.82 | 1327.5 | 7.6 | 0.90 | $0.0003 | $0.75 | 1406.1 | 12.8 |
64 | 4.31 | 1848.0 | 12.3 | 3.14 | $0.0002 | $0.54 | 1926.9 | 12.4 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
---|---|---|---|
1 | 57.8 | 57.8 | $0.0635 |
64 | 117.4 | 117.4 | $0.0313 |
H100 (80 GB VRAM)
Section titled “H100 (80 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $2.50 (อ้างอิงราคาจาก Together.ai)
สรุป:
แรงสุดและคุ้มค่าที่สุดต่อโทเค็น ดีที่สุดสำหรับทั้ง LLM และ OCR (เร็วที่สุด + cost/1M tokens ต่ำสุด) ส่วน ASR แม้ยังถูก แต่ ไม่คุ้มเท่า L4 เพราะราคาต่อชั่วโมงสูงกว่า
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 50,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.19 | 90.5 | 5.3 | 1.01 | $0.0037 | $3.61 | 1110.9 | 13.9 |
16 | 1.47 | 708.8 | 10.3 | 3.08 | $0.0005 | $0.46 | 1112.6 | 14.2 |
32 | 2.42 | 1131.7 | 12.5 | 4.62 | $0.0003 | $0.29 | 1112.9 | 14.2 |
64 | 2.84 | 1340.5 | 19.9 | 10.4 | $0.0002 | $0.24 | 1113.6 | 13.4 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 32,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
---|---|---|---|---|---|---|---|---|
1 | 0.23 | 109.7 | 4.3 | 1.06 | $0.0030 | $6.25 | 924.9 | 15.0 |
16 | 3.32 | 1571.4 | 4.5 | 0.45 | $0.0002 | $0.44 | 1403.2 | 15.0 |
32 | 5.92 | 2702.1 | 4.9 | 0.69 | $0.0001 | $0.25 | 1683.2 | 15.7 |
64 | 7.24 | 3370.1 | 7.4 | 2.74 | $0.0001 | $0.20 | 2016.4 | 16.6 |
128 | 6.81 | 3104.9 | 14.2 | 7.55 | $0.0001 | $0.22 | 2545.1 | 27.0 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
---|---|---|---|
1 | 416.5 | 416.5 | $0.0060 |
64 | 1416.0 | 1416.0 | $0.0018 |
GPU Comparison Overview (Best-Case Results)
Section titled “GPU Comparison Overview (Best-Case Results)”GPU (VRAM) | Hourly Cost | LLM (Gemma 12B) – Best Concurrency | Req/sec | Tokens/sec | Cost / 1M Tokens | OCR (7B/3B) – Best Concurrency | Req/sec | Tokens/sec | Cost / 1M Tokens | ASR – Best Concurrency | Throughput (audio sec/sec) | Est. $ / 1h Audio |
---|---|---|---|---|---|---|---|---|---|---|---|---|
RTX 2000 Ada (16 GB) | $0.25 | 8 | 0.12 | 56.4 | $0.57 | 32 (OCR 3B) | 1.34 | 678.9 | $0.10 | 64 | 981.1 | $0.0003 |
L4 (24 GB) | $0.71 | 32 | 0.35 | 160.0 | $0.57 | 32 (OCR 7B) | 0.84 | 391.7 | $0.50 | 64 | 1096.0 | $0.0006 |
A100 (80 GB) | $3.67 | 32 | 1.46 | 725.6 | $0.67 | 64 (OCR 7B) | 4.31 | 1848.0 | $0.54 | 64 | 117.4 | $0.0313 |
H100 (80 GB) | $2.50 | 64 | 2.84 | 1340.5 | $0.24 | 64 (OCR 7B) | 7.24 | 3370.1 | $0.20 | 64 | 1416.0 | $0.0018 |
สรุปสั้นๆ:
Section titled “สรุปสั้นๆ:”-
LLM คุ้มสุด: H100 (เร็วและต้นทุนต่อโทเค็นต่ำสุด)
-
OCR คุ้มสุด: H100 (throughput สูงมาก) ตามด้วย A100 สำหรับงานสเกลใหญ่
-
ASR คุ้มสุด: RTX 2000 Ada และ L4 (ต้นทุนต่อชั่วโมงเสียงถูกมาก)
รายละเอียดการตั้งค่าอื่น ๆ
Section titled “รายละเอียดการตั้งค่าอื่น ๆ”เพื่อความสม่ำเสมอ การทดสอบทั้งหมดใช้การตั้งค่าดังนี้
Inference engine: vLLM เวอร์ชัน v0.10.1.1
รีโป/สคริปต์ทดสอบ: scb-10x/all-in-one-pref-benchmark