คำแนะนำด้านฮาร์ดแวร์ในการโฮสต์และรัน Inference

คู่มือนี้ช่วยให้คุณเข้าใจ ฮาร์ดแวร์ขั้นต่ำที่ต้องใช้ รวมถึงผลทดสอบและคำแนะนำสำหรับการทำ inference (การใช้งาน) โมเดล Typhoon
อัปเดตล่าสุด: 14 พฤศจิกายน 2025
สเปกขั้นต่ำในการรันโมเดล Typhoon
Section titled “สเปกขั้นต่ำในการรันโมเดล Typhoon”Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”- ใช้เพียง RAM 8 GB และ CPU; ยิ่งมีคอร์ CPU มาก ยิ่งรองรับ concurrency ได้มากขึ้น
Typhoon 2.1 Gemma 12B
Section titled “Typhoon 2.1 Gemma 12B”เมื่อ deploy โมเดลขนาดใหญ่ขึ้น เช่น Typhoon OCR (7B) และ Typhoon 2.1 Gemma (12B) บนคลาวด์ การเลือก GPU จะสำคัญมากเพราะต้องการ VRAM และคอมพิวต์สูง ผู้ให้บริการคลาวด์แต่ละรายมีตระกูล GPU ต่างกัน และความพร้อมใช้งานอาจแตกต่างตามภูมิภาค
-
AWS → มี L4 ให้เลือกใช้ เหมาะกับงาน inference ที่ต้องการ throughput สูง และมี A100/H100 ในบาง region สำหรับงานที่ต้องการ latency ต่ำหรืองานขนาดใหญ่
-
GCP → มี L4 เป็นตัวเลือกหลักสำหรับ inference และมี A100/H100 สำหรับงานระดับเอนเตอร์ไพรซ์
-
Azure → โดยทั่วไปมี A100 เป็นมาตรฐานสำหรับโมเดลขนาดนี้ และมี H100 ในบาง regionสำหรับงานที่หนักขึ้น
สรุปการเลือกใช้งานจริง:
-
ถ้าใช้ AWS หรือ GCP แนะนำ L4 เป็นตัวเลือกหลักสำหรับงานโปรดักชัน
-
ถ้าใช้ Azure มักต้อง A100
-
งานระดับองค์กรที่ต้องการสเกลสูง ทุกคลาวด์มี A100/H100 ให้เลือก แต่ค่าใช้จ่ายสูงกว่า
Typhoon OCR (2B, 3B, 7B)
Section titled “Typhoon OCR (2B, 3B, 7B)”โมเดลใหม่ Typhoon OCR 1.5 (2B) มีขนาดที่เล็กลงและมีประสิทธิภาพมากขึ้น
รายละเอียด:
Typhoon OCR 1.5 (2B) — รุ่นแนะนำเริ่มต้น
Section titled “Typhoon OCR 1.5 (2B) — รุ่นแนะนำเริ่มต้น”รองรับการรันบน:
-
เซิร์ฟเวอร์ที่ใช้ CPU อย่างเดียว (ความเร็วต่ำกว่า)
-
Mac M1/M2 (RAM 8–16 GB)
-
การ์ดจอระดับคอนซูเมอร์ (RTX 3060/4060 ขึ้นไป)
-
Cloud GPU L4 (คุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ)
ความต้องการ VRAM: 8–12 GB
เหมาะสำหรับ:
-
งานปริมาณสูงที่ต้องการ Throughput ดี
-
องค์กรที่ต้องคุมต้นทุน
-
ระบบ OCR แบบเรียลไทม์
-
การรันในองค์กรที่ไม่มี GPU ใหญ่
จุดเด่นสำคัญ:
-
Throughput สูงกว่า OCR 3B ถึง 2–3 เท่า
-
ต้นทุนการรันต่ำลงมากบน L4, A100, H100
เปรียบเทียบรุ่นเดิมและรุ่นใหม่
| Model | Parameters | VRAM Needed | Hardware Tier | Notes |
|---|---|---|---|---|
| Typhoon OCR 1.5 (2B) | 2B | 8–12 GB | CPU / Mac / L4 / Mid-range GPUs | คุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ (รุ่นแนะนำ) |
| Typhoon OCR 3B | 3B | 12–16 GB | Mac 16GB / RTX 30xx+ / L4 | โมเดลเล็กในรุ่นเดิม |
| Typhoon OCR 7B | 7B | ≥24 GB | RTX 4090 / A100 / H100 | โมเดลรุ่นเดิมขนาดใหญ่ขึ้น |
แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon
Section titled “แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon”| โมเดล | ขนาด | 💻 แล็ปท็อปหรือ Consumer GPU ขนาดเล็กพอไหม? | สเปกที่แนะนำสำหรับงานโปรดักชัน | GPU บนคลาวด์ที่ใกล้เคียง ☁️ | หมายเหตุ |
|---|---|---|---|---|---|
| Typhoon ASR Real-Time | ~1B | ✅ รันบนแล็ปท็อปที่ใช้ CPU ได้ หากมี RAM ≥ 8 GB | เซิร์ฟเวอร์ CPU (เพิ่ม core = เพิ่ม concurrency) | ไม่จำเป็นต้องใช้ GPU | โมเดลนี้น้ำหนักเบา ปรับให้เหมาะกับ CPU |
| Typhoon OCR 1.5 (2B) | 2B | ✅ 8–12 GB | CPU / Mac / Mid-range GPUs | L4 | บาลานซ์ที่ดีระหว่างความสามารถและประสิทธิภาพ |
| Typhoon Text (Gemma 2.1) | 12B | ⚠️ รันได้บน RTX 3090/4090 (≥24 GB); รันบนแล็ปท็อปผ่าน quantized version | A100 40GB, L4, หรือ Enterprise GPU | AWS L4, GCP L4, Azure A100 | เหมาะกับโปรดักชันที่ยอมรับ latency ระดับกลาง |
| Typhoon Text (Typhoon 2.5) | 30B | ⚠️ รันได้บนแล็ปท็อปที่มี RAM สูง (≥32 GB) ผ่าน Ollama quantized version (รันบน CPU เท่านั้น) | A100 80GB, H100 80GB | AWS/GCP/Azure A100 หรือ H100 | โมเดล 30B สำหรับงานโปรดักชันควรรันบน A100/H100 เหมาะที่สุดบน H100 |
ผลทดสอบรัน Typhoon บน GPU ยอดนิยม
Section titled “ผลทดสอบรัน Typhoon บน GPU ยอดนิยม”เราทดสอบบน GPU ของ NVIDIA ที่ใช้กันแพร่หลายบนคลาวด์ ได้แก่
- RTX 2000 Ada (16 GB VRAM)
- L4 (24 GB VRAM)
- A100 (80 GB VRAM)
- H100 (80 GB VRAM)
หมายเหตุ: GPU เหล่านี้ ไม่ใช่ ตัวเลือกเดียวที่รองรับ Typhoon การ์ดที่สเปกใกล้เคียงกันควรให้ผลลัพธ์ใกล้เคียง
ตัวชี้วัด (Metrics) ในการทดสอบ
-
**Throughput Metrics: **
- Requests / sec
- Tokens / sec
-
Latency Metrics:
- Avg Latency (sec)
- Avg TTFT (เวลาได้โทเค็นแรก) (วินาที)
-
**Cost Metrics: **
- ค่าใช้จ่าย/ล้านโทเคน (ดอลล่าร์)
- ค่าใช้จ่าย/คำขอ (Cost/request)
-
Resource Metrics:
- Peak Memory (MB)
- Avg CPU (%)
เราได้ทำการทดสอบโดยการตั้งสมมติฐานการใช้งานโมเดล ดังรายละเอียดต่อจากนี้ ผลลัพธ์จริงของคุณอาจต่างออกไปตามเวิร์กโหลดและการตั้งค่า
RTX 2000 Ada (16 GB VRAM)
Section titled “RTX 2000 Ada (16 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง (RunPod): $0.25
สรุป:
เหมาะสำหรับ ASR/OCR ที่ต้องการประหยัด และงานทดสอบ/พัฒนา ใช้ต้นทุนต่ำมาก OCR ทำงานได้ดี แต่ LLM มี latency สูง ไม่เหมาะกับโมเดลข้อความขนาดใหญ่
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 8,000
-
สมมติฐานที่ใช้ทดสอบ: prompt 512 tokens + response 512 tokens
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.04 | 14.5 | 28.1 | 0.5 | $0.0020 | $2.06 | 1047.0 | 7.3 |
| 4 | 0.11 | 50.0 | 34.5 | 0.4 | $0.0006 | $0.63 | 894.5 | 23.1 |
| 8 | 0.12 | 56.1 | 63.7 | 18.9 | $0.0006 | $0.58 | 897.5 | 13.8 |
Typhoon OCR 1.5 (2B)
Section titled “Typhoon OCR 1.5 (2B)”-
Max context length: 16,000
-
Assumption: 1 input image → ~512 tokens output
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M Tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.20 | 45.22 | 4.898 | 0.164 | $0.00030 | $1.495300 | 812.4 | 16.5 |
| 17 | 1.96 | 436.22 | 8.161 | 0.882 | $0.00000 | $0.155000 | 1150.2 | 17.7 |
| 32 | 2.46 | 548.15 | 11.490 | 1.871 | $0.00000 | $0.123400 | 1122.3 | 17.4 |
Typhoon OCR 3B
Section titled “Typhoon OCR 3B”-
**Max context length: **16,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.06 | 30.8 | 16.5 | 0.18 | $0.0012 | $2.23 | 858.4 | 8.7 |
| 17 | 0.86 | 382.9 | 17.3 | 0.44 | $0.0001 | $0.18 | 1248.3 | 16.2 |
| 32 | 1.34 | 678.9 | 21.7 | 0.84 | $0.00004 | $0.10 | 1656.3 | 23.4 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”| Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
|---|---|---|---|
| 1 | 402.4 | 402.4 | $0.0006 |
| 64 | 981.1 | 981.1 | $0.0003 |
L4 (24 GB VRAM)
Section titled “L4 (24 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $0.71 (GCP ใช้คำนวณต้นทุนตามตาราง) | $0.42 (RunPod ใช้ทดสอบ)
สรุป:
ถือเป็นสมดุลที่ดีสำหรับงานโปรดักชัน คุ้มค่าสำหรับ LLM (12B) ที่ concurrency 16–32 และ OCR ก็ทำงานได้ดีมาก อีกทั้งยังเป็น GPU ที่ประหยัดสุดสำหรับ ASR บนคลาวด์
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 16,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.03 | 16.4 | 28.5 | 0.51 | $0.0057 | $5.62 | 918.8 | 13.7 |
| 16 | 0.36 | 168.3 | 41.2 | 0.51 | $0.0005 | $0.54 | 900.4 | 12.6 |
| 32 | 0.47 | 218.9 | 63.8 | 6.49 | $0.0004 | $0.41 | 900.3 | 14.4 |
Typhoon OCR 1.5 (2B)
Section titled “Typhoon OCR 1.5 (2B)”-
Max context length: 16,000
-
Assumption: 1 input image → ~512 tokens output
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M Tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.22 | 49.16 | 4.497 | 0.267 | $0.00050 | $2.200800 | 797.8 | 10.4 |
| 17 | 2.17 | 484.49 | 7.234 | 0.976 | $0.00010 | $0.223300 | 1194.6 | 8.7 |
| 32 | 2.96 | 660.44 | 9.898 | 2.185 | $0.00000 | $0.163800 | 1251.1 | 7.8 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 16,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.04 | 16.4 | 27.5 | 0.81 | $0.0054 | $11.88 | 858.5 | 11.5 |
| 17 | 0.53 | 211.4 | 30.2 | 0.46 | $0.0004 | $0.92 | 1270.3 | 13.3 |
| 32 | 0.84 | 391.7 | 35.4 | 1.53 | $0.0002 | $0.50 | 1490.0 | 13.1 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”| Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
|---|---|---|---|
| 1 | 312.8 | 312.8 | $0.0023 |
| 64 | 1096.0 | 1096.0 | $0.0006 |
A100 (80 GB VRAM)
Section titled “A100 (80 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $3.67 (อ้างอิงราคาจาก Azure) | $1.19 (RunPod ใช้ทดสอบ)
สรุป:
เหมาะกับงานองค์กร/เอนเตอร์ไพรซ์ ขยายสเกลได้ดีทั้ง LLM และ OCR มี latency ต่ำและ throughput สูง ค่าบริการต่อชั่วโมงค่อนข้างสูง จึงคุ้มเมื่อ ใช้งานต่อเนื่องเต็มโหลด
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 50,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.13 | 64.3 | 7.7 | 0.36 | $0.0079 | $7.62 | 902.8 | 10.7 |
| 16 | 1.32 | 625.8 | 11.3 | 0.31 | $0.0008 | $0.76 | 902.4 | 9.2 |
| 32 | 1.89 | 879.5 | 16.1 | 0.42 | $0.0005 | $0.53 | 903.5 | 9.9 |
| 64 | 2.21 | 1033.4 | 27.8 | 0.77 | $0.0005 | $0.45 | 904.6 | 13.1 |
Typhoon OCR 1.5 (2B)
Section titled “Typhoon OCR 1.5 (2B)”-
Max context length: 16,000
-
Assumption: 1 input image → ~512 tokens output
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M Tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.69 | 154.06 | 1.404 | 0.173 | $0.00070 | $3.072600 | 785.1 | 4.6 |
| 17 | 4.63 | 1032.01 | 3.225 | 1.199 | $0.00010 | $0.458700 | 1112.6 | 5.2 |
| 32 | 5.53 | 1232.65 | 5.043 | 2.440 | $0.00010 | $0.384000 | 1109.9 | 4.8 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 32,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.14 | 66.7 | 6.9 | 1.09 | $0.0071 | $15.08 | 722.9 | 12.0 |
| 16 | 1.98 | 917.9 | 7.4 | 0.49 | $0.0005 | $1.10 | 1080.3 | 5.7 |
| 32 | 3.82 | 1327.5 | 7.6 | 0.90 | $0.0003 | $0.75 | 1406.1 | 12.8 |
| 64 | 4.31 | 1848.0 | 12.3 | 3.14 | $0.0002 | $0.54 | 1926.9 | 12.4 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”| Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
|---|---|---|---|
| 1 | 57.8 | 57.8 | $0.0635 |
| 64 | 117.4 | 117.4 | $0.0313 |
H100 (80 GB VRAM)
Section titled “H100 (80 GB VRAM)”💵 ค่าใช้จ่ายต่อชั่วโมง: $2.50 (อ้างอิงราคาจาก Together.ai)
สรุป:
แรงสุดและคุ้มค่าที่สุดต่อโทเค็น ดีที่สุดสำหรับทั้ง LLM และ OCR (เร็วที่สุด + cost/1M tokens ต่ำสุด) ส่วน ASR แม้ยังถูก แต่ ไม่คุ้มเท่า L4 เพราะราคาต่อชั่วโมงสูงกว่า
Typhoon 2.1 Gemma3 12B
Section titled “Typhoon 2.1 Gemma3 12B”-
Max context length: 50,000
-
สมมติฐาน: prompt 512 tokens + response 512 tokens
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.16 | 75.95 | 6.28 | 0.05 | $0.0037 | $4.30 | 1110.9 | 13.9 |
| 16 | 1.72 | 1016.1 | 8.48 | 0.14 | $0.0004 | $0.39 | 1112.6 | 14.2 |
| 32 | 3.05 | 1428.3 | 9.70 | 0.20 | $0.0002 | $0.22 | 1112.9 | 14.2 |
| 64 | 4.60 | 2117.7 | 13.09 | 0.76 | $0.0002 | $0.15 | 1113.6 | 13.4 |
Typhoon OCR 1.5 (2B)
Section titled “Typhoon OCR 1.5 (2B)”-
Max context length: 16,000
-
Assumption: 1 input image → ~512 tokens output
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M Tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.92 | 206.26 | 1.026 | 0.225 | $0.00080 | $3.540900 | 797.8 | 6.4 |
| 17 | 7.68 | 1713.36 | 1.970 | 0.808 | $0.00010 | $0.426300 | 1084.0 | 5.7 |
| 32 | 9.42 | 2099.99 | 2.905 | 1.528 | $0.00010 | $0.347800 | 1227.9 | 6.4 |
Typhoon OCR 7B
Section titled “Typhoon OCR 7B”-
Max context length: 32,000
-
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.23 | 109.7 | 4.3 | 1.06 | $0.0030 | $6.25 | 924.9 | 15.0 |
| 16 | 3.32 | 1571.4 | 4.5 | 0.45 | $0.0002 | $0.44 | 1403.2 | 15.0 |
| 32 | 5.92 | 2702.1 | 4.9 | 0.69 | $0.0001 | $0.25 | 1683.2 | 15.7 |
| 64 | 7.24 | 3370.1 | 7.4 | 2.74 | $0.0001 | $0.20 | 2016.4 | 16.6 |
| 128 | 6.81 | 3104.9 | 14.2 | 7.55 | $0.0001 | $0.22 | 2545.1 | 27.0 |
Typhoon 2.5 30B A3B
Section titled “Typhoon 2.5 30B A3B”-
Max context length: 32,000
-
สมมติฐาน: prompt 534 tokens + response ~435 tokens
BF16 Precision:
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 1 | 0.31 | 149.4 | 3.2 | 0.12 | $0.0022 | $2.19 | 919.3 | 30.9 |
| 16 | 2.40 | 1044.8 | 6.2 | 0.30 | $0.0003 | $0.30 | 921.2 | 21.8 |
| 32 | 3.96 | 1718.3 | 7.4 | 0.23 | $0.0002 | $0.18 | 921.4 | 21.5 |
| 64 | 5.92 | 2616.1 | 10.0 | 0.51 | $0.0001 | $0.12 | 923.5 | 19.7 |
| 128 | 8.12 | 3574.4 | 14.6 | 1.44 | $0.0001 | $0.09 | 930.8 | 41.8 |
| 256 | 7.91 | 3442.4 | 29.0 | 13.0 | $0.0001 | $0.09 | 932.9 | 47.1 |
FP8 Precision (Throughput สูงกว่า):
| Concurrency | Requests/sec | Tokens/sec | Avg Latency (s) | Avg TTFT (s) | Cost / Req | Cost / 1M tokens | Peak Mem (MB) | Avg CPU % |
|---|---|---|---|---|---|---|---|---|
| 32 | 4.41 | 1966.4 | 6.7 | 0.25 | $0.0002 | $0.16 | 904.6 | 62.5 |
| 64 | 6.97 | 2959.6 | 8.5 | 0.42 | $0.0001 | $0.10 | 906.2 | 65.9 |
Typhoon ASR Real-Time
Section titled “Typhoon ASR Real-Time”| Concurrency | Throughput (audio sec / sec) | iRTF | Est. Cost / 1h audio |
|---|---|---|---|
| 1 | 416.5 | 416.5 | $0.0060 |
| 64 | 1416.0 | 1416.0 | $0.0018 |
ภาพรวมการเปรียบเทียบ GPU (ประสิทธิภาพสูงสุดแต่ละรุ่น)
Section titled “ภาพรวมการเปรียบเทียบ GPU (ประสิทธิภาพสูงสุดแต่ละรุ่น)”| GPU (VRAM) | ค่าใช้ต่อชั่วโมง | LLM (Gemma 12B) – Concurrency ที่ดีที่สุด | Req/sec | Tokens/sec | Cost / 1M Tokens | OCR 1.5 (2B) – Concurrency ที่ดีที่สุด | Req/sec | Tokens/sec | Cost / 1M Tokens | ASR – Concurrency ที่ดีที่สุด | Throughput (audio sec/sec) | ราคา $ / 1 ชม.เสียง |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RTX 2000 Ada (16 GB) | $0.25 | 8 | 0.12 | 56.4 | $0.57 | 32 | 2.46 | 548.15 | $0.1234 | 64 | 981.1 | $0.0003 |
| L4 (24 GB) | $0.71 | 32 | 0.35 | 160.0 | $0.57 | 32 | 2.96 | 660.44 | $0.1638 | 64 | 1096.0 | $0.0006 |
| A100 (80 GB) | $3.67 | 32 | 1.46 | 725.6 | $0.67 | 32 | 5.53 | 1232.65 | $0.3840 | 64 | 117.4 | $0.0313 |
| H100 (80 GB) | $2.50 | 64 | 2.84 | 1340.5 | $0.24 | 32 | 9.42 | 2099.99 | $0.3478 | 64 | 1416.0 | $0.0018 |
**คุ้มค่าที่สุดสำหรับ LLM: **H100 ยังเป็นตัวเลือกที่ดีที่สุด — ให้ Throughput สูงสุดและต้นทุนต่อโทเคนต่ำที่สุดสำหรับ Typhoon 2.1 Gemma 12B
คุ้มค่าที่สุดสำหรับ OCR (Typhoon OCR 1.5, 2B):
- L4 ให้สมดุลราคาต่อประสิทธิภาพดีที่สุด เหมาะสำหรับโปรดักชันส่วนใหญ่
- RTX 2000 Ada คุ้มแบบเหนือความคาดหมาย ต้นทุนต่อ 1M tokens ต่ำมาก เหมาะกับงานขนาดเล็ก–กลาง
- H100 / A100 ทำ Throughput สูงสุด เหมาะกับเวิร์กโหลดระดับองค์กรที่ต้องการประมวลผลจำนวนมาก
คุ้มค่าที่สุดสำหรับ ASR:
RTX 2000 Ada และ L4 มีต้นทุนต่อชั่วโมงเสียงต่ำที่สุด เหมาะสำหรับระบบเรียลไทม์และงานทรานสคริปต์แบบงานจำนวนมาก
รายละเอียดการตั้งค่าอื่น ๆ
Section titled “รายละเอียดการตั้งค่าอื่น ๆ”เพื่อความสม่ำเสมอ การทดสอบทั้งหมดใช้การตั้งค่าดังนี้
Inference engine: vLLM เวอร์ชัน v0.10.1.1
รีโป/สคริปต์ทดสอบ: scb-10x/all-in-one-pref-benchmark