Skip to content

คำแนะนำด้านฮาร์ดแวร์ในการโฮสต์และรัน Inference

คู่มือนี้ช่วยให้คุณเข้าใจ ฮาร์ดแวร์ขั้นต่ำที่ต้องใช้ รวมถึงผลทดสอบและคำแนะนำสำหรับการทำ inference (การใช้งาน) โมเดล Typhoon

อัปเดตล่าสุด: กันยายน 2025

สเปกขั้นต่ำในการรันโมเดล Typhoon

Section titled “สเปกขั้นต่ำในการรันโมเดล Typhoon”
  • ใช้เพียง RAM 8 GB และ CPU; ยิ่งมีคอร์ CPU มาก ยิ่งรองรับ concurrency ได้มากขึ้น

Typhoon OCR และ Typhoon 2.1 Gemma 12B

Section titled “Typhoon OCR และ Typhoon 2.1 Gemma 12B”

เมื่อ deploy โมเดลขนาดใหญ่ขึ้น เช่น Typhoon OCR (7B) และ Typhoon 2.1 Gemma (12B) บนคลาวด์ การเลือก GPU จะสำคัญมากเพราะต้องการ VRAM และคอมพิวต์สูง ผู้ให้บริการคลาวด์แต่ละรายมีตระกูล GPU ต่างกัน และความพร้อมใช้งานอาจแตกต่างตามภูมิภาค

  • AWS → มี L4 ให้เลือกใช้ เหมาะกับงาน inference ที่ต้องการ throughput สูง และมี A100/H100 ในบาง region สำหรับงานที่ต้องการ latency ต่ำหรืองานขนาดใหญ่

  • GCP → มี L4 เป็นตัวเลือกหลักสำหรับ inference และมี A100/H100 สำหรับงานระดับเอนเตอร์ไพรซ์

  • Azure → โดยทั่วไปมี A100 เป็นมาตรฐานสำหรับโมเดลขนาดนี้ และมี H100 ในบาง regionสำหรับงานที่หนักขึ้น

สรุปการเลือกใช้งานจริง:

  • ถ้าใช้ AWS หรือ GCP แนะนำ L4 เป็นตัวเลือกหลักสำหรับงานโปรดักชัน

  • ถ้าใช้ Azure มักต้อง A100

  • งานระดับองค์กรที่ต้องการสเกลสูง ทุกคลาวด์มี A100/H100 ให้เลือก แต่ค่าใช้จ่ายสูงกว่า

แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon

Section titled “แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon”
โมเดลขนาด💻 แล็ปท็อปหรือ Consumer GPU ขนาดเล็กพอไหม?สเปกที่แนะนำสำหรับงานโปรดักชันGPU บนคลาวด์ที่ใกล้เคียง ☁️หมายเหตุ
Typhoon ASR Real-Time~1B✅ รันบนแล็ปท็อปที่ใช้ CPU ได้ หากมี RAM ≥ 8 GBเซิร์ฟเวอร์ CPU (เพิ่ม core = เพิ่ม concurrency)ไม่จำเป็นต้องใช้ GPUโมเดลนี้น้ำหนักเบา ปรับให้เหมาะกับ CPU
Typhoon OCR3B✅ Mac M1/M2 (RAM 16 GB) หรือ RTX 3060+เซิร์ฟเวอร์ CPU RAM 16 GB หรือ GPU ระดับกลาง (≥16 GB)GPU ขนาดเล็ก (เช่น AWS T4, L4)ใช้ GPU จะช่วยเพิ่ม throughput ได้มาก แต่ CPU ก็ใช้งานได้
Typhoon OCR7B⚠️ ต้องใช้ GPU VRAM สูง (RTX 4090, ≥24 GB)A100 40GB, L4, หรือ Enterprise GPUAWS L4, GCP L4, Azure A100งาน OCR ขนาดใหญ่ ไม่เหมาะกับแล็ปท็อประดับล่าง
Typhoon Text (Gemma 2.1)12B⚠️ รันได้บน RTX 3090/4090 (≥24 GB); รันบนแล็ปท็อปผ่าน quantized versionA100 40GB, L4, หรือ Enterprise GPUAWS L4, GCP L4, Azure A100เหมาะกับโปรดักชันที่ยอมรับ latency ระดับกลาง

ผลทดสอบรัน Typhoon บน GPU ยอดนิยม

Section titled “ผลทดสอบรัน Typhoon บน GPU ยอดนิยม”

เราทดสอบบน GPU ของ NVIDIA ที่ใช้กันแพร่หลายบนคลาวด์ ได้แก่

  • RTX 2000 Ada (16 GB VRAM)
  • L4 (24 GB VRAM)
  • A100 (80 GB VRAM)
  • H100 (80 GB VRAM)

หมายเหตุ: GPU เหล่านี้ ไม่ใช่ ตัวเลือกเดียวที่รองรับ Typhoon การ์ดที่สเปกใกล้เคียงกันควรให้ผลลัพธ์ใกล้เคียง

ตัวชี้วัด (Metrics) ในการทดสอบ

  • **Throughput Metrics: **

    • Requests / sec
    • Tokens / sec
  • Latency Metrics:

    • Avg Latency (sec)
    • Avg TTFT (เวลาได้โทเค็นแรก) (วินาที)
  • **Cost Metrics: **

    • ค่าใช้จ่าย/ล้านโทเคน (ดอลล่าร์)
    • ค่าใช้จ่าย/คำขอ (Cost/request)
  • Resource Metrics:

    • Peak Memory (MB)
    • Avg CPU (%)

เราได้ทำการทดสอบโดยการตั้งสมมติฐานการใช้งานโมเดล ดังรายละเอียดต่อจากนี้ ผลลัพธ์จริงของคุณอาจต่างออกไปตามเวิร์กโหลดและการตั้งค่า

💵 ค่าใช้จ่ายต่อชั่วโมง (RunPod): $0.25

สรุป:

เหมาะสำหรับ ASR/OCR ที่ต้องการประหยัด และงานทดสอบ/พัฒนา ใช้ต้นทุนต่ำมาก OCR ทำงานได้ดี แต่ LLM มี latency สูง ไม่เหมาะกับโมเดลข้อความขนาดใหญ่

  • Max context length: 8,000

  • สมมติฐานที่ใช้ทดสอบ: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0313.830.82.2$0.0021$2.221047.07.3
80.1256.462.021.8$0.0006$0.57897.513.8
160.1152.5131.690.9$0.0006$0.61897.313.0
  • **Max context length: **16,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0630.816.50.18$0.0012$2.23858.48.7
170.86382.917.30.44$0.0001$0.181248.316.2
321.34678.921.70.84$0.00004$0.101656.323.4
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1402.4402.4$0.0006
64981.1981.1$0.0003

💵 ค่าใช้จ่ายต่อชั่วโมง: $0.71 (GCP ใช้คำนวณต้นทุนตามตาราง) | $0.42 (RunPod ใช้ทดสอบ)

สรุป:

ถือเป็นสมดุลที่ดีสำหรับงานโปรดักชัน คุ้มค่าสำหรับ LLM (12B) ที่ concurrency 16–32 และ OCR ก็ทำงานได้ดีมาก อีกทั้งยังเป็น GPU ที่ประหยัดสุดสำหรับ ASR บนคลาวด์

  • Max context length: 16,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0316.328.50.63$0.0056$5.62918.813.7
160.30142.251.78.7$0.0007$0.65900.412.6
320.35160.086.017.1$0.0006$0.57900.36.1
  • Max context length: 16,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0416.427.50.81$0.0054$11.88858.511.5
170.53211.430.20.46$0.0004$0.921270.313.3
320.84391.735.41.53$0.0002$0.501490.013.1
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1312.8312.8$0.0023
641096.01096.0$0.0006

💵 ค่าใช้จ่ายต่อชั่วโมง: $3.67 (อ้างอิงราคาจาก Azure) | $1.19 (RunPod ใช้ทดสอบ)

สรุป:

เหมาะกับงานองค์กร/เอนเตอร์ไพรซ์ ขยายสเกลได้ดีทั้ง LLM และ OCR มี latency ต่ำและ throughput สูง ค่าบริการต่อชั่วโมงค่อนข้างสูง จึงคุ้มเมื่อ ใช้งานต่อเนื่องเต็มโหลด

  • Max context length: 50,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1043.210.10.62$0.0103$10.61902.810.7
16 (run 1)0.35162.343.712.1$0.0029$2.89903.010.1
16 (run 2)0.96477.115.60.81$0.0011$1.03902.49.2
321.46725.620.40.44$0.0007$0.67903.59.9
641.80900.532.01.14$0.0006$0.55904.613.1
  • Max context length: 32,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1466.76.91.09$0.0071$15.08722.912.0
161.98917.97.40.49$0.0005$1.101080.35.7
323.821327.57.60.90$0.0003$0.751406.112.8
644.311848.012.33.14$0.0002$0.541926.912.4
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
157.857.8$0.0635
64117.4117.4$0.0313

💵 ค่าใช้จ่ายต่อชั่วโมง: $2.50 (อ้างอิงราคาจาก Together.ai)

สรุป:

แรงสุดและคุ้มค่าที่สุดต่อโทเค็น ดีที่สุดสำหรับทั้ง LLM และ OCR (เร็วที่สุด + cost/1M tokens ต่ำสุด) ส่วน ASR แม้ยังถูก แต่ ไม่คุ้มเท่า L4 เพราะราคาต่อชั่วโมงสูงกว่า

  • Max context length: 50,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1990.55.31.01$0.0037$3.611110.913.9
161.47708.810.33.08$0.0005$0.461112.614.2
322.421131.712.54.62$0.0003$0.291112.914.2
642.841340.519.910.4$0.0002$0.241113.613.4
  • Max context length: 32,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.23109.74.31.06$0.0030$6.25924.915.0
163.321571.44.50.45$0.0002$0.441403.215.0
325.922702.14.90.69$0.0001$0.251683.215.7
647.243370.17.42.74$0.0001$0.202016.416.6
1286.813104.914.27.55$0.0001$0.222545.127.0
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1416.5416.5$0.0060
641416.01416.0$0.0018

GPU Comparison Overview (Best-Case Results)

Section titled “GPU Comparison Overview (Best-Case Results)”
GPU (VRAM)Hourly CostLLM (Gemma 12B) – Best ConcurrencyReq/secTokens/secCost / 1M TokensOCR (7B/3B) – Best ConcurrencyReq/secTokens/secCost / 1M TokensASR – Best ConcurrencyThroughput (audio sec/sec)Est. $ / 1h Audio
RTX 2000 Ada (16 GB)$0.2580.1256.4$0.5732 (OCR 3B)1.34678.9$0.1064981.1$0.0003
L4 (24 GB)$0.71320.35160.0$0.5732 (OCR 7B)0.84391.7$0.50641096.0$0.0006
A100 (80 GB)$3.67321.46725.6$0.6764 (OCR 7B)4.311848.0$0.5464117.4$0.0313
H100 (80 GB)$2.50642.841340.5$0.2464 (OCR 7B)7.243370.1$0.20641416.0$0.0018
  • LLM คุ้มสุด: H100 (เร็วและต้นทุนต่อโทเค็นต่ำสุด)

  • OCR คุ้มสุด: H100 (throughput สูงมาก) ตามด้วย A100 สำหรับงานสเกลใหญ่

  • ASR คุ้มสุด: RTX 2000 Ada และ L4 (ต้นทุนต่อชั่วโมงเสียงถูกมาก)

รายละเอียดการตั้งค่าอื่น ๆ

Section titled “รายละเอียดการตั้งค่าอื่น ๆ”

เพื่อความสม่ำเสมอ การทดสอบทั้งหมดใช้การตั้งค่าดังนี้

Inference engine: vLLM เวอร์ชัน v0.10.1.1

รีโป/สคริปต์ทดสอบ: scb-10x/all-in-one-pref-benchmark