Skip to content

คำแนะนำด้านฮาร์ดแวร์ในการโฮสต์และรัน Inference

คู่มือนี้ช่วยให้คุณเข้าใจ ฮาร์ดแวร์ขั้นต่ำที่ต้องใช้ รวมถึงผลทดสอบและคำแนะนำสำหรับการทำ inference (การใช้งาน) โมเดล Typhoon

อัปเดตล่าสุด: 14 พฤศจิกายน 2025

สเปกขั้นต่ำในการรันโมเดล Typhoon

Section titled “สเปกขั้นต่ำในการรันโมเดล Typhoon”
  • ใช้เพียง RAM 8 GB และ CPU; ยิ่งมีคอร์ CPU มาก ยิ่งรองรับ concurrency ได้มากขึ้น

เมื่อ deploy โมเดลขนาดใหญ่ขึ้น เช่น Typhoon OCR (7B) และ Typhoon 2.1 Gemma (12B) บนคลาวด์ การเลือก GPU จะสำคัญมากเพราะต้องการ VRAM และคอมพิวต์สูง ผู้ให้บริการคลาวด์แต่ละรายมีตระกูล GPU ต่างกัน และความพร้อมใช้งานอาจแตกต่างตามภูมิภาค

  • AWS → มี L4 ให้เลือกใช้ เหมาะกับงาน inference ที่ต้องการ throughput สูง และมี A100/H100 ในบาง region สำหรับงานที่ต้องการ latency ต่ำหรืองานขนาดใหญ่

  • GCP → มี L4 เป็นตัวเลือกหลักสำหรับ inference และมี A100/H100 สำหรับงานระดับเอนเตอร์ไพรซ์

  • Azure → โดยทั่วไปมี A100 เป็นมาตรฐานสำหรับโมเดลขนาดนี้ และมี H100 ในบาง regionสำหรับงานที่หนักขึ้น

สรุปการเลือกใช้งานจริง:

  • ถ้าใช้ AWS หรือ GCP แนะนำ L4 เป็นตัวเลือกหลักสำหรับงานโปรดักชัน

  • ถ้าใช้ Azure มักต้อง A100

  • งานระดับองค์กรที่ต้องการสเกลสูง ทุกคลาวด์มี A100/H100 ให้เลือก แต่ค่าใช้จ่ายสูงกว่า

โมเดลใหม่ Typhoon OCR 1.5 (2B) มีขนาดที่เล็กลงและมีประสิทธิภาพมากขึ้น

รายละเอียด:

Typhoon OCR 1.5 (2B) — รุ่นแนะนำเริ่มต้น

Section titled “Typhoon OCR 1.5 (2B) — รุ่นแนะนำเริ่มต้น”

รองรับการรันบน:

  • เซิร์ฟเวอร์ที่ใช้ CPU อย่างเดียว (ความเร็วต่ำกว่า)

  • Mac M1/M2 (RAM 8–16 GB)

  • การ์ดจอระดับคอนซูเมอร์ (RTX 3060/4060 ขึ้นไป)

  • Cloud GPU L4 (คุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ)

ความต้องการ VRAM: 8–12 GB

เหมาะสำหรับ:

  • งานปริมาณสูงที่ต้องการ Throughput ดี

  • องค์กรที่ต้องคุมต้นทุน

  • ระบบ OCR แบบเรียลไทม์

  • การรันในองค์กรที่ไม่มี GPU ใหญ่

จุดเด่นสำคัญ:

  • Throughput สูงกว่า OCR 3B ถึง 2–3 เท่า

  • ต้นทุนการรันต่ำลงมากบน L4, A100, H100

เปรียบเทียบรุ่นเดิมและรุ่นใหม่

ModelParametersVRAM NeededHardware TierNotes
Typhoon OCR 1.5 (2B)2B8–12 GBCPU / Mac / L4 / Mid-range GPUsคุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ (รุ่นแนะนำ)
Typhoon OCR 3B3B12–16 GBMac 16GB / RTX 30xx+ / L4โมเดลเล็กในรุ่นเดิม
Typhoon OCR 7B7B≥24 GBRTX 4090 / A100 / H100โมเดลรุ่นเดิมขนาดใหญ่ขึ้น

แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon

Section titled “แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon”
โมเดลขนาด💻 แล็ปท็อปหรือ Consumer GPU ขนาดเล็กพอไหม?สเปกที่แนะนำสำหรับงานโปรดักชันGPU บนคลาวด์ที่ใกล้เคียง ☁️หมายเหตุ
Typhoon ASR Real-Time~1B✅ รันบนแล็ปท็อปที่ใช้ CPU ได้ หากมี RAM ≥ 8 GBเซิร์ฟเวอร์ CPU (เพิ่ม core = เพิ่ม concurrency)ไม่จำเป็นต้องใช้ GPUโมเดลนี้น้ำหนักเบา ปรับให้เหมาะกับ CPU
Typhoon OCR 1.5 (2B)2B✅ 8–12 GBCPU / Mac / Mid-range GPUsL4บาลานซ์ที่ดีระหว่างความสามารถและประสิทธิภาพ
Typhoon Text (Gemma 2.1)12B⚠️ รันได้บน RTX 3090/4090 (≥24 GB); รันบนแล็ปท็อปผ่าน quantized versionA100 40GB, L4, หรือ Enterprise GPUAWS L4, GCP L4, Azure A100เหมาะกับโปรดักชันที่ยอมรับ latency ระดับกลาง
Typhoon Text (Typhoon 2.5)30B⚠️ รันได้บนแล็ปท็อปที่มี RAM สูง (≥32 GB) ผ่าน Ollama quantized version (รันบน CPU เท่านั้น)A100 80GB, H100 80GBAWS/GCP/Azure A100 หรือ H100โมเดล 30B สำหรับงานโปรดักชันควรรันบน A100/H100 เหมาะที่สุดบน H100

ผลทดสอบรัน Typhoon บน GPU ยอดนิยม

Section titled “ผลทดสอบรัน Typhoon บน GPU ยอดนิยม”

เราทดสอบบน GPU ของ NVIDIA ที่ใช้กันแพร่หลายบนคลาวด์ ได้แก่

  • RTX 2000 Ada (16 GB VRAM)
  • L4 (24 GB VRAM)
  • A100 (80 GB VRAM)
  • H100 (80 GB VRAM)

หมายเหตุ: GPU เหล่านี้ ไม่ใช่ ตัวเลือกเดียวที่รองรับ Typhoon การ์ดที่สเปกใกล้เคียงกันควรให้ผลลัพธ์ใกล้เคียง

ตัวชี้วัด (Metrics) ในการทดสอบ

  • **Throughput Metrics: **

    • Requests / sec
    • Tokens / sec
  • Latency Metrics:

    • Avg Latency (sec)
    • Avg TTFT (เวลาได้โทเค็นแรก) (วินาที)
  • **Cost Metrics: **

    • ค่าใช้จ่าย/ล้านโทเคน (ดอลล่าร์)
    • ค่าใช้จ่าย/คำขอ (Cost/request)
  • Resource Metrics:

    • Peak Memory (MB)
    • Avg CPU (%)

เราได้ทำการทดสอบโดยการตั้งสมมติฐานการใช้งานโมเดล ดังรายละเอียดต่อจากนี้ ผลลัพธ์จริงของคุณอาจต่างออกไปตามเวิร์กโหลดและการตั้งค่า

💵 ค่าใช้จ่ายต่อชั่วโมง (RunPod): $0.25

สรุป:

เหมาะสำหรับ ASR/OCR ที่ต้องการประหยัด และงานทดสอบ/พัฒนา ใช้ต้นทุนต่ำมาก OCR ทำงานได้ดี แต่ LLM มี latency สูง ไม่เหมาะกับโมเดลข้อความขนาดใหญ่

  • Max context length: 8,000

  • สมมติฐานที่ใช้ทดสอบ: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0414.528.10.5$0.0020$2.061047.07.3
40.1150.034.50.4$0.0006$0.63894.523.1
80.1256.163.718.9$0.0006$0.58897.513.8
  • Max context length: 16,000

  • Assumption: 1 input image → ~512 tokens output

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M TokensPeak Mem (MB)Avg CPU %
10.2045.224.8980.164$0.00030$1.495300812.416.5
171.96436.228.1610.882$0.00000$0.1550001150.217.7
322.46548.1511.4901.871$0.00000$0.1234001122.317.4
  • **Max context length: **16,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0630.816.50.18$0.0012$2.23858.48.7
170.86382.917.30.44$0.0001$0.181248.316.2
321.34678.921.70.84$0.00004$0.101656.323.4
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1402.4402.4$0.0006
64981.1981.1$0.0003

💵 ค่าใช้จ่ายต่อชั่วโมง: $0.71 (GCP ใช้คำนวณต้นทุนตามตาราง) | $0.42 (RunPod ใช้ทดสอบ)

สรุป:

ถือเป็นสมดุลที่ดีสำหรับงานโปรดักชัน คุ้มค่าสำหรับ LLM (12B) ที่ concurrency 16–32 และ OCR ก็ทำงานได้ดีมาก อีกทั้งยังเป็น GPU ที่ประหยัดสุดสำหรับ ASR บนคลาวด์

  • Max context length: 16,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0316.428.50.51$0.0057$5.62918.813.7
160.36168.341.20.51$0.0005$0.54900.412.6
320.47218.963.86.49$0.0004$0.41900.314.4
  • Max context length: 16,000

  • Assumption: 1 input image → ~512 tokens output

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M TokensPeak Mem (MB)Avg CPU %
10.2249.164.4970.267$0.00050$2.200800797.810.4
172.17484.497.2340.976$0.00010$0.2233001194.68.7
322.96660.449.8982.185$0.00000$0.1638001251.17.8
  • Max context length: 16,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.0416.427.50.81$0.0054$11.88858.511.5
170.53211.430.20.46$0.0004$0.921270.313.3
320.84391.735.41.53$0.0002$0.501490.013.1
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1312.8312.8$0.0023
641096.01096.0$0.0006

💵 ค่าใช้จ่ายต่อชั่วโมง: $3.67 (อ้างอิงราคาจาก Azure) | $1.19 (RunPod ใช้ทดสอบ)

สรุป:

เหมาะกับงานองค์กร/เอนเตอร์ไพรซ์ ขยายสเกลได้ดีทั้ง LLM และ OCR มี latency ต่ำและ throughput สูง ค่าบริการต่อชั่วโมงค่อนข้างสูง จึงคุ้มเมื่อ ใช้งานต่อเนื่องเต็มโหลด

  • Max context length: 50,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1364.37.70.36$0.0079$7.62902.810.7
161.32625.811.30.31$0.0008$0.76902.49.2
321.89879.516.10.42$0.0005$0.53903.59.9
642.211033.427.80.77$0.0005$0.45904.613.1
  • Max context length: 16,000

  • Assumption: 1 input image → ~512 tokens output

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M TokensPeak Mem (MB)Avg CPU %
10.69154.061.4040.173$0.00070$3.072600785.14.6
174.631032.013.2251.199$0.00010$0.4587001112.65.2
325.531232.655.0432.440$0.00010$0.3840001109.94.8
  • Max context length: 32,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1466.76.91.09$0.0071$15.08722.912.0
161.98917.97.40.49$0.0005$1.101080.35.7
323.821327.57.60.90$0.0003$0.751406.112.8
644.311848.012.33.14$0.0002$0.541926.912.4
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
157.857.8$0.0635
64117.4117.4$0.0313

💵 ค่าใช้จ่ายต่อชั่วโมง: $2.50 (อ้างอิงราคาจาก Together.ai)

สรุป:

แรงสุดและคุ้มค่าที่สุดต่อโทเค็น ดีที่สุดสำหรับทั้ง LLM และ OCR (เร็วที่สุด + cost/1M tokens ต่ำสุด) ส่วน ASR แม้ยังถูก แต่ ไม่คุ้มเท่า L4 เพราะราคาต่อชั่วโมงสูงกว่า

  • Max context length: 50,000

  • สมมติฐาน: prompt 512 tokens + response 512 tokens

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.1675.956.280.05$0.0037$4.301110.913.9
161.721016.18.480.14$0.0004$0.391112.614.2
323.051428.39.700.20$0.0002$0.221112.914.2
644.602117.713.090.76$0.0002$0.151113.613.4
  • Max context length: 16,000

  • Assumption: 1 input image → ~512 tokens output

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M TokensPeak Mem (MB)Avg CPU %
10.92206.261.0260.225$0.00080$3.540900797.86.4
177.681713.361.9700.808$0.00010$0.4263001084.05.7
329.422099.992.9051.528$0.00010$0.3478001227.96.4
  • Max context length: 32,000

  • สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.23109.74.31.06$0.0030$6.25924.915.0
163.321571.44.50.45$0.0002$0.441403.215.0
325.922702.14.90.69$0.0001$0.251683.215.7
647.243370.17.42.74$0.0001$0.202016.416.6
1286.813104.914.27.55$0.0001$0.222545.127.0
  • Max context length: 32,000

  • สมมติฐาน: prompt 534 tokens + response ~435 tokens

BF16 Precision:

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
10.31149.43.20.12$0.0022$2.19919.330.9
162.401044.86.20.30$0.0003$0.30921.221.8
323.961718.37.40.23$0.0002$0.18921.421.5
645.922616.110.00.51$0.0001$0.12923.519.7
1288.123574.414.61.44$0.0001$0.09930.841.8
2567.913442.429.013.0$0.0001$0.09932.947.1

FP8 Precision (Throughput สูงกว่า):

ConcurrencyRequests/secTokens/secAvg Latency (s)Avg TTFT (s)Cost / ReqCost / 1M tokensPeak Mem (MB)Avg CPU %
324.411966.46.70.25$0.0002$0.16904.662.5
646.972959.68.50.42$0.0001$0.10906.265.9
ConcurrencyThroughput (audio sec / sec)iRTFEst. Cost / 1h audio
1416.5416.5$0.0060
641416.01416.0$0.0018

ภาพรวมการเปรียบเทียบ GPU (ประสิทธิภาพสูงสุดแต่ละรุ่น)

Section titled “ภาพรวมการเปรียบเทียบ GPU (ประสิทธิภาพสูงสุดแต่ละรุ่น)”
GPU (VRAM)ค่าใช้ต่อชั่วโมงLLM (Gemma 12B) – Concurrency ที่ดีที่สุดReq/secTokens/secCost / 1M TokensOCR 1.5 (2B) – Concurrency ที่ดีที่สุดReq/secTokens/secCost / 1M TokensASR – Concurrency ที่ดีที่สุดThroughput (audio sec/sec)ราคา $ / 1 ชม.เสียง
RTX 2000 Ada (16 GB)$0.2580.1256.4$0.57322.46548.15$0.123464981.1$0.0003
L4 (24 GB)$0.71320.35160.0$0.57322.96660.44$0.1638641096.0$0.0006
A100 (80 GB)$3.67321.46725.6$0.67325.531232.65$0.384064117.4$0.0313
H100 (80 GB)$2.50642.841340.5$0.24329.422099.99$0.3478641416.0$0.0018

**คุ้มค่าที่สุดสำหรับ LLM: **H100 ยังเป็นตัวเลือกที่ดีที่สุด — ให้ Throughput สูงสุดและต้นทุนต่อโทเคนต่ำที่สุดสำหรับ Typhoon 2.1 Gemma 12B

คุ้มค่าที่สุดสำหรับ OCR (Typhoon OCR 1.5, 2B):

  • L4 ให้สมดุลราคาต่อประสิทธิภาพดีที่สุด เหมาะสำหรับโปรดักชันส่วนใหญ่
  • RTX 2000 Ada คุ้มแบบเหนือความคาดหมาย ต้นทุนต่อ 1M tokens ต่ำมาก เหมาะกับงานขนาดเล็ก–กลาง
  • H100 / A100 ทำ Throughput สูงสุด เหมาะกับเวิร์กโหลดระดับองค์กรที่ต้องการประมวลผลจำนวนมาก

คุ้มค่าที่สุดสำหรับ ASR:

RTX 2000 Ada และ L4 มีต้นทุนต่อชั่วโมงเสียงต่ำที่สุด เหมาะสำหรับระบบเรียลไทม์และงานทรานสคริปต์แบบงานจำนวนมาก

รายละเอียดการตั้งค่าอื่น ๆ

Section titled “รายละเอียดการตั้งค่าอื่น ๆ”

เพื่อความสม่ำเสมอ การทดสอบทั้งหมดใช้การตั้งค่าดังนี้

Inference engine: vLLM เวอร์ชัน v0.10.1.1

รีโป/สคริปต์ทดสอบ: scb-10x/all-in-one-pref-benchmark