คำแนะนำด้านฮาร์ดแวร์ในการโฮสต์และรัน Inference

คู่มือนี้ช่วยให้คุณเข้าใจ ฮาร์ดแวร์ขั้นต่ำที่ต้องใช้ รวมถึงผลทดสอบและคำแนะนำสำหรับการทำ inference (การใช้งาน) โมเดล Typhoon

อัปเดตล่าสุด: 14 พฤศจิกายน 2025

สเปกขั้นต่ำในการรันโมเดล Typhoon

Typhoon ASR Real-Time

ใช้เพียง RAM 8 GB และ CPU; ยิ่งมีคอร์ CPU มาก ยิ่งรองรับ concurrency ได้มากขึ้น

Typhoon 2.1 Gemma 12B

เมื่อ deploy โมเดลขนาดใหญ่ขึ้น เช่น Typhoon OCR (7B) และ Typhoon 2.1 Gemma (12B) บนคลาวด์ การเลือก GPU จะสำคัญมากเพราะต้องการ VRAM และคอมพิวต์สูง ผู้ให้บริการคลาวด์แต่ละรายมีตระกูล GPU ต่างกัน และความพร้อมใช้งานอาจแตกต่างตามภูมิภาค

AWS → มี L4 ให้เลือกใช้ เหมาะกับงาน inference ที่ต้องการ throughput สูง และมี A100/H100 ในบาง region สำหรับงานที่ต้องการ latency ต่ำหรืองานขนาดใหญ่
GCP → มี L4 เป็นตัวเลือกหลักสำหรับ inference และมี A100/H100 สำหรับงานระดับเอนเตอร์ไพรซ์
Azure → โดยทั่วไปมี A100 เป็นมาตรฐานสำหรับโมเดลขนาดนี้ และมี H100 ในบาง regionสำหรับงานที่หนักขึ้น

สรุปการเลือกใช้งานจริง:

ถ้าใช้ AWS หรือ GCP แนะนำ L4 เป็นตัวเลือกหลักสำหรับงานโปรดักชัน
ถ้าใช้ Azure มักต้อง A100
งานระดับองค์กรที่ต้องการสเกลสูง ทุกคลาวด์มี A100/H100 ให้เลือก แต่ค่าใช้จ่ายสูงกว่า

Typhoon OCR (2B, 3B, 7B)

โมเดลใหม่ Typhoon OCR 1.5 (2B) มีขนาดที่เล็กลงและมีประสิทธิภาพมากขึ้น

รายละเอียด:

Typhoon OCR 1.5 (2B) — รุ่นแนะนำเริ่มต้น

รองรับการรันบน:

เซิร์ฟเวอร์ที่ใช้ CPU อย่างเดียว (ความเร็วต่ำกว่า)
Mac M1/M2 (RAM 8–16 GB)
การ์ดจอระดับคอนซูเมอร์ (RTX 3060/4060 ขึ้นไป)
Cloud GPU L4 (คุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ)

ความต้องการ VRAM: 8–12 GB

เหมาะสำหรับ:

งานปริมาณสูงที่ต้องการ Throughput ดี
องค์กรที่ต้องคุมต้นทุน
ระบบ OCR แบบเรียลไทม์
การรันในองค์กรที่ไม่มี GPU ใหญ่

จุดเด่นสำคัญ:

Throughput สูงกว่า OCR 3B ถึง 2–3 เท่า
ต้นทุนการรันต่ำลงมากบน L4, A100, H100

เปรียบเทียบรุ่นเดิมและรุ่นใหม่

Model	Parameters	VRAM Needed	Hardware Tier	Notes
Typhoon OCR 1.5 (2B)	2B	8–12 GB	CPU / Mac / L4 / Mid-range GPUs	คุ้มค่าที่สุดด้านราคา–ประสิทธิภาพ (รุ่นแนะนำ)
Typhoon OCR 3B	3B	12–16 GB	Mac 16GB / RTX 30xx+ / L4	โมเดลเล็กในรุ่นเดิม
Typhoon OCR 7B	7B	≥24 GB	RTX 4090 / A100 / H100	โมเดลรุ่นเดิมขนาดใหญ่ขึ้น

แนะนำสเปกฮาร์ดแวร์สำหรับโฮสต์โมเดล Typhoon

โมเดล	ขนาด	💻 แล็ปท็อปหรือ Consumer GPU ขนาดเล็กพอไหม?	สเปกที่แนะนำสำหรับงานโปรดักชัน	GPU บนคลาวด์ที่ใกล้เคียง ☁️	หมายเหตุ
Typhoon ASR Real-Time	~1B	✅ รันบนแล็ปท็อปที่ใช้ CPU ได้ หากมี RAM ≥ 8 GB	เซิร์ฟเวอร์ CPU (เพิ่ม core = เพิ่ม concurrency)	ไม่จำเป็นต้องใช้ GPU	โมเดลนี้น้ำหนักเบา ปรับให้เหมาะกับ CPU
Typhoon OCR 1.5 (2B)	2B	✅ 8–12 GB	CPU / Mac / Mid-range GPUs	L4	บาลานซ์ที่ดีระหว่างความสามารถและประสิทธิภาพ
Typhoon Text (Gemma 2.1)	12B	⚠️ รันได้บน RTX 3090/4090 (≥24 GB); รันบนแล็ปท็อปผ่าน quantized version	A100 40GB, L4, หรือ Enterprise GPU	AWS L4, GCP L4, Azure A100	เหมาะกับโปรดักชันที่ยอมรับ latency ระดับกลาง
Typhoon Text (Typhoon 2.5)	30B	⚠️ รันได้บนแล็ปท็อปที่มี RAM สูง (≥32 GB) ผ่าน Ollama quantized version (รันบน CPU เท่านั้น)	A100 80GB, H100 80GB	AWS/GCP/Azure A100 หรือ H100	โมเดล 30B สำหรับงานโปรดักชันควรรันบน A100/H100 เหมาะที่สุดบน H100

ผลทดสอบรัน Typhoon บน GPU ยอดนิยม

เราทดสอบบน GPU ของ NVIDIA ที่ใช้กันแพร่หลายบนคลาวด์ ได้แก่

RTX 2000 Ada (16 GB VRAM)
L4 (24 GB VRAM)
A100 (80 GB VRAM)
H100 (80 GB VRAM)

หมายเหตุ: GPU เหล่านี้ ไม่ใช่ ตัวเลือกเดียวที่รองรับ Typhoon การ์ดที่สเปกใกล้เคียงกันควรให้ผลลัพธ์ใกล้เคียง

ตัวชี้วัด (Metrics) ในการทดสอบ

**Throughput Metrics: **
- Requests / sec
- Tokens / sec
Latency Metrics:
- Avg Latency (sec)
- Avg TTFT (เวลาได้โทเค็นแรก) (วินาที)
**Cost Metrics: **
- ค่าใช้จ่าย/ล้านโทเคน (ดอลล่าร์)
- ค่าใช้จ่าย/คำขอ (Cost/request)
Resource Metrics:
- Peak Memory (MB)
- Avg CPU (%)

เราได้ทำการทดสอบโดยการตั้งสมมติฐานการใช้งานโมเดล ดังรายละเอียดต่อจากนี้ ผลลัพธ์จริงของคุณอาจต่างออกไปตามเวิร์กโหลดและการตั้งค่า

RTX 2000 Ada (16 GB VRAM)

💵 ค่าใช้จ่ายต่อชั่วโมง (RunPod): $0.25

สรุป:

เหมาะสำหรับ ASR/OCR ที่ต้องการประหยัด และงานทดสอบ/พัฒนา ใช้ต้นทุนต่ำมาก OCR ทำงานได้ดี แต่ LLM มี latency สูง ไม่เหมาะกับโมเดลข้อความขนาดใหญ่

Typhoon 2.1 Gemma3 12B

Max context length: 8,000
สมมติฐานที่ใช้ทดสอบ: prompt 512 tokens + response 512 tokens

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.04	14.5	28.1	0.5	$0.0020	$2.06	1047.0	7.3
4	0.11	50.0	34.5	0.4	$0.0006	$0.63	894.5	23.1
8	0.12	56.1	63.7	18.9	$0.0006	$0.58	897.5	13.8

Typhoon OCR 1.5 (2B)

Max context length: 16,000
Assumption: 1 input image → ~512 tokens output

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M Tokens	Peak Mem (MB)	Avg CPU %
1	0.20	45.22	4.898	0.164	$0.00030	$1.495300	812.4	16.5
17	1.96	436.22	8.161	0.882	$0.00000	$0.155000	1150.2	17.7
32	2.46	548.15	11.490	1.871	$0.00000	$0.123400	1122.3	17.4

Typhoon OCR 3B

**Max context length: **16,000
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.06	30.8	16.5	0.18	$0.0012	$2.23	858.4	8.7
17	0.86	382.9	17.3	0.44	$0.0001	$0.18	1248.3	16.2
32	1.34	678.9	21.7	0.84	$0.00004	$0.10	1656.3	23.4

Typhoon ASR Real-Time

Concurrency	Throughput (audio sec / sec)	iRTF	Est. Cost / 1h audio
1	402.4	402.4	$0.0006
64	981.1	981.1	$0.0003

L4 (24 GB VRAM)

💵 ค่าใช้จ่ายต่อชั่วโมง: $0.71 (GCP ใช้คำนวณต้นทุนตามตาราง) ｜ $0.42 (RunPod ใช้ทดสอบ)

สรุป:

ถือเป็นสมดุลที่ดีสำหรับงานโปรดักชัน คุ้มค่าสำหรับ LLM (12B) ที่ concurrency 16–32 และ OCR ก็ทำงานได้ดีมาก อีกทั้งยังเป็น GPU ที่ประหยัดสุดสำหรับ ASR บนคลาวด์

Typhoon 2.1 Gemma3 12B

Max context length: 16,000
สมมติฐาน: prompt 512 tokens + response 512 tokens

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.03	16.4	28.5	0.51	$0.0057	$5.62	918.8	13.7
16	0.36	168.3	41.2	0.51	$0.0005	$0.54	900.4	12.6
32	0.47	218.9	63.8	6.49	$0.0004	$0.41	900.3	14.4

Typhoon OCR 1.5 (2B)

Max context length: 16,000
Assumption: 1 input image → ~512 tokens output

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M Tokens	Peak Mem (MB)	Avg CPU %
1	0.22	49.16	4.497	0.267	$0.00050	$2.200800	797.8	10.4
17	2.17	484.49	7.234	0.976	$0.00010	$0.223300	1194.6	8.7
32	2.96	660.44	9.898	2.185	$0.00000	$0.163800	1251.1	7.8

Typhoon OCR 7B

Max context length: 16,000
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.04	16.4	27.5	0.81	$0.0054	$11.88	858.5	11.5
17	0.53	211.4	30.2	0.46	$0.0004	$0.92	1270.3	13.3
32	0.84	391.7	35.4	1.53	$0.0002	$0.50	1490.0	13.1

Typhoon ASR Real-Time

Concurrency	Throughput (audio sec / sec)	iRTF	Est. Cost / 1h audio
1	312.8	312.8	$0.0023
64	1096.0	1096.0	$0.0006

A100 (80 GB VRAM)

💵 ค่าใช้จ่ายต่อชั่วโมง: $3.67 (อ้างอิงราคาจาก Azure) ｜ $1.19 (RunPod ใช้ทดสอบ)

สรุป:

เหมาะกับงานองค์กร/เอนเตอร์ไพรซ์ ขยายสเกลได้ดีทั้ง LLM และ OCR มี latency ต่ำและ throughput สูง ค่าบริการต่อชั่วโมงค่อนข้างสูง จึงคุ้มเมื่อ ใช้งานต่อเนื่องเต็มโหลด

Typhoon 2.1 Gemma3 12B

Max context length: 50,000
สมมติฐาน: prompt 512 tokens + response 512 tokens

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.13	64.3	7.7	0.36	$0.0079	$7.62	902.8	10.7
16	1.32	625.8	11.3	0.31	$0.0008	$0.76	902.4	9.2
32	1.89	879.5	16.1	0.42	$0.0005	$0.53	903.5	9.9
64	2.21	1033.4	27.8	0.77	$0.0005	$0.45	904.6	13.1

Typhoon OCR 1.5 (2B)

Max context length: 16,000
Assumption: 1 input image → ~512 tokens output

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M Tokens	Peak Mem (MB)	Avg CPU %
1	0.69	154.06	1.404	0.173	$0.00070	$3.072600	785.1	4.6
17	4.63	1032.01	3.225	1.199	$0.00010	$0.458700	1112.6	5.2
32	5.53	1232.65	5.043	2.440	$0.00010	$0.384000	1109.9	4.8

Typhoon OCR 7B

Max context length: 32,000
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.14	66.7	6.9	1.09	$0.0071	$15.08	722.9	12.0
16	1.98	917.9	7.4	0.49	$0.0005	$1.10	1080.3	5.7
32	3.82	1327.5	7.6	0.90	$0.0003	$0.75	1406.1	12.8
64	4.31	1848.0	12.3	3.14	$0.0002	$0.54	1926.9	12.4

Typhoon ASR Real-Time

Concurrency	Throughput (audio sec / sec)	iRTF	Est. Cost / 1h audio
1	57.8	57.8	$0.0635
64	117.4	117.4	$0.0313

H100 (80 GB VRAM)

💵 ค่าใช้จ่ายต่อชั่วโมง: $2.50 (อ้างอิงราคาจาก Together.ai)

สรุป:

แรงสุดและคุ้มค่าที่สุดต่อโทเค็น ดีที่สุดสำหรับทั้ง LLM และ OCR (เร็วที่สุด + cost/1M tokens ต่ำสุด) ส่วน ASR แม้ยังถูก แต่ ไม่คุ้มเท่า L4 เพราะราคาต่อชั่วโมงสูงกว่า

Typhoon 2.1 Gemma3 12B

Max context length: 50,000
สมมติฐาน: prompt 512 tokens + response 512 tokens

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.16	75.95	6.28	0.05	$0.0037	$4.30	1110.9	13.9
16	1.72	1016.1	8.48	0.14	$0.0004	$0.39	1112.6	14.2
32	3.05	1428.3	9.70	0.20	$0.0002	$0.22	1112.9	14.2
64	4.60	2117.7	13.09	0.76	$0.0002	$0.15	1113.6	13.4

Typhoon OCR 1.5 (2B)

Max context length: 16,000
Assumption: 1 input image → ~512 tokens output

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M Tokens	Peak Mem (MB)	Avg CPU %
1	0.92	206.26	1.026	0.225	$0.00080	$3.540900	797.8	6.4
17	7.68	1713.36	1.970	0.808	$0.00010	$0.426300	1084.0	5.7
32	9.42	2099.99	2.905	1.528	$0.00010	$0.347800	1227.9	6.4

Typhoon OCR 7B

Max context length: 32,000
สมมติฐาน: 1 รูปภาพอินพุต → เอาต์พุต ~512 โทเค็น

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.23	109.7	4.3	1.06	$0.0030	$6.25	924.9	15.0
16	3.32	1571.4	4.5	0.45	$0.0002	$0.44	1403.2	15.0
32	5.92	2702.1	4.9	0.69	$0.0001	$0.25	1683.2	15.7
64	7.24	3370.1	7.4	2.74	$0.0001	$0.20	2016.4	16.6
128	6.81	3104.9	14.2	7.55	$0.0001	$0.22	2545.1	27.0

Typhoon 2.5 30B A3B

Max context length: 32,000
สมมติฐาน: prompt 534 tokens + response ~435 tokens

BF16 Precision:

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
1	0.31	149.4	3.2	0.12	$0.0022	$2.19	919.3	30.9
16	2.40	1044.8	6.2	0.30	$0.0003	$0.30	921.2	21.8
32	3.96	1718.3	7.4	0.23	$0.0002	$0.18	921.4	21.5
64	5.92	2616.1	10.0	0.51	$0.0001	$0.12	923.5	19.7
128	8.12	3574.4	14.6	1.44	$0.0001	$0.09	930.8	41.8
256	7.91	3442.4	29.0	13.0	$0.0001	$0.09	932.9	47.1

FP8 Precision (Throughput สูงกว่า):

Concurrency	Requests/sec	Tokens/sec	Avg Latency (s)	Avg TTFT (s)	Cost / Req	Cost / 1M tokens	Peak Mem (MB)	Avg CPU %
32	4.41	1966.4	6.7	0.25	$0.0002	$0.16	904.6	62.5
64	6.97	2959.6	8.5	0.42	$0.0001	$0.10	906.2	65.9

Typhoon ASR Real-Time

Concurrency	Throughput (audio sec / sec)	iRTF	Est. Cost / 1h audio
1	416.5	416.5	$0.0060
64	1416.0	1416.0	$0.0018

ภาพรวมการเปรียบเทียบ GPU (ประสิทธิภาพสูงสุดแต่ละรุ่น)

GPU (VRAM)	ค่าใช้ต่อชั่วโมง	LLM (Gemma 12B) – Concurrency ที่ดีที่สุด	Req/sec	Tokens/sec	Cost / 1M Tokens	OCR 1.5 (2B) – Concurrency ที่ดีที่สุด	Req/sec	Tokens/sec	Cost / 1M Tokens	ASR – Concurrency ที่ดีที่สุด	Throughput (audio sec/sec)	ราคา $ / 1 ชม.เสียง
RTX 2000 Ada (16 GB)	$0.25	8	0.12	56.4	$0.57	32	2.46	548.15	$0.1234	64	981.1	$0.0003
L4 (24 GB)	$0.71	32	0.35	160.0	$0.57	32	2.96	660.44	$0.1638	64	1096.0	$0.0006
A100 (80 GB)	$3.67	32	1.46	725.6	$0.67	32	5.53	1232.65	$0.3840	64	117.4	$0.0313
H100 (80 GB)	$2.50	64	2.84	1340.5	$0.24	32	9.42	2099.99	$0.3478	64	1416.0	$0.0018

สรุป

**คุ้มค่าที่สุดสำหรับ LLM: **H100 ยังเป็นตัวเลือกที่ดีที่สุด — ให้ Throughput สูงสุดและต้นทุนต่อโทเคนต่ำที่สุดสำหรับ Typhoon 2.1 Gemma 12B

คุ้มค่าที่สุดสำหรับ OCR (Typhoon OCR 1.5, 2B):

L4 ให้สมดุลราคาต่อประสิทธิภาพดีที่สุด เหมาะสำหรับโปรดักชันส่วนใหญ่
RTX 2000 Ada คุ้มแบบเหนือความคาดหมาย ต้นทุนต่อ 1M tokens ต่ำมาก เหมาะกับงานขนาดเล็ก–กลาง
H100 / A100 ทำ Throughput สูงสุด เหมาะกับเวิร์กโหลดระดับองค์กรที่ต้องการประมวลผลจำนวนมาก

คุ้มค่าที่สุดสำหรับ ASR:

RTX 2000 Ada และ L4 มีต้นทุนต่อชั่วโมงเสียงต่ำที่สุด เหมาะสำหรับระบบเรียลไทม์และงานทรานสคริปต์แบบงานจำนวนมาก

รายละเอียดการตั้งค่าอื่น ๆ

เพื่อความสม่ำเสมอ การทดสอบทั้งหมดใช้การตั้งค่าดังนี้

Inference engine: vLLM เวอร์ชัน v0.10.1.1

รีโป/สคริปต์ทดสอบ: scb-10x/all-in-one-pref-benchmark