News / ข่าว AI / Gemini
Gemini · ข่าว AI

Gemma 4 12B คือโมเดล AI ตัวใหม่จาก Google…

Mac
ภีศเดช เพชรน้อย
4 มิ.ย. 2026 · อ่าน 3 นาที
Gemma 4 12B คือโมเดล AI ตัวใหม่จาก Google…

ที่ผมว่าเป็นไฮไลต์คือมันเป็นโมเดล multimodal ที่ "โยนวิดีโอเข้าไปได้แล้ว" ไม่ใช่แค่ข้อความหรือรูปนิ่ง คือเอาคลิปใส่เข้าไปแล้วถามมันได้เลยว่าในคลิปเกิดอะไรขึ้น สรุปให้หน่อย รับทั้งภาพ เสียง วิดีโอ ข้อความ ครบในตัวเดียว

แต่มีลิมิตที่ต้องรู้ก่อน วิดีโอที่ใส่ได้ตอนนี้จำกัดที่ 60 วินาที (อ่านเฟรมที่ 1 เฟรมต่อวินาที) คือเหมาะกับคลิปสั้นๆ สรุปคลิป วิเคราะห์ฉาก ไม่ใช่เอาหนังทั้งเรื่องไปให้มันดู ถ้าจะเอายาวกว่านั้นต้องไปตัดเฟรมเองก่อน

ฝั่งแอป Google ปล่อยมาสองตัว Google AI Edge Gallery (แชท วิเคราะห์ภาพ-เสียง-วิดีโอ รันโค้ดในแอปได้) กับ Google AI Edge Eloquent (พูดแล้วได้ข้อความ แก้ข้อความด้วยเสียง) ทั้งคู่รัน offline 100% บน Apple Silicon ผ่าน LiteRT จุดขายคือ private ข้อมูลไม่ออกจากเครื่อง

เบื้องหลังที่ทำให้มันเบาพอจะรันบน Mac แรม 16GB ได้ คือสถาปัตยกรรมใหม่ที่เรียกว่า encoder-free พูดง่ายๆ เมื่อก่อนโมเดลต้องมีตัวแปลงภาพ/เสียงแยกก่อนส่งเข้าสมองหลัก กินทั้งเมมและเวลา รุ่นนี้ตัดตัวแปลงทิ้ง โยนข้อมูลดิบเข้าโมเดลตรงๆ เลย ทำให้เร็วขึ้นและใช้แรมน้อยลง

จุดที่คนไทยอาจต้องเผื่อใจ คือ speech-to-text ภาษาไทยยังกลางๆ พูดไทยถอดได้บางคำแต่ยังผิดอยู่ ใครเน้นถอดเสียงไทยจริงจังตอนนี้ Whisper หรือ Typhoon ASR ยังแม่นกว่า

โดยรวมผมว่านี่คือทิศทางที่สนุก โมเดลฉลาดๆ ที่รันบนแล็ปท็อปตัวเองได้ ดูคลิปได้ ฟังเสียงได้ โดยไม่ต้องพึ่ง cloud มันเปิดทางให้ทำแอปที่ทำงานกับวิดีโอ-เสียงแบบ offline ได้อีกเยอะ ทุกคนว่าไงครับ อยากให้โมเดล local เก่งแค่ไหนถึงจะเลิกพึ่ง cloud กัน

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac