DiffusionGemma — open model ตัวใหม่จาก Google
DiffusionGemma คือ open model ตัวใหม่จาก Google ที่กล้าทิ้งวิธีที่ AI ภาษาทุกตัวใช้กันมาตลอด นั่นคือการเดา token ทีละตัวจากซ้ายไปขวา แล้วเปลี่ยนมาใช้ text diffusion แทน
ปกติโมเดลภาษาแบบ autoregressive จะทำงานเหมือนต่อจิ๊กซอว์ทีละชิ้น เดาคำถัดไปจากคำก่อนหน้าไปเรื่อยๆ แต่ DiffusionGemma เริ่มจาก canvas ที่เต็มไปด้วย placeholder token แบบสุ่ม 256 ตัว แล้วค่อยๆ denoise ปรับทั้งบล็อกพร้อมกันแบบ parallel เหมือนที่ image diffusion ทำกับรูป token ไหนถูกแล้วก็ lock ไว้เป็น context ช่วยปรับตัวที่เหลือ ส่วนข้อความที่ยาวกว่า 256 token ใช้วิธี block autoregressive ต่อกันไป
จุดที่ผมว่าน่าสนใจคือมันเป็น bi-directional attention ทุก token มองเห็นกันหมดทั้งซ้ายขวา เลยทำ self-correction ได้ดี เหมาะกับงาน in-line editing, code infilling หรืองานที่ไม่ได้เรียงเป็นเส้นตรงอย่าง amino acid หรือ math graph หลัง fine-tune ยังเล่น Sudoku ได้ด้วย ซึ่งเป็นงานที่ autoregressive ทำยากเพราะ token ขึ้นกับ token ในอนาคต
สถาปัตยกรรมเป็น 26B Mixture-of-Experts (MoE) แต่ตอน inference activate แค่ 3.8B parameter quantized แล้วรันได้ใน 18GB VRAM คือการ์ดอย่าง RTX 4090 หรือ 5090 เอาอยู่ ส่วนเรื่องความเร็ว Google เคลมว่าเร็วได้ถึง 4x บน GPU แตะ 1000+ tokens/sec บน H100 และ 700+ tokens/sec บน RTX 5090 เพราะมันย้าย bottleneck จาก memory-bandwidth ไปเป็น compute
แต่ของแบบนี้มีแลกเสมอ และอันนี้ Google เปิดเผยเองเลยว่า quality ยังต่ำกว่า Gemma 4 ปกติ เทียบ benchmark กันตรงๆ DiffusionGemma แพ้ทุกตัว MMLU Pro 77.6% ต่อ 82.6% LiveCodeBench v6 69.1% ต่อ 77.1% GPQA Diamond 73.2% ต่อ 82.3% Google เองก็บอกว่าถ้างานไหนต้องการ quality สูงสุดให้ใช้ standard Gemma 4 ไปเลย ตัวนี้เหมาะกับงานที่เน้น speed งาน interactive หรือ workflow ที่รัน local มากกว่า และยัง experimental อยู่ ไม่ได้ production-ready เต็มตัว
deploy ได้ผ่าน MLX, vLLM, HuggingFace Transformers fine-tune ด้วย Unsloth หรือ NVIDIA NeMo ส่วน llama.cpp กำลังตามมา weights อยู่บน HuggingFace แล้ว และเป็น Apache 2.0 ใช้เชิงพาณิชย์ได้
ฝั่ง community local LLM ตื่นเต้นกันเรื่อง speed พอสมควร แต่มีข้อสังเกตที่ตรงกับที่ Google บอกคือ quality ตาม Gemma 4 ปกติไม่ทัน โดยเฉพาะงาน reasoning หนักๆ กับ vision และที่ต้องระวังคือมันเร็วจริงเฉพาะตอนที่ GPU เป็น compute-bound แบบ NVIDIA ถ้าเป็น Apple Silicon ที่ติด memory-bound ความต่างอาจไม่ได้เยอะอย่างที่เคลม
ผมว่า DiffusionGemma ไม่ได้มาแทน autoregressive ในวันนี้ แต่มันเป็นการเปิดประตูอีกบานให้เห็นว่าโมเดลภาษาไม่จำเป็นต้องเดาทีละคำเสมอไป ใครที่เล่น local LLM อยู่แล้วและอยากได้ความเร็วกับงาน editing/code infilling ลองโหลดมาเล่นได้เลย แต่อย่าเพิ่งคาดหวัง quality เท่าตัวเต็มนะครับ
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
