DiffusionGemma — open model ตัวใหม่จาก Google

ภีศเดช เพชรน้อย

11 มิ.ย. 2026 · อ่าน 5 นาที

DiffusionGemma — open model ตัวใหม่จาก Google

DiffusionGemma คือ open model ตัวใหม่จาก Google ที่กล้าทิ้งวิธีที่ AI ภาษาทุกตัวใช้กันมาตลอด นั่นคือการเดา token ทีละตัวจากซ้ายไปขวา แล้วเปลี่ยนมาใช้ text diffusion แทน

ปกติโมเดลภาษาแบบ autoregressive จะทำงานเหมือนต่อจิ๊กซอว์ทีละชิ้น เดาคำถัดไปจากคำก่อนหน้าไปเรื่อยๆ แต่ DiffusionGemma เริ่มจาก canvas ที่เต็มไปด้วย placeholder token แบบสุ่ม 256 ตัว แล้วค่อยๆ denoise ปรับทั้งบล็อกพร้อมกันแบบ parallel เหมือนที่ image diffusion ทำกับรูป token ไหนถูกแล้วก็ lock ไว้เป็น context ช่วยปรับตัวที่เหลือ ส่วนข้อความที่ยาวกว่า 256 token ใช้วิธี block autoregressive ต่อกันไป

จุดที่ผมว่าน่าสนใจคือมันเป็น bi-directional attention ทุก token มองเห็นกันหมดทั้งซ้ายขวา เลยทำ self-correction ได้ดี เหมาะกับงาน in-line editing, code infilling หรืองานที่ไม่ได้เรียงเป็นเส้นตรงอย่าง amino acid หรือ math graph หลัง fine-tune ยังเล่น Sudoku ได้ด้วย ซึ่งเป็นงานที่ autoregressive ทำยากเพราะ token ขึ้นกับ token ในอนาคต

สถาปัตยกรรมเป็น 26B Mixture-of-Experts (MoE) แต่ตอน inference activate แค่ 3.8B parameter quantized แล้วรันได้ใน 18GB VRAM คือการ์ดอย่าง RTX 4090 หรือ 5090 เอาอยู่ ส่วนเรื่องความเร็ว Google เคลมว่าเร็วได้ถึง 4x บน GPU แตะ 1000+ tokens/sec บน H100 และ 700+ tokens/sec บน RTX 5090 เพราะมันย้าย bottleneck จาก memory-bandwidth ไปเป็น compute

แต่ของแบบนี้มีแลกเสมอ และอันนี้ Google เปิดเผยเองเลยว่า quality ยังต่ำกว่า Gemma 4 ปกติ เทียบ benchmark กันตรงๆ DiffusionGemma แพ้ทุกตัว MMLU Pro 77.6% ต่อ 82.6% LiveCodeBench v6 69.1% ต่อ 77.1% GPQA Diamond 73.2% ต่อ 82.3% Google เองก็บอกว่าถ้างานไหนต้องการ quality สูงสุดให้ใช้ standard Gemma 4 ไปเลย ตัวนี้เหมาะกับงานที่เน้น speed งาน interactive หรือ workflow ที่รัน local มากกว่า และยัง experimental อยู่ ไม่ได้ production-ready เต็มตัว

deploy ได้ผ่าน MLX, vLLM, HuggingFace Transformers fine-tune ด้วย Unsloth หรือ NVIDIA NeMo ส่วน llama.cpp กำลังตามมา weights อยู่บน HuggingFace แล้ว และเป็น Apache 2.0 ใช้เชิงพาณิชย์ได้

ฝั่ง community local LLM ตื่นเต้นกันเรื่อง speed พอสมควร แต่มีข้อสังเกตที่ตรงกับที่ Google บอกคือ quality ตาม Gemma 4 ปกติไม่ทัน โดยเฉพาะงาน reasoning หนักๆ กับ vision และที่ต้องระวังคือมันเร็วจริงเฉพาะตอนที่ GPU เป็น compute-bound แบบ NVIDIA ถ้าเป็น Apple Silicon ที่ติด memory-bound ความต่างอาจไม่ได้เยอะอย่างที่เคลม

ผมว่า DiffusionGemma ไม่ได้มาแทน autoregressive ในวันนี้ แต่มันเป็นการเปิดประตูอีกบานให้เห็นว่าโมเดลภาษาไม่จำเป็นต้องเดาทีละคำเสมอไป ใครที่เล่น local LLM อยู่แล้วและอยากได้ความเร็วกับงาน editing/code infilling ลองโหลดมาเล่นได้เลย แต่อย่าเพิ่งคาดหวัง quality เท่าตัวเต็มนะครับ

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac

DiffusionGemma — open model ตัวใหม่จาก Google

อยากใช้ AI กับงานจริงเป็นระบบ?

อ่านต่อ

ตัวอย่างการใช้ agentic ai ที่ดี ในซีรีย์ เอไอหลอน…

RUMI คือหุ่นยนต์เพื่อนคู่ใจตัวจิ๋วจากสตาร์ทอัพจีนชื่อ LuvBot

อยู่กันมานานนน ถึงเวลาทิ้ง Chat GPT ถูกยื้อไว้กับแฟนเก่า 1 เ