NVIDIA Cosmos 3 คือ foundation model สำหรับ Physical AI ที่…
สามอย่างนั้นคือ มองแล้วเข้าใจโลก (vision reasoning) สร้างโลกจำลองขึ้นมา (world generation) แล้วก็สร้างการกระทำให้หุ่นยนต์ทำตาม (action generation) ฟังดูเหมือนคนละเรื่อง แต่จริงๆ มันคือสิ่งที่หุ่นยนต์ตัวนึงต้องทำครบทั้งวงจร เห็น เข้าใจ เดาอนาคต แล้วลงมือ
เบื้องหลังมันใช้สถาปัตยกรรมที่เรียกว่า Mixture-of-Transformers แบ่งเป็นสองหอ หอแรกเป็น Reasoner ทำหน้าที่คิดวิเคราะห์ก่อน เหมือนสมองที่อ่านสถานการณ์ว่าวัตถุกำลังเคลื่อนยังไง ฟิสิกส์เป็นแบบไหน อีกหอเป็น Generator ที่เอาผลคิดนั้นไปสร้างวิดีโอหรือ action ออกมาให้สอดคล้องกับฟิสิกส์จริง พูดง่ายๆ คือคิดให้จบก่อนแล้วค่อยลงมือ ไม่ได้มั่วออกมาเลย
NVIDIA ปล่อยมาสองรุ่น ตัวใหญ่ Super 32B สำหรับงาน datacenter ที่ต้องการคุณภาพสูงสุด กับตัวเล็ก Nano 8B ที่รันบน workstation อย่าง RTX PRO ได้เลย เหมาะกับงาน robotics ที่ต้องการความเร็วแบบ real-time
ที่ผมว่าน่าสนใจที่สุดไม่ใช่ตัวโมเดล แต่เป็นการที่เขาเปิด open หมดเลย ทั้ง weights โค้ด training scripts แล้วก็ปล่อย dataset มาให้อีกหกชุด ตั้งแต่หุ่นยนต์ ฟิสิกส์ การขับรถ ไปจนถึงในโกดังสินค้า เอาไปเทรนต่อเองได้หมด
แล้วประโยชน์จริงของมันคืออะไร ปัญหาใหญ่ของวงการหุ่นยนต์มาตลอดคือเรื่อง sim-to-real gap คือเทรนในซิมแล้วพอเอามาใช้จริงมันไม่เวิร์ค เพราะข้อมูลเคสหายากอย่างอุบัติเหตุหรือสภาพอากาศแปลกๆ มันเก็บยากมาก Cosmos 3 ช่วยสร้างข้อมูลพวกนี้ขึ้นมาแบบ synthetic ได้ ทำให้เทรนหุ่นยนต์โดยไม่ต้องเสี่ยงพังของจริง
ผมก็เห็นว่านี่คือทิศทางที่ AI กำลังเดินไป มันไม่ใช่แค่แชทบอทที่ตอบคำถามเก่งอีกต่อไป แต่เป็น AI ที่เข้าใจโลกจริงแล้วลงมือทำได้ ใครทำสาย robotics หรือ automation อยู่ผมว่าตัวนี้ลองโหลดจาก Hugging Face มาเล่นได้เลยครับ
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
