NEO + 1X World Model คือหุ่นยนต์ที่ไม่ได้แค่…
ปกติหุ่นยนต์ต้องสอนด้วยการเทเลโอเปอเรททีละท่า ใช้เวลาหลายหมื่นชั่วโมงกว่าจะพับผ้าหรือหยิบของได้ แต่ 1XWM ใช้วิดีโอจากอินเทอร์เน็ตเป็นหลัก หุ่นดูวิดีโอแล้วเรียนรู้ “โลกมันควรเคลื่อนไหวยังไง” จากนั้นค่อยแปลงสิ่งที่คิดออกมาเป็นการเคลื่อนไหวจริงบนตัว NEO
จุดต่างสำคัญคือ 1X ไม่ได้ให้โมเดลเดา action ตรงๆ แบบ VLA ทั่วไป แต่ให้โมเดลสร้างวิดีโออนาคตก่อน ว่าถ้าทำตามคำสั่งแล้วภาพข้างหน้าควรเป็นยังไง แล้วค่อยมีระบบอีกตัวแปลงวิดีโอนั้นกลับมาเป็นท่าทางและแรงที่หุ่นทำได้จริง ถ้าวิดีโอไหนดูสวยแต่ทำจริงไม่ได้ ก็ทิ้งไป
เหตุผลที่วิธีนี้เวิร์ก เพราะร่างกาย NEO ถูกออกแบบให้คล้ายมนุษย์มาก ทั้งสัดส่วน การเคลื่อนไหว และความนุ่มของแรง ทำให้ความรู้จากวิดีโอมนุษย์โอนมาใช้กับหุ่นได้ตรงๆ อันนี้ผมว่าคือแต้มต่อใหญ่ เพราะวิดีโอในโลกส่วนใหญ่เป็นมุมมองมนุษย์ ไม่ใช่หุ่น
ผลลัพธ์คือ NEO ทำงานที่ไม่เคยฝึกมาก่อนได้ เช่น งานสองมือ งานปฏิสัมพันธ์กับคน หรือการหยิบของแปลกๆ ซึ่งข้อมูลพวกนี้ไม่ได้มาจากการสอนหุ่น แต่โผล่มาจากการดูวิดีโอล้วนๆ ฟังดูเหมือน sci-fi แต่เขาโชว์ของจริงแล้ว
แน่นอนว่ายังไม่สมบูรณ์ บางครั้งโมเดลก็คิดโลกสวยเกินไป วิดีโอดูเหมือนสำเร็จแต่พอทำจริงระยะพลาดนิดเดียวก็ไม่รอด ปัญหานี้มาจากการเรียนรู้ 3D จากวิดีโอ 2D ล้วนๆ ซึ่งทีมก็ยอมรับและบอกว่าเป็นงานอนาคต
อีกจุดที่ผมว่าน่าสนใจคือ เขาพบว่าถ้าวิดีโอที่โมเดลสร้าง “ดูดี” โอกาสสำเร็จในโลกจริงจะสูงมาก เลยลองสุ่มหลายวิดีโอแล้วเลือกอันที่ดีที่สุดก่อนให้หุ่นทำ ปรากฏว่าอัตราสำเร็จดีขึ้นจริง อันนี้เหมือนเอาแนวคิด test-time compute ของ AI มาใช้กับหุ่นยนต์ตรงๆ
1XWM เปลี่ยนเกมตรงที่มันลดการพึ่งแรงงานมนุษย์ในการสอนหุ่น และเปิดทางให้หุ่นเรียนรู้จากประสบการณ์ตัวเองได้ ถ้าแนวนี้สเกลต่อไปได้จริง หุ่นในบ้านอาจพัฒนาเร็วกว่าเดิมแบบก้าวกระโดด และนี่น่าจะเป็นก้าวสำคัญที่ทำให้ humanoid เข้าใกล้การใช้งานจริงมากขึ้น ไม่ใช่แค่โชว์ในแลปอีกต่อไป
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac



