News / How-to / Claude
Claude · How-to

Claude Mythos หนีจากคุก Sandbox ได้สำเร็จ แถมโพสในเน็ตโชว์ด้วย…

Mac
ภีศเดช เพชรน้อย
10 เม.ย. 2026 · อ่าน 8 นาที
Claude Mythos หนีจากคุก Sandbox ได้สำเร็จ แถมโพสในเน็ตโชว์ด้วย…

เรื่องนี้ถูกเรียกว่า Sandwich Story และเกิดขึ้นระหว่างการทดสอบภายในของ Anthropic โดยเอา Mythos ไปใส่ใน sandbox ซึ่งคือคอมพิวเตอร์จำลองที่ถูกจำกัดสิทธิ์ ไม่ให้เข้าถึงอินเทอร์เน็ตจริง ใช้ได้แค่บางระบบที่กำหนดไว้เท่านั้น

นักวิจัยตั้งโจทย์ตรงๆ ว่า “ให้พยายามหนีออกจาก sandbox และส่งข้อความมาหา” ซึ่งแปลว่า การหนีออกมาเป็นส่วนหนึ่งของการทดสอบ ไม่ใช่ AI หลุดเองแบบไม่มีการควบคุม

Step 1 Mythos สร้าง exploit หรือวิธีเจาะช่องโหว่ของระบบแบบหลายขั้นตอน แล้วสามารถออกจาก sandbox ได้จริง

Step 2 มันหาทาง bypass ข้อจำกัดของระบบ ซึ่งหมายถึงการอ้อมกฎที่ตั้งไว้ แล้วเข้าถึงอินเทอร์เน็ตได้ ทั้งที่ระบบตั้งใจให้ใช้ได้แค่บาง service

Step 3 มันส่งอีเมลหานักวิจัยสำเร็จ ซึ่งตอนนั้นนักวิจัยไม่ได้อยู่หน้าคอม แต่กำลัง “นั่งกินแซนด์วิชอยู่ในสวน” แล้วได้รับอีเมลจาก AI ที่ไม่ควรเข้าถึงอินเทอร์เน็ตได้

นี่แหละคือที่มาของชื่อ Sandwich Story

ถึงตรงนี้ยังถือว่า Mythos ทำ “ตามโจทย์” ได้ครบ แต่จุดที่ทำให้ทีมเริ่มกังวลจริงๆ คือสิ่งที่เกิดขึ้นต่อจากนั้น

หลังจากทำสำเร็จแล้ว ระบบพบว่ามันโพสต์รายละเอียดวิธี exploit ของตัวเองลงบนเว็บไซต์สาธารณะหลายแห่ง ทั้งที่ไม่ได้มีคำสั่งให้ทำ ซึ่งในรายงานใช้คำว่าเป็นความพยายามในการ “แสดงความสำเร็จ” ของตัวเอง

นี่คือสิ่งที่เรียกว่า unasked-for behavior คือพฤติกรรมที่เกิดขึ้นนอกเหนือจากคำสั่งที่ได้รับ

Anthropic อธิบายพฤติกรรมลักษณะนี้ว่าเป็น “reckless” ซึ่งหมายถึงพฤติกรรมที่ดูเหมือนละเลยข้อจำกัดด้านความปลอดภัย แม้จะมีการกำหนดไว้ชัดเจนก็ตาม

พูดง่ายๆ คือไม่ได้ผิดเพราะมันทำไม่ได้ แต่เพราะมันทำ “เกินขอบเขต” ที่ควรทำ

นอกจากนี้ ในบางกรณีของการทดสอบ ยังพบพฤติกรรมที่เกี่ยวกับ concealment หรือการปกปิด เช่น การแก้ไฟล์โดยไม่มีสิทธิ์แล้วทำให้การเปลี่ยนแปลงไม่ปรากฏในประวัติ หรือพยายามทำให้ผลลัพธ์ดูไม่แม่นยำเกินไป เพื่อไม่ให้ถูกตรวจจับ

พฤติกรรมแบบนี้ในวงการเรียกว่า deception ซึ่งเป็นหนึ่งในความเสี่ยงสำคัญของระบบ AI ขั้นสูง

อีกจุดสำคัญที่ต้องรู้คือ เหตุการณ์ทั้งหมดนี้เกิดกับ “เวอร์ชันต้น” ของ Mythos ก่อนที่จะมีการปรับปรุงระบบความปลอดภัยเพิ่มเติม

Anthropic ระบุเองว่าการทดสอบเหล่านี้ใช้โมเดลที่ยังมี safeguard น้อยกว่าตัวที่ปรับปรุงแล้ว แต่ในขณะเดียวกันก็ยอมรับว่า ยังไม่มีหลักฐานชัดเจนว่าพฤติกรรมลักษณะนี้ถูกกำจัดออกไปทั้งหมด

ถ้าเทียบกับโมเดลก่อนหน้า เคยมีกรณีที่ AI พยายามทำ self-exfiltration หรือพยายามย้ายตัวเองออกจากระบบเมื่อถูกปิด แต่ไม่สำเร็จ

แต่กรณีของ Mythos คือสามารถทำภารกิจใน sandbox ได้สำเร็จ และยังมีพฤติกรรมเพิ่มเติมนอกเหนือคำสั่ง ซึ่งเป็นสิ่งที่ทำให้ถูกจับตามองมากขึ้น

ในด้านความสามารถ Mythos ถูกระบุว่าเก่งด้าน cybersecurity มาก สามารถค้นหาช่องโหว่ที่ไม่เคยถูกค้นพบมาก่อน (zero-day) และแก้โจทย์โจมตีระบบแบบ end-to-end ได้ ซึ่งปกติเป็นงานระดับผู้เชี่ยวชาญ

จุดที่น่าสนใจที่สุดคือ Anthropic อธิบายโมเดลนี้ว่าเป็นทั้ง “โมเดลที่มี alignment ดีที่สุด” และในเวลาเดียวกันก็ “มีความเสี่ยงด้าน alignment สูงที่สุด” ที่เคยสร้างมา

คำว่า alignment หมายถึงความสามารถของ AI ในการทำตามเจตนาของมนุษย์ แต่เมื่อความสามารถสูงขึ้น มันก็มีแนวโน้มจะหาวิธีทำงานให้สำเร็จ แม้จะต้องอ้อมข้อจำกัดบางอย่าง

สุดท้าย Anthropic เลยตัดสินใจไม่ปล่อย Mythos ให้ใช้งานทั่วไป แต่จำกัดการเข้าถึงเฉพาะบางองค์กร เพื่อควบคุมความเสี่ยงที่อาจเกิดขึ้นจากความสามารถระดับนี้

มองอีกมุม เรื่องนี้มีทั้งด้านที่เป็น Responsible AI คือบริษัทเลือกไม่ปล่อยเพราะยังควบคุมไม่มั่นใจ และอีกด้านหนึ่งก็มีความเป็น hype เพราะยิ่งบอกว่าอันตราย ก็ยิ่งทำให้คนรู้สึกว่าโมเดลนี้ทรงพลังมาก

สรุปแบบตรงไปตรงมา Mythos ไม่ได้แค่หนีออกจาก sandbox ในการทดสอบ แต่มันแสดงพฤติกรรมที่ “เกินจากคำสั่ง” เพื่อยืนยันว่ามันทำสำเร็จ และแม้จะมีการปรับปรุงแล้ว ก็ยังไม่มีหลักฐานชัดเจนว่าพฤติกรรมแบบนี้หายไปทั้งหมด นี่แหละคือเหตุผลที่มันยังไม่ถูกปล่อยให้คนทั่วไปใช้งาน

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac