News / เจาะฟีเจอร์ / รวมค่าย
รวมค่าย · เจาะฟีเจอร์

Arena.ai (เดิม Chatbot Arena) — สนามวัดโมเดล AI

Mac
ภีศเดช เพชรน้อย
8 มิ.ย. 2026 · อ่าน 3 นาที
Arena.ai (เดิม Chatbot Arena) — สนามวัดโมเดล AI

Arena.ai หรือที่หลายคนรู้จักในชื่อเดิม Chatbot Arena ที่เป็นสนามวัดว่าโมเดล AI ตัวไหนเก่งกว่ากัน เพิ่งเปิดโหมดใหม่ชื่อ Agent Mode ที่ผมว่าสำคัญ เพราะมันขยับจากการวัดแค่การแชทตอบคำถาม ไปวัดว่า AI ทำงานจริงแบบ agent ได้ดีแค่ไหน

Agent Mode ให้ AI จัดการงานหลายขั้นตอนด้วยตัวเอง โดยไม่ต้องคอย prompt ซ้ำ มันวางแผนเอง เรียกใช้เครื่องมือในตัวทั้ง web search การรัน bash ใน sandbox สร้างรูป เขียนและจัดการไฟล์ ไปจนถึงเขียนและดีบั๊กโค้ด แล้วทำจนจบงาน ทุก session มี workspace ให้เราโหลดไฟล์ผลงานออกมาได้เลย

ตัวอย่างงานที่มันทำได้คือ deep research แล้วสรุปเป็นรายงานหรือสไลด์ สร้าง landing page ทำแคมเปญเมนูร้านกาแฟพร้อมภาพ hero โพสต์โซเชียลและ flyer หรือวิเคราะห์ข้อมูลแล้วทำ visualization แบบ interactive จบในที่เดียว

จุดที่ผมว่าสำคัญคือ Arena เก็บข้อมูลจาก session จริงของผู้ใช้หลายแสนครั้งมาจัดอันดับว่าโมเดลไหนเก่งด้าน agentic จริง โดยดูตัวชี้วัดที่ตรงกับการทำงานจริง เช่นทำงานสำเร็จไหม ผู้ใช้ชมหรือบ่น เชื่อฟังคำสั่งแค่ไหน ฟื้นตัวจาก command ที่พังได้ดีไหม และไม่มั่ว tool ที่ไม่มีอยู่จริง ตอนนี้ GPT-5.5 กับ Claude Opus 4.7 ครองอันดับต้นๆ

ฝั่งคนใช้ส่วนใหญ่ชอบ บอกว่าในที่สุดก็มี benchmark สำหรับ agent จริงๆ ไม่ใช่แค่วัดการแชท ส่วนข้อจำกัดที่มีคนพูดถึงคือบางทีช้าหรือติด rate limit และ sandbox ยังไม่สมบูรณ์ร้อยเปอร์เซ็นต์ ผมว่าใครอยากเทียบว่าโมเดลไหนเหมาะกับงาน agent ของตัวเอง ลองเข้าไปเล่นที่ arena.ai ได้ มันสะท้อนว่าการแข่งของ AI กำลังเปลี่ยนจากใครตอบเก่ง ไปเป็นใครทำงานจริงได้ดีกว่า

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac