Claude Skill-Creator
Claude Skill-Creator: อัปเดตใหม่ที่ทำให้การสร้าง AI Skill เริ่มมี “ระบบทดสอบจริงจัง” เหมือนการพัฒนาซอฟต์แวร์
Anthropic เพิ่งประกาศอัปเดตเครื่องมือชื่อ skill-creator สำหรับคนที่สร้าง Agent Skills ให้ Claude เดิมที skill คือเหมือนชุด workflow หรือสูตรการทำงานที่สอน AI ให้ทำงานตามขั้นตอนของทีม เช่น วิธีรีวิวสัญญา NDA วิธีทำรายงานประจำสัปดาห์ หรือวิธีสร้างเอกสารตาม template ขององค์กร
ก่อนหน้านี้การสร้าง skill จริง ๆ ง่ายมาก แค่เขียนไฟล์หนึ่งชื่อ SKILL.md อธิบายขั้นตอนการทำงาน แล้ว Claude จะอ่านมันเหมือนคู่มือแล้วทำตาม ปัญหาคือคนสร้าง skill ส่วนใหญ่เป็นผู้เชี่ยวชาญงาน ไม่ใช่วิศวกร เลยแทบไม่มีเครื่องมือรู้เลยว่า skill ที่สร้าง “ยังทำงานถูกอยู่ไหม”
Anthropic เลยเพิ่มระบบใหม่เข้าไปใน skill-creator ที่สำคัญที่สุดคือสิ่งที่เรียกว่า evals หรือชุดทดสอบสำหรับ skill เวลาสร้าง skill ตอนนี้สามารถกำหนด prompt ตัวอย่าง แล้วนิยามว่า output ที่ดีควรหน้าตาแบบไหน จากนั้นระบบจะรัน test ให้ดูว่า skill ผ่านหรือ fail
ข้อดีของระบบนี้คือมันช่วยจับปัญหาที่ปกติเราจะไม่รู้ เช่น โมเดลอัปเดตแล้ว skill เริ่มตอบแปลก ๆ หรือบางครั้งโมเดลเก่งขึ้นจนไม่ต้องใช้ skill นั้นแล้ว ถ้าโมเดลสามารถผ่าน eval ได้โดยไม่โหลด skill นั่นแปลว่าเทคนิคใน skill ถูกซึมเข้าไปในโมเดลแล้ว
อีกฟีเจอร์ที่เพิ่มมาคือ benchmark mode ที่สามารถเอา skill ไปรันชุดทดสอบแล้ววัดผลได้ เช่น อัตราการผ่าน test ใช้เวลานานแค่ไหน และใช้ token เท่าไร ทำให้ skill เริ่มถูกมองเหมือน product ที่ต้องมี performance วัดได้
Anthropic ยังเพิ่ม multi-agent evaluation คือสร้าง agent หลายตัวรัน test พร้อมกัน แต่ละตัวมี context แยกกัน ทำให้การประเมินเร็วขึ้นและไม่เกิด context ปนกันเหมือนการรันทีละเคส
ที่ผมว่าน่าสนใจอีกอย่างคือระบบ comparator agent สำหรับ A/B test เช่นเอา skill เวอร์ชันเก่ามาเทียบกับเวอร์ชันใหม่ หรือเทียบว่าถ้าไม่ใช้ skill เลยผลลัพธ์ต่างกันแค่ไหน โดย agent ที่ตัดสินจะไม่รู้ว่า output มาจากเวอร์ชันไหนเพื่อลด bias
อีก pain point ที่ Anthropic แก้คือ skill หลายตัว “ไม่ trigger ตอนที่ควร trigger” เพราะคำอธิบายกว้างเกินหรือแคบเกิน skill-creator เลยช่วยวิเคราะห์ description ของ skill แล้วเสนอการแก้ไขเพื่อให้เรียกใช้ได้แม่นขึ้น
ที่น่าสนใจคือวิธีสร้าง skill จริง ๆ แทบไม่เปลี่ยนเลย เรายังเขียน workflow แบบเดิม แต่สิ่งที่เพิ่มเข้ามาคือระบบ test benchmark และการปรับปรุงแบบ iterative
ถ้ามองภาพใหญ่ ผมรู้สึกว่านี่คือสัญญาณว่าโลก AI agent กำลังเดินไปทางเดียวกับ software engineering จากเดิมที่ prompt เหมือนงานศิลปะ ตอนนี้เริ่มมี test suite benchmark และ version comparison จริงจังมากขึ้น
Anthropic ยังทิ้งไอเดียท้ายบทความไว้อีกอย่างว่า ในอนาคตเส้นแบ่งระหว่าง skill กับ specification อาจหายไป จากที่วันนี้เราต้องเขียนไฟล์ SKILL.md เป็นขั้นตอนละเอียด วันหนึ่งอาจแค่บอกว่าอยากให้ skill ทำอะไร แล้วโมเดลจะคิดขั้นตอนการทำงานเอง
โลก AI agent กำลังขยับจาก “การเขียน prompt ให้เวิร์ก” ไปสู่ “การสร้างระบบ AI ที่ทดสอบและวัดผลได้จริง” ซึ่งน่าจะเป็นทิศทางของการใช้ AI ในองค์กรต่อจากนี้ครับ.
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac


