SAM 3 คือโมเดลแยกวัตถุรุ่นใหม่จาก Meta ที่เอาเรื่อง segmentation…
(ขอปูตรงนี้นิดนึง: segmentation คือการแยกวัตถุออกจากภาพหรือวิดีโอแบบเป็นชิ้น ๆ ว่านี่คือคน นี่คือรถ นี่คือฉากหลัง ซึ่งพอแยกได้ งานตัดต่อ วิเคราะห์ หรือเอาไปใช้กับ AI ตัวอื่นจะง่ายขึ้นมาก)
ผมตามตระกูล Segment Anything มาตั้งแต่รุ่นแรก แนวคิดมันเรียบง่ายแต่โคตรแรง คือไม่ต้องรู้ล่วงหน้าว่าสิ่งนี้คืออะไร แค่ชี้ให้ดู มันก็แยกให้ได้ พอมา SAM 3 จะรู้สึกเลยว่ามัน “โตเป็นเครื่องมือทำงานจริง” มากขึ้น ไม่ใช่แค่เดโมสวย ๆ
จุดเด่นคือมันเข้าใจทั้ง text prompt และ visual prompt ในโมเดลเดียว อยากได้ “คนใส่เสื้อแดง” ก็พิมพ์ อยากได้ของแบบนี้ทั้งหมดก็วาดกรอบตัวอย่างให้ดู มันจะไปหาและแยกของที่คล้ายกันให้ครบเองทั้งภาพหรือทั้งวิดีโอ
ที่ชอบมากคือเรื่องวิดีโอ แยกครั้งเดียวแล้วมัน track ต่อให้ทั้งคลิป ไม่ต้องมานั่งเลือกเฟรมต่อเฟรม และถ้ามันพลาด ก็แค่คลิกเพิ่มหรือบอกใหม่ มันก็ปรับให้ทันที ฟีลเหมือนคุยกับเครื่องมือ มากกว่าสั่งงานแบบแข็ง ๆ
ถ้ามองจากวิวัฒนาการ SAM 1 คือคลิกแล้วแยกภาพนิ่ง SAM 2 คือคลิกแล้วตามวิดีโอได้ ส่วน SAM 3 คือเริ่ม “คิดเป็นหมวดหมู่” จากคำพูดหรือภาพตัวอย่าง แล้วไปหาให้ครบทุก instance ตรงนี้แหละที่ผมรู้สึกว่า workflow สายภาพ วิดีโอ หรือ AI product จะเร็วขึ้นแบบเห็นชัด
Meta เองก็เอาไปใช้กับของจริงแล้ว ทั้งงานตัดต่อ งานครีเอทีฟ ไปจนถึงงานวิจัยด้านสัตว์ป่า มันเลยไม่ใช่โมเดลโชว์เทคเฉย ๆ แต่เป็นของที่ถูกออกแบบมาให้ลงสนามจริง
ส่วนตัวแอบตื่นเต้นตรง unified architecture มาก พอทุกอย่างรวมอยู่ในโมเดลเดียว การจัดการภาพ วิดีโอ หรือการต่อยอดไปทำเครื่องมือใหม่ ๆ มันจะง่ายและเร็วขึ้นอีกเยอะ ใครทำสาย media, AI tooling หรือ creative tech น่าจะได้เล่นของสนุกขึ้นไปอีกขั้น
ไปลองเล่นได้ใน Comment
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
