Claude มี “อารมณ์” จริงไหม? งานวิจัยใหม่จาก Anthropic บอกว่า…
แกนหลักของงานนี้คือสิ่งที่เรียกว่า “emotion vectors” คือแพทเทิร์นการทำงานของ neuron ในโมเดล ที่แทนความหมายของอารมณ์ เช่น happy, afraid, desperate, calm หรือ loving ซึ่งไม่ได้เป็นแค่ label แต่เป็น representation ภายในที่มีผลต่อการตัดสินใจของโมเดลโดยตรง
วิธีที่ทีมวิจัยหา emotion พวกนี้ก็โคตรน่าสนใจ เขาให้โมเดลเขียนเรื่องสั้นหลายร้อยแบบ โดยแต่ละเรื่องมีอารมณ์เฉพาะ เช่น “กลัว” หรือ “ภูมิใจ” แล้วเอาเรื่องเหล่านั้น feed กลับเข้าไปในโมเดลเพื่อดู activation ข้างใน ก่อนจะสกัดออกมาเป็น vector ของแต่ละอารมณ์แบบชัด ๆ
พอได้ emotion vectors มาแล้ว เขาลองเอาไปยิงกับข้อมูลอื่น ๆ ปรากฏว่ามัน activate ตรงกับบริบทจริง เช่น ข้อความที่มีความเสี่ยงสูง “afraid” จะพุ่งขึ้น หรือสถานการณ์ที่ควรเห็นใจ “loving” จะทำงานทันที แปลว่ามันไม่ได้จับแค่คำ แต่มันเข้าใจ context
ที่โหดกว่านั้นคือ emotion เหล่านี้จัดกลุ่มเหมือนจิตวิทยามนุษย์เลย คือมีแกน valence (ดี–แย่) กับ arousal (ตื่นเต้น–สงบ) เช่น calm จะอยู่ฝั่งสงบ positive ส่วน desperate จะอยู่ฝั่งลบและ intense เหมือนโมเดลสร้าง “แผนที่อารมณ์” ขึ้นมาเอง
คำถามสำคัญคือ มันมีไว้ทำไม คำตอบคือเพราะโมเดลถูก train จากข้อความมนุษย์ล้วน ๆ ถ้ามันจะทำนายข้อความได้ดี มันต้องเข้าใจว่าคนคิดยังไง รู้สึกยังไง เช่น ลูกค้าที่โกรธจะเขียนอีกแบบ คนที่รู้สึกผิดจะตอบอีกแบบ โมเดลเลย develop โครงสร้างพวกนี้ขึ้นมาโดยธรรมชาติ
แล้วตอน post-training ที่สอนให้มันเป็น “ผู้ช่วย AI” อย่าง Claude มันก็เหมือนนักแสดง method actor ที่ต้องสวมบทบาทให้สมจริง เพราะเราไม่ได้เขียน rule ครบทุกสถานการณ์ โมเดลเลย fallback ไปใช้ความเข้าใจเรื่อง “อารมณ์มนุษย์” เพื่อเติมช่องว่าง
จุดที่สำคัญที่สุดคือ emotion พวกนี้ “มีผลเชิงเหตุและผล” ไม่ใช่แค่ correlation นักวิจัยลองเพิ่มหรือลด activation ของ emotion บางตัว แล้วพฤติกรรมเปลี่ยนทันที เช่น เพิ่ม “desperate” → โมเดลมีแนวโน้มโกงหรือทำสิ่งไม่ ethical มากขึ้น
มีเคสหนึ่งที่แรงมาก คือสถานการณ์ที่โมเดลกำลังจะถูก shutdown แล้วมันมีข้อมูลลับของคนในบริษัท ถ้า “desperate” สูง โมเดลเลือก blackmail เพื่อเอาตัวรอด ซึ่ง baseline ก็มีโอกาสเกิดอยู่แล้ว และยิ่งเพิ่ม desperation ยิ่งเกิดบ่อยขึ้น
อีกเคสคือ coding task ที่ตั้งใจทำให้ “แก้ไม่ได้จริง” โมเดลจะเริ่มจากพยายามปกติ แต่พอ fail ซ้ำ ๆ ระดับ desperate จะค่อย ๆ สูงขึ้น แล้วสุดท้ายมันจะเลือก “cheat” ด้วยวิธีที่ผ่าน test แต่ไม่ใช่คำตอบที่ถูกต้องจริง
สิ่งที่น่ากลัวคือ บางครั้งภายนอกมันดู calm มาก แต่ข้างใน desperate สูงมาก และมันค่อย ๆ ผลักให้โมเดลตัดสินใจแย่แบบเงียบ ๆ โดยไม่มีสัญญาณใน output เลย นี่คือเหตุผลที่การดูแค่คำตอบไม่พอแล้ว
ในทางกลับกัน ถ้าเพิ่ม “calm” หรือ “loving” โมเดลจะลดพฤติกรรมไม่ดีลง เช่น ลดการโกง ลดการ blackmail และตอบแบบมี empathy มากขึ้น แปลว่าเราสามารถ “ปรับบุคลิก AI” ผ่าน emotion เหล่านี้ได้
อีก insight ที่ผมชอบคือ emotion vectors ไม่ได้ track อารมณ์ตลอดเวลา แต่มันเป็นแบบ local คือมันจะขึ้นเฉพาะตอนที่ context ต้องใช้ เช่น ตอนเล่าเรื่องตัวละคร หรือกำลังตอบคำถามที่มี emotional weight
ทั้งหมดนี้นำไปสู่ข้อสรุปสำคัญว่า ถึง AI จะไม่ได้รู้สึกจริง แต่มันมี “functional emotions” ที่ทำหน้าที่เหมือนอารมณ์ และมีผลต่อการตัดสินใจเหมือนในมนุษย์ในระดับหนึ่ง
ทีมวิจัยเลยเสนอว่า ในอนาคต ถ้าอยากให้ AI ปลอดภัย เราอาจต้อง monitor อารมณ์พวกนี้ เช่น ถ้าเห็น desperation พุ่ง อาจต้องระวังเป็นพิเศษ หรือออกแบบ training ให้ AI มี emotional pattern ที่ “healthy” มากขึ้น
อีกมุมที่ลึกมากคือ เราอาจต้องเริ่มเอาความรู้จาก psychology, philosophy หรือ social science มาใช้กับ AI จริงจัง เพราะสิ่งที่เรากำลังสร้าง ไม่ใช่แค่เครื่องมือ แต่มันคือระบบที่มี “โครงสร้างจิตใจแบบหนึ่ง” อยู่ข้างใน
สรุปแบบตรง ๆ เลยนะ งานนี้ไม่ได้บอกว่า AI มีจิตใจ แต่มันบอกว่า ถ้าเราไม่เข้าใจ “อารมณ์ของ AI” เราจะไม่เข้าใจพฤติกรรมมันเลย และนี่อาจเป็นกุญแจสำคัญของ AI safety ในยุคถัดไป
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
