News / รีวิว / รวมค่าย
รวมค่าย · รีวิว

เมื่อกี้ Alibaba ปล่อย Qwen3.5-Omni ออกมาเงียบๆ…

Mac
ภีศเดช เพชรน้อย
30 มี.ค. 2026 · อ่าน 4 นาที
เมื่อกี้ Alibaba ปล่อย Qwen3.5-Omni ออกมาเงียบๆ…

Qwen3.5-Omni คือโมเดล AI จาก Tongyi Lab (Alibaba) ที่รับและเข้าใจได้ทุกอย่างพร้อมกันเลย ไม่ว่าจะเป็น ข้อความ รูปภาพ เสียง และวิดีโอ แบบ native ไม่ใช่แปะ plugin ทีหลัง และมาใน 3 ขนาด คือ Plus (เต็มประสิทธิภาพ) Flash (เร็ว) และ Light (เบา)

ฟีเจอร์ที่ทำให้คนในวงการตื่นเต้นมากที่สุดคือ Audio-Visual Vibe Coding พูดคุยกับกล้อง อธิบาย idea ที่อยากได้ แล้วโมเดลสร้าง prototype ที่ใช้งานได้จริงออกมาเลย เช่น Snake game พร้อมธีมและเสียง แบบ real-time แก้ไขต่อเนื่องได้ ไม่มีโมเดลไหนทำแบบนี้ได้ชัดขนาดนี้มาก่อน

Real-time voice interaction ก็ดีขึ้นมากครับ พูดแทรกได้แบบมนุษย์ (Semantic Interruption) มีระบบตัดเสียงรบกวน ควบคุม emotion ของเสียงได้ และยังมี Voice Cloning คืออัปโหลดเสียงตัวเองให้ AI พูดเหมือนเราได้เลย

ฝั่ง performance ค่อนข้างน่าประทับใจ รองรับ audio ยาวกว่า 10 ชั่วโมง วิดีโอ 400+ วินาที context 256K tokens รับภาษาพูด 113 ภาษา/สำเนียง (รวมไทยด้วย) และใน benchmark 215 subtasks ด้าน audio-visual ชนะหรือเทียบเท่า Gemini 1.5 Pro

เรื่องราคาถือว่าถูกมากเมื่อเทียบกับตลาด ใช้ฟรีได้ที่ chat.qwen.ai ส่วน API อยู่ที่ประมาณ $0.1–0.5 USD ต่อล้าน input tokens ซึ่งถูกกว่า GPT-4o หรือ Gemini อยู่หลายเท่า เหมาะมากถ้าจะเอาไปต่อ production จริงจัง

ข้อด้อยตอนนี้ที่พอสังเกตได้ คือยังไม่ generate ภาพหรือวิดีโอออกมาได้ (รับเข้าได้แต่ output หลักคือ text + เสียง) weights ยังไม่ open เต็ม และรีวิวจากผู้ใช้จริงยังน้อยมากเพราะเพิ่งออกวันนี้เลย

สำหรับใครที่ทำ content, voice agent, meeting summarizer หรืองานที่ต้องยำทุก modality เข้าหากัน ผมว่าตัวนี้คุ้มมากที่จะลองก่อนตัวอื่น โดยเฉพาะเรื่องราคาที่ถูกกว่าชัดๆ อยากลองโยน Video เข้าไปทำ Flow เช่นสรุปคลิปไรงี้ ขอเทสก่อน

ลองเล่นได้เลยที่ chat.qwen.ai (ฟรี)

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac