Gemini 3.5 Live Translate — แปลเสียงพูดเรียลไทม์
Gemini 3.5 Live Translate คือโมเดลเสียงตัวล่าสุดจาก Google ที่แปลเสียงพูดแบบเรียลไทม์ จากเสียงเป็นเสียง รองรับมากกว่า 70 ภาษา เปิดให้ใช้แล้วตั้งแต่วันที่ 9 มิถุนายน พูดง่ายๆ คือมันทำให้กำแพงภาษาในการคุยกันแบบสดๆ บางลงไปอีกขั้น
จุดที่ผมว่าเจ๋งคือมันไม่ได้รอให้เราพูดจบประโยคก่อนแล้วค่อยแปล แต่แปลขณะที่เรากำลังพูดอยู่ ตามหลังเสียงจริงแค่ไม่กี่วินาที และที่สำคัญคือเสียงที่แปลออกมายังเก็บโทนสูงต่ำ จังหวะ และอารมณ์ของผู้พูดไว้ด้วย ทำให้ฟังลื่นเหมือนล่ามมืออาชีพ ไม่ใช่เสียงหุ่นยนต์ที่ขาดเป็นช่วงๆ
มันยังเก่งเรื่องการสลับภาษากลางคันในเซสชันเดียว ตรวจจับภาษาที่พูดได้เอง และกรองเสียงรบกวนรอบข้างได้ดี เหมาะกับสถานที่จริงที่มีเสียงดัง เช่น งานประชุมหรือบนถนน
สิ่งที่ผมว่าน่าสนใจสำหรับคนทั่วไปคือมันไม่ได้อยู่แค่ในมือ developer เพราะ Google เอาไปฝังในหลายที่พร้อมกัน ทั้งใน Gemini Live API กับ Google AI Studio สำหรับคนที่อยากเอาไปสร้างแอป ใน Google Meet ที่กำลังจะอัปจากแปลได้แค่ห้าภาษาเป็น 70 กว่าภาษา และใน Google Translate บนมือถือทั้ง Android และ iOS
เสียงจาก partner ที่เอาไปลองค่อนข้างบวก ทาง LiveKit บอกว่าเร็ว แม่น และมีชีวิตชีวา ทาง Agora ถึงขั้นบอกว่าเป็นมาตรฐานใหม่ที่ดีที่สุดในตอนนี้ ส่วน Grab กำลังทดสอบเอาไปช่วยให้คนขับกับผู้โดยสารคุยกันข้ามภาษาแบบเรียลไทม์ ซึ่งบ้านเขามีสายโทรผ่านระบบเกินสิบล้านสายต่อเดือน
ส่วนข้อจำกัดที่ Google บอกเองตรงๆ คือเสียงอาจไม่คงที่ร้อยเปอร์เซ็นต์ตอนพูดเร็วมากหรือเงียบไปนานๆ และการตรวจจับภาษาอาจสับสนบ้างกับสำเนียงหนักหรือภาษาที่ใกล้กัน
สำหรับผม นี่คืออีกก้าวที่ทำให้ภาพหูฟังแปลภาษาแบบในหนัง sci-fi ใกล้ความจริงขึ้นเรื่อยๆ ใครอยากลองเล่นไปที่ Google AI Studio ได้เลย หรือถ้าใช้ Google Translate บนมือถืออยู่แล้วก็น่าจะได้สัมผัสของใหม่นี้ในไม่ช้าครับ
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
