MAI-Transcribe-1 คือโมเดลแปลงเสียงเป็นข้อความของ Microsoft…
จุดโหดคือความแม่นยำ ค่า WER อยู่ที่ประมาณ 3.9% ซึ่งดีกว่า Whisper, Gemini และโมเดลใหญ่ ๆ หลายตัว แปลว่าใช้จริงในงานประชุม พอดแคสต์ หรือ subtitle ได้แบบเชื่อใจได้มากขึ้น ไม่ต้องมานั่งแก้เยอะเหมือนแต่ก่อน
อีกอย่างที่น่าสนใจคือมันเร็วมาก งานแบบ batch เร็วกว่า Azure รุ่นก่อนถึง 2.5 เท่า และรองรับทั้ง real-time กับงานย้อนหลัง ทำให้เอาไปใช้ได้ตั้งแต่ live transcription ยัน archive ข้อมูลเสียงในองค์กร
ราคาก็เป็นอีกจุดที่ Microsoft เล่นเกมนี้แรงอยู่ที่ประมาณ $0.36 ต่อชั่วโมงเสียง ซึ่งถือว่าคุ้มมากเมื่อเทียบ performance ระดับนี้ ทำให้บริษัทเริ่ม scale งานเสียงได้จริงโดยไม่ต้องกลัว cost พุ่ง
สำหรับผม นี่คือสัญญาณชัดว่า AI ด้านเสียงเริ่ม “พร้อมใช้งานจริง” แล้ว ไม่ใช่แค่ demo เพราะทั้งความแม่น ความเร็ว และราคา มันเริ่มลงตัวในจุดที่เอาไป build product ได้แบบจริงจัง
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac


