Grok เพิ่งปล่อย Voice API ออกมาแยกขาย
Grok เพิ่งปล่อย Voice API ออกมาแยกขาย — ทั้ง STT (Speech-to-Text) และ TTS (Text-to-Speech) ใช้ได้เลยผ่าน API เดียว
สิ่งที่น่าสนใจคือ STT ของ Grok รองรับ multispeaker diarization ในตัวเลย หมายความว่า transcript ที่ได้จะรู้ว่าใครพูดอะไร ไม่ต้องไปต่อ service อื่นอีกแล้ว ซึ่ง dev หลายคนบอกว่านี่แหละคือ pain point ใหญ่มากของ speech API ทั่วไป
ความสามารถของ STT:
• Real-time และ batch transcription
• แยกเสียงหลายคนในไฟล์เดียวอัตโนมัติ
• รองรับ multichannel audio
• จัดรูปแบบตัวเลขและสกุลเงินให้อัตโนมัติ
• รองรับหลายภาษา
TTS ก็ไม่ธรรมดา:
• ปรับ speech tags ได้ เช่น เน้นเสียง หยุด หรืออารมณ์
• เสียงออกมา expressive ไม่ฟังดูหุ่นยนต์
ราคาถูกกว่าตลาดมาก: $0.10/ชั่วโมง (batch) และ $0.20/ชั่วโมง (streaming) จ่ายตามการใช้งานจริง ไม่มีค่า subscription
ลองดูได้ที่ 👇
x.ai/grok
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
