Gemini Embedding 2 โมเดลใหม่จาก Google ที่ทำให้ AI…
ก่อนหน้านี้ embedding model ส่วนใหญ่ทำงานกับ “ข้อความอย่างเดียว” คือเอาข้อความมาแปลงเป็นเวกเตอร์ตัวเลขในพื้นที่หลายมิติ เพื่อให้คอมพิวเตอร์วัดความหมายและความคล้ายกันของข้อมูลได้ง่าย เช่น ใช้ใน semantic search หรือระบบแนะนำคอนเทนต์
ปัญหาคือโลกจริงไม่ได้มีแค่ข้อความ แต่มีรูป วิดีโอ เสียง และเอกสารหลายแบบ ทำให้ระบบ AI ต้องใช้โมเดลหลายตัว เช่น โมเดลหนึ่งจัดการภาพ อีกตัวจัดการเสียง แล้วค่อยเอาผลลัพธ์มารวมกันทีหลัง ซึ่งทำให้ pipeline ของระบบซับซ้อนขึ้นมาก
Gemini Embedding 2 แก้ปัญหานี้ด้วยการทำ embedding แบบ multimodal ตั้งแต่ต้น โมเดลสามารถเอาข้อมูลหลายประเภท เช่น text, image, video, audio และ document มาแปลงให้อยู่ใน “embedding space เดียวกัน” ทำให้ AI เข้าใจความหมายของข้อมูลข้ามสื่อได้
ผลคือเราสามารถค้นหาข้อมูลข้ามประเภทได้จริง เช่น ใช้รูปภาพไปค้นหาวิดีโอที่เกี่ยวข้อง ใช้เสียงไปค้นหาเอกสารที่พูดถึงเรื่องเดียวกัน หรือส่ง query ที่มีทั้งข้อความและรูปภาพผสมกันในคำค้นเดียว
ตัวโมเดลรองรับข้อความยาวสูงสุดประมาณ 8192 โทเค็น รับภาพได้สูงสุด 6 รูปต่อ request รองรับวิดีโอได้ประมาณ 120 วินาที และสามารถฝังข้อมูลเสียงหรือไฟล์ PDF ได้โดยตรง ซึ่งช่วยให้ระบบเข้าใจข้อมูลหลายแหล่งได้พร้อมกันโดยไม่ต้องแปลงเป็นข้อความก่อน
อีกความสามารถที่สำคัญคือโมเดลเข้าใจ input แบบผสม เช่น image + text หรือ video + text ใน request เดียว ทำให้มันจับความสัมพันธ์ระหว่างสื่อต่าง ๆ ได้ เช่น ภาพกับคำอธิบาย หรือวิดีโอกับคำถามที่เกี่ยวข้อง
ด้านเทคนิค Gemini Embedding 2 ใช้แนวคิด Matryoshka Representation Learning ซึ่งทำให้ขนาดเวกเตอร์ยืดหยุ่นได้ เช่น 3072, 1536 หรือ 768 dimensions นักพัฒนาจึงสามารถลดขนาด embedding เพื่อประหยัดพื้นที่และค่า compute ได้ โดยยังรักษาคุณภาพของผลลัพธ์ไว้ได้ดี
Embedding เป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลังระบบ AI หลายอย่าง เช่น semantic search, RAG ที่ใช้ดึงข้อมูลให้โมเดลตอบคำถาม, recommendation system หรือการจัดกลุ่มข้อมูลขนาดใหญ่
บริษัทที่ทดลองใช้แล้ว เช่น Everlaw ใช้โมเดลนี้ช่วยค้นหาหลักฐานทางกฎหมายจากเอกสาร ภาพ และวิดีโอหลายล้านรายการ ทำให้ค้นหาข้อมูลสำคัญได้แม่นยำขึ้น ส่วน Sparkonomy ใช้สร้างระบบ index สำหรับวิดีโอของครีเอเตอร์จำนวนมหาศาล และลด latency ของระบบลงได้ถึงประมาณ 70%
สรุปง่ายๆ Gemini Embedding 2 คือเหมือน “ตัวแปลความหมายของข้อมูลทุกประเภท” ที่ทำให้ข้อความ รูป เสียง วิดีโอ และเอกสาร ถูกแปลงมาอยู่ในภาษาที่ AI เข้าใจแบบเดียวกัน และนี่คือโครงสร้างสำคัญของระบบค้นหาและ AI รุ่นใหม่ที่ต้องจัดการข้อมูลหลายรูปแบบพร้อมกัน.
อยากใช้ AI กับงานจริงเป็นระบบ?
เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก
📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac
