News / รีวิว / Gemini
Gemini · รีวิว

Agentic Vision ใน Gemini 3 Flash

Mac
ภีศเดช เพชรน้อย
1 ก.พ. 2026 · อ่าน 3 นาที
Agentic Vision ใน Gemini 3 Flash

Agentic Vision ใน Gemini 3 Flash – AI ที่วิเคราะห์ภาพแบบ "สืบสวน" ไม่ใช่แค่เดา ขยายซูมดูรายละเอียดเล็กๆ ได้เอง แม่นยำขึ้น 5-10%

Google เพิ่งปล่อยฟีเจอร์ใหม่ชื่อ Agentic Vision ใน Gemini 3 Flash ซึ่งเป็นการเปลี่ยนเกมการวิเคราะห์ภาพเลยก็ว่าได้ ตรงที่มันไม่ได้แค่มองภาพครั้งเดียวแล้วตอบ แต่มันจะ "สืบสวน" ภาพแบบมีขั้นตอน

มันทำงานแบบ Think-Act-Observe คือคิดว่าต้องทำอะไร แล้วรันโค้ด Python จริงๆ เพื่อครอป ขยาม หรือวาดกรอบบนภาพ จากนั้นเอาผลลัพธ์มาวิเคราะห์ต่อ ทำให้มันอ่านรายละเอียดเล็กๆ ได้แม่นกว่าเยอะ เช่น หมายเลขซีเรียลบนชิป หรือข้อความเล็กๆ บนป้าย

ที่ชอบคือมันใช้โค้ดจริง ไม่ใช่แค่คาดเดา ตัวอย่างเช่น ถามว่า "นับนิ้วมือในรูป" มันจะวาด bounding box รอบนิ้วแต่ละนิ้ว นับด้วยโค้ด แล้วแสดงภาพ annotated ให้เห็นเป็นหลักฐาน ทำให้ลดปัญหา hallucination ลงไปเยอะ

ทดสอบกับบริษัทตรวจสอบแปลนอาคารอย่าง PlanCheckSolver ปรับปรุงความแม่นยำขึ้น 5% โดยให้ AI ครอปส่วนต่างๆ ของแปลนมาตรวจทีละส่วน แทนที่จะดูทั้งภาพแล้วเดา

ใช้งานได้ฟรีใน Gemini app โดยเลือกโหมด "Thinking" หรือใช้ผ่าน API สำหรับนักพัฒนา ราคาก็ถือว่าถูกเมื่อเทียบกับคู่แข่งอย่าง GPT-4o หรือ Claude 4

รีวิวเบื้องต้นค่อนข้างดี โดยเฉพาะงานที่ต้องการความแม่นยำสูง เช่น การ reconstruct UI จากวิดีโอหรือเปลี่ยนสีผนังในภาพ แต่ก็มีบางคนบอกว่ามันช้าไปหน่อย และไม่ค่อยเหมาะกับงาน creative เท่าไหร่

ผมว่ามันน่าสนใจสำหรับคนที่ทำงานกับภาพซับซ้อน เช่น แผนภาพทางเทคนิค ตารางข้อมูลหนาแน่น หรืองานอุตสาหกรรมที่ต้องอ่านรายละเอียดเล็กๆ ให้ได้ ถ้าใช้แค่ถาม-ตอบทั่วไปอาจไม่จำเป็นขนาดนั้น แต่ถ้างานต้องการความแม่นยำ ลองเล่นดูน่าจะคุ้ม

อยากใช้ AI กับงานจริงเป็นระบบ?

เรียน Claude Method — วิธีคิดและลงมือใช้ Claude/AI กับงานจริง ตั้งแต่วันแรก

ดูคอร์ส →

📍 โพสต้นฉบับบน Facebook: AI กับ Peesamac