Model multimodal Google seperti Gemini mampu memproses informasi dari berbagai modalitas—termasuk teks, gambar, video, dan kode—untuk menghasilkan respons yang lebih cerdas dan fleksibel.
Contohnya, Gemini dapat menerima prompt berupa gambar sepiring kue dan menghasilkan resep tertulis sebagai respons, atau sebaliknya. Ini melampaui kemampuan AI generatif biasa yang umumnya hanya merespons satu jenis input.
Bacaan Lainnya:
AI multimodal Agen memungkinkan pengguna memberikan masukan dalam bentuk apa pun dan memperoleh hasil dalam bentuk yang berbeda, menjadikannya lebih adaptif dan relevan dalam berbagai konteks penggunaan.
Model seperti Gemini di Vertex AI bahkan memungkinkan ekstraksi teks dari gambar, konversi teks menjadi format JSON, dan pemahaman konteks visual secara mendalam.
Menurut Google, pendekatan ini merevolusi cara pengembang membangun aplikasi masa depan—menggabungkan kemampuan berpikir lintas modalitas dengan efisiensi tinggi dan keamanan tingkat perusahaan.