换句话讲,目前的多模态模型,并不能像人一样去理解视频。但Gemini完全不一样,它是原生的多模态模型。从训练初始,Gemini一直被投喂的数据,就是文本+语音+图片+视频。也就是说,Gemini可以像人类一样理解看到的内容,数据不需要在多个模型之间来回流转,一个模型就搞定了一切。 换句话讲,目前的多模态模型,并不能像人一样去理解视频。但Gemini完全不一样,它是原生的多模态模型。从训练初始,Gemini一直被投喂的数据,就是文本+语音+图片+视频。也就是说,Gemini可以像人类一样理解看到的内容,数据不需要在多个模型之间来回流转,一个模型就搞定了一切。