换句话讲，目前的多模态模型，并不能像人一样去理解视频。但Gemini完全不一样，它是原生的多模态模型。从训练初始，Gemini一直被投喂的数据，就是文本+语音+图片+视频。也就是说，Gemini可以像人类一样理解看到的内容，数据不需要在多个模型之间来回流转，一个模型就搞定了一切。换句话讲，目前的多模态模型，并不能像人一样去理解视频。但Gemini完全不一样，它是原生的多模态模型。从训练初始，Gemini一直被投喂的数据，就是文本+语音+图片+视频。也就是说，Gemini可以像人类一样理解看到的内容，数据不需要在多个模型之间来回流转，一个模型就搞定了一切。