一幅未来感界面中,AI模型Gemini Omni同时解析手绘鱼、黑洞图像、蛋白质结构和音频波形,象征其多模态理解能力。
一幅未来感界面中,AI模型Gemini Omni同时解析手绘鱼、黑洞图像、蛋白质结构和音频波形,象征其多模态理解能力。

这个能看懂手绘鱼并讲解黑洞的AI,也给关注技术演进的同事一个可以一起看的背景。

谷歌发布全能AI模型Gemini Omni 事件脉络与关键事实

在2026年谷歌I/O大会上,Google DeepMind负责人、诺贝尔物理学奖得主德米斯·哈萨比斯正式发布了多模态大模型Gemini Omni。该模型是Gemini系列迄今为止能力最全面的版本,能够无缝处理文字、图像、视频和音频等多种信息模态。其名称‘Omni’意为‘全能’,体现了模型在跨模态理解与生成上的突破性进展。

Gemini Omni在多个演示场景中展现了强大能力:面对用户手绘的鱼,模型不仅能识别,还能实时生成流动动画;在‘弹珠世界知识’演示中,它将抽象知识点转化为弹珠穿行复杂管道的视觉叙事;面对‘黑洞素描’,模型可精准识别物理概念并展开深度讲解;在蛋白质折叠任务中,也展示了科学推理与可视化潜力。

该模型已被深度集成至Gemini App,成为用户日常与AI交互的‘默认智能引擎’,为所有基于Gemini的服务提供统一的技术底座。这一发布标志着谷歌在多模态AI竞争中迈出关键一步,未来或将进一步影响搜索、教育、科研等领域的交互方式。

事实

  • 2026年5月19日,谷歌在I/O大会上发布多模态大模型Gemini Omni
  • Gemini Omni由Google DeepMind负责人德米斯·哈萨比斯发布,具备文字、图像、视频、音频统一处理能力
  • 模型可在用户手绘鱼的基础上生成动画,并将知识转化为弹珠管道的视觉叙事
  • Gemini Omni已深度集成至Gemini App,成为默认智能引擎

Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策