Google I/O2024年大会举行，一系列生成式人工智能新功能发布-Metaverse-映魅咨询-imconsultancy

Google I/O2024年大会举行，一系列生成式人工智能新功能发布

　　北京时间5月15日凌晨，谷歌公司（Google）召开了2024年 Google I/O大会，在今年的大会上，Google发布了多款人工智能软件产品的重大更新。

　　Gemini Nano，这是一款在移动设备上的大语言模型，新的更新将使它具有多模态的功能，这意味着Gemini Nano可以从文本、照片、音频、网络或社交视频以及手机摄像头的实时视频中提取信息，然后综合这些输入，总结其中的内容或回答用户可能提出的问题。

　　在此次I/O大会上，Google公司重点强调了Gemini 1.5 Pro。据Google公司首席执行官Sundar Pichai表示，Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token，拓展同步处理多模态信息的边界。

　　为Google Photos增加视觉搜索功能。新增了一个名叫Ask Photos的功能，你可以要求Gemini搜索你的照片，它能够提供比以前更精细的搜索结果。举个例子，告诉它你的车牌号码，它就会利用上下文线索在你拍过的所有照片中找到你的车。Google Photos的软件工程师Jerem Selier表示，这些数据可以用来投放广告或训练其他Gemini AI模型（除了Google Photos中使用的模型）。Ask Photos功能预计将于今年夏天推出。

　　为办公工具套件Workplace增加人工智能能力。Gemini AI将出现在包括Gmail、Google Drive、Docs、Sheets和Slides等Workplace的应用程序中。Gemini的加入能够帮助用户自动回答问题、帮助撰写电子邮件、提供文档生成的建议，也可以对长篇的文档进行内容精华的提炼。

　　当然，Gemini提供的能力并不是局限于办公场景。Google公司也展示了一些面向家长和学生的能力。比如人工智能聊天机器人可以帮助学生完成作业，或者为家长提供可能错过的家长会的摘要。Google在今年早些时候推出的Circle to Search功能也在升级，不久将用于帮助学生完成作业，比如对如何解决数学问题提供详细说明。

　　用户甚至可以为由Gemini驱动的AI同事创建独特的名字，它可以帮助你更好地协调同事之间的沟通、跟踪项目文件、收集待办事项列表，并跟进任务。用户也可以为你想让Gemini定期做的事情设置自动化流程，你可以设置它来管理各种数字事务，然后通过语音命令或文本提示来运行它们。

　　目前，Gemini AI有两个新的版本，分别承担不同的任务。比如Gemini 1.5 Flash是一个速度更快、延迟更低的版本，针对更需要速度反馈的任务进行了优化。

　　人工智能聊天机器人Project Astra，这有点像Google Lens的升级版，它可以让用户打开手机摄像头，对着周围的任何东西问问题。Project Astra具有更好的上下午理解能力，这可以让用户识别世界上的任何事物，比如计算机屏幕上某些代码的内部工作原理，甚至可以为你的宠物想出一个不错的名字。Project Astra的语音交互功能可以通过手机摄像头以及嵌入智能眼镜的摄像头进行。

　　Creativity Tools（创造力工具），Google公司最新发布了VideoFX模型，这是一个基于Google DeepMind视频生成器Veo的视频生成模型。它能够创建基于文本提示的1080p视频，并允许在视频制作过程中比以前更灵活。Google还改进了ImageFX，这是一个具有高分辨率生成能力的图像生成器。Google公司表示，与之前的图像生成器相比，它在图像中产生不必要的数字伪影（digital artifacts）的问题更少，它在分析用户提示和生成文本方面也做得更好。

　　此外，Google公司还展示了在MusicFX中的全新的DJ模式，这是一种人工智能音乐生成器，可以让音乐家根据提示生成歌曲和音乐。

　　搜索功能的更新，Google目前仍然是搜索引擎领域的头部公司，Google也在其最擅长的搜索引擎中增加新一代人工智能的能力。一些特色功能包括它能够更紧凑地呈现搜索结果，以及从较长的搜索查询和带有照片的搜索中获得更好的响应能力。

　　Google增加了一个名为Multi-Step Reasoning（多步推理）的新功能，这可以让你在搜索具有上下文深度的东西时，找到有关某个主题的多层信息。以一个旅行计划为例，Google展示了在地图上搜索如何帮助找到酒店和设置交通路线。然后，搜索引擎还会推荐餐厅，帮助制定旅行的膳食计划。你可以通过寻找特定类型的菜肴或素食选择来进行深度搜索，所有这些信息都以有组织的方式呈现给用户。

　　另外，我们也看到Google的搜索能力如何与Google Lens相结合，借助摄像头，用户可以获得一些基于视频和文本的指导。

延伸阅读：

Google I/O2024年大会举行，一系列生成式人工智能新功能发布

德国可再生能源供应商Trawa融资1000万欧元，利用AI为中小企业优化能源采购和消费

软银、英伟达和微软联合投资，自动驾驶技术公司Wayve融资10.5亿美元

Google I/O2024年大会举行，一系列生成式人工智能新功能发布

德国可再生能源供应商Trawa融资1000万欧元，利用AI为中小企业优化能源采购和消费

软银、英伟达和微软联合投资，自动驾驶技术公司Wayve融资10.5亿美元

相关推荐

与量子计算公司Multiverse Computing合作，博世将在西班牙打造“数字孪生”智能工厂

英伟达分享在元宇宙领域的最新技术进展，并推出新的3D内容开发工具包

Google旗下基金GV领投，虚拟现实内容平台SideQuest融资1200万美元