谷歌预览了 Gemini 中名为 Gemini Live 的新体验,它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。
用户可以在聊天机器人说话时打断 Gemini,提出澄清问题,它会实时适应他们的语音模式。Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。
谷歌表示,它利用生成式 AI 新技术来提供卓越的、不易出错的图像分析,并将这些技术与增强的语音引擎相结合,以实现更一致、情感表达和现实的多轮对话。
从某种程度上来说,Gemini Live 是Google Lens(谷歌长期用于分析图像和视频的计算机视觉平台)和 Google Assistant(谷歌跨手机、智能音箱和电视的人工智能驱动、语音生成和识别虚拟助手)的演变 。
DeepMind 首席科学家 Oriol Vinyals 表示,这是一个实时语音界面,具有极其强大的多模式功能和长上下文。
推动 Live 的技术创新部分源于 Project Astra,这是 DeepMind 内部的一项新举措,旨在创建 AI 驱动的应用和智能体,以实现实时、多模式理解。
D eepMind CEO Demis Hassabis 表示,谷歌一直希望打造一款在日常生活中有用的通用智能体,想象一下代理可以看到和听到我们所做的事情,更好地了解我们所处的环境并在对话中快速做出反应,从而使交互的速度和质量感觉更加自然。
据悉,Gemini Live 直到今年晚些时候才会推出,它可以回答有关智能手机摄像头视野内(或最近视野内)事物的问题,例如用户可能位于哪个社区或损坏的自行车上的某个部件的名称。指向计算机代码的一部分,Live 可以解释该代码的作用。或者,当被问及一副眼镜可能在哪里时,Live 可以说出它最后一次“看到”眼镜的位置。
Live 还被设计为某种虚拟教练,帮助用户排练活动、集思广益等。例如,Live 可以建议在即将到来的工作或实习面试中强调哪些技能,或者提供公开演讲建议。
新的 ChatGPT 和 Gemini Live 之间的一个主要区别是 Gemini Live 不是免费的。一旦推出,Live 将是 Gemini Advanced 的专属版本,Gemini Advanced 是 Gemini 的更复杂版本,受 Google One AI Premium Plan 保护,价格为每月 20 美元。
OpenAI O1是OpenAI公司推出的一款先进的人工智能模型,旨在通过自然语言处理技术,为用户提供高效、智能的文本生成和处理服务。