这个时候说什么都没有用了。
x上的实时评论很快刷新了起来。
“等等,openai这是直接把nexai刚发的金星给超了?”
“今天硅谷太热闹了。”
山姆等掌声稍稍落下,才说道:“这就是gpt-v,openai的最新成果。但这不是我们今天发布会的重点,我们还有一个小东西要发布。”
观众们都听懂了他用的乔布斯的梗,也期待了起来。
nexai的休息室里,迈克尔低声骂了一句:“该死。”
山姆侧过身,看向旁边的一位研究员。
“接下来,是我们今天非常兴奋的一部分。我们认为未来的人机交互不应该被文本框限制,所以我们带来了gpt-voni。”
旁边的电视连上了山姆手机的投屏,显示出他的手机画面。
山姆在chatgpt的app里面点了一个键,对话框消失,变成了一个实时视频画面,视频中出现的是手机前置摄像头的画面——山姆,两个研究员,他们背后的沙发和背景。
研究员接过手机,举起来扫了一圈。
“你现在能看到什么?”
电视里响起了一个略显呆板的女声。
“我看到一个发布会舞台。沙发上坐着三个人,中间的人是山姆奥特曼。桌上有一杯水,旁边还有一台电视正在显示我的实时画面。台下应该有观众,因为我能听到环境声和偶尔的说话声。”
现场起了一阵巨大的骚动。
实时互动,这是从没出现过的交互方式。
研究员把摄像头对准山姆。
“他现在的表情怎么样?”
chatgpt毫无停顿地说道:“他看起来有点儿紧张,可能在期待什么评价,根据我们现在的场景,也许他在等观众的反应。”
台下笑了起来,山姆也笑了。
瑞恩看着屏幕上的直播画面,已经很久没有说话了,他的手指在椅子上一下一下的、有节奏的敲击着。
发布会现场,山姆等掌声结束后,再次开口。
“gpt-voni可以实时理解文本、语音、图像和视频,它不是把多个系统拼在一起,而是世界上第一个端到端的多模态模型。”
现场和线上的观众们已经理解了oni的含义,它是一个源自拉丁语的前缀,代表“全”、“总”的意思。这个模型,是一个全能模型。
“g