广告位
产品搜索
 
产品分类
天富注册登录:AI圈沸腾!巨头神秘新品来了,苹果“赢麻了”?
作者:天富平台    发布于:2024-05-14 14:53:05    文字:【】【】【
摘要:5月14日凌晨1点,OpenAI直播发布了其产品的更新。在半小时的线上发布会上,OpenAI的首席技术官米拉?穆拉蒂(Mira Murati)宣布GPT-4的一系列升级。发布会的主要亮点如下: 推出了全新的模型GPT-4o,其中的“o”表示“omni”(全面、全能)。同时,GPT-4o 向所有用户免费开放。 新模型具备强大的多模态交互能力。在发布会演示中,GPT-4o具备文本、图片、视
5月14日凌晨1点,OpenAI直播发布了其产品的更新。在半小时的线上发布会上,OpenAI的首席技术官米拉?穆拉蒂(Mira Murati)宣布GPT-4的一系列升级。发布会的主要亮点如下: 推出了全新的模型GPT-4o,其中的“o”表示“omni”(全面、全能)。同时,GPT-4o 向所有用户免费开放。 新模型具备强大的多模态交互能力。在发布会演示中,GPT-4o具备文本、图片、视频和语音方面的能力,可以顺畅丝滑地与人类进行语音交流,并读懂屏幕信息。 发布了ChatGPT 桌面应用程序,目前可适用于 macOS,Windows 版本将在今年晚些时候推出。 AI助手初具雏形 在发布会前,记者注意到OpenAI的官网上已经将GPT-4的描述从“最先进的模型”更改为“先进的模型”,为GPT-4o的发布提前做了准备。 作为OpenAI目前最先进的模型,GPT-4o的特别之处在于可以接受任何文本、音频和图像的组合作为输入,并生成上述这几种模态的内容。这意味着,GPT-4o具备了AI助手的基本雏形,在通往通用人工智能的道路上又前进了一步。 在发布会现场,穆拉蒂与OpenAI的前沿研究主管Mark Chen和后期训练团队负责人Barret Zoph对实时语音对话功能进行了演示。从演示效果上来看,GPT-4o与人类的交互变得更及时和自然。据介绍,GPT-4o可以在232毫秒内回应音频输入,接近于人类对话的反应时间。在此之前,使用语音模式与ChatGPT进行交流,平均时延为2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o不仅可以实时响应对话,天富注册登录还没有尴尬漫长的时延,而且能够生成各种不同情绪风格的语音。 例如,当被问及“你最近怎么样?”时,GPT-4o 除了表示“我很好”,还会反问“你怎么样?”当“要求讲一个“机器人和爱情的睡前故事”时,GPT-4o开始说话以后被打断,要求以更有情绪性、更戏剧化的方式讲述故事,随后GPT-4o在讲故事时的语音语调更跌宕起伏,更为声情并茂,甚至可以以唱歌的形式结束对话。 从此以后,家长们哄娃睡觉变得so easy。 不仅如此,GPT-4o 还拥有视觉+语音交互功能,能够看图解方程式。Zoph打开手机视频通话,对GPT-4o说:“我要在一张纸上写下一个线性方程。不要告诉我答案,只是给出解答它的过程。”随后,Zoph写下了3x+1=4的方程式,询问如何解这道题。GPT-4o通过循循善诱的提示,在Zoph提出求助与问题时不断给出下一个步骤的建议,从而得出了x=1的正确结果。 从此,家长辅导孩子写作业也变得更轻松。 此外,GPT-4o能够实时读懂屏幕信息,帮助解答代码问题和分析图表;能够跨语言实时翻译,在说话者用意大利语和英语对话时,没有延迟地翻译成了对应的语言,还能模仿说话者的语气;能够识别分析人类的情绪,当说话者展示一张自拍,要求其判断自天富平台己的情绪时,GPT-4o 分析道,“你看起来非常开心,可能还有一些激动,应该心情很不错。” 虽然OpenAI的首席执行官山姆?奥特曼没有在发布会现场出现,但他在个人社交平台上实时播报着OpenAI的更新。发布会后,他发布了一条动态,只写了“her”这一个词。据外媒此前报道,奥特曼曾表示自己最喜欢的一个人工智能电影是《她》(Her),最终目标是开发出一种类似电影中的虚拟AI助手,努力使苹果Siri等现有语音助手变得更加实用和智能。


这是水淼·PHPWEB站群文章更新器的试用版本更新的文章,故有此标记(2024-05-14 14:53:11)
脚注信息