热闻|OpenAI新版GPT-4o登场!对所有用户免费,听说读写如真人
不开玩笑,电影《她》真的来了。
5月14日凌晨,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动,整体来看,活动主要分为两大部分:推出新旗舰模型“GPT-4o”,以及在ChatGPT中免费提供更多功能。OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。
将对所有用户免费开放!
(新语音模式几周内先对Plus用户开放)
在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。
在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot。
无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。
而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!
追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。
鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。
实时口译、读取用户情绪等
米拉·穆拉蒂强调了GPT-4o在实时语音和音频功能方面必要的安全性,称OpenAI将继续部署迭代,带来所有的功能。
在演示中,OpenAI研究主管Mark Chen掏出手机打开ChatGPT,用语音模式Voice Mode现场演示,向GPT-4o支持的ChatGPT征询建议。GPT的声音听起来像一位美国女性,当它听到Chen过度呼气时,它似乎从中察觉到了他的紧张。然后说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。如果有些大变化,用户可以中断GPT,GPT-4o的延迟通常应该不会超过两三秒。
另一项演示中,OpenAI的后训练团队负责人Barret Zoph在白板上写了一个方程式3x 1=4,ChatGPT给他提示,引导他完成每一步解答,识别他的书写结果,帮助他解出了X的值。这个过程中,GPT充当了实时的数学老师。GPT能够识别数学符号,甚至是一个心形。
应社交媒体X的用户请求,米拉·穆拉蒂现场对ChatGPT说起了意大利语。GPT则将她的话翻译成英语,转告Zoph和Chen。听完米拉·穆拉蒂说的意大利语,GPT翻译为英文告诉Chen:“Mark,她(米拉·穆拉蒂)想知道鲸鱼会不会说话,它们会告诉我们什么?”
OpenAI称,GPT-4o还可以检测人的情绪。在演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。最初,GPT参考了他之前分享的一张照片,将他识别为“木质表面”。经过第二次尝试,GPT给出了更好的答案。
GPT注意到了Zoph脸上的微笑,对他说:“看起来你感觉非常快乐,喜笑颜开。”有评论称,这个演示显示,ChatGPT可以读取人类的情绪,但读取还有一点困难。
最快232毫秒响应音频输入
OpenAI官网介绍,GPT-4o中的o代表意为全能的前缀omni,称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。
除了API的速度更快、成本大幅下降,OpenAI还提到,GPT-4o可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致,并且在非英语文本方面的性能有了显著提高。
OpenAI介绍,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT对话的平均延迟时间为2.8秒和5.4秒,因为OpenAI用了三个独立的模型实现这类对话:一个模型将音频转录为文本,一个模型接收并输出文本,再有一个模型将该文本转换回音频。这个过程意味着,GPT丢失了大量信息,它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物,这意味着所有输入和输出都由同一神经网络处理。OpenAI称,GPT-4o是其第一个结合所有这些模式的模型,因此仍然只是浅尝辄止地探索该模型的功能及其局限性。
上周曾有消息称,OpenAI将发布基于AI的搜索产品,但上周五OpenAI的CEO Sam Altman否认了该消息,称本周一演示的既不是GPT-5,也不是搜索引擎。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索。此后有媒体称,OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型,且具有比目前聊天机器人更好的逻辑推理能力。
网友:又一次突破了认知
对此,网友表示,“未来世界,人类可以躺平了”;也有网友认为,“无敌真正的AI助手出现了”;还有网友称,“还有什么AI做不到的,世界变化太快了,但感觉已经赶不上AI的进步。”
消息一出,不少国外网友们也炸开了锅,危机感这不又来了!
但也有部分网友保持冷静态度,表示:“这个影响肯定不小,但也不见得都是坏事。关键是,咱们得提前做好准备,自动化会越来越普遍,而对传统工作的需求会大大减少,肯定会带来社会规则的大变动。”
还有部分网友对此十分乐观,认为自己不会被AI所替代,说:“我对这事儿并不太担心,毕竟我自认为能力还算不错!而且尽管人工智能发展迅速,但它实际上也还只是个刚学会走路的小孩。”
OpenAI之父:AI影响力,可不容小觑
5月7日,有“OpenAI之父”之称的OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)在布鲁金斯学会关于人工智能和地缘政治的专题讨论会上发出警告,称人工智能对经济的影响力可能被大大低估了。
阿尔特曼说道,“GPT- 4并没有对经济产生巨大的、可察觉的影响,所以人们就觉得说:‘哦,好吧,是我们之前焦虑过度了,这完全不是个事’,而我担心的是,人们对这个问题的重视程度不够,AI的经济影响力,其实一个非常非常巨大的问题。”但当被问及为何他认为AI会成为一个巨大的问题时,阿尔特曼并未立即作出回应。
但并非所有职场人士都将人工智能视作威胁。一些对此持乐观态度的人认为,掌握人工智能技术的应用,能够让员工高效地节省时间,提升工作效率,从而提供个人晋升机会,有助于增加收入。
尽管如此,阿尔特曼表示,他仍对人工智能在劳动力市场上的潜在影响感到担忧。去年,在接受CNBC采访时,他曾表示自己对ChatGPT“略感惶恐”,警告称,这一技术可能会“淘汰”许多工作岗位。
AI带来的岗位重构:替代与补充
最新研究结果表明,AI可能会对经济产生颠覆性的影响。国际货币基金组织(IMF)在今年1月发布的一项研究表明,AI可能对发达经济体中约60%的工作岗位产生威胁。据IMF分析,近乎半数的工作可以实现自动化,这可能会导致招聘人数减少和工资下降。与此同时,麦肯锡(McKinsey)在其2023年7月发布的报告显示,到2030年,美国或将有近1200万劳动者面临职业转型的挑战。
知名投行高盛的JanHatzius分析师团队也在其2023年3月发布的研报中指出,若生成式AI能够实现其所承诺的能力,劳动力市场可能将面临巨大的冲击。美国目前近三分之二的职业岗位面临着自动化的威胁,其中,生成式AI的快速发展或将导致四分之一的工作岗位迎来根本性变革。高盛估计,大约7%的劳动力面临完全失业的风险,但他们中的大多数能够在稍微低产出的岗位上找到新工作。此趋势跨越国界,预示全球范围内,或将有高达3亿全职岗位步入“智能化转型”的新时代。
高盛最新研报:人工智能对经济增长的潜在影响 图片来源:Goldman Sachs
尽管自动化浪潮汹涌,高盛研究团队在报告中积极展望,强调AI带来的“岗位重构”不仅限于替代,更在于创造。历史经验与数据分析均表明,新兴技术在淘汰旧有岗位的同时,也将催生大量全新职业机会,成为维系并推动长期就业市场繁荣的重要一环。
报告还进一步指出,生成式AI作为一股不可小觑的力量,预计将在接下来的十年间,为美国劳动生产率的年均增速贡献约1.5个百分点,其广泛的经济影响力更可能将全球国内生产总值(GDP)的年增长率推高至7%。
主笔:王冰姿
来源:每日经济新闻、新华网、湖南日报、新浪微博等