智通财经APP获悉,周一,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型,并计划在未来几周内逐步在其各种产品中推出。OpenAI的首席技术官Muri Murati介绍说,GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,全用户均可免费使用,而付费用户的容量限制是免费用户的五倍。
Murati在OpenAI办公室的一次主题演讲中提到,GPT-4o跨越了语音、文本和视觉的多个领域。OpenAI将推出桌面版ChatGPT及全新用户界面。
GPT-4是OpenAI之前的领先模型,它集成了图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务。而GPT-4o在此基础上增加了语音功能。
GPT-4o明显提升了ChatGPT的使用体验—ChatGPT是OpenAI的人工智能聊天机器人。虽然ChatGPT长期支持语音模式,将ChatGPT 的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能更像与助手互动一样自然地使用ChatGPT。
例如,用户现在可以在ChatGPT回答问题时中断它,而OpenAI表示,新模型可提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音。
GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答有关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。
从即日起,GPT-4o将在ChatGPT的免费版本中提供,而OpenAI的高级版本ChatGPT Plus和Team用户则可享有“五倍消息限制”的优势,企业选项也将“即将推出”(当用户达到使用阈值时,系统将自动转为使用 GPT-3.5)。OpenAI表示,计划在下月左右为Plus用户推出改良后的GPT-4o语音体验。
OpenAI还表示,GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。
用户只需发出简单的“嘿,ChatGPT”语音提示,就可以获得代理的口语回应。然后,用户都能够用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。
在音频输入方面,人工智能的平均响应时间为320毫秒,与人类的对话响应时间类似。
目前,GPT-4o的应用程序接口中尚未为全部客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。
其他方面,OpenAI将在网络上发布全新的ChatGPT UI,新的主屏幕和消息布局“更具对话性”,同时还将发布桌面版的ChatGPT for Mac,用户都能够通过键盘快捷键向ChatGPT提问,也能够最终靠打字或说话截图并进行讨论(从今天开始,Plus用户将首先获得访问权限,Windows版本的应用程序将于今年晚些时候推出)。此外,ChatGPT的免费用户现在还可以访问GPT Store(OpenAI 基于其人工智能模型构建的第三方聊天机器人库)。
GPT-4o的文本和图像功能慢慢的开始向付费的ChatGPT Plus和Team用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。
语音版GPT-4o将“在未来几周内”开始提供。研发人员将可使用GPT-4o的文本和视觉模式,并在未来几周内向“一小部分让人信服的合作伙伴”提供音频和视频功能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
孩子的成长过程,都应该有这套漫画赢在自律,实例分析孩子实际问题,给出解决方案正面引导孩子
【整理归纳】初中地理知识点总结(全1-4册),高中地理学考(合格考)知识点大汇总!
三星Galaxy Z Fold 6和Z Flip 6的所有规格信息几乎全部泄露
小米15 Pro再次被确认:5400mAh电池+出色影像,手感媲美iPhone!