商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o
7月5日,在2024世界人工智能大会期间,商汤科技发布“日日新5o”大模型,通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,实现实时流式多模态交互的创新模式,交互体验对标GPT-4o。
例如,工作人员拿出一只可爱小狗玩偶放在它面前,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴;工作人员随便翻开一本书的任何一页,“日日新5o”便能瞬间完成介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结。
商汤科技表示,能够实现对标GPT-4o的交互体验,正是源于“日日新5.5”基础模型能力的全面提升。7月5日,商汤科技正式发布“日日新5.5”大模型体系,在今年4月商汤科技发布的“日日新5.0”大模型基础上又迎来多项升级,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标对标GPT-4o。
据介绍,“日日新5.5”采用混合端云协同专家架构,最大限度发挥云边端协同,降低推理成本,模型训练基于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,提升推理思维能力。
在7月4日2024世界人工智能大会主论坛上,商汤科技董事长兼CEO徐立表示,当前 AI 还没有真正走进一个行业的垂直应用当中引起广泛的变化,也就还没有迎来行业的“超级时刻”。他认为,应用是决定人工智能超级时刻的一个关键。徐立表示,有三大需要突破的核心点,一是构建更高阶的逻辑思维链,来解决人工智能的推理问题,提升“智慧”水平;二是更流畅的交互体验,三是提升人工智能生成内容的可控性。
对于此次升级后的“日日新5.5”大模型,尤其是“日日新5o”在实时流式多模态交互上的突破,徐立表示:“如果把这样的实时交互能力装到我们的眼镜设备等,可能会推动一些新的应用的可能性。”
为进一步降低应用门槛,商汤科技近期推出“大模型0元Go”计划。凡是“日日新”的新注册用户,都可获得涉及调用、迁徙、训练等多项免费服务大礼包。同时,商汤科技表示,免费赠送5000万Tokens包,并且派出专属搬家顾问,帮助OpenAI用户实现零服务成本迁移。
编辑:王朱莹 张科维