推广 热搜: 未来    中国  企业  服务  政策  公司  快速  上海  设备 

DeepSeek与豆包谁更强?

   日期:2025-02-25     作者:caijiyuan    caijiyuan   评论:0    移动:http://xiaoguoguo.dbeile.cn/mobile/news/7456.html
核心提示:1、DeepSeek属于大语言模型,而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少,主要
1、DeepSeek属于大语言模型,而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。#相当于DeepSeek做减法、豆包做加法。除了基础的体验外,也去Github上学了他的Technical Report。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少人担心训练侧大幅降本,引发算力需求下降。我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。 从训练到推理、算力需求持续增长DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束,采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0;结论:#DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。DeepSeek建议重视:股权合作:、生态合作:、豆包建议重视:云侧算力:、端侧算力:、、算力上游:、算力基础:、。

DeepSeek与豆包谁更强?

本文地址:http://xiaoguoguo.dbeile.cn/news/7456.html    多贝乐 http://xiaoguoguo.dbeile.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号