DeepSeek与豆包谁更强？ - 多贝乐移动站

DeepSeek与豆包谁更强？

2025-02-25 21:51

1、DeepSeek属于大语言模型，而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少，主要是通过激活参数少、把精度降低实现的(16位变8位)，这是在不断改进基础大模型，而r1是在v3这个基础模型上，又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时，基于训练其他图片/音频/视频等模型能力，且训练和推理仍在持续。#相当于DeepSeek做减法、豆包做加法。除了基础的体验外，也去Github上学了他的Technical Report。不得不说，DeepSeek是颠覆式的大模型，在MMLU-Pro等大模型测试上，和全球巨头站在同一身位。于此同时，市场也关注到了DeepSeek的一些参数（训练时间是LIama 3的1/11；价格是Claude 3.5的1/11），不少人担心训练侧大幅降本，引发算力需求下降。我们认为，DeepSeek V3的成功，并不意味着算力需求下降。实际上是DeepSeek参数有歧义，才造成了市场的误读。从训练到推理、算力需求持续增长DeepSeek V3的训练成本仅考虑单次训练，而实际大模型的训练需要：1）大量高质量数据的合成及清洗；2）充分的预训练；3）多个MoE专家模型的多次训练AI应用和AI终端的落地节奏正在加速，推理侧将带来远超训练侧的算力需求，我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。公开数据增速无法匹配大模型发展需求，预训练的Scaling Law已结束，采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0；结论:#DeepSeek是国产大语言模型之光(重视合作方和生态)；豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。DeepSeek建议重视:股权合作:、生态合作:、豆包建议重视:云侧算力:、端侧算力:、、算力上游:、算力基础:、。

DeepSeek与豆包谁更强？

以上就是本篇文章【DeepSeek与豆包谁更强？】的全部内容了，欢迎阅览！文章地址：http://xiaoguoguo.dbeile.cn/news/7456.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多