DeepSeek与豆包谁更强?
2025-02-25 21:51
1、DeepSeek属于大语言模型,而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。#相当于DeepSeek做减法、豆包做加法。除了基础的体验外,也去Github上学了他的Technical Report。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少人担心训练侧大幅降本,引发算力需求下降。我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。 从训练到推理、算力需求持续增长DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束,采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0;结论:#DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。DeepSeek建议重视:股权合作:、生态合作:、豆包建议重视:云侧算力:、端侧算力:、、算力上游:、算力基础:、。
以上就是本篇文章【DeepSeek与豆包谁更强?】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/7456.html
资讯
企业新闻
行情
企业黄页
同类资讯
首页
网站地图
返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多
最新新闻
手机降低分辨率(手机降低分辨率能否提高性能)
关于手机降低分辨率的问题探讨 随着智能手机的普及,我们越来越多地关注手机的各种性能,其中分辨率是一个重要的指标。然
手机流量 英语(手机流量英文怎么说)
Mobile Data Traffic in English 随着科技的快速发展,智能手机已经成为了我们日常生活中不可或缺的一部分。与此同时,手
手机自动清理内存(手机自动清理内存垃圾)
关于手机自动清理内存的重要性及其优势 随着智能手机的普及,我们的生活越来越离不开手机。然而,随着手机使用时间的增长
荣耀最强手机(荣耀顶级手机)
荣耀最强手机:科技与艺术的完美结合 在当今这个高速发展的时代,智能手机已经成为了我们日常生活中不可或缺的一部分。而
一百万的手机(一百万的手机什么样)
《一百万的手机》:奢华与科技的完美结合 随着科技的飞速发展,智能手机已经成为我们日常生活中不可或缺的一部分。然而,
华为最好的一款手机(华为最好的一款手机是什么型号)
华为最好的一款手机 华为作为全球知名的科技公司,其手机产品一直备受关注。随着技术的不断进步和市场的竞争日益激烈,华
安卓手机铃声软件(安卓手机铃声软件哪个最好)
安卓手机铃声软件:多样选择与个性化体验 随着科技的快速发展,智能手机已经成为我们日常生活中不可或缺的一部分。铃声作
怎么用手机发qq邮箱(怎么用手机发qq邮箱文件)
如何使用手机发送QQ邮箱 在当今信息化的时代,手机已经成为我们日常生活中不可或缺的一部分。其中,QQ邮箱作为广泛使用的
手机qq删除好友(手机qq删除好友怎么找回来)
关于《手机QQ删除好友》的文章 随着社交媒体的普及,QQ作为中国最受欢迎的社交软件之一,已经成为人们生活中不可或缺的一
手机监控定位(父母如何定位子女的手机)
关于《手机监控定位》的文章 随着科技的快速发展,手机已经成为了我们日常生活中不可或缺的一部分。然而,随之而来的是一
本企业新闻