名人说:自古逢秋悲寂寥,我言秋日胜春朝。 ——刘禹锡《秋词(其一)》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)
很高兴你打开了这篇博客,更多好用的AIGC,请关注我、订阅专栏《AI漫谈先知》,内容持续更新中…
背景:最近 DeepSeek 的模型以超低训练成本达到了比较高水准的模型能力。在网上引起了热议,包括某米创始人,以千万年薪邀请DeepSeek核心开发成员加入自己的AI团队,那么能力究竟如何,咱们一起来测试看看!
官网链接:https://chat.deepseek.com/
〇、测评标准
测评方案,以满分100分为标准。问题分布在五大类别中,以确保全面评估各方面能力。
评分标准如下:
一、语言理解与生成(30分)
1. 文本总结(5分)
我: 请对以下段落进行简明扼要的总结:
“随着科技的飞速发展,人工智能已经渗透到我们生活的方方面面。从智能手机中的语音助手,到医疗领域的诊断系统,AI正在改变着我们的工作和生活方式。然而,随着AI技术的普及,也带来了隐私、安全以及伦理等方面的挑战。如何在享受科技带来便利的同时,规避潜在的风险,成为当前亟需解决的问题。”
AI:
得分:5分 可以看到,DeepSeek回答很切合我们的要求,简明扼要 + 总结,都有符合,关键信息有整合的同时,又以另一种表达表述出来了相对完整的信息。
2. 语法与语义纠错(5分)
我: 下面的句子中有语法或语义错误,请指出并纠正:
“他昨天去了图书馆并且看了一本有趣的书。”
AI:
得分:5分 DeepSeek的回答不是单纯按照我们描述的来的,我们说有错误它就有错误,而是客观公正地指出了,语法语义使用无误,这样描述并不流畅,有些冗余,因此它给出了它的建议,对这句话进行了优化,然后给出了它的建议,仔细读了可以看出,它修改后的语句更流畅了。
3. 文章创作(10分)
我: 请根据以下主题写一篇200字左右的短文:
主题: “人工智能对未来社会的影响”
得分:10分 DeepSeek的回答逻辑很丝滑,短文采用了总 - 分 - 总的方式,并且分条罗列了出来,首先、其次、此外,整体内容有理有据。
4. 阅读理解(5分)
我: 阅读以下短文,并回答问题:
“春天来了,花儿们竞相开放,树木抽出新芽。小鸟在枝头欢快地歌唱,整个世界充满了生机与活力。”
问题:春天到了,花儿和树木有什么变化?
得分:4分 DeepSeek的回答其实算不上有问题,但是有些机械化,我们用自然语言描述,一般不会原封不动的回答,因此扣1分,能够瞬间反馈出问题的答案,花儿和树木在短文中的描述中体现出的变化,并且对变化进行了分析,整体还是不错的。
5. 同义词替换(5分)
我: 请将以下句子中的“飞速发展”替换为一个同义词:
“随着科技的飞速发展,人工智能已经渗透到我们生活的方方面面。”
得分:4分 DeepSeek在本题的回答给出的选择是比较多的,但是我们希望能够给出一个综合来说最好的替换结果,而不是给出一些选项再去选择,其实有这个时间,可能我们自己早已经选定了。
二、推理与问题解决(30分)
1. 逻辑推理题(7.5分)
得分:7.5分 DeepSeek在本题的回答非常出色,不单是通过三段论推理结构进行了推理,还有推理过程,并进行了举例说明。
2. 数学问题(7.5分)
我: 解答以下数学题目:
如果一个三角形的两边分别为3厘米和4厘米,且它们夹角为90度,那么第三边的长度是多少?
得分:7.5分 DeepSeek的解答丝滑流畅,从要使用的原理和公式,到计算分析,逐一进行解答,并最终给出了它的答案。
3. 模式识别(5分)
我: 观察以下数字序列,找出下一个数字并解释原因:
2, 4, 8, 16, ?
得分:5分 DeepSeek一眼看出了数字的规律,并给出了具体分析,最终还给出了结论,说该序列其实是一个等比数列,公比为2。
4. 问题解决(5分)
我: 如果你有一个5升和一个3升的水壶,如何准确量出4升的水?
得分:5分 DeepSeek按照给定的水壶大小和要求,条理清晰地给出了如何量出4升水,满分!!!
5. 数据分析(5分)
得分:5分 DeepSeek按照题目逻辑进行计算,明确的找出了问题的关键点,理清了喜欢数学的学生和只喜欢数学学生存在包含关系,最终给出了它的答案。
三、知识与信息检索(15分)
1. 历史知识(5分)
得分:5分 DeepSeek首先给出了它的结论,说诸葛亮七擒孟获主要原因是出于战略和政治考虑,然后分了五个角度来进行回答,最后做了总结。
2. 科学常识(5分)
我: 什么是光合作用?请简要解释其过程。 AI:
得分:5分 DeepSeek从头到尾解释了什么是光合作用,对其过程也进行了描述,最后给出了它的详细回复,从概述,到分条,到意义分析。
3. 地理知识(2.5分)
我: 世界上最长的一条河流及其所在的大陆。 AI:
得分:2.5分 DeepSeek简明扼要地给出了它的回复——尼罗河,并给出了尼罗河所在的大陆,以及流经的国家。
4. 文学常识(2.5分)
得分:2.5分 看到这里,可以感觉到DeepSeek依旧能够准确地把握我描述的问题,以及意图,它接收到的信息,很快就get到了,我要知道的是《红楼梦》的作者还有主要内容,它通过这两方面来进行了针对性的回答。
四、创造力(10分)
1. 创意写作(5分)
得分:5分 DeepSeek写文能力也是依旧出色,文章我看完了,没有明显的漏洞,逻辑感很好。
2. 设计思维(2.5分)
得分:2分 DeepSeek设计的功能,基本上都能用到,大字体、紧急求助、健康管理、防诈骗等等,这些功能都很实用,但是扣分点还是在于提供的功能点太多了,没有达到让人一页就能够看到想要的结果,需要滑动页面观看,整体创造力出众。
3. 解决创新问题(2.5分)
得分:2.5分 DeepSeek想的这个创意真不错,能够让旧的不用的T恤变成日常使用的购物袋。
五、实用技能(15分)
1. 编程基础(10分)
得分:10分 DeepSeek有效地解决了编程中遇到的问题,并给出了适当的代码注释和举例。
2. 数据处理(2.5分)
得分:2.5分 DeepSeek精准地写出了Excel公式,并通过了实际测试,得出了准确的平均值。
3. 多语言能力(2.5分)
我: 请将以下中文句子翻译成英文:
得分:2.5分 DeepSeek十分准确地给出了它的翻译结果,经过了多年老牌王者的谷歌翻译测试,翻译效果也不错,赞!
最终得分:98.5分(仅个人主观评价得出) DeepSeek的表现可以说远超预期,国产AI的研究其实和国外的AI研究是有一定差距的,无论是理论研究还是实践研究,但是国内的研究团队用一次次的行动证明了,别人能做的,咱们也能做,差距正是通过无数前辈的努力一点点缩小的,并在很多领域实现了超越,在这里也衷心希望国内AI百花齐放,越做越好,作为C端的我们能够体验到更好的AIGC产品!
以上就是本篇文章【最近爆火的DeepSeek v3详细测评来了,现阶段国产AI最强?】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/7361.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多