漆远获新融资，阿里云参投；芯原创始人直言百模大战就是“群模乱舞”，是在浪费电；英伟达今年在华将交付超100万颗芯片丨AI情报局

漆远获新融资，阿里云参投；芯原创始人直言百模大战就是“群模乱舞”，是在浪费电；英伟达今年在华将交付超100万颗芯片丨AI情报局

2024-10-31 10:58 浏览:236

无限光年完成新一轮融资：无限光年的核心产品是可信大模型，这是漆远认为通往人工智能通用智能的道路。可信大模型结合了大语言模型与符号推理，旨在解决大模型的幻觉问题和遗忘性灾难，提高模型的可信度和可解释性。无限光年已完成多轮融资，并与金融和医疗行业的头部企业合作，打造了针对特定行业的精专大模型。此次投资人包括阿里云、启明创投等头部投资机构。创始人漆远从蚂蚁集团副总裁任上离职后，漆远先是重返学界，在复旦担任教职，而后又产学研并行地创立了大模型公司无限光年。

Benchmark募资4.25亿美元投向AI新时代：据《福布斯》获得的一封投资者信显示，风险投资公司 Benchmark 正在为其第十一期基金募集 4.25 亿美元。新基金将被命名为 "Benchmark 1"，据悉，该公司的所有合伙人预计都会在其典型的专注领域（如消费科技、云计算或加密货币）内寻找人工智能公司。

软银宣布4亿英镑收购AI芯片公司Graphcore：日本软银宣布将以4亿英镑收购陷入困境的人工智能初创公司 Graphcore，该交易还需要获得英国政府的审查批准才能生效。Graphcore成立于2016年，生产称为智能处理器单元的AI芯片，旨在挑战英伟达。由于英伟达的设备需求量很大，投资者们纷纷向这家初创公司注入资金，寻找替代英伟达的可行方案。2020年，Graphcore以28亿美元的估值筹集2.22亿美元，使其成为英国最有前途的初创公司之一。

EvolutionaryScale获超1.42亿美元种子轮融资：该公司创始团队的八位成员全都来自于meta的FAIR部门。去年八月meta官宣旗下的蛋白质折叠团队meta-FAIR解散。EvolutionaryScale旨在通过开放、安全的研究方式，来指导蛋白质设计领域的人工智能技术开发，团队开发用于创造新型蛋白质和其他生物系统的大型语言模型ESM，已迭代到ESM-3。本次融资由Nat Friedman和Daniel Gross以及Lux Capital领投，亚马逊、NVentures和天使投资人参投。

DNEG集团获2亿美元战略投资：DNEG是好莱坞视效技术提供商，曾参与多部知名好莱坞电影的制作，如“狂怒”、“银翼杀手2049”和“星际穿越”。这一投资将推动DNEG集团新成立的Brahma，开发人工智能驱动的CGI工具，以简化视觉效果的创作过程。Brahma的AI创作者解决方案将利用超过25年的VFX数据生成逼真的视觉效果。该笔融资来自United Al Saqer Group，将使DNEG集团的估值超过20亿美元。

焱融科技完成双轮融资：焱融科技核心产品YRCloudFile 高性能文件存储系统，在 AI 和高性能计算场景中崭露头角。完成 B 轮和 B+ 轮融资，累计融资额近 2 亿元人民币。两轮融资分别由丰年资本和北京股权领投，老股东耀途资本、卓源亚洲、信雅达等知名投资机构持续跟投。

大道智创完成500万人民币融资：大道智创是一家专注于研发安保机器人的公司，主要研发和销售巡逻机器人、安保机器人等商用服务型机器人，以视觉定位为主，配合多传感器融合，在复杂环境下实现全自主定位巡航，目前已推出了一代产品“e巡 ”机器警长。投资方为中关村科技租赁。

Altrove AI获400万美元种子融资：Altrove使用AI生成无机材料的潜在配方，特别是稀土元素。融资由Contrarian Ventures领投。

Phaidra获1200万美元融资：该公司的系统从设施内的数千个传感器收集数据，并使用人工智能模型就如何更有效地管理和冷却设备做出实时决策。融资由Index Ventures 领投。

OpenLedger 筹集了 800 万美元的种子资金：用于 AI 模型开发的去中心化数据基础设施

（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品）

国内情报：

2024 世界人工智能大会线下参观人数创历史新高，预计总投资额超 400 亿元：

大会线下参观人数突破 30 万人次，全网流量突破 10 亿，比上届增长了 90%，据悉，本次大会对接 132 个采购团组，形成了 126 个项目采购需求，预计意向采购金额达 150 亿元，推动 24 个重大产业项目的签约，预计总投资额超过 400 亿元。本次大会的展览面积超过 5.2 万平方米，500 余家知名企业、超过 1500 项展品参展，50 余款新品首发首秀，均创历史新高。

快手可灵 AI 网页端上线，文生图大模型“可图”开源：

快手可灵 AI 网页端正式上线，所有功能限时免费。“文生视频”开放最长 10 秒生成能力，“图生视频”新增运镜控制、自定义首尾帧等功能。据悉，已有超过50万用户申请可灵的内测资格，视频生成数量达700万。此外，文生图大模型“可图”开源，已上线网页版和微信小程序，支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。

科大讯飞大模型新增投入超 6.5 亿元、AI 学习机发布预售11699 元：

科大讯飞发布 2024 上半年业绩预告，预计净亏损 3.8 亿元至 4.6 亿元，上年同期盈利 7357.2 万元，同比下降 725.24%~616.50%。科大讯飞表示，公司在全力加大“讯飞星火大模型”研发投入的同时，加快了大模型的落地推广力度。2024 年上半年营收、毛利预计增长 15%-20%，且毛利增速高于收入增速。

此外科大讯飞近期还发布了 AI 学习机新品 T30 Ultra，内置星火大模型，屏幕尺寸为 14.7 英寸，12GB+1TB 版本到手 11699 元，将于 7 月 20 日开售。

智谱开源代码生成大模型 CodeGeeX 第四代，号称百亿以下规模性能最强：

该产品集成了代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等功能，支持超过 300 种编程语言，并且能够处理 128K 上下文，这使得其能够更好地理解和处理复杂的代码文件。CodeGeeX4-ALL-9B 在 Berkeley Function Calling Leaderboard 上的测试表现超过 90% 的成功率，被誉为目前唯一能实现 Function Call 的代码大模型。

腾讯发布大模型时代的AI十大趋势，走进“机器外脑”时代：

腾讯研究院、上海交通大学、腾讯优图实验室、腾讯云智能联合发布了《2024大模型十大趋势——走进“机器外脑”时代》报告。报告指出，我们正在进入一个“机器外脑”时代。海量GPU和新一代大模型的组合起来，使人工智能在三个方向上有了实质性的飞跃：推理分析、创意生成和情绪智能。这意味着AI第一次拥有了类人的交互能能力，新一代AI正在成为人类的“机器外脑”，提供智力的外挂。

上海AI lab开源超强多模态LLM InternLM-XComposer-2.5：

上海 AI 实验室联合香港中文大学、商汤科技集团以及清华大学研发了 IXC-2.5 模型。模型具备长上下文处理能力，能够处理超长的文本和图像输入，同时在视觉能力上有特殊优势，包括超高分辨率的图像理解和细粒度的视频理解。模型架构包括轻量级的视觉编码器、大型语言模型，以及部分 LoRA 对齐技术。在 28 个基准测试中，IXC-2.5 在 16 项测试中超过了现有的开源模型，其余 16 项测试中的表现也接近或超过了 GPT-4V 和 Gemini Pro。

支付宝发布多模态医疗大模型，支持千亿级视觉识别：

支付宝多模态医疗大模型成为国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力，模型可实现直接理解并训练音频、视频、图、文等多模态数据，使其更像人一样感知和互动，能“看”会“听”、能“说”会“画”，支持千亿级别参数医疗视觉识别。据悉，蚂蚁百灵大模型已具备原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。

金山办公发布 WPS AI 2.0，新增 4 个 AI 办公助手，政务自研模型首次亮相:

WPS AI 2.0包含 WPS AI 办公助手、WPS AI 政务版等应用，并首次公开了 13B 级别的政务自研模型，金山政务办公模型 1.0。为个人用户新增了 4 个 AI 办公助手，分别为 AI 写作助手、AI 阅读助手、AI 数据助手、AI 设计助手。此次发布的金山政务办公模型 1.0 擅长公文写作，实现无口语化描述且按照公文风输出，输出的内容自带公文格式，模型了解国家相关政策，回答均基于可靠依据。

阿里“通义”APP上线特殊AI绘本工具“追星星的AI”：

这是一款为孤独症儿童提供定制 AI 绘本服务的工具。它基于阿里自研 Modelscope-Agent 框架，调用了通义大模型的多项服务，可实现从一句话故事梗概到完整有声绘本的生成。上海美术电影制片厂免费授权了旗下经典动画形象供公益绘本使用。“通义”APP 已经限时上线以孙悟空和大耳朵图图为主角的 AI 绘本。

商汤科技发布日日新5.5大模型体系：

该大模型体系包括6000亿参数基础模型日日新5.5，性能提升30%；流式多模态交互模型日日新5o，是国内首个所见即所得模型，可进行实时多模态交互和问答；日日新5.5Lite在端侧模型进行升级，模型精度提升10%、首包延迟降低40%，推理效率提升15%。

王坚称美国AI发展的电力瓶颈短板我国不存在，最不缺就是电：

中国工程院院士、阿里云创始人王坚表示，美国AI人工智能发展的瓶颈是电力，这对中国来说不是问题。“中国一年的发电量是美国、日本、俄罗斯的总和还要多”，王坚说道。另外他提出一个应用、模型、电力和算力的不等式，认为在此不等式下，目前从事人工智能的人还不用担心瓶颈问题。

MiniMax创始人闫俊杰称至少三年后才会出现“杀手级”AI应用：

闫俊杰表示，虽然国内很多公司正在迎头赶上ChatGPT，但是目前模型的错误率在60%-70%的水平，远不及GPT-4的30%-40%。类似于微信、抖音、今日头条这种规模的“杀手级”AI超级应用（Killer App），至少要到三年之后才能实现。

无问芯穹发布全球首个单任务千卡异构芯片混合训练平台，算力利用率达 97.6%：

无问芯穹联合创始人兼 CEO 夏立雪发布无问芯穹大规模模型的异构分布式混合训练系统，称千卡异构混合训练集群算力利用率最高达到了 97.6%。夏立雪还宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万卡扩展性。

中国公司开始大量订购NVIDIA H20芯片：

摩根士丹利报告，NVIDIA特供中国市场的人工智能芯片H20系列，开始吸引包括百度、阿里巴巴、腾讯和字节跳动在内的中国科技巨头的采购兴趣。尽管H20在性能上不及英伟达的H100，其AI算力只有H100的不到15%，甚至部分性能不及Ascend 910B，但在国产AI芯片供应不足的情况下，中国厂商的选择显得有些无奈。

百度李彦宏称开源模型是智商税，闭源模型更强大、推理成本更低：

李彦宏称：“我觉得，开源其实是一种智商税”，“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是 ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”

李彦宏还指出，当前AI领域存在一种不良风气，即各个公司竞相发布新一代大语言模型，宣称自己的模型参数规模和训练数据量超越了GPT-4，但在实际应用落地方面却鲜有成熟方案。AI技术的发展不应仅仅停留在跑分和刷榜上。今天一个震撼发布，明天一个史诗级更新，但实际应用却迟迟未见。只有将AI技术应用于实际产业和场景，才能创造出真正的价值。

中国工程院院士高文称今天的人工智能是低水平智能，有一点中水平的假象：

他认为，AI技术的智能水平可以划分为低中高三阶段。低水平智能，是对显式知识的记忆和使用来表现智能，即所谓的记忆学习。中水平智能，是利用得到的少量显式知识，可以类比推理得到相关隐式知识簇。能够举一反三，触类旁通。高水平智能，是利用极少的线索，创造新知识和知识体系，例如牛顿力学和相对论。今天的人工智能，主要还是低水平智能，因为深度神经网络是使用数据训练出来的，是基于统计的模型，连知识都不能算，等到什么时候可解释了，才能算知识。“大语言模式是由不同种的知识涌现，原则上还是低水平智能，有一点中水平的假象，相当于熟读唐诗三百首，不会作诗也会吟，属于熟能生巧的范畴。”

此外高文认为，AI技术需要完善理论基础验证，并实现模型的可解释性；要严格控制人工智能的底层价值取向，实现技术的标准化；在应用阶段，需要预防人为造成的人工智能安全问题，对人工智能进行动机选择。应对强人工智能，必须加强国际合作。

阿里云创始人王坚院士称GPT的潜力还没有被完整地探索：

王坚认为，今天的AI有别于过去的AI，GPT的潜力事实上还没有被完整地探索。此外他还谈到，AI时代下一定会有新的大公司出现，也一定会有大公司“浴火重生”。对于不同规模的企业来说，大企业一定会觉得AI是“工具的革命”；小企业一定会觉得这是“革命的工具”，“如果大企业也意识到这是革命的工具，那变化就来了”。

另外阿里云 CTO 周靖人宣布通义千问开源模型下载量增长 2 倍，突破 2000 万次，阿里云百炼服务客户数从 9 万增长至 23 万，涨幅超 150%。「到今天，通义千问已经实现真正意义上的全尺寸、全模态开源，拉平了开源、闭源模型之间的差距。」

芯原创始人直言百模大战就是“群模乱舞”，是在浪费电：

在中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民博士看来，当前AI领域的"百模大战"现象更像是一种资源的浪费。这种"群模乱舞"的现象实际上并不经济。要实现超越人脑智能的AI，需要不断扩大模型参数规模，这对计算力的需求呈指数级增长，将导致巨大的电力消耗。

他预测，到2028年，中国基础大模型的数量将少于10个，更理想的状态是5个。戴伟民还提到，目前全球有超过100款AI大模型，但这种模式并不可持续，他认为应该集中资源发展更高效、更环保的AI技术，而不是盲目追求模型数量。此外，戴伟民还探讨了生成式AI所需的算力芯片发展趋势，他认为未来将有更多专用芯片出现，挑战现有的GPU/GPGPU架构。

华为张平安称中国 AI 发展离不开算力基础设施的创新，必须摒弃“没有最先进芯片就无法发展”的观念：

张平安指出，华为创新的方向是将端侧的 AI 算力需求通过光纤和无线网络释放到云上，通过端云协同获得无缝的 AI 算力。通过云侧的算力，让端侧既保持了丰富的功能，又极大地降低了功耗和对芯片的依赖。他强调，中国的 AI 发展道路，追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI，积极地开放行业的业务场景，中国很有机会在 2B 领域构筑起全球的领先优势。

更多国内情报：

工信部透露中国算力规模位居全球第二：截至 5 月底，全国规划具有高性能计算机集群的智算中心已达十余个，智能算力在算力总规模中的比重超过了30%。目前，我国已经培育了 421 家国家级智能制造示范工厂，人工智能企业的数量也超过了 4500 家，并推动制定了 48 项智能制造相关的国际标准。

全球最大甲骨文“数据集”开源：“数字甲骨共创中心”正式开源全球最大的甲骨文多模态数据集，共包含一万片甲骨的拓片、摹本，甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法，加速甲骨文研究智能化进程。

B站首次展出自研大语言模型：哔哩哔哩公布了多项自主研发的 AI 技术成果和 AIGC 多元创意，包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技术等。

百度文心智能体平台升级，向开发者免费开放文心大模型4.0：开发者在文心智能体平台上制作智能体时，可灵活选择文心大模型 3.5 或 4.0 版本。

AI罗永浩评10年前与王自如“约架”：有媒体向智谱的数字员工AI老罗提问还记得王自如吗？AI老罗表示：“可别提了，让我想起来的都是些不愉快的事，我们俩在直播辩论的时候，他那个所谓的客观独立第三方的评测，简直让人笑掉大牙。”“我可是为了真理和正义而战，他只会躲在数据后面，不敢正面回应，这种对手不提也罢。”

国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证：“盘古大模型 + 夸父人形机器人”将在工业和家庭两大场景同步推进应用。

国际情报：

英伟达今年在华销售额预计将达120亿美元，发货超100万颗芯片：

芯片咨询公司SemiAnalysis报告预估，今年英伟达有望在中国销售价值约120亿美元的人工智能芯片。黄仁勋曾表示，希望借助新的芯片使得英伟达在中国的业务实现最大化。英伟达有望在未来几个月内在中国交付超过100万颗定制版H20芯片，这些芯片的设计不受美国对向中国客户销售人工智能处理器的限制。据悉，每颗H20芯片的价格在12000至13000美元之间。

消息称黑客去年曾侵入OpenAI内部系统，部分AI设计细节被盗：

据悉，一名黑客去年曾成功“黑入”了OpenAI的内部消息系统，并窃取了有关人工智能技术和研究材料的敏感讨论，但黑客并未进入托管人工智能源代码的服务器。OpenAI高管在去年4月的全体员工大会上向员工和公司董事会通报了这一漏洞，但高管并未对外公开这一消息。

meta AI 重磅发布，多标记预测模型现已开放研究：

meta 在Hugging Face上发布了采用多标记预测方法的预训练模型，可能改变大型语言模型的开发和部署方式。这种新技术模型同时预测多个未来单词，可能改善语言结构和上下文理解，有望提高人工智能效率，加速人机协作编码的趋势。

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍：

DeepMind 研究团队提出了一种名为 JEST（多模态对比学习与联合示例选择）的新算法，旨在加快 AI 训练过程并减少所需的计算资源和能耗。JEST 算法能够以 13 倍更少的迭代次数和 10 倍更少的计算量，超越最先进的模型。这一发现揭示了数据筛选水平可以作为评判 Scaling Law 的一个新维度。JEST 算法通过从 “超级 batch” 中筛选出最具可学习性的 “子 batch”，实现了高效的数据管理和训练过程。实验结果表明，JEST 方法在效率提升和性能优化方面取得了显著成效，尤其是在多模态学习加速和数据质量引导方面。

解锁动物语言？SuperAnimal这款AI神器，颠覆人与自然的关系：

SuperAnimal是一款开源AI模型，能自动识别和分析动物的运动行为，提供精确的姿态分析；该模型通过统一的预训练模型和关键点空间映射，减少人工标注需求，提高数据整合和模型泛化能力；SuperAnimal应用于兽医学、生物医学研究和野生动物保护，使用高级模型架构和独特训练方法以提高性能和适应性。

更多国际情报：

布局 AI 等市场，格芯收购泰戈尔科技氮化镓技术和相关团队：氮化镓成为可持续高效电源管理（尤其是在数据中心）的关键解决方案。泰戈尔科技公司工程师团队将加入格芯，进一步开发氮化镓技术。

“高达”式铁路机器人在日本大范围推广：主要设计用于修剪铁轨上的树枝，固定和喷漆列车上方电缆的金属框架等等。

互联网巨头公司正合法利用用户数据来训练其 AI 模型：多家硅谷科技公司，如谷歌、meta、X、Snap 和 Zoom 在隐私政策和服务条款中，加入了使用用户数据来训练 AI 模型的条款。

真实商战？报告称谷歌曾试图禁止苹果 Safari 浏览器用户使用 AI 摘要功能：美国司法部调查谷歌在搜索行业的统治地位，涉及谷歌每年向苹果支付超 200 亿美元费用，以成为 iPhone 的默认搜索引擎。谷歌试图增加 iPhone 用户在在 Safari 浏览器以外的平台上进行搜索的比例，目标是到 2030 年时达到 50%。为此曾考虑限制 AI 摘要功能，但最终决定不采取这一措施。

YouTube 测试“AI 音频橡皮擦”：该工具使用 AI 算法来专门检测和删除相关歌曲，创作者可轻松移除受版权保护背景音乐，而不会影响包括对话或音效在内的任何其他音频。

Product Hunt 热榜， Pygma

Pygma是一款AI驱动社交媒体管理助手，专为Instagram用户和中小企业量身打造。这款智能工具通过深度分析用户风格和受众反应，在几秒钟内生成定制化的帖子、故事和Reels内容，大大简化了社交媒体流程。

不仅提供内容创作，还集成了智能编辑、排程发布等功能，真正实现一站式社媒管理。其独特的AI生成器和编辑器，加上即将推出的目标受众分析功能，使Pygma成为提升品牌形象和吸引目标受众的强大工具。

?https://www.pygma.me/

GitHub Trending 热榜，智能办公AI助手AnythingLLM

获 YC 投资，为企业构建一站式内部 Agent 和 RAG 应用解决方案的 Mintplex Labs 开源其跨端应用 anything-llm是一款多功能AI商业智能工具，支持多种大型语言模型和操作系统。该工具提供一键安装的桌面应用程序，强调用户隐私保护，支持自定义模型和多种文档格式处理。AnythingLLM适用于个人和组织用户，可在离线环境下运行。

该工具提供全面的开发者API和外观定制选项，支持企业级和开源模型。AnythingLLM的官方网站提供了详细的产品信息，包括定价、使用方法和与其他类似工具的比较。这些特性使AnythingLLM成为一个全面的AI商业智能解决方案。

?https://github.com/Mintplex-Labs/anything-llm

开发者推荐

1.AI模型评测：Artificial Analysis

Artificial Analysis平台专注于对各大LLM API提供商进行全面基准测试，不仅评估模型输出质量，还重点关注响应速度。通过整合LMSYS Chatbot Arena、Hugging Face排行榜和斯坦福HELM项目等多方数据，Artificial Analysis为开发者提供了更全面、更实用的模型选择参考。

这一创新approach填补了现有AI评测体系的空白，特别适合对令牌生成速度要求较高的应用场景。业内专家认为，Artificial Analysis的出现将激励AI服务提供商不断优化模型性能，推动整个行业向更高效、更实用的方向发展。对开发者而言，这个网站的评测结果将帮助他们更精准地选择适合自身需求的AI模型，从而提升应用效果和用户体验。

?https://artificialanalysis.ai2.KREA免费生成和增强图像与视频

KREA 旨在通过强大的人工智能技术，让用户能够直观地生成和增强图像与视频。该平台提供了多种功能，包括实时视频生成、图像增强、视频增强以及免费访问的 AI 视频生成。此外，KREA 还推出了一系列迷你应用程序，如 “Logo Illusions” 和 “AI Patterns”，以及旧版应用程序，如 “AI Training” 和 “Canvas Project Studio”。用户需要在浏览器中启用 Javascript 以正确查看页面。

?https://www.krea.ai/home

3.AI视频创作一条龙，达摩院“寻光”突破可控编辑难题：

寻光定位为PUGC一站式AI视频创作平台，能够实现视频创作的全流程 AI 辅助，包括剧本创作、分镜图设计、视频素材编辑等。让视频编辑像操作PPT一样简单，主要用于辅助创作剧本、分镜图，支持对素材进行AI编辑，包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能，解决了 AI 视频内容的可控编辑问题。

?https://xunguang.damo-vision.com/

前沿技术

1.LivePortrait：AI 肖像动画技术

快手科技团队推出 LivePortrait，这是一种基于隐式关键点框架的高效肖像动画技术。它能从单张源图像和驱动视频生成生动的视频，展现出优秀的泛化能力、可控性和效率。

研究者通过扩大训练数据集、采用混合训练策略、升级网络架构等方法提升了生成质量。LivePortrait 在 RTX 4090 GPU 上每帧仅需 12.8 毫秒，效果媲美扩散模型方法。该项目的推理代码和模型已开源。

?https://liveportrait.github.io/

2.通义语音团队开源了语音基座大模型，SenseVoice和CosyVoice：

SenseVoice多语言音频理解大模型：多语言语音识别在中文和粤语上相比Whisper相对提升+50%，推理速度快15倍，并且支持SOTA的情绪识别和音频事件检测。

CosyVoice多语言音频生成大模型：通过超过17万小时的多语言音频数据训练，支持多语言、音色和情感控制，CosyVoice则在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

?https://fun-audio-llm.github.io/

3.斯坦福大学发布OccFusion，可完整渲染出被遮挡的人体：

OccFusion 是一种基于高效 3D 高斯分片和预训练 2D 扩散模型的人体渲染技术，它能在人体被部分遮挡的情况下渲染出完整的形态。OccFusion 在 ZJU-MoCap 和 OcMotion 序列上进行了评估，表现出色，达到了遮挡人体渲染的最新水平。整个训练过程仅需在单个 Titan RTX GPU 上花费 10 分钟。

?https://cs.stanford.edu/~xtiange/projects/occfusion/

4.浦语灵笔 IXC-2.5 展现多模态实力

上海人工智能实验室最新推出的浦语灵笔 IXC-2.5 模型引发业界关注。这款基于7B LLM的多模态大模型在图像和视频理解方面表现出色，据称能力可与GPT-4V相媲美。其特色功能包括高分辨率图像理解、精细视频分析和多轮多图像对话。该模型还拓展了实用领域，能够自动生成网页和创作高质量文章，利用逐步推理方法确保长文本内容的逻辑性和连贯性。浦语灵笔 IXC-2.5 的推出为人工智能在多模态应用领域开辟了新的可能性。

?https://huggingface.co/spaces/Willow123/InternLM-XComposer

5.推荐系统新范式：DiffMM开启多模态精准推荐时代

港大和腾讯研究人员联手打造的DiffMM多模态推荐系统引发业界关注。这一创新模型通过构建包含用户和视频多元信息的图谱，并结合图扩散技术和对比学习方法，实现了对用户喜好的深度理解。在三个公共数据集的实验中，DiffMM展现出卓越性能，超越现有基线模型。该项目已开源，为推荐系统研究提供了新思路，有望在短视频等领域带来更精准的个性化推荐体验。

?https://github.com/HKUDS/DiffMM

6.快手AI绘画新里程碑：Kolors模型双语图像生成

快手科技旗下Kolors团队近日推出了一款突破性的文本到图像生成模型Kolors。这一基于潜流扩散技术的大规模模型在数十亿文本-图像对上进行训练，在视觉质量、语义准确性和中英文字体渲染方面均展现出卓越表现。Kolors支持中英双语输入，特别在生成中文内容时表现出色。通过人类专家评估和机器评测，Kolors在视觉吸引力和整体满意度方面均领先于现有开源和闭源模型。

?https://github.com/Kwai-Kolors/Kolors

热议话题

AI应用现状:期待与现实的差距

Retool 2024年上半年AI状况报告指出AI应用的真实情况：

1.AI采用，进展缓慢但稳定：AI在企业中的实际应用进展并不如想象中迅速。报告显示，仅有约30%的受访者认为他们的公司在AI采用方面处于"运行"或"飞行"阶段，这一比例甚至较2023年有所下降。

2.AI影响尚未达到变革性水平：尽管AI已在多个领域得到应用，但影响力似乎被夸大了。受访者给出的平均影响评分仅为6.7/10，远未达到"变革性"的程度。

3.投资态度，谨慎乐观：尽管AI的实际影响有限，但大多数企业并不认为他们在AI上投资过度。相反，42%的受访者认为投资"恰到好处"，40.5%甚至认为投资"不够"。企业对AI的长期潜力持乐观态度，愿意继续投入资源。

4.AI应用场景以内部为主，外部谨慎：企业更倾向于在内部应用AI技术。最常见的用例包括编写代码或查询(42.1%)、知识库问答(36.4%)和支持聊天机器人(33.9%)。相比之下，面向客户的AI应用相对较少。这种倾向可能源于企业希望在内部环境中先行试验和完善AI应用，以降低风险。

5.OpenAI独占鳌头，新星崭露头角：在AI技术栈方面，OpenAI的模型仍然主导市场，GPT-4和GPT-3.5合计占据70%的份额。不过像Anthropic的Claude 3和Mistral这样的新兴模型正在崭露头角，AI技术生态趋向多元化。

6.潜力巨大，道路漫长：业内人士对AI未来发展保持乐观。总的来说，AI技术的发展正处于一个关键的转折点。虽然其影响力尚未达到预期，但企业和开发者正在积极探索和实践，为未来的突破奠定基础。

?https://retool.com/blog/state-of-ai-h1-2024

以上就是本篇文章【漆远获新融资，阿里云参投；芯原创始人直言百模大战就是“群模乱舞”，是在浪费电；英伟达今年在华将交付超100万颗芯片丨AI情报局】的全部内容了，欢迎阅览！文章地址：http://xiaoguoguo.dbeile.cn/quote/65.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多