·GLM5.0能力评估:GLM5.0在开源模型中表现突出,Coding领域优势显著,处于全球第三、开源第一的位置,在开源代码榜单上得分77.8分。对比主流商业模型,其在benchmark上与Claude 4.5存在1-2分差距,但性能优于Gemini 3 Pro。团队原计划2026年3月发布基于自研高效推理框架的DL5,该框架可将长窗口推理能力从当前主流的约2万Tokens提升至4-5万Tokens,但因训练导致模型效果不佳,最终提前基于SLAM框架增参发布GLM5.0,目前Coding能力是其核心出圈优势。
·模型核心突破点:GLM5.0的核心突破围绕四大维度展开:a.参数量升级:延续GLM4.5的稀疏注意力架构(MOE路线B;b.训练数据扩充:新增3.5T预训练数据,Coding数据与SLAM异步学习框架深度结合,AI for Science领域引入与中科院高能物理所合作的超2万亿Tokens专业数据,覆盖蛋白质原理、风洞原理等场景,完善专业知识体系;c.推出SLAM异步学习框架:实现模型日更,打破月/季度更新节奏,通过中央处理器统一拉取、标注用户数据并驱动数据飞轮,当日用户使用Coding产生的内容可快速进入迭代,大幅提升训练效率;d.硬件适配优化:完成对华为90C、摩尔线程等国产最新NPU的适配,保障模型运行与推理效率。
·与Claude的差距与追赶:GLM5.0与Claude的差距及追赶情况如下:a.蒸馏Claude数据训练效果不显著且可行性低:Claude有IP封禁机制,大量抓取易被封IP;其泛化环境以英文为主,在自然语言转代码场景中数据泛化价值有限,同时该行为受国家政策限制;b.算力存在明显差距:训练算力约为Claude的1/4-1/5(估算值),算力不足是推出SLAM框架的重要原因,以优化数据利用效率弥补算力短板;c.追赶周期:从benchmark表现看,若Claude无更新,GLM5.0预计1-2个月可在榜单得分上与之打平,不过实际用户体验有差异,内部Codinplay测试中不少用户反馈GLM5.0的Coding体验优于Claude;d.训练逻辑:模型训练以任务为核心,通过不同任务及对应解释优化Agent能力,同时参考海外模型标准,积极参与打榜,结合榜单要素针对性优化性能。
·自建算力中心配置:自建算力中心的算力来源涵盖外采及官方赠与,当前拥有近3万张专业NV卡,实际投入使用的约为2.8-2.9万张。具体型号分布上,A100约1.6万张,H100约六七千张,这两类卡合计占比达到80%;此外还配备有H20、4090、5090以及约1万张升腾JLB NPU等。不同型号的算力卡用途与利用率存在差异:H20利用率相对较低,主要被调配用于运营智谱清言;4090存在内存资源较低的问题,升腾JLB则因架构内多为虚拟算子,对齐难度大、运行效率不高,这些卡均不用于核心数据训练,核心数据训练仅使用A100、H100等约2.8-2.9万张高效算力卡。
·纳管与租赁算力情况:在自建算力之外,还通过纳管地方算力节点补充算力,涉及的节点包括无锡、北京门头沟、杭州及乌兰察布等地,纳管的算力规模约为3.3-3.4万张,且均为国产升腾NPU。同时,与第三方云厂商合作获取算力:从火山调配4000-5000张卡,用于支撑API调用等业务;从首都在线卡,用于搭建私有云专区,为客户提供模型私有部署服务。算力相关合同均按年签订,但会根据业务实际情况调整,2025年因前期对调用量预期过高,实际调用量未达预期,已向火山退还近1万张卡。此前曾使用3090进行推理,但因速度过慢,在同行采用A800提升推理效率的竞争压力下,转而使用A800进行推理,不过A800的成本显著高于3090。
·Coding Play运营数据:Coding Play近期涨价,核心原因是为用户提升了QPS配额,而QPS增加对应算力投入增长。Coding Play设有Light版、Pro版和Max版,各版本核心差异为QPS限制不同:最低版本每天仅开放两三个QPS,Max版可达约10个QPS。由于Coding任务并非一次性调用,单次任务可能向模型发起3到5次请求,QPS配额直接影响用户使用体验与效率。运营数据方面,截至2026年1月,国内Coding Play订阅数达4.1万,月活规模在1.8万-1.9万区间,日均调用量维持在200-230亿Tokens,1月国内板块收入60万人民币;全球市场日活为3.1万,日均调用量在330-400亿Tokens间波动,1月全球收入约200万人民币,海外收入为大致数值,非精准统计。
·国内外竞争格局:Coding领域竞争格局在国内外市场呈现不同特征。海外市场中,大游中国股份有限公司Minimax的M2.5虽曾被视为潜在对手,但实际其Coding能力较弱,系为上市炒作,M2.5模型全部开源,算法权重公开但Coding相关占比不高,未形成实质性竞争压力。To B端市场主要竞争对手为Kimi,二者目标客户类似,均聚焦泛互联网、SaaS类型公司,如易快报、和信信息及部分游戏公司,这类客户对数据安全关注度较低。Kimi采用订阅制模式,通过购买用户账号并配置对应QPS运营,对我方To B业务形成一定冲击,但双方运营模式有差异:我方To B的Coding接口以调用形式呈现,涵盖MCP调用、插件调用等场景,但当前调用量较低。To C端市场,我方在东南亚地区表现突出,竞争力较强。
·To B端推广难点:Coding业务To B端推广面临诸多难点,当前To B端日均调用量仅为几亿Tokens,远低于文本信息抽取、视觉理解等服务的调用规模。多数企业对公有云形式的Coding服务持抗拒态度,核心顾虑包括数据安全风险等。目前企业对Coding服务的接受度整体呈上涨态势,但推广以个人用户自发使用为主,以企业组织形式推进难度极大,To B端Coding业务尚未形成规模化竞争态势,市场仍处早期培育阶段。
·调用量增长情况:第三方数据显示,智谱GLM5推出后,第三方渠道日用量达1000亿Tokens,较此前4.7模型的100亿Tokens增长10-20倍,但实际商业化调用量与第三方数据存在明显差异。2024年12月,智谱4.7模型付费商业化Tokens日均达1100亿Tokens,招股书中提及的万亿级Tokens均为非付费量;2025年1月,该模型调用量无显著增长。GLM5推出后调用量未如第三方数据般大幅增长,核心原因是第三方渠道用量占比极低,所有第三方平台(含百链、扣子等)调用量占比合计未超5%,业务流量主要由自身团队运营,第三方渠道贡献有限。
·运营团队分工与占比:负责API及Tokens运营的团队主要有两个,分别为泛互联网团队与开放平台团队,当前组织架构相对混乱,两个团队均开展Tokens与API相关业务。泛互联网团队由吴伟杰(Richard)带领,核心职责为:a.开展云端私有化部署服务;b.对接并维护调用量较大的客户。开放平台团队核心工作为:a.负责接口和前端的日常运营与运维保障;b.承接所有客户的转化工作,推动潜在客户落地为合作客户。两个团队客户划分有明确标准,当客户调用量超5-10亿Tokens后,将自动归由泛互联网团队承接。业务贡献方面,从0到1的起量阶段,开放平台团队承担了70%-80%的工作,实现了调用量从无到有,还完成了场景创新与优化,是业务初始增长的核心推动力;泛互联网团队此阶段工作量占比仅为20%,主要负责起量后客户的持续跟进工作。
·定价策略与客户反应:当前定价由Richard拍脑袋制定,无明确逻辑依据。4.6/4.7版本服务客户时实际打三折,折后价约0.6美元(对应3-4元人民币)。Calling Plan已涨价30%-60%,API涨价超67%,暂未观察到客户流失。针对不同客户群体实施差异化定价:大用量企业客户不涨价,个人用户暂无专属折扣,主要以补包方式提供服务;因B端场景客户替换成本低,且多为其他厂商覆盖后的剩余场景,B端基本不涨价。
·开源策略与竞争力:开源仅对外开放训练架构与模型参数,核心训练框架、数据权重未开源。开源内容仅可用于模型部署,无法支持后续训练,且部署存在诸多技术门槛,竞争对手难以借此反超。核心竞争力源自被称为“中国AI教父”的唐老师领衔的团队,该团队与张钹院士(中国AI奠基人)创立的知识工程实验室一脉相承,学术底蕴深厚,通过聚拢、培养顶尖人才应对大厂挖角。对比来看,Deepseek核心预训练团队仅百余人,智谱核心预训练相关团队(含训推框架、推理优化、对齐、模型安全策略、多模态等)共计200余人。
·盈利与成本结构:a. 推理成本:仅核算算力成本,外租用于推理的A800单台每月成本为1.4-1.5万人民币,市场最低价的火山引擎A800单台每月报价达2.8万人民币;2024年租用A100单台每月成本约1万人民币,算力分散在阿里云、火山引擎、守在线等三方公有云。b. 收入情况:2024年Tokens业务全年收入为1800万人民币。c. 利润与投入:2024年整体训练投入(含人员、算力使用、采购成本)约18亿人民币;单项目利润超60%,招股书披露为56%。d. 模型迭代影响:GLM5.0参数量约40-41B,非MOE架构,推理仅计算激活参数量成本,增参后单位Tokens推理成本变化不大。此外,海外业务崛起主要源于国家AI出海战略,并非商业化运营成功。
·中美模型差距分析:a. 中美大模型原生能力已接近天花板,美国厂商当前多通过前端渲染(如不同数据标注、图片召回)、拼凑概念(如Anso topic、CLUCLU bot、Skill等)或搭建智能体组件来提升模型表现,而非从模型内部原生能力突破;b. 中国在算力上以指数级落后于美国,但算法层面具备优势,国内AI厂商整体算法能力与美国主力模型的差距不超过一年;c. 中国厂商的优势源于在算力与算法结合层面的深耕,包括研究并行架构、分步训练方法及模型使用效率;此外,智谱自2023年后不仅开源模型,还发表大量论文,海外机构也在招揽中国本土培养的AI高材生,进一步体现中国AI算法的实力。
·模型未来迭代方向:a. 大模型原生能力已达天花板,难以进一步突破;b. 模型未来主要提升方向集中在降低推理延迟与拓展上下文长度,但上下文长度的提升空间有限;降低延迟是核心重点,当模型延迟降至100毫秒以内时,可支持自动驾驶、具身智能等此前因延迟过高无法落地的场景;c. 美国当前推进的coding方向是跑偏的结果,是对过往信息化、数字化的妥协,其任务最终仍以文本形式呈现,未实现具身自主识别执行等真正的智能落地;d. 端侧AI本质是延迟不足的折中方案,无需重点关注。
·主要竞争对手情况:国内头部大模型厂商竞争态势呈差异化特征:a. 月之暗面:印奇为实际操盘人,此前因兼顾旷视事务半遮半掩,旷视大幅裁员后得以全身投入运营。该公司过去多年未推进商业化,模型迭代处于闭门造车状态,内部宣称模型表现优异但外界无法验证。截至2025年底,仍无对外输出商业化的打算,仅承接少量研究性质项目,如与武汉市政府的合作,商业化进展缓慢。b. Minimax:整体偏向ToC娱乐场景,收入结构、人员配比及数据权重均围绕该方向布局,海外产品Talkie主打超拟人对话,通过强化用户粘性实现广告及用户付费变现。ToB业务并非核心,采取紧密跟随豆包的竞争策略,豆包布局的场景、客户均会跟进,以半折价格、加倍人力投入争夺客户,目前ToB收入占比极低,精力主要集中在海螺视频的内容生成业务上。c. 阿里通义千问:Coding能力强劲,建模能力与智谱处于同一梯队,过去两年双方呈现你追我赶、互有超越的态势。阿里云拥有大量现成的Coding相关使用数据,在数据飞轮打造上具备显著优势,未来具备反超智谱的潜力。百度具备一定发展潜力,但更侧重项目交付,对模型迭代更新的关注度较低,采用项目制运营模式。智谱自身早期Coding数据主要来自开源社区、VS Code等平台,通过运营个人开发者获取数据,在数据飞轮打造上的基础不及阿里扎实。
·Coding与Agent方向探讨:当前大模型发展存在方向“跑偏”问题,Coding不应成为大模型的核心发展方向,Agent才是未来的核心赛道。在Coding领域,语料优化的核心并非蒸馏其他模型的输出结果,而是围绕任务数据展开:现阶段行业仍处于发展早期,主要通过参考同行的任务设置进行模型优化,后续核心竞争力在于获取更多用户真实需求的任务,以此针对性完善模型的任务实现能力。对于Agent方向,其评价标准较为抽象,涵盖talking、seeing、learning、thinking等多模块综合能力。目前国内外大模型均已形成完整的执行闭环,从初始的内容改写、深度思考、信息查询、错误修正到最终的结构化输出全流程覆盖,各模型在该闭环中的表现差距并不明显。但大模型原生无法实现真正意义上的Agent,必须依赖前端智能体组件才能有效执行相关任务。
Q: 智谱GLM5.0模型的能力水平如何?请结合基准测试说明其大致层级?
A: GLM5.0的Coding能力在开源班什曼榜上得77.8分,排名第一,开源领域第一、全球第三。整体能力距Cloud4.5有一两分差距,但在公开基准测试中强于Gemini3Pro。原本计划今年3月发布基于新推理框架的DL5模型,因训练效果不佳,改为年前基于SLAM框架及模型参数、机构参数增参发布当前模型。
Q: 智谱GLM5.0模型能力提升背后的核心原理是什么?核心突破点主要是哪一块?
A: 智谱GLM5.0模型能力提升主要基于四方面核心举措:一是增参,延续MOE稀疏注意力架构路线B;二是扩大预训练数据量,新增3.5T数据,其中coding数据结合SLAM异步学习框架,同时联合中科院高能物理所打造AI for Science模型,获取超2万亿token专业数据,填充蛋白质原理、风洞原理等专业知识场景;三是推出SLAM异步学习框架;四是适配华为90C、摩尔线程等国产最新NPU。
A: 直接蒸馏Claude的数据用于训练效果不显著,因Claude会封IP,若一天内用数据集跑训练,很快会被Claude封掉。
A: 不太可能,并非不相信质朴框架,目前公司训练算力约为Cloud的1/4至1/5,因算力及GPU支撑不足推出SLAM框架,当前无法反超Cloud。
A: 训练时有参考海外标准,目前在打榜,基于支撑不同组件的生成质量、交错质量、上下文窗口及生成速度等要素,结合榜单中的不同要素进行优化,目标是做到最好。
A: 训练算力约为Call的1/4-1/5是估算值。智谱算力分布主要包括三部分:自建算力中心包含外采及官方赠与的专业NV卡近3万块,实际利用2.8-2.9万块,其中A100约1.6万、H100约6-7千,剩余H20利用率较低,用于运营智谱清言;另有4090、5090及升腾NPU约1万块,因内存低、架构对齐麻烦等未用于核心训练。地方算力纳管覆盖无锡、门头沟、杭州等节点,多为国产升腾NPU,约3.4万块。三方云厂商方面,通过火山拿4000-5000块卡支撑开瓶、API调用等;通过首都在线建设私有云专区,提供云端私有化服务。
A: 自建与租赁规模占比不相近,公司相关业务不称为租赁,而是纳管,租赁业务规模并不大。
A: 算力合同按年签订,但年内存在退订情况,25年向火山退订近一万卡量级。
A: 最初预计调用量不会增长,无需预留过多算力;24年及之前均使用3090推理,但速度过慢,后续火山、Mi Max等厂商采用A800推理,效率更高,因此转向A800,但A800成本远高于3090,与火山协商的A800采购量约1.4万-1.5万,后发现实际调用量未达预期。
A: 公司Coding模型涨价是因向个人用户提升了QPS,该模型分Light、Pro、Max三个版本,差异在于QPS,最低版本日均2-3个QPS,Max版约10个QPS;由于Coding任务需多次请求,增加QPS意味着算力投入增加,因此涨价。1月份国内该模型订阅量约4.1万,月活1.8-1.9万,日均调用200-230亿次,需求量未达预期。
A: 全球截止到一月份DAU为3.1万,日均在330亿到400亿之间浮动;海外售价更高,收入约200万,但该数据不够精确。
Q: 海外市场竞争激烈,除Cloud外,垂直模型Minimax是否对公司形成实质竞争?
A: Minimax的coding能力较差,是为上市炒作,其M2.5版本全部开源,coding权重低,未对公司形成实质竞争;To B领域Kimi采用CodingPi订阅形式,对公司有一定冲击,但公司To B业务按调用量运营,而To B的Coding调用量低,难以推给企业,目前未形成显著冲击;公司在To C领域的东南亚市场表现较好。
A: 内部未针对优劣势做特别对比,但认为在榜单上遥遥领先。公司与Kimi的To B用户均集中在泛互联网领域,主要为对数据安全重视度较低的SaaS类型公司及游戏公司,如易快报、和和信息等。Kimi采用订阅制模式,以用户数量购买为主,每个用户配套对应QPS。
A: Coding场景的Token消耗并非特别巨大,目前TO B端调用量主要集中在文本信息抽取及视觉理解场景;Coding场景推广难度较大,企业对公有云形式的Coding能力较为抗拒,但企业端Coding需求维持上涨,且较多企业的个人用户使用Coding场景。
Q: GLM 5.0模型的核心应用场景为扣定,但To B端未规模化落地,主要原因是什么?何时会看到实质性变化?
A: 主要原因包括三方面:一是数据安全问题,扣定的准确率验证需反复交互,过程中企业代码逻辑会被暴露;二是企业内部有完整开发流程,引入扣定会短期内导致混乱,尤其是开发人员规模超50或100人的企业对扣定恐惧较大;三是扣定本身应用较少,过往代码模型的泛化能力、任务执行能力及代码编排能力均被企业质疑。
Q: 第三方数据显示智谱GM5模型推出后第三方渠道日用量约100B,此前4.7版本约10B,实际总量Token是否有同等幅度增长?
Q: B端API的主要渠道有哪些?像Openwrt这类第三方售卖平台的占比是多少?
A: 所有第三方售卖平台加总占比不超过5%,B端API主要由自身的开瓶团队与泛红团队负责运营。
A: 目前有两个团队从事Tokens及API相关业务,一个是智谱吴伟杰领导的泛互联网团队,主要负责云端私有化及量大客户的Tokens业务;另一个是开放平台团队,主要负责开瓶接口及前端的运营与运维,同时承接所有客户转化。
Q: 泛互联网团队与开放平台团队的客户有何区别?二者在面向客户及典型案例上是否存在差异?
A: 二者典型案例无差别,通常调用量达到5亿、10亿单位及以上时,客户会默认归至泛互联网团队。
A: 从0到1的起量阶段,80%由开放平台团队运营,20%为后续跟随的工作量;从调用量来看,开放平台团队贡献了70%-80%,包括量的提升、场景创新及优化。
Q: 公司模型定价高于其他模型,定价依据是什么,是按成本定价还是基于模型能力定价,以及高定价下的性价比情况如何?
A: 模型定价由Richard制定,无明确逻辑,当前服务客户时4.6、4.7版本价格折至三折。
Q: 作为开源模型,当前模型评价较高且定价3美元,如何保证竞争力以防止他人模仿反超,尤其是应对字节、阿里等大厂基于开源基础的跟进?
A: 能模仿反超的主要是大厂,无论是否开源大厂都有方法超越,保证竞争力的核心是唐老师团队聚拢和培养学生,关键在人。
A: 唐老师是公司大老板,技术水平属于中国AI顶级层级,被称为AI教父,其论文被众多顶级团队研读,培养出大量顶级人才。
A: 该团队人数少于智谱,DeepMind核心预训练团队约百余人,智谱核心预训练团队涵盖训推框架、推理优化、对齐、模型安全策略、多模态及凹凸团队,共200余人。
Q: 友商开源较彻底,公司开源策略中开源的方面有哪些,如何通过非彻底开源保证竞争力?
A: 开源训练架构及模型参数,未开源数据权重及训推框架。友商MIMAX开源训练思路及所有权重以获取二级市场评价,公司仅开源部分内容,用户可部署模型但无法训练,以此保证竞争力。
A: 公司B端企业客户中可实施涨价的占比很低,因B端大部分场景具有可替代性,客户若不用公司产品可转向Mi Max,且公司B端场景多为豆包剩余场景,因此B端基本不会涨价。
A: Tokens业务计算毛利仅考虑算力成本,外租支持推理的A800单台每月费用为1.4万-1.5万元人民币;API调用的公有云算力均来自阿里云、火山、守在线等三方,平均价格一致;去年全年公有云调用收入1800万元人民币;毛利率约30%-40%,相对较高;若需具体数据可后续补充。
A: 核心差距在于算力及禁运限制。国内A800算力卡总量约5万块,而海外部分厂商拥有10万块,且A800本身属于较落后的算力卡;此外算力成本较高,目前火山引擎A800单台月报价28000元,公司拿到1.55万元已属低价,但2023年租A100仅需1万元/月。
Q: 4.7版本模型的单位Tokens推理成本,在5.0版本推出后是否有变化?
A: 目前未观察到明显变化,但因5.0版本模型增参,对算力要求有所提升;当前接口参数约40B-41B。
Q: 推理计入成本、前期训练投入计入研发的情况下,若将训练投入纳入计算,经营利润层面大概是什么水平?
A: 去年训练投入包含人员成本、算力使用成本及采购成本,约18亿人民币,整体投入不高。
Q: 参会者提及的包含人员成本、算力使用成本及采购成本的18亿人民币训练成本,是否仅指B端Tokens业务?
A: 不仅是B端Tokens业务,而是全部训练成本,因训练后除销售Tokens外,更主要开展项目。
Q: 国内模型与美国模型的差距如何,以及美国B卡、GP卡、英伟达Very Rubin系列卡推出后,中美模型差距将如何变化?
A: 中美模型差距不大,核心因模型原生能力已接近上限——Skylar law相关的参数涌现提升模型能力的概念已逾一年未被提及,增参无法突破架构限制提升模型原生能力;美国Anso topic、coword、CLUCLU bot、Skill等新概念均为拼凑模型,本质是通过内部抑制pipeline实现,与上层搭建智能体无差异。中国在算力指数级落后下算法优势显著,国内独角兽企业整体能力不逊于美国主力模型,现有差距主要源于并行架构、训练方法及模型使用效率的研究投入;智谱2023年后不仅开源还发表大量论文,海外企业招揽中国本土培养的AI高材生,中国在算法层面具备优势。
Q: 基模能力下一步提升迭代的方向、可能性及提升的具体方面、天花板如何?
A: coding是跑偏的结果;此前美国研究的mid training已少有人提及,当前更多通过coding驱动不同组件完成任务,但任务最终仍以文本形式呈现,未实现具身或OpenGL级别的真正理解与执行。模型的终章在于表现速度,其决定了在自动驾驶、具身智能等领域的应用——此前因延迟高、路由多无法完成的任务,若延迟降至100毫秒以内,具身可真正动起来或支架可上路。模型再往上走空间有限,上下文长度也难有提升。
A: 端侧AI不是重要结合方向,无需考虑端侧相关内容,应聚焦模型延迟本身,端侧本质是因延迟问题采取的折中方法。
A: 上一代模型训练效果不佳,因此推出5.0版本。5.0版本预期可支撑单次任务4-5万字符的输入输出,确保大模型在长文本处理中不偏离主题,目标是支持军事议题、研究报告、标书、论文等专业级任务的一次性精确输出,但目前尚未实现。预计5.1或5.2版本将推出真正的长文本处理能力,超过当前2万字符的处理长度,而市场上常见的128、256等长窗口参数实际意义不大。
Q: 如何看待垂直大模型领域中Minimax、kimi及街悦星辰等玩家的情况,包括街悦星辰年前的新融资、新董事长引入及端侧新合作方,以及其他竞争对手的状态?
A: 街悦星辰实际操盘人一直为印奇,此前因负责旷视未全心投入,现旷视裁员后其全心投入;该公司未商业化,模型迭代闭门造车,截止2025年底无对外商业化打算,仅承接武汉市政府等研究项目。林万物状态未知,百川融资耗尽后停止运营。Minimax收入结构及人员配比偏向ToC娱乐,海外产品Talkie聚焦超拟人对话,通过广告及用户付费变现;ToB业务模仿豆包,采取低价及增加优化人员的竞争策略,未重视ToB,收入不在ToB板块。
Q: coding和agent赛道中,豆包、阿里、腾讯三家未来的竞争潜力及可能后发居上的情况如何?
A: 阿里的通义千问在建模能力上与智谱竞争激烈,双方曾互有超越;阿里云拥有最多的使用数据,数据飞轮优势显著,其数据多为现成,而智谱的数据主要来自开源社区及运营的个人开发者。豆包更侧重表现力,目前无严肃的coding规划。百度虽有潜力,但更专注项目交付,对模型更新不重视。国内coding或coding agent赛道的最大竞争对手是通义千问。
A: 年后四五月份通义3.5即将推出,需关注其迭代状态,目前该模型未发布仍可调整。
Q: 在coding时代,最重要的语料是否并非蒸馏别人的模型而是做项目?
A: 不是做项目,扣点最终执行的无论是支持不同ID插件直接生成还是用自然语言驱动不同MCP,本质都是任务;蒸馏别人的模型时也需要用任务来进行。
A: 目前承接项目较多,正在进行军用级项目,需保密,因志虎对外宣称不做军用。
A: 不是国内跑偏了,而是大模型跑偏了,Coding不应该是大模型的主旨。
Q: 目前纯coding方面与Cloud的差距是否在缩小,但agent方面仍存在差距?
A: 当前大模型评价标准过于抽象,即使针对视觉任务处理、多要素抓取后的结构化等具体场景,评价仍较抽象,核心无非是talking、seeing、learning、thinking等环节。目前国内外大模型均已形成从快速改写、深度思考、查询、纠错到结构化输出的完整闭环,不同模型差异不大。但针对具体任务时,无法直接使用大模型原生Agent执行,需通过智能体组件驱动。
A: 是的,但大模型无法实现Agent,希望大模型成为贾维斯是不可能的。
△伊朗伊斯兰革命卫队发言人纳伊尼(资料图)当地时间14日,伊朗伊斯兰革命卫队发言人纳伊尼表示,伊朗针对美国银行分支机构的袭击,是对敌方此前袭击两家伊朗银行的回应。如果敌方再次采取此类行动,地区内所有美国银行分支机构都将成为伊朗的合法打击目标。
俄罗斯首都莫斯科市长索比亚宁14日在社交媒体发布的消息显示,俄防空部队当天已击落65架飞往莫斯科的乌克兰无人机。据俄方消息,这是今年莫斯科遭遇的最大规模无人机袭击之一。索比亚宁从当天午后开始在社交媒体陆续发布击落乌克兰无人机的消息,接近当日24时,总计65架。
沙特官宣:5亿“低价”买走翼龙-3生产线日,媒体报道证实,中国航空工业集团与沙特阿拉伯军事工业总局,已经敲定了一笔5亿美元的合同:双方决定合作在沙特吉达建成一条翼龙-3察打一体化无人机的总装线。预计这座工厂投产后,可以每年生产48架翼龙-3无人机。
上肢训练动作常见错误纠正系列 #健身干货 #健身小白必看经验 #力量训练 #头条作品双星激励计划 #dou来运动吧
一学就会!医生教你让女生变好看的4个动作 #面部瑜伽 #变美 #面部提升 #中医
3种深蹲变式及训练部位 #健身干货 #深蹲 #臀腿训练 #头条作品双星激励计划
港口被抢,合同说作废就作废,钱也要赔!3月9日,中国对巴拿马的第六波反制来了。巴拿马强行赶走长和港口的人,控制住港口,把关于长和的电脑文件全部抢走。如今中方动怒,巴拿马开始慌了,呼吁中方冷静,希望能给个活路,减少赔款。中方哪能任你随意欺负,巴拿马政府想要的,中方根本给不了。
马士基、地中海航运被中方约谈,接手巴拿马两港18个月,长和20亿美元索赔落地
两家刚接手巴拿马运河港口的欧洲航运巨头,被中方连续约谈了。交通运输部先谈,国家发改委外资司随后又谈,对象都是马士基和地中海航运。眼下最硬的一笔后果也已经摆上桌面,长和集团旗下公司已在3月6日提起国际仲裁,向巴拿马政府索赔至少20亿美元。这不是一条孤立消息。
2026年这场美伊大战,看似是美国和伊朗的较量,实则狠狠打醒韩国。而韩国总统李在明面对镜头,说了一番掏心窝子的话,对中国来说确是利好的。
一条航线改不改,能把一个国家的财政吓到改口,这事就发生在巴拿马运河边上,很多人盯着港口经营权的法律战,却忽略了更硬的一层,谁能决定集装箱往哪走,谁就能决定谁的现金流还能不能按时进账 巴拿马总统穆利诺之前抛过一句话,巴拿马从与中国的关系中得到了什么,这种问法听着像情绪,其实是在算账
巴拿马,真是被低估了。很多人一听,只想到运河。可走一圈才发现,门道太多。远的那个接国际航班,叫托库门,航站楼大,人多。
近日,徐女士回到家中发现自家门口的公共过道被邻居彻底改造成厨房和卫生间,找到邻居沟通没想到对方不但拒绝挪走,还态度嚣张威胁要砸房,徐女士果断申请官方介入。