11月5日★✿ღ★,腾讯再次宣布开源两款最新的大模型产品★✿ღ★,分别是MoE架构的大语言模型“Hunyuan-Large(混元Large)”★✿ღ★,以及3D生成大模型“Hunyuan3D-1.0”★✿ღ★,两者都支持企业开发者精调和部署★✿ღ★,同时上线HuggingFace和Github等技术社区★✿ღ★,供开发者免费商用★✿ღ★。
腾讯机器学习平台总监★✿ღ★、腾讯混元大语言模型算法负责人康战辉表示★✿ღ★,腾讯的大模型不会为了开源而开源★✿ღ★,而是要把那些已经在业务场景中得到历练和打磨的东西拿出来★✿ღ★,所以腾讯开源的大模型都是公司内部在用的模型★✿ღ★。
据其透露★✿ღ★,腾讯此次开源的是模型参数权重尊龙手机版★✿ღ★,不涉及数据和代码★✿ღ★,下一步★✿ღ★,腾讯计划把训练代码也进行开源★✿ღ★。
在此之前★✿ღ★,百度一直是闭源战略★✿ღ★,阿里则是布局了一系列开源生态★✿ღ★,腾讯此次加码★✿ღ★,也说明了在战略上的转变★✿ღ★。腾讯表示★✿ღ★,已经把开源作为混元大模型的一个战略选择★✿ღ★,未来也将持续推出更多模态★✿ღ★、更多尺寸的开源模型当着罗晋的面草唐嫣当着罗晋的面草唐嫣★✿ღ★。
今年4月份★✿ღ★,百度创始人★✿ღ★、CEO李彦宏在内部讲话中称★✿ღ★,闭源模型的能力会持续领先开源模型★✿ღ★,“模型开源的意义其实不是很大”★✿ღ★,此后又公开宣称“开源模型会越来越落后”★✿ღ★。
没多久★✿ღ★,阿里云首席技术官周靖人隔空回应称★✿ღ★,开源对全球技术和生态的贡献毋庸置疑★✿ღ★,已经没有再讨论的必要★✿ღ★。
李彦宏看到的是★✿ღ★,算力★✿ღ★、工程能力的高门槛让一般开发者很难参与★✿ღ★,目前全球大部分开源模型都是科技大厂主导★✿ღ★;大模型研发的人才★✿ღ★、算力成本更高★✿ღ★,传统开源软件的商业模式很难支持★✿ღ★;而闭源模型通过API调用★✿ღ★,无需企业自建系统★✿ღ★,部署成本较开源低★✿ღ★。
而开源的好处则在于自主可控★✿ღ★。一名垂类模型初创公司创始人认为★✿ღ★,一方面★✿ღ★,基于百度平台开发★✿ღ★,意味着将算法尊龙手机版★✿ღ★、数据暴露给它★✿ღ★;另一方面★✿ღ★,百度未必能对腰部开发者开放足够的接口★✿ღ★,也注定其客户数据无法在百度平台上部署★✿ღ★。
与百度截然不同的是★✿ღ★,阿里云则陆续将旗下的通义千问模型开源★✿ღ★。阿里云CTO当着罗晋的面草唐嫣★✿ღ★、达摩院副院长周靖人表示尊龙手机版★✿ღ★,“开源是最佳的也是惟一的路径★✿ღ★。阿里云的初衷并不是把模型放在自己手里商业化★✿ღ★,而是做一个开放生态★✿ღ★。”
同时★✿ღ★,在基座模型格局尚未明朗时★✿ღ★,头部厂商也不敢轻易押注单一闭源大模型★✿ღ★。对于大部分应用厂商而言★✿ღ★,通常会内置好几种开源模型★✿ღ★。
开闭源之争★✿ღ★,看似是技术路线存在分歧★✿ღ★,背后更重要的是对商业价值的考量★✿ღ★。不论开源或闭源★✿ღ★,科技大厂对外输出大模型的商业模式最终是落地在云服务★✿ღ★。所称“模型即服务”(MaaS)★✿ღ★,本质是云计算SaaS(软件即平台服务)的一部分尊龙手机版尊龙手机版★✿ღ★。在市场竞争中★✿ღ★,BAT三家都想提供足够多的便利吸引更多厂商进入自家生态★✿ღ★。
康战辉表示★✿ღ★,“开源本身只是一种打法★✿ღ★,最终应用还是取决于模型是否打磨好★✿ღ★。一旦开源★✿ღ★,就需要持续投入★✿ღ★、负责到底★✿ღ★。”
不论是开源还是闭源模型★✿ღ★,当前都面临算力和数据限制下能力提升的挑战★✿ღ★,哪家厂商能更快突破大模型能力瓶颈尊龙手机版★✿ღ★,就能在竞争中更好地卡位★✿ღ★。“大模型有三个重要要素算力★✿ღ★、显存★✿ღ★、通讯★✿ღ★,现在模型已经很大★✿ღ★,长文需求越来越多★✿ღ★,其实不光卡算力★✿ღ★,还卡显存和通讯★✿ღ★,大模型愈加变成一个系统工程★✿ღ★。”康战辉表示★✿ღ★。
据腾讯介绍★✿ღ★,混元Large模型总参数量为389B★✿ღ★,激活参数量52B★✿ღ★。它采用的MoE(Mixture of Experts)混合专家模型是目前国内外主流的大模型结构★✿ღ★。
腾讯对MoE的笃信★✿ღ★,此前则并没太被外界意识到★✿ღ★。事实上★✿ღ★,这家从广告业务到推荐功能等★✿ღ★,一直在生产环境里大规模使用着AI算法的公司★✿ღ★,在技术上对MoE的笃信到了某种“信仰”的程度★✿ღ★。
MoE是一种相对于稠密(dense)模型架构的设计★✿ღ★。简单理解★✿ღ★,稠密模型就是通过大力出奇迹训练出一个全知全能的神★✿ღ★,来解决所有问题★✿ღ★,它也是今天大模型火热背后★✿ღ★,大家对大模型机制的朴素直觉的理解★✿ღ★。而MoE放弃了造一个单独唯一的神★✿ღ★,转而由多个各有所长分工明确的专家组来解决问题★✿ღ★,也就是所谓的专家们的混合(Mixture of Experts)★✿ღ★。
MoE架构的核心逻辑是将输入数据分配给最适合处理该数据的专家★✿ღ★。所以★✿ღ★,这种架构允许模型通过增加专家的数量来扩展★✿ღ★,从而提供模型处理特定任务的能力★✿ღ★。
MoE的好处在于★✿ღ★,它在拥有很大参数的同时★✿ღ★,只需要很小的实际激活量就可以完成任务★✿ღ★,进而显著降低训练和推理成本★✿ღ★。康战辉表示★✿ღ★,在相同成本下★✿ღ★,MoE的效果会优于dnese模型★✿ღ★。
业界有种说法是★✿ღ★,到2026年★✿ღ★,自然数据将被大模型全部用完当着罗晋的面草唐嫣★✿ღ★。而解决数据枯竭问题的重要方法★✿ღ★,就是使用合成数据★✿ღ★。
Hunyuan-Large使用了一些合成数据训练★✿ღ★,但未透露使用的比例★✿ღ★。合成数据被认为有可能解决训练数据耗尽的问题★✿ღ★,但关于能否用★✿ღ★、如何用★✿ღ★,业界仍有一定争议★✿ღ★。今年早些时候★✿ღ★,《自然》上一篇论文提出尊龙手机版★✿ღ★,用合成数据有可能导致模型崩溃★✿ღ★。除混元外当着罗晋的面草唐嫣★✿ღ★,支持使用合成数据的厂商则包括英伟达★✿ღ★、Anthropic等★✿ღ★。
“我认为合成数据最重要的★✿ღ★,是要有一套完整的数据获取★✿ღ★、评估★✿ღ★、清洗链路★✿ღ★,进而保证合成数据的质量可控★✿ღ★,这样合成数据就能发挥它的价值★✿ღ★。”康战辉说★✿ღ★。尊龙凯时app下载★✿ღ★,凯时尊龙官网★✿ღ★,系统实验室★✿ღ★,先进计算机★✿ღ★,尊龙凯时 - 人生就是搏!平台★✿ღ★,尊龙凯时★✿ღ★,