22岁天才小伙破解“AI黑箱“:融合DeepSeek思路,参数效率翻倍!

张开发
2026/4/21 1:58:15 15 分钟阅读
22岁天才小伙破解“AI黑箱“:融合DeepSeek思路,参数效率翻倍!
本报讯 人工智能领域近日传来震动性消息一位年仅22岁的年轻创业者仅凭公开资料和对第一性原理的深刻理解竟成功推导出了Anthropic公司号称捂得最严实的Claude Mythos大模型核心架构并将完整代码开源至GitHub引发全球科技界广泛关注。一位少年天才的硬核操作这位名叫Kye Gomez的创业者是初创公司Swarms的创始人。此前他曾创办Agora Labs在2021年至2024年间同时担任三家公司的联合创始人兼CEO业务覆盖AI深科技、媒体、食品科技等多个领域。据其个人主页显示Kye Gomez高中毕业后便投身创业如今已是一位在AI领域颇有建树的年轻企业家。事情起因于Kye Gomez发布的一篇技术帖子详细阐述了他对Claude Mythos的架构分析。他称自己并没有通过任何非法手段获取内部资料而是通过第一性原理对Anthropic公开发表的论文进行深度研究最终从0到1推导出了Mythos的核心设计。原地跑圈的颠覆性创新据分析Claude Mythos的核心并非传统意义上的更大Transformer而是一种名为循环深度TransformerRDT的架构。传统大模型开发模式类似于盖高楼——通过不断增加层数来堆叠参数参数越多模型越大显存占用和训练成本也越恐怖。而RDT则采取原地跑圈的思路同一个计算模块在一次前向传播中循环执行最多16次每循环一次隐藏状态更新一次相当于多想了一步。更关键的是所有思考都在连续潜空间中进行无需像思维链CoT那样每一步都输出可见的Token。这属于真正的迭代推理而非简单的重复计算。融合DeepSeek思路参数效率翻倍为了解决推理深度的同时兼顾广度OpenMythos在循环核心的每个前馈网络层都替换成了混合专家MoE结构设计上借鉴了DeepSeek-MoE的架构思路——大量细粒度的路由专家、每个Token只激活部分专家、少量共享专家负责吸收跨领域通用知识。实验数据显示一个770M参数的循环模型在同等训练数据下能达到1.3B标准Transformer的下游任务质量。换言之用一半的参数干了同样的活。对行业的影响与未来展望这一突破对行业意味着重大变革。对消费级硬件而言以往运行高质量模型往往需要A100级别的GPU而现在推理深度是时间换空间——不需要更多显存只需多跑几圈即可。更深远的影响在于这一发现可能改写AI的Scaling法则。未来的竞争焦点可能不再是参数规模和算力堆砌而是模型思考深度的优化。Kye Gomez本人表示这目前仍是理论层面的突破需要进一步验证。但他已开源全部代码项目地址为GitHub上的OpenMythos让全球开发者能够在此基础上继续探索。当闭源实验室的技术优势可能被一个22岁创业者通过公开信息轻易重建时真正的护城河或许已从架构壁垒转向持续创新能力。这一事件无疑为整个AI行业敲响了创新的警钟。

更多文章