22岁天才小伙破解“AI黑箱“：融合DeepSeek思路，参数效率翻倍！

张开发

• 2026/4/21 1:58:15 • 15 分钟阅读

分享文章

本报讯人工智能领域近日传来震动性消息一位年仅22岁的年轻创业者仅凭公开资料和对第一性原理的深刻理解竟成功推导出了Anthropic公司号称捂得最严实的Claude Mythos大模型核心架构并将完整代码开源至GitHub引发全球科技界广泛关注。一位少年天才的硬核操作这位名叫Kye Gomez的创业者是初创公司Swarms的创始人。此前他曾创办Agora Labs在2021年至2024年间同时担任三家公司的联合创始人兼CEO业务覆盖AI深科技、媒体、食品科技等多个领域。据其个人主页显示Kye Gomez高中毕业后便投身创业如今已是一位在AI领域颇有建树的年轻企业家。事情起因于Kye Gomez发布的一篇技术帖子详细阐述了他对Claude Mythos的架构分析。他称自己并没有通过任何非法手段获取内部资料而是通过第一性原理对Anthropic公开发表的论文进行深度研究最终从0到1推导出了Mythos的核心设计。原地跑圈的颠覆性创新据分析Claude Mythos的核心并非传统意义上的更大Transformer而是一种名为循环深度TransformerRDT的架构。传统大模型开发模式类似于盖高楼——通过不断增加层数来堆叠参数参数越多模型越大显存占用和训练成本也越恐怖。而RDT则采取原地跑圈的思路同一个计算模块在一次前向传播中循环执行最多16次每循环一次隐藏状态更新一次相当于多想了一步。更关键的是所有思考都在连续潜空间中进行无需像思维链CoT那样每一步都输出可见的Token。这属于真正的迭代推理而非简单的重复计算。融合DeepSeek思路参数效率翻倍为了解决推理深度的同时兼顾广度OpenMythos在循环核心的每个前馈网络层都替换成了混合专家MoE结构设计上借鉴了DeepSeek-MoE的架构思路——大量细粒度的路由专家、每个Token只激活部分专家、少量共享专家负责吸收跨领域通用知识。实验数据显示一个770M参数的循环模型在同等训练数据下能达到1.3B标准Transformer的下游任务质量。换言之用一半的参数干了同样的活。对行业的影响与未来展望这一突破对行业意味着重大变革。对消费级硬件而言以往运行高质量模型往往需要A100级别的GPU而现在推理深度是时间换空间——不需要更多显存只需多跑几圈即可。更深远的影响在于这一发现可能改写AI的Scaling法则。未来的竞争焦点可能不再是参数规模和算力堆砌而是模型思考深度的优化。Kye Gomez本人表示这目前仍是理论层面的突破需要进一步验证。但他已开源全部代码项目地址为GitHub上的OpenMythos让全球开发者能够在此基础上继续探索。当闭源实验室的技术优势可能被一个22岁创业者通过公开信息轻易重建时真正的护城河或许已从架构壁垒转向持续创新能力。这一事件无疑为整个AI行业敲响了创新的警钟。

22岁天才小伙破解“AI黑箱“：融合DeepSeek思路，参数效率翻倍！

最新文章

Session Startup 执行机制详解

M12连接器的线缆材质怎么选？PUR还是PVC的实战对比

Python的getattribute方法性能瓶颈与属性访问缓存优化在热点路径

BUUCTF [ACTF2020 新生赛]BackupFile1

像素史诗·智识终端Java开发环境快速配置：基于镜像的一站式解决方案

Phi-3-mini-128k-instruct部署指南：vLLM引擎配置参数详解（tensor-parallel等）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

养老系统|养老系统定制|AI养老系统成品

Beyond Compare 4密钥过期解决办法

踩坑实录：Go 语言高并发+短效代理IP，数万个“幽灵连接”是怎么榨干服务器的？

死磕 CTF 必藏！20 个练习平台，让你从菜鸟一路冲到大神

图表语法怎么统一：架构图、流程图、数据图如何体现专业感

PCIe设备驱动简要示例

2026年雄县全屋定制工厂实力大揭秘

【2026年版｜收藏级】AI大模型学习保姆级规划，小白程序员零门槛入门指南

雀魂牌谱屋：3步打造你的麻将数据分析中心，告别盲目游戏时代

mysql数据库索引碎片化排查方法_mysqlInnoDB存储结构

铝合金多孔版螺钉工装精密加工案例 | 莱图加工程师实录

YOLO训练前必做功课：手把手教你处理COCO数据集，从JSON到TXT的完整数据流

22岁天才小伙破解“AI黑箱“：融合DeepSeek思路，参数效率翻倍！

最新文章

Session Startup 执行机制详解

M12连接器的线缆材质怎么选？PUR还是PVC的实战对比

Python的__getattribute__方法性能瓶颈与属性访问缓存优化在热点路径

BUUCTF [ACTF2020 新生赛]BackupFile1

像素史诗·智识终端Java开发环境快速配置：基于镜像的一站式解决方案

Phi-3-mini-128k-instruct部署指南：vLLM引擎配置参数详解（tensor-parallel等）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

Python的getattribute方法性能瓶颈与属性访问缓存优化在热点路径