youxihw下载站:汇聚最热门软件,安全、高速、放心的专业下载站!
youxihw下载站:汇聚最热门软件,安全、高速、放心的专业下载站!

DeepSeek的研究人员研发出了一项名为流形约束超连接(Manifold-Constrained Hyper-Connections,简称mHC)的技术,其目的是提高人工智能模型的性能。
这家中国AI实验室首次推出了这款软件。相关论文已于周三发表。
DeepSeek构建mHC的目的,是为了强化大型语言模型里用于学习新信息的残差连接机制。这一机制在2015年被发明出来,之后被不少视觉模型所采用。虽然DeepSeek并非市场上首个尝试对残差连接进行改进的参与者,但早期相关尝试的效果却有好有坏。
一个AI模型由众多名为层的软件组件构成。当用户输入提示后,文本会先进入第一层,完成生成提示响应所需计算中的一小部分任务。接着,第一层把计算结果传至第二层,第二层再完成另一部分工作,并将结果递交给第三层,如此循环往复。最终,由最后一层输出针对用户问题的答案。
在AI模型的训练环节中,最后一层扮演着至关重要的角色。当模型给出了错误的提示回应时,最后一层会接收到一种名为梯度的信号。这个梯度不仅能指出AI存在的错误,还包含了关于模型该如何优化的信息。随后,梯度会从最后一层出发,沿着AI的其余结构反向传递,一直抵达第一层。
2015年,研究人员提出了一种名为残差连接的梯度管理机制。它相当于一种“捷径”,能让梯度跨越中间所有层级,直接在AI模型中两个距离较远的层之间传递。凭借着对AI训练过程中几种常见错误的缓解作用,残差连接如今在大语言模型(LLM)和视觉模型里得到了广泛应用。
去年九月,研究人员提出了一种可替代残差连接的新方案——超连接。该方案虽解决了残差连接机制存在的部分缺陷,却也存在自身局限。而DeepSeek于本周发布的mHC架构,正是对超连接的增强型实现。它规避了超连接机制所面临的若干技术难题,从而更适用于生产环境。
mHC的核心创新点在于融入了被称为流形的概念。流形属于一类涵盖范围极广的数学对象,其复杂程度存在显著差异。部分流形呈现为圆形这类简单的几何形态,另有一些则延伸至三维以上的维度空间。据DeepSeek介绍,mHC借助流形这一工具,能够确保梯度在AI模型各层之间传递过程中的稳定性。
公司采用该架构训练了参数规模分别为30亿、90亿和270亿的3个大语言模型(LLM)用于测试。随后,它借助超连接技术又训练了参数数量相同的另外三个模型,mHC正是从这一技术中演化而来的。据DeepSeek介绍,由mHC驱动的LLM在八项不同的AI基准测试中展现出更优异的性能。
公司表示,该架构在硬件效率上也优于超连接。后者机制在训练期间显著增加了LLM的内存需求。在其内部测试中,DeepSeek确定mHC仅产生6.27%的硬件开销。
DeepSeek研究人员在mHC论文中指出:“通过进一步理解拓扑结构对优化及表示学习的影响机制,mHC有望突破现有技术瓶颈,甚至可能为下一代基础架构的发展开拓全新方向。”
一加中国区总裁透露Turbo6新品:搭载与京东方联合定制的165Hz屏幕

Copyright © 2009-2025youxihw.com. All Rights Reserved .
youxihw下载站是专业的免费软件下载站点,提供绿色软件、免费软件,手机软件,系统软件,单机游戏等热门资源安全下载!
本站资源均收集整理于互联网,其著作权归原作者所有,如果有侵犯您权利的资源,请来信告知,我们将及时撤销相应资源。