性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B 是一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到 10 万美元,令人惊讶的是,它的表现甚至超越了 LLaMA2-7B、LLaMA-13B 和 DeepseekMoE-16B。

性能超越 LLaMA2-7B!AI 模型 JetMoE-8B 训练成本不到 10 万美元

JetMoE-8B 由 24 个块组成,每个块包含两个 MoE 层:注意力头混合(MoA)和 MLP 专家混合(MoE)。每个 MoA 和 MoE 层有 8 个专家,并且每个输入令牌激活 2 个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是,尽管 JetMoE-8B 的总参数量达到 80 亿,但由于其特殊的架构设计,每个输入令牌仅激活约 22 亿参数,从而大大减少了总体的计算需求。

此外,JetMoE-8B 的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为 AI 领域的研究和应用提供了极大的便利。

在与 Open LLM 排行榜相同的评估方法下,JetMoE-8B 的性能表现优于 LLaMA2-7B、LLaMA-13B 和 DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。

与此同时,与具有类似训练和推理计算的模型(如 Gemma-2B)相比,JetMoE-8B 展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。

模型地址:点击这里

「点点赞赏,手留余香」

0

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
码云笔记 » 性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

发表回复