JetBrains自研大模型Mellum2正式开源
Mellum2是一个120亿参数的模型,专为解决生产AI中的延迟、吞吐量和成本这三大最棘手的挑战而设计,架构与性能如下:[*] 混合专家 (MoE) 设计: 模型共有 120 亿参数,但由于其采用 MoE 设计,每个 token 仅有 25 亿参数处于激活状态。此设计在降低计算成本的同时,可以对实时工作负载进行高吞吐量、低延迟推理。
[*] 专属侧重点:与很多现代模型不同,Mellum2 并非多模态模型, 它专门针对自然语言与代码数据进行训练。这种专门化可以确保模型在软件工程环境中表现出色,同时保持轻量和高速。
https://cdn3.ldstatic.com/optimized/4X/b/3/9/b39a46f284fba5771998f5b131a413f1aeffb111_2_553x499.png
在技术报告 (https://arxiv.org/abs/2605.31268)中,详细介绍了模型在代码生成、科学、数学和推理基准测试中的表现。Mellum2 在与同规模模型的竞争中不落下风,同时将推理时间缩短至不到一半,这对生产级部署来说是一项决定性优势。
https://cdn3.ldstatic.com/optimized/4X/1/1/e/11e92baff3c46e8516942f7eb36d69e1bf36385c_2_690x388.jpeg
Mellum2 的主要使用场景:
[*] 路由和编排 AI 工作负载:使用 Mellum2 分析传入提示,帮助为每项任务选择合适的模型或工具。
[*] 构建低延迟 RAG 流水线:检索相关上下文、使用 Mellum2 进行总结,并即时生成回答。
[*] 为复杂工作流中的快速子智能体提供支持:将智能体流水线拆分为多个步骤,例如上下文收集、规划和验证。使用 Mellum2 执行快速、专门的任务,而不依赖于单个大模型。
[*] 实现私有、本地 AI 部署:在本地运行 Mellum2 或进行自托管,以确保代码和数据完全在您的掌控之中。
文章来源:JetBrains公众号 (https://mp.weixin.qq.com/s/fihxM_w4u71IZ_7-H-uceQ)
模型下载:Hugging Face (https://huggingface.co/collections/JetBrains/mellum-2) 加班加点并不等同于更好的成果,反而意味着思考创新不足。 今天被星宝们的深夜干货暖到!姐妹们人间清醒啊 我怎么就没想过可以这么玩呢,还是认知不行啊 跳不出舒适区,不为学习付费,突破口只会离你越来越远。 越看越觉得,普通人最缺的是行动闭环。 看到这里,感觉又打开了一个新思路。
页:
[1]