微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算
作者:周末游戏网时间:2025-05-10 12:22:34
本站 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。
本站援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。
BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。
此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。
BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。
微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。
尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。
微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。
参考
BitNet b1.58 2B4T Technical Report
hugging face 模型页面
相关文章
-
日产:GT-R “毫无疑问”肯定回归,且必须是一款“正宗”的车型本站 4 月 19 日消息,今年的纽约国际车展期间,日产美国首席产品规划师 Ponz Pandikuthira 在接受外媒 Motor1 采访时谈到他对新 GT-R 的期待。“首先,必须是一款非常正宗
-
科技昨夜今晨 0419:中国移动将下调全国亲情网资费;哪吒汽车前 CEO 张勇回应 LOGO 花 5 亿;蔚来萤火虫将亮相 2025 上海车展...“科技昨夜今晨”时间,大家好,现在是 2025 年 4 月 19 日星期六,今天的重要科技资讯有:1、王腾:小米 REDMI Turbo 4 Pro 手机“下周见”,全面迎战友商 2 5K 档产品@王
-
微软发布 Win11 RP 26100.3909 更新:搁置分享修图功能,定制锁屏天气小部件感谢本站网友 吉茵珂絲 的线索投递! 本站 4 月 19 日消息,微软昨日(4 月 18 日)更新日志,邀请 Release Preview 频道的 Wi
-
精确到秒,微软 Win11 Beta 预览版日历弹窗新增时钟功能本站 4 月 19 日消息,消息源 @PhantomOfEarth 今天(4 月 19 日)发布博文,在 Windows 11 Beta 22635 5240 预览版中,微软为任务栏日历弹窗新增时钟功
-
ChatGPT 低调上线“记忆搜索”功能:个性化搜索结果更精准本站 4 月 19 日消息,据外媒 TechCrunch 今日报道,OpenAI 正在再次强化 ChatGPT 的“记忆”功能。根据 OpenAI 官网更新的日志和支持页面,OpenAI 低调上线了一
-
微软 Win11 24H2 修复 Chrome 等浏览器屏幕共享色彩失真问题本站 4 月 19 日消息,科技媒体 Windows Latest 昨日(4 月 18 日)发布博文,报道称微软在 Windows 11 24H2 更新中,通过引入 WGC(Windows Graph