微软 BitNet b1.58 2B4T 登场：内存占用仅 0.4GB，20 亿参数模型颠覆 AI 计算

作者：周末游戏网时间：2025-05-10 12:22:34

本站 4 月 18 日消息，科技媒体 WinBuzzer 昨日（4 月 17 日）发布博文，报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T，区别于传统训练后量化的方式，这款拥有 20 亿参数的大型语言模型（LLM）以 1.58 位低精度架构原生训练而成。

本站援引技术报告介绍，该模型性能直追同规模全精度模型，但计算资源需求大幅缩减。尤其令人瞩目的是，其非嵌入内存占用仅 0.4GB，远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值，采用定制 BitLinear 层，将权重限制为-1、0、+1 三种状态，形成三值系统，每权重仅需约 1.58 位信息存储。

此外，层间激活值以 8 位整数量化，形成 W1.58A8 配置。微软还调整了 Transformer 架构，引入平方 ReLU 激活函数、标准旋转位置嵌入（RoPE）以及 subln 归一化，确保低位训练稳定性。技术报告称，这种原生 1 位训练避免了传统后训练量化（PTQ）带来的性能损失。

BitNet b1.58 2B4T 的开发历经三阶段：首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练；随后通过公开及合成指令数据集（如 WizardLM Evol-Instruct）进行监督微调（SFT）；最后采用直接偏好优化（DPO）方法，利用 UltraFeedback 等数据集提升对话能力和安全性。

微软测试显示，该模型在 GSM8K（数学）、PIQA（物理常识）等基准测试中表现优异，整体性能媲美主流 1B-2B 参数全精度模型，同时在能耗（每 token 0.028 焦耳）和 CPU 解码延迟（29 毫秒）上占据显著优势。

尽管 BitNet 潜力巨大，但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。

微软还计划优化 GPU 和 NPU 支持，延长上下文窗口至 4096 token，并探索更大规模模型、多语言功能及硬件协同设计。目前，BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布，供社区测试与应用。

参考

BitNet b1.58 2B4T Technical Report
hugging face 模型页面

日产：GT-R “毫无疑问”肯定回归，且必须是一款“正宗”的车型
本站 4 月 19 日消息，今年的纽约国际车展期间，日产美国首席产品规划师 Ponz Pandikuthira 在接受外媒 Motor1 采访时谈到他对新 GT-R 的期待。“首先，必须是一款非常正宗

阅读详情
科技昨夜今晨 0419：中国移动将下调全国亲情网资费；哪吒汽车前 CEO 张勇回应 LOGO 花 5 亿；蔚来萤火虫将亮相 2025 上海车展...
“科技昨夜今晨”时间，大家好，现在是 2025 年 4 月 19 日星期六，今天的重要科技资讯有：1、王腾：小米 REDMI Turbo 4 Pro 手机“下周见”，全面迎战友商 2 5K 档产品@王

阅读详情
微软发布 Win11 RP 26100.3909 更新：搁置分享修图功能，定制锁屏天气小部件
感谢本站网友吉茵珂絲的线索投递！本站 4 月 19 日消息，微软昨日（4 月 18 日）更新日志，邀请 Release Preview 频道的 Wi

阅读详情
精确到秒，微软 Win11 Beta 预览版日历弹窗新增时钟功能
本站 4 月 19 日消息，消息源 @PhantomOfEarth 今天（4 月 19 日）发布博文，在 Windows 11 Beta 22635 5240 预览版中，微软为任务栏日历弹窗新增时钟功

阅读详情
ChatGPT 低调上线“记忆搜索”功能：个性化搜索结果更精准
本站 4 月 19 日消息，据外媒 TechCrunch 今日报道，OpenAI 正在再次强化 ChatGPT 的“记忆”功能。根据 OpenAI 官网更新的日志和支持页面，OpenAI 低调上线了一

阅读详情
微软 Win11 24H2 修复 Chrome 等浏览器屏幕共享色彩失真问题
本站 4 月 19 日消息，科技媒体 Windows Latest 昨日（4 月 18 日）发布博文，报道称微软在 Windows 11 24H2 更新中，通过引入 WGC（Windows Graph

阅读详情

微软 BitNet b1.58 2B4T 登场：内存占用仅 0.4GB，20 亿参数模型颠覆 AI 计算

相关文章

热门影评