转寄人: ZabraZoe (ZabraZoe)
标 题: 微博都发布了一个开源小模型,hackernews上反应还不错
发信站: 水木社区 (Thu Jun 25 00:02:44 2026)
来 源: 120.245.107.123
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
标 题: 微博都发布了一个开源小模型,hackernews上反应还不错
发信站: 水木社区 (Thu Jun 25 00:02:44 2026)
来 源: 120.245.107.123
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
真是人人都能做,干的美帝嗷嗷叫
是这个吗?
微博确实发布过开源大模型:VibeThinker-1.5B
基础信息
1. 发布时间:2025年11月,微博首款自研开源大模型
2. 参数量:仅15亿参数(1.5B)轻量模型
3. 开源渠道:Hugging Face、GitHub、ModelScope,MIT开源协议,可商用
4. 运行门槛:单张RTX4090即可本地运行,占用显存低
核心特点
1. 主打数学+竞赛代码推理
针对性强化奥数、高等数学、算法竞赛解题,在AIME、HMMT国际数学竞赛测试集表现突出,官方称部分指标超越6710亿参数的DeepSeek-R1(参数体量是它400多倍)。
日常闲聊、通用对话未做优化,不适合普通聊天使用。
2. 极低训练成本
后训练总成本仅7800美元,相比主流大模型成本降低数十倍,依靠自研SSP(频谱到信号)训练算法实现小模型高性能。
3. 底层基础
基于通义千问Qwen2.5-Math-1.5B二次微调优化,配套完整训练脚本、GGUF量化权重、网页推理Demo。
适用场景
数学题库、在线奥数辅导
算法刷题、编程竞赛辅助
本地轻量化推理、低成本AI工具开发
需要我给你整理这个模型的一键部署运行步骤吗?
【 在 wawasnow 的大作中提到: 】
: 真是人人都能做,干的美帝嗷嗷叫
: FROM 223.104.44.* [北京 移动/数据上网公共出口]