侧边栏壁纸
博主头像
天马行空 博主等级

凡是过往,皆为序章

  • 累计撰写 632 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了(合集转寄)

sortie
2026-05-20 / 0 评论 / 0 点赞 / 0 阅读 / 0 字
转寄人: sortie (sortie)
标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了
发信站: 水木社区 (Thu May 21 00:32:59 2026)
来 源: 222.129.38.211
【以下内容由 sortie 转寄于 NewExpress 版】
Engelbergermissing
Wed May 20 13:09:15 2026 · #1
AI格局: tier 0:mythos tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型) tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流) tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流) tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用) tier 6:混元3(国内三流,浪费时间) 阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。
ZhangJuZheng荆州加油!湖北加油!
Wed May 20 13:09:46 2026 · #2
豆包呢? 目前用的人最多吧
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.6 flash,gpt5.4(排名分先后,世界一流模型)
Engelbergermissing
Wed May 20 13:12:26 2026 · #3
豆包的专家模式是现在的tier 4, 思考模型是去年国内主流AI的水平 快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平
【 在 ZhangJuZheng 的大作中提到: 】 : 豆包呢? 目前用的人最多吧
halcyon熙烨
Wed May 20 13:17:08 2026 · #4
豆包的重心不在这,他们主攻视频模型。这个领域应该商业价值更大。
【 在 Engelberger 的大作中提到: 】 : 豆包的专家模式是现在的tier 4, : 思考模型是去年国内主流AI的水平 : 快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平 : 【 在 ZhangJuZheng 的大作中提到: 】 : : 豆包呢? 目前用的人最多吧
nighthawk「跑马溜溜的山上」- peace
Wed May 20 13:29:37 2026 · #5
感觉豆包现在有点像当年的百度 不过现在倒是没有豆包一下的说法,但用的人确实多
【 在 ZhangJuZheng 的大作中提到: 】 : 豆包呢? 目前用的人最多吧
jxt一路走来…
Wed May 20 13:32:58 2026 · #6
千问每次都说自己最牛逼
【 在 Engelberger 的大作中提到: 】 : 标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了 : 发信站: 水木社区 (Wed May 20 13:09:15 2026), 站内 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型) : tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流) : tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流) : tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用) : tier 6:混元3(国内三流,浪费时间) : 阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。 : ※ 修改:·Engelberger 于 May 20 13:10:40 2026 修改本文·[FROM: 111.55.150.*] : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.55.150.*]
smavatarAvatar
Wed May 20 13:33:57 2026 · #7
霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
Dankeschon谢谢你
Wed May 20 13:37:09 2026 · #8
编程方面已经走通了
【 在 smavatar 的大作中提到: 】 : 霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用 : 【 在 Engelberger 的大作中提到: 】 : : AI格局: : : tier 0:mythos : : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
smavatarAvatar
Wed May 20 13:38:23 2026 · #9
在什么上编程?脱离电脑了吗?
【 在 Dankeschon 的大作中提到: 】 : 编程方面已经走通了
sm181018sm181018
Wed May 20 13:38:27 2026 · #10
哈哈重点是tier6吧 企鹅被楼主暴击
ABCDEFGHJKLMABCDEFGHJKLM
Wed May 20 13:41:29 2026 · #11
快了 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了 估计重写 linux 也就几年内的事
【 在 smavatar 的大作中提到: 】 霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用 【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
Engelbergermissing
Wed May 20 13:41:57 2026 · #12
文心也在tier6,还有阶跃星辰,讯飞,等等 tier6至少还算通用大模型吧,各个地方还有些小公司在搞tier7的垂类大模型呢,比如搜狗的医疗大模型。哪怕在医疗方面,也被靠前的通用大模型吊打
【 在 sm181018 的大作中提到: 】 : 哈哈重点是tier6吧 : 企鹅被楼主暴击
Engelbergermissing
Wed May 20 13:43:13 2026 · #13
英伟达的cuda kernel很多也是ai在写了 阿里发新模型时,说qwen3.7max可以帮国内显卡写kernel或者写cuda适配器了
【 在 ABCDEFGHJKLM 的大作中提到: 】 : 快了 : 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了 : 估计重写 linux 也就几年内的事
scramjet用扯淡的态度,面对操蛋的人生...
Wed May 20 13:45:06 2026 · #14
不知道你是不是实际用大模型走过项目 从我个人实际的使用经验看,qwen系列从来都是分数虚高,实际用起来一坨狗屎,尤其是COT能力方面
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
Dankeschon谢谢你
Wed May 20 13:45:46 2026 · #15
你大学毕业了吗?
【 在 smavatar 的大作中提到: 】 : 在什么上编程?脱离电脑了吗? : 【 在 Dankeschon 的大作中提到: 】 : : 编程方面已经走通了
Engelbergermissing
Wed May 20 13:47:47 2026 · #16
3.7max toyama几天前内测过,确实是国模第一了。toyama是个知乎做大模型测评的网红,至少deepseek内测v4也邀请过他。
【 在 scramjet 的大作中提到: 】 : 不知道你是不是实际用大模型走过项目 : 从我个人实际的使用经验看,qwen系列从来都是分数虚高,实际用起来一坨狗屎,尤其是COT能力方面
leehyu对弈过程
Wed May 20 13:53:29 2026 · #17
小米的那个在营销上花了不少钱,这可咋办
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型) : tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流) : tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
BruceLauBruce
Wed May 20 13:54:43 2026 · #18
mythos, 独领风骚
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
Engelbergermissing
Wed May 20 13:55:53 2026 · #19
v2.5在tier3到tier4之间 v2.5pro在tier3的最前面 但是小米的积分制贵出天际,v2.5pro敞开用,一天100元的水平。比ds 4pro贵4倍
【 在 leehyu 的大作中提到: 】 : 小米的那个在营销上花了不少钱,这可咋办
zhenniub真nb
Wed May 20 13:55:58 2026 · #20
普通人用豆包最多吧。
【 在 nighthawk 的大作中提到: 】 : 感觉豆包现在有点像当年的百度 : 不过现在倒是没有豆包一下的说法,但用的人确实多
waterbox水柜
Wed May 20 13:56:29 2026 · #21
但是实际使用效果 豆包明显比这个排名好
【 在 Engelberger 的大作中提到: 】 : 豆包的专家模式是现在的tier 4, : 思考模型是去年国内主流AI的水平 : 快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平
Engelbergermissing
Wed May 20 13:56:56 2026 · #22
谷歌预告下个月发gemini3.5pro,看能不能把mythos 逼出来面向个人用户开放
【 在 BruceLau 的大作中提到: 】 : mythos, 独领风骚
Engelbergermissing
Wed May 20 13:57:41 2026 · #23
你用它做过复杂任务吗?
【 在 waterbox 的大作中提到: 】 : 但是实际使用效果 : 豆包明显比这个排名好
wundg楚风
Wed May 20 13:58:19 2026 · #24
豆包低估了
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
waterbox水柜
Wed May 20 14:03:16 2026 · #25
我用他们给学生改主观题 改作文,需要OCR,根据参考答案评估,作文打分修改病句 统计典型错误 目前,豆包最好,文心略次一点 智谱和千问有的时候更好,但发挥不够稳定
【 在 Engelberger 的大作中提到: 】 : 你用它做过复杂任务吗?
smavatarAvatar
Wed May 20 17:10:12 2026 · #26
你小学毕业了吗?霉国的人工智能还没脱离虚拟领域,更没有进入现实领域,没有实际的落地应用,还停留在电脑里。能看懂吗?
【 在 Dankeschon 的大作中提到: 】 : 你大学毕业了吗?
smavatarAvatar
Wed May 20 17:11:02 2026 · #27
你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。
【 在 ABCDEFGHJKLM 的大作中提到: 】 : 快了 : 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了 : 估计重写 linux 也就几年内的事
chglele乐乐
Wed May 20 17:23:24 2026 · #28
为啥外边没看到关于文心的评测? 实际用起来,问通用问题,拍照识物,翻译,解答作业都还行啊
【 在 Engelberger 的大作中提到: 】 : 文心也在tier6,还有阶跃星辰,讯飞,等等 : tier6至少还算通用大模型吧,各个地方还有些小公司在搞tier7的垂类大模型呢,比如搜狗的医疗大模型。哪怕在医疗方面,也被靠前的通用大模型吊打 : 【 在 sm181018 的大作中提到: 】 : : 哈哈重点是tier6吧 : : 企鹅被楼主暴击
ABCDEFGHJKLMABCDEFGHJKLM
Wed May 20 17:28:23 2026 · #29
横店真人短视频行业都被干掉了, 你自己定的落地标准有什么意义
【 在 smavatar 的大作中提到: 】 你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。 【 在 ABCDEFGHJKLM 的大作中提到: 】 : 快了 : 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了 : 估计重写 linux 也就几年内的事
smavatarAvatar
Wed May 20 17:37:10 2026 · #30
用是国产的产品,不是霉国的
【 在 ABCDEFGHJKLM 的大作中提到: 】 : 横店真人短视频行业都被干掉了, 你自己定的落地标准有什么意义 : 你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。
lambdaSevenlambdaSeven
Wed May 20 17:43:27 2026 · #31
胡编的也最多
【 在 ZhangJuZheng 的大作中提到: 】 : 豆包呢? 目前用的人最多吧
INSTANTUSER猪猪侠
Wed May 20 18:13:12 2026 · #32
改作文我觉得还是DeepSeek最好
【 在 waterbox 的大作中提到: 】 : 我用他们给学生改主观题 : 改作文,需要OCR,根据参考答案评估,作文打分修改病句 : 统计典型错误 : 目前,豆包最好,文心略次一点 : 智谱和千问有的时候更好,但发挥不够稳定 : 【 在 Engelberger 的大作中提到: 】
texwoodapple小小凯
Wed May 20 18:46:18 2026 · #33
老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
halcyon熙烨
Wed May 20 18:52:52 2026 · #34
qwen也认的 前段时间看过一个烙印写的论文,测试的模型除了米国的,就是qwen和deepseek。
【 在 texwoodapple 的大作中提到: 】 : 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
tianc03胜人者有力,自胜者强
Wed May 20 18:53:17 2026 · #35
kimi2.6不错,虽然反应很慢,但是不容易发疯。 用一些免费模型,没几天就出一个删数据之类的糟心事
【 在 Engelberger 的大作中提到: 】 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型) : tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流) : tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
Dankeschon谢谢你
Wed May 20 18:54:43 2026 · #36
qwen的开源模型用得非常广泛
【 在 texwoodapple 的大作中提到: 】 : 老外好像只认kimi和DeepSeek : FROM 117.128.51.* [北京 移动]
blablueblablue
Wed May 20 19:22:16 2026 · #37
国外用Qwen的中等模型的很多,性价比非常高
【 在 texwoodapple 的大作中提到: 】 : 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
maxaha呵呵
Wed May 20 20:15:49 2026 · #38
我做Agent 也是这两个最好用
【 在 texwoodapple 的大作中提到: 】 : 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的 : FROM 117.128.51.* [北京 移动]
TrueDiqing真·地·青
Wed May 20 21:51:21 2026 · #39
本青感觉sonnet 4.6比Gemini 3.1 PRO强
【 在 Engelberger 的大作中提到: 】 : 标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了 : 发信站: 水木社区 (Wed May 20 13:09:15 2026), 站内 : AI格局: : tier 0:mythos : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型) : tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流) : tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流) : tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用) : tier 6:混元3(国内三流,浪费时间) : 阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。 : ※ 修改:·Engelberger 于 May 20 13:10:40 2026 修改本文·[FROM: 111.55.150.*] : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.55.150.*]
博主关闭了所有页面的评论