转寄人: sortie (sortie)
标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了
发信站: 水木社区 (Thu May 21 00:32:59 2026)
来 源: 222.129.38.211
【以下内容由 sortie 转寄于 NewExpress 版】
标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了
发信站: 水木社区 (Thu May 21 00:32:59 2026)
来 源: 222.129.38.211
【以下内容由 sortie 转寄于 NewExpress 版】
AI格局:
tier 0:mythos
tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流)
tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用)
tier 6:混元3(国内三流,浪费时间)
阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。
豆包呢? 目前用的人最多吧
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.6 flash,gpt5.4(排名分先后,世界一流模型)
豆包的专家模式是现在的tier 4,
思考模型是去年国内主流AI的水平
快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平
【 在 ZhangJuZheng 的大作中提到: 】
: 豆包呢? 目前用的人最多吧
豆包的重心不在这,他们主攻视频模型。这个领域应该商业价值更大。
【 在 Engelberger 的大作中提到: 】
: 豆包的专家模式是现在的tier 4,
: 思考模型是去年国内主流AI的水平
: 快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平
: 【 在 ZhangJuZheng 的大作中提到: 】
: : 豆包呢? 目前用的人最多吧
感觉豆包现在有点像当年的百度
不过现在倒是没有豆包一下的说法,但用的人确实多
【 在 ZhangJuZheng 的大作中提到: 】
: 豆包呢? 目前用的人最多吧
千问每次都说自己最牛逼
【 在 Engelberger 的大作中提到: 】
: 标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了
: 发信站: 水木社区 (Wed May 20 13:09:15 2026), 站内
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
: tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流)
: tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
: tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用)
: tier 6:混元3(国内三流,浪费时间)
: 阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。
: ※ 修改:·Engelberger 于 May 20 13:10:40 2026 修改本文·[FROM: 111.55.150.*]
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.55.150.*]
霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
编程方面已经走通了
【 在 smavatar 的大作中提到: 】
: 霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用
: 【 在 Engelberger 的大作中提到: 】
: : AI格局:
: : tier 0:mythos
: : tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
在什么上编程?脱离电脑了吗?
【 在 Dankeschon 的大作中提到: 】
: 编程方面已经走通了
哈哈重点是tier6吧
企鹅被楼主暴击
快了
现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了
估计重写 linux 也就几年内的事
【 在 smavatar 的大作中提到: 】
霉国的人工智能除了吹嘘就是吹嘘,只停留在电脑上,根本就没有落地的实际应用
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
文心也在tier6,还有阶跃星辰,讯飞,等等
tier6至少还算通用大模型吧,各个地方还有些小公司在搞tier7的垂类大模型呢,比如搜狗的医疗大模型。哪怕在医疗方面,也被靠前的通用大模型吊打
【 在 sm181018 的大作中提到: 】
: 哈哈重点是tier6吧
: 企鹅被楼主暴击
英伟达的cuda kernel很多也是ai在写了
阿里发新模型时,说qwen3.7max可以帮国内显卡写kernel或者写cuda适配器了
【 在 ABCDEFGHJKLM 的大作中提到: 】
: 快了
: 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了
: 估计重写 linux 也就几年内的事
不知道你是不是实际用大模型走过项目
从我个人实际的使用经验看,qwen系列从来都是分数虚高,实际用起来一坨狗屎,尤其是COT能力方面
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
你大学毕业了吗?
【 在 smavatar 的大作中提到: 】
: 在什么上编程?脱离电脑了吗?
: 【 在 Dankeschon 的大作中提到: 】
: : 编程方面已经走通了
3.7max toyama几天前内测过,确实是国模第一了。toyama是个知乎做大模型测评的网红,至少deepseek内测v4也邀请过他。
【 在 scramjet 的大作中提到: 】
: 不知道你是不是实际用大模型走过项目
: 从我个人实际的使用经验看,qwen系列从来都是分数虚高,实际用起来一坨狗屎,尤其是COT能力方面
小米的那个在营销上花了不少钱,这可咋办
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
: tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流)
: tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
mythos, 独领风骚
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
v2.5在tier3到tier4之间
v2.5pro在tier3的最前面
但是小米的积分制贵出天际,v2.5pro敞开用,一天100元的水平。比ds 4pro贵4倍
【 在 leehyu 的大作中提到: 】
: 小米的那个在营销上花了不少钱,这可咋办
普通人用豆包最多吧。
【 在 nighthawk 的大作中提到: 】
: 感觉豆包现在有点像当年的百度
: 不过现在倒是没有豆包一下的说法,但用的人确实多
但是实际使用效果
豆包明显比这个排名好
【 在 Engelberger 的大作中提到: 】
: 豆包的专家模式是现在的tier 4,
: 思考模型是去年国内主流AI的水平
: 快速模型是2024年国内主流AI的水平,也就是豆包刚推出免费服务出圈时的水平
谷歌预告下个月发gemini3.5pro,看能不能把mythos 逼出来面向个人用户开放
【 在 BruceLau 的大作中提到: 】
: mythos, 独领风骚
你用它做过复杂任务吗?
【 在 waterbox 的大作中提到: 】
: 但是实际使用效果
: 豆包明显比这个排名好
豆包低估了
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
我用他们给学生改主观题
改作文,需要OCR,根据参考答案评估,作文打分修改病句
统计典型错误
目前,豆包最好,文心略次一点
智谱和千问有的时候更好,但发挥不够稳定
【 在 Engelberger 的大作中提到: 】
: 你用它做过复杂任务吗?
你小学毕业了吗?霉国的人工智能还没脱离虚拟领域,更没有进入现实领域,没有实际的落地应用,还停留在电脑里。能看懂吗?
【 在 Dankeschon 的大作中提到: 】
: 你大学毕业了吗?
你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。
【 在 ABCDEFGHJKLM 的大作中提到: 】
: 快了
: 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了
: 估计重写 linux 也就几年内的事
为啥外边没看到关于文心的评测?
实际用起来,问通用问题,拍照识物,翻译,解答作业都还行啊
【 在 Engelberger 的大作中提到: 】
: 文心也在tier6,还有阶跃星辰,讯飞,等等
: tier6至少还算通用大模型吧,各个地方还有些小公司在搞tier7的垂类大模型呢,比如搜狗的医疗大模型。哪怕在医疗方面,也被靠前的通用大模型吊打
: 【 在 sm181018 的大作中提到: 】
: : 哈哈重点是tier6吧
: : 企鹅被楼主暴击
横店真人短视频行业都被干掉了, 你自己定的落地标准有什么意义
【 在 smavatar 的大作中提到: 】
你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。
【 在 ABCDEFGHJKLM 的大作中提到: 】
: 快了
: 现在 已经有 bun(claude code用的运行时)作者一个人几天提交100万行重构的了
: 估计重写 linux 也就几年内的事
用是国产的产品,不是霉国的
【 在 ABCDEFGHJKLM 的大作中提到: 】
: 横店真人短视频行业都被干掉了, 你自己定的落地标准有什么意义
: 你说的内容,恰恰证明了我说的,还停留在电脑里,没有实际落地应用。
胡编的也最多
【 在 ZhangJuZheng 的大作中提到: 】
: 豆包呢? 目前用的人最多吧
改作文我觉得还是DeepSeek最好
【 在 waterbox 的大作中提到: 】
: 我用他们给学生改主观题
: 改作文,需要OCR,根据参考答案评估,作文打分修改病句
: 统计典型错误
: 目前,豆包最好,文心略次一点
: 智谱和千问有的时候更好,但发挥不够稳定
: 【 在 Engelberger 的大作中提到: 】
老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
qwen也认的
前段时间看过一个烙印写的论文,测试的模型除了米国的,就是qwen和deepseek。
【 在 texwoodapple 的大作中提到: 】
: 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
kimi2.6不错,虽然反应很慢,但是不容易发疯。
用一些免费模型,没几天就出一个删数据之类的糟心事
【 在 Engelberger 的大作中提到: 】
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
: tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流)
: tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
qwen的开源模型用得非常广泛
【 在 texwoodapple 的大作中提到: 】
: 老外好像只认kimi和DeepSeek
: FROM 117.128.51.* [北京 移动]
国外用Qwen的中等模型的很多,性价比非常高
【 在 texwoodapple 的大作中提到: 】
: 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
我做Agent 也是这两个最好用
【 在 texwoodapple 的大作中提到: 】
: 老外好像只认kimi和DeepSeek,这些搞测评的基本都是收了公关费的
: FROM 117.128.51.* [北京 移动]
本青感觉sonnet 4.6比Gemini 3.1 PRO强
【 在 Engelberger 的大作中提到: 】
: 标 题: toyama承认QWEN3.7max是他之前内测的模型。那确认为国模SOTA了
: 发信站: 水木社区 (Wed May 20 13:09:15 2026), 站内
: AI格局:
: tier 0:mythos
: tier 1:gpt5.5,opus4.7,opus4.6,gemini3.1 pro,gemini 3.5 flash,gpt5.4(排名分先后,世界一流模型)
: tier 2:qwen 3.7max, opus 4.5,deepseek v4 pro,glm5.1,sonnet 4.6(排名分先后,国内前三,世界次一流)
: tier 3:glm5,qwen3.6plus,kimi2.6,ds v4 flash(国内次一流)
: tier 4:豆包2.0pro,minimax2.7(国内二流,免费可以用)
: tier 6:混元3(国内三流,浪费时间)
: 阿里、智谱、deepseek目前还是国内前三的AI企业。其中,阿里的模型绝对实力最强,智谱在落后的华为卡上训练出了国内一流模型,deepseek相对便宜、上下文窗口长。
: ※ 修改:·Engelberger 于 May 20 13:10:40 2026 修改本文·[FROM: 111.55.150.*]
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 111.55.150.*]