转寄人: ZabraZoe (ZabraZoe)
标 题: 千问怎么强到这个程度了?把谷歌的大模型也给超了
发信站: 水木社区 (Sat May 30 12:46:41 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
标 题: 千问怎么强到这个程度了?把谷歌的大模型也给超了
发信站: 水木社区 (Sat May 30 12:46:41 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
3.qwen 3.7max的问世,打破了御三家的垄断。谷歌现在是全线不如qwen3.7max的,就看下个月发的gemini 3.5pro会不会反超,至少现在是千问更强。
编程方面qwen仅次于Anthropic,甚至比open AI 还强点。考虑到openAI的旗舰模型数学能力屌炸天,文生图能力sota,综合看来还是Anthropic和open ai更强。那也没有御三家的说法了,变成了御两家。
阿里在显卡受限的情况下,能战胜巨头谷歌,这简直是个奇迹。谷歌的tpu看来不大行啊,拖累了自己的大模型训练,我相信deepmind的人,研发能力是不弱于御两家和阿里的。
4.很多年前,大家认为bat中b的技术最强。从ai研究看来,百度腾讯和阿里相比,技术上差了不知道多少个字节跳动。当前时代,鉴于ai的重要性和训练难度,大模型训练可以说是检验公司综合技术实力极限的金标准,传统互联网大公司中,只有阿里还代表着国内软件业的最高水平,排第二第三的是智谱和deepseek。
5.杭州确实崛起了。
就科技行业而言,国内现在的格局是
一线:杭州
二线:合肥,北京,武汉
三线:上海,深圳
四线:广州,苏州,西安,成都,南京,重庆,无锡
五线:天津,沈阳,长春,兰州,厦门,东莞,常州,没了。在此以下没有科技行业。
千问最近简直不行,很笨
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max ...
deep也是千问里面出来的人搞的?
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
千问很少用。比豆包ds Kimi差很远。
【 在 oldtown 的大作中提到: 】
: 千问最近简直不行,很笨
: 【 在 Engelberger 的大作中提到: 】
: : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max ...
: FROM 220.166.239.* [四川–成都 电信]
你用的qwen 3.7max?
【 在 oldtown 的大作中提到: 】
: 千问最近简直不行,很笨
我们说的都不是一回事
【 在 skysummer 的大作中提到: 】
: 千问很少用。比豆包ds Kimi差很远。
估计不是,记得有很多校招生
【 在 withwindfly 的大作中提到: 】
: deep也是千问里面出来的人搞的?
千问牛逼。deepseek声量大是因为:
1. 成本,成本,成本;
2. 开源,开源,开源。
即便是deepseek V4 flash在各项指标上略掉队,但并没有量级上的差异。也就是说,deepseek对整个AI领域是生态上的威胁,小企业没有那么高的应用需求,又便宜又能自适应改良的deepseek,对小私营企业的诱惑是无穷的。在自由市场的竞争中,根本无法控制资本降本逐利,根本无法阻止deepseek的生态繁衍,是硅基世界话语权的争夺。他们不恐慌才怪。
qwen牛逼,然而在当下市场保护甚至动不动就以郭安为借口的环境下,qwen根本威胁不到生态位。会刺激竞争,但不会刺激出生态迁移的动力。
恭喜qwen。
【 在 Engelberger 的大作中提到: 】
:1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于
我感觉大家低估qwen和ds pro的差距了,也低估pro和flash的差距了。
对于困难问题,这是干得了和干不了的差别,干不了性价比就是0。对于简单但重要的问题,这是干得好,出错率低的差别,在企业生产环境中用ai干活也不想出错吧?
只要价格不是太离谱,肯定优选最强模型。
不过qwen和deepseek的差价确实挺大。
【 在 climate 的大作中提到: 】
: 千问牛逼。deepseek声量大是因为:
: 1. 成本,成本,成本;
: 2. 开源,开源,开源。
但是qoder跟傻子似的
昨天我测试了同一个任务,同样的提示词,cursor auto一次过,trae+deepseek4pro 改了一次,qoder+qwen3.7改了四次。
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
gemini最近大踏步的退步,我买了付费版后悔了
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
芯片估计用在训练新模型?
【 在 SPWaistcoat 的大作中提到: 】
: gemini最近大踏步的退步,我买了付费版后悔了
楼主又捧我吹都
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
很好奇楼主这说的一板一眼的,严重怀疑是收费软文
【 在 BruceWang 的大作中提到: 】
: 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
我去,前面洋洋洒洒说了那么多我都看完了,最后落笔是杭州天下第一,真服了
【 在 Engelberger (missing) 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
3.7max比3.6pro都是巨大飞跃,别说3.5了
跟Claude确实差不多了。
【 在 BruceWang 的大作中提到: 】
: 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
: FROM 1.94.162.* [上海 华为云]
所以用无限算力来大力飞砖的那几个顶级大模型也不行了?
又要换理念改构架的韬定律了?
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
跟GLM5.1差不多,弱于Opus4.6,4.7,更别说4.8了。
【 在 Contador 的大作中提到: 】
: 3.7max比3.6pro都是巨大飞跃,别说3.5了
: 跟Claude确实差不多了。
天津太惨了!!
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
QWEN跟DS V4P相比,感觉就跟弱智一样,简单问题还好,交互次数多一些,问题一复杂他就没招了,只能胡说
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
你要比qwen3.5的话,应该用glm4.7出来比。
【 在 BruceWang 的大作中提到: 】
: 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
gemini有coding plan?
【 在 SPWaistcoat 的大作中提到: 】
: gemini最近大踏步的退步,我买了付费版后悔了
我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。
实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。
qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。
在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。
这说明,在面对难题时,ds v4p完全在拖qwen后腿。没必要协作。
而glm5.1的价格面对qwen根本没优势。也没必要协作。
国模现在的合理搭配是:难题直接甩给qwen3.7m,日常对话用ds v4 flash便宜。
【 在 BruceWang 的大作中提到: 】
: 跟GLM5.1差不多,弱于Opus4.6,4.7,更别说4.8了。
每次听到本版的吹千问,就去用一下,每次感觉都很难用,完全比不上豆包和ds。不知道为啥这么多人吹千问?
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
本来就是
它吹老久了
【 在 mv008 的大作中提到: 】
: 很好奇楼主这说的一板一眼的,严重怀疑是收费软文
因为福报厂也是没底线的公司
刷分作弊最在行了
【 在 huhu758 的大作中提到: 】
: 每次听到本版的吹千问,就去用一下,每次感觉都很难用,完全比不上豆包和ds。不知道为啥这么多人吹千问?
难道我要在千问充值了吗
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
实事求是也不对?
【 在 catboy 的大作中提到: 】
: 我去,前面洋洋洒洒说了那么多我都看完了,最后落笔是杭州天下第一,真服了
实际使用感受差异太明显了,还是ds好用
【 在 Engelberger 的大作中提到: 】
: 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。
: 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。
: 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
: 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
如果千问刷题了的话怎么办
【 在 Engelberger 的大作中提到: 】
: 我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。
: 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。
: qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。
: 在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。