侧边栏壁纸
博主头像
天马行空 博主等级

凡是过往,皆为序章

  • 累计撰写 632 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

千问怎么强到这个程度了?把谷歌的大模型也给超了(合集转寄)

sortie
2026-05-30 / 0 评论 / 0 点赞 / 0 阅读 / 0 字
转寄人: ZabraZoe (ZabraZoe)
标 题: 千问怎么强到这个程度了?把谷歌的大模型也给超了
发信站: 水木社区 (Sat May 30 12:46:41 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
Engelbergermissing
Sat May 30 08:53:08 2026 · #1
1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。 3.qwen 3.7max的问世,打破了御三家的垄断。谷歌现在是全线不如qwen3.7max的,就看下个月发的gemini 3.5pro会不会反超,至少现在是千问更强。 编程方面qwen仅次于Anthropic,甚至比open AI 还强点。考虑到openAI的旗舰模型数学能力屌炸天,文生图能力sota,综合看来还是Anthropic和open ai更强。那也没有御三家的说法了,变成了御两家。 阿里在显卡受限的情况下,能战胜巨头谷歌,这简直是个奇迹。谷歌的tpu看来不大行啊,拖累了自己的大模型训练,我相信deepmind的人,研发能力是不弱于御两家和阿里的。 4.很多年前,大家认为bat中b的技术最强。从ai研究看来,百度腾讯和阿里相比,技术上差了不知道多少个字节跳动。当前时代,鉴于ai的重要性和训练难度,大模型训练可以说是检验公司综合技术实力极限的金标准,传统互联网大公司中,只有阿里还代表着国内软件业的最高水平,排第二第三的是智谱和deepseek。 5.杭州确实崛起了。 就科技行业而言,国内现在的格局是 一线:杭州 二线:合肥,北京,武汉 三线:上海,深圳 四线:广州,苏州,西安,成都,南京,重庆,无锡 五线:天津,沈阳,长春,兰州,厦门,东莞,常州,没了。在此以下没有科技行业。
oldtown小城故事
Sat May 30 09:10:55 2026 · #2
千问最近简直不行,很笨
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max ...
withwindfly求宝宝
Sat May 30 09:15:53 2026 · #3
deep也是千问里面出来的人搞的?
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
skysummerskysummer
Sat May 30 09:16:48 2026 · #4
千问很少用。比豆包ds Kimi差很远。
【 在 oldtown 的大作中提到: 】 : 千问最近简直不行,很笨 : 【 在 Engelberger 的大作中提到: 】 : : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max ... : FROM 220.166.239.* [四川–成都 电信]
Engelbergermissing
Sat May 30 09:22:28 2026 · #5
你用的qwen 3.7max?
【 在 oldtown 的大作中提到: 】 : 千问最近简直不行,很笨
Engelbergermissing
Sat May 30 09:22:53 2026 · #6
我们说的都不是一回事
【 在 skysummer 的大作中提到: 】 : 千问很少用。比豆包ds Kimi差很远。
Engelbergermissing
Sat May 30 09:23:10 2026 · #7
估计不是,记得有很多校招生
【 在 withwindfly 的大作中提到: 】 : deep也是千问里面出来的人搞的?
climate天有不测风云
Sat May 30 09:27:03 2026 · #8
千问牛逼。deepseek声量大是因为: 1. 成本,成本,成本; 2. 开源,开源,开源。 即便是deepseek V4 flash在各项指标上略掉队,但并没有量级上的差异。也就是说,deepseek对整个AI领域是生态上的威胁,小企业没有那么高的应用需求,又便宜又能自适应改良的deepseek,对小私营企业的诱惑是无穷的。在自由市场的竞争中,根本无法控制资本降本逐利,根本无法阻止deepseek的生态繁衍,是硅基世界话语权的争夺。他们不恐慌才怪。 qwen牛逼,然而在当下市场保护甚至动不动就以郭安为借口的环境下,qwen根本威胁不到生态位。会刺激竞争,但不会刺激出生态迁移的动力。 恭喜qwen。
【 在 Engelberger 的大作中提到: 】 :1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于
Engelbergermissing
Sat May 30 09:36:37 2026 · #9
我感觉大家低估qwen和ds pro的差距了,也低估pro和flash的差距了。 对于困难问题,这是干得了和干不了的差别,干不了性价比就是0。对于简单但重要的问题,这是干得好,出错率低的差别,在企业生产环境中用ai干活也不想出错吧? 只要价格不是太离谱,肯定优选最强模型。 不过qwen和deepseek的差价确实挺大。
【 在 climate 的大作中提到: 】 : 千问牛逼。deepseek声量大是因为: : 1. 成本,成本,成本; : 2. 开源,开源,开源。
netv呼吸也痛
Sat May 30 10:02:21 2026 · #10
但是qoder跟傻子似的 昨天我测试了同一个任务,同样的提示词,cursor auto一次过,trae+deepseek4pro 改了一次,qoder+qwen3.7改了四次。
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
SPWaistcoatclear
Sat May 30 10:04:17 2026 · #11
gemini最近大踏步的退步,我买了付费版后悔了
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
luid(
Sat May 30 10:08:00 2026 · #12
芯片估计用在训练新模型?
【 在 SPWaistcoat 的大作中提到: 】 : gemini最近大踏步的退步,我买了付费版后悔了
Carlito黑白两界
Sat May 30 10:11:19 2026 · #13
楼主又捧我吹都
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
BruceWangBruce
Sat May 30 10:14:14 2026 · #14
我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
mv008mv008
Sat May 30 10:15:50 2026 · #15
很好奇楼主这说的一板一眼的,严重怀疑是收费软文
【 在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
catboycatboy
Sat May 30 10:20:16 2026 · #16
我去,前面洋洋洒洒说了那么多我都看完了,最后落笔是杭州天下第一,真服了
【 在 Engelberger (missing) 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
ContadorContador
Sat May 30 10:33:09 2026 · #17
3.7max比3.6pro都是巨大飞跃,别说3.5了 跟Claude确实差不多了。
【 在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder : FROM 1.94.162.* [上海 华为云]
flaredll玄黄
Sat May 30 10:35:57 2026 · #18
所以用无限算力来大力飞砖的那几个顶级大模型也不行了? 又要换理念改构架的韬定律了?
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
BruceWangBruce
Sat May 30 11:04:09 2026 · #19
跟GLM5.1差不多,弱于Opus4.6,4.7,更别说4.8了。
【 在 Contador 的大作中提到: 】 : 3.7max比3.6pro都是巨大飞跃,别说3.5了 : 跟Claude确实差不多了。
Dream05Dream05
Sat May 30 11:05:07 2026 · #20
天津太惨了!!
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
tianiu田牛
Sat May 30 11:18:37 2026 · #21
QWEN跟DS V4P相比,感觉就跟弱智一样,简单问题还好,交互次数多一些,问题一复杂他就没招了,只能胡说
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
Engelbergermissing
Sat May 30 11:39:40 2026 · #22
你要比qwen3.5的话,应该用glm4.7出来比。
【 在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC(Opus)>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder
Engelbergermissing
Sat May 30 11:40:38 2026 · #23
gemini有coding plan?
【 在 SPWaistcoat 的大作中提到: 】 : gemini最近大踏步的退步,我买了付费版后悔了
Engelbergermissing
Sat May 30 11:49:22 2026 · #24
我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。 在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。 这说明,在面对难题时,ds v4p完全在拖qwen后腿。没必要协作。 而glm5.1的价格面对qwen根本没优势。也没必要协作。 国模现在的合理搭配是:难题直接甩给qwen3.7m,日常对话用ds v4 flash便宜。
【 在 BruceWang 的大作中提到: 】 : 跟GLM5.1差不多,弱于Opus4.6,4.7,更别说4.8了。
huhu758ILanan
Sat May 30 12:08:23 2026 · #25
每次听到本版的吹千问,就去用一下,每次感觉都很难用,完全比不上豆包和ds。不知道为啥这么多人吹千问?
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro
holy834IDA
Sat May 30 12:16:01 2026 · #26
本来就是 它吹老久了
【 在 mv008 的大作中提到: 】 : 很好奇楼主这说的一板一眼的,严重怀疑是收费软文
holy834IDA
Sat May 30 12:17:35 2026 · #27
因为福报厂也是没底线的公司 刷分作弊最在行了
【 在 huhu758 的大作中提到: 】 : 每次听到本版的吹千问,就去用一下,每次感觉都很难用,完全比不上豆包和ds。不知道为啥这么多人吹千问?
huy2良民
Sat May 30 12:20:10 2026 · #28
难道我要在千问充值了吗
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
wang99168wang99168
Sat May 30 12:24:30 2026 · #29
实事求是也不对?
【 在 catboy 的大作中提到: 】 : 我去,前面洋洋洒洒说了那么多我都看完了,最后落笔是杭州天下第一,真服了
gauleefoscar
Sat May 30 12:26:40 2026 · #30
实际使用感受差异太明显了,还是ds好用
【 在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标,一个是code arena盲测,很多用户匿名体验打分,qwen3.7max评分仅次于Anthropic的opus 4.7,超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正,qwen 3.7仅次于Anthropic的几个模型和gpt5.5,超过了opus 4.6。 : 鉴于mythos不对个人用户提供,gpt5.5pro价格贵的发指,在编程智能体方面,目前的排名是:opus 4.8> opus 4.7>qwen 3.7max>gpt 5.5>opus 4.6>gemini 3.1ultra >glm5.1>gemini 3.5flash>gemini 3.1pro >deepseek v4pro : 2.厂家自己的说法是,qwen3.7max超过了opus 4.6,而deepseek自己的说法是不如opus4.6。实际上就编程而言,在deepseek v4 pro 和opus 4.6之间隔了好几个模型,而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾,阿里真正发了一个刷新国模新高度的模型会没有啥水花。
huy2良民
Sat May 30 12:45:40 2026 · #31
如果千问刷题了的话怎么办
【 在 Engelberger 的大作中提到: 】 : 我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。 : 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 : qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。 : 在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。
博主关闭了所有页面的评论