千问怎么强到这个程度了？把谷歌的大模型也给超了(合集转寄)-天马行空

Engelbergermissing

Sat May 30 08:53:08 2026 · #1

1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。 3.qwen 3.7max的问世，打破了御三家的垄断。谷歌现在是全线不如qwen3.7max的，就看下个月发的gemini 3.5pro会不会反超，至少现在是千问更强。编程方面qwen仅次于Anthropic，甚至比open AI 还强点。考虑到openAI的旗舰模型数学能力屌炸天，文生图能力sota，综合看来还是Anthropic和open ai更强。那也没有御三家的说法了，变成了御两家。阿里在显卡受限的情况下，能战胜巨头谷歌，这简直是个奇迹。谷歌的tpu看来不大行啊，拖累了自己的大模型训练，我相信deepmind的人，研发能力是不弱于御两家和阿里的。 4.很多年前，大家认为bat中b的技术最强。从ai研究看来，百度腾讯和阿里相比，技术上差了不知道多少个字节跳动。当前时代，鉴于ai的重要性和训练难度，大模型训练可以说是检验公司综合技术实力极限的金标准，传统互联网大公司中，只有阿里还代表着国内软件业的最高水平，排第二第三的是智谱和deepseek。 5.杭州确实崛起了。就科技行业而言，国内现在的格局是一线：杭州二线：合肥，北京，武汉三线：上海，深圳四线：广州，苏州，西安，成都，南京，重庆，无锡五线：天津，沈阳，长春，兰州，厦门，东莞，常州，没了。在此以下没有科技行业。

oldtown小城故事

Sat May 30 09:10:55 2026 · #2

千问最近简直不行，很笨

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code&nbsp;arena盲测，很多用户匿名体验打分，qwen3.7max ...

withwindfly求宝宝

Sat May 30 09:15:53 2026 · #3

deep也是千问里面出来的人搞的？

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro

skysummerskysummer

Sat May 30 09:16:48 2026 · #4

千问很少用。比豆包ds Kimi差很远。

【在 oldtown 的大作中提到: 】 : 千问最近简直不行，很笨 : 【在 Engelberger 的大作中提到: 】 : : 1.编程智能体有两个硬核的评测指标，一个是code&nbsp;arena盲测，很多用户匿名体验打分，qwen3.7max ... : FROM 220.166.239.* [四川–成都电信]

Engelbergermissing

Sat May 30 09:22:28 2026 · #5

你用的qwen 3.7max？

【在 oldtown 的大作中提到: 】 : 千问最近简直不行，很笨

Engelbergermissing

Sat May 30 09:22:53 2026 · #6

我们说的都不是一回事

【在 skysummer 的大作中提到: 】 : 千问很少用。比豆包ds Kimi差很远。

Engelbergermissing

Sat May 30 09:23:10 2026 · #7

估计不是，记得有很多校招生

【在 withwindfly 的大作中提到: 】 : deep也是千问里面出来的人搞的？

climate天有不测风云

Sat May 30 09:27:03 2026 · #8

千问牛逼。deepseek声量大是因为： 1. 成本，成本，成本； 2. 开源，开源，开源。即便是deepseek V4 flash在各项指标上略掉队，但并没有量级上的差异。也就是说，deepseek对整个AI领域是生态上的威胁，小企业没有那么高的应用需求，又便宜又能自适应改良的deepseek，对小私营企业的诱惑是无穷的。在自由市场的竞争中，根本无法控制资本降本逐利，根本无法阻止deepseek的生态繁衍，是硅基世界话语权的争夺。他们不恐慌才怪。 qwen牛逼，然而在当下市场保护甚至动不动就以郭安为借口的环境下，qwen根本威胁不到生态位。会刺激竞争，但不会刺激出生态迁移的动力。恭喜qwen。

【在 Engelberger 的大作中提到: 】 :1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于

Engelbergermissing

Sat May 30 09:36:37 2026 · #9

我感觉大家低估qwen和ds pro的差距了，也低估pro和flash的差距了。对于困难问题，这是干得了和干不了的差别，干不了性价比就是0。对于简单但重要的问题，这是干得好，出错率低的差别，在企业生产环境中用ai干活也不想出错吧？只要价格不是太离谱，肯定优选最强模型。不过qwen和deepseek的差价确实挺大。

【在 climate 的大作中提到: 】 : 千问牛逼。deepseek声量大是因为： : 1. 成本，成本，成本； : 2. 开源，开源，开源。

netv呼吸也痛

Sat May 30 10:02:21 2026 · #10

但是qoder跟傻子似的昨天我测试了同一个任务，同样的提示词，cursor auto一次过，trae+deepseek4pro 改了一次，qoder+qwen3.7改了四次。

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

SPWaistcoatclear

Sat May 30 10:04:17 2026 · #11

gemini最近大踏步的退步，我买了付费版后悔了

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

luid(

Sat May 30 10:08:00 2026 · #12

芯片估计用在训练新模型？

【在 SPWaistcoat 的大作中提到: 】 : gemini最近大踏步的退步，我买了付费版后悔了

Carlito黑白两界

Sat May 30 10:11:19 2026 · #13

楼主又捧我吹都

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

BruceWangBruce

Sat May 30 10:14:14 2026 · #14

我个人的使用体验 CC（Opus）>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder

mv008mv008

Sat May 30 10:15:50 2026 · #15

很好奇楼主这说的一板一眼的，严重怀疑是收费软文

【在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC（Opus）>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder

catboycatboy

Sat May 30 10:20:16 2026 · #16

我去，前面洋洋洒洒说了那么多我都看完了，最后落笔是杭州天下第一，真服了

【在 Engelberger (missing) 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro

ContadorContador

Sat May 30 10:33:09 2026 · #17

3.7max比3.6pro都是巨大飞跃，别说3.5了跟Claude确实差不多了。

【在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC（Opus）>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder : FROM 1.94.162.* [上海华为云]

flaredll玄黄

Sat May 30 10:35:57 2026 · #18

所以用无限算力来大力飞砖的那几个顶级大模型也不行了？又要换理念改构架的韬定律了？

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

BruceWangBruce

Sat May 30 11:04:09 2026 · #19

跟GLM5.1差不多，弱于Opus4.6，4.7，更别说4.8了。

【在 Contador 的大作中提到: 】 : 3.7max比3.6pro都是巨大飞跃，别说3.5了 : 跟Claude确实差不多了。

Dream05Dream05

Sat May 30 11:05:07 2026 · #20

天津太惨了！！

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

tianiu田牛

Sat May 30 11:18:37 2026 · #21

QWEN跟DS V4P相比，感觉就跟弱智一样，简单问题还好，交互次数多一些，问题一复杂他就没招了，只能胡说

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro

Engelbergermissing

Sat May 30 11:39:40 2026 · #22

你要比qwen3.5的话，应该用glm4.7出来比。

【在 BruceWang 的大作中提到: 】 : 我个人的使用体验 CC（Opus）>> GPT5.5 ≈ GLM 5.1 > Qwen3.5 Coder

Engelbergermissing

Sat May 30 11:40:38 2026 · #23

gemini有coding plan?

【在 SPWaistcoat 的大作中提到: 】 : gemini最近大踏步的退步，我买了付费版后悔了

Engelbergermissing

Sat May 30 11:49:22 2026 · #24

我在用模型跑Codingforces上面的算法难题（2800~3500分的题目），测试模型的极限编程能力。实测下来，glm5.1的编程能力比deepseek v4pro强，deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 qwen3.7max在难题上爆锤前两者，借助多智能体+联网（看数学定理、不准搜题目和答案），可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。在多智能体协作的时候，deepseek v4 pro经常完成不了题目，原地打转，只能交给qwen3.7max解决。实验发现，deepseek v4pro拆解题目，把难点交给qwen3.7max，反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是，当qwen3.7max输出很长时，deepseek v4pro甚至拿着qwen的算法编码都实现不了，抄都抄不会，而glm5.1拿着现成算法编程倒是没有问题。这说明，在面对难题时，ds v4p完全在拖qwen后腿。没必要协作。而glm5.1的价格面对qwen根本没优势。也没必要协作。国模现在的合理搭配是：难题直接甩给qwen3.7m，日常对话用ds v4 flash便宜。

【在 BruceWang 的大作中提到: 】 : 跟GLM5.1差不多，弱于Opus4.6，4.7，更别说4.8了。

huhu758ILanan

Sat May 30 12:08:23 2026 · #25

每次听到本版的吹千问，就去用一下，每次感觉都很难用，完全比不上豆包和ds。不知道为啥这么多人吹千问？

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro

holy834IDA

Sat May 30 12:16:01 2026 · #26

本来就是它吹老久了

【在 mv008 的大作中提到: 】 : 很好奇楼主这说的一板一眼的，严重怀疑是收费软文

holy834IDA

Sat May 30 12:17:35 2026 · #27

因为福报厂也是没底线的公司刷分作弊最在行了

【在 huhu758 的大作中提到: 】 : 每次听到本版的吹千问，就去用一下，每次感觉都很难用，完全比不上豆包和ds。不知道为啥这么多人吹千问？

huy2良民

Sat May 30 12:20:10 2026 · #28

难道我要在千问充值了吗

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

wang99168wang99168

Sat May 30 12:24:30 2026 · #29

实事求是也不对？

【在 catboy 的大作中提到: 】 : 我去，前面洋洋洒洒说了那么多我都看完了，最后落笔是杭州天下第一，真服了

gauleefoscar

Sat May 30 12:26:40 2026 · #30

实际使用感受差异太明显了，还是ds好用

【在 Engelberger 的大作中提到: 】 : 1.编程智能体有两个硬核的评测指标，一个是code arena盲测，很多用户匿名体验打分，qwen3.7max评分仅次于Anthropic的opus 4.7，超过了4.6和gpt5.5。 : 第二个是swe bench pro和其反刷分无漏洞修正，qwen 3.7仅次于Anthropic的几个模型和gpt5.5，超过了opus 4.6。 : 鉴于mythos不对个人用户提供，gpt5.5pro价格贵的发指，在编程智能体方面，目前的排名是：opus 4.8＞ opus 4.7＞qwen 3.7max＞gpt 5.5＞opus 4.6＞gemini 3.1ultra ＞glm5.1＞gemini 3.5flash＞gemini 3.1pro ＞deepseek v4pro : 2.厂家自己的说法是，qwen3.7max超过了opus 4.6，而deepseek自己的说法是不如opus4.6。实际上就编程而言，在deepseek v4 pro 和opus 4.6之间隔了好几个模型，而且不如先出的国模glm5.1。不知道为啥deepseek发新模型会全网沸腾，阿里真正发了一个刷新国模新高度的模型会没有啥水花。

huy2良民

Sat May 30 12:45:40 2026 · #31

如果千问刷题了的话怎么办

【在 Engelberger 的大作中提到: 】 : 我在用模型跑Codingforces上面的算法难题（2800~3500分的题目），测试模型的极限编程能力。 : 实测下来，glm5.1的编程能力比deepseek v4pro强，deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 : qwen3.7max在难题上爆锤前两者，借助多智能体+联网（看数学定理、不准搜题目和答案），可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。 : 在多智能体协作的时候，deepseek v4 pro经常完成不了题目，原地打转，只能交给qwen3.7max解决。实验发现，deepseek v4pro拆解题目，把难点交给qwen3.7max，反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是，当qwen3.7max输出很长时，deepseek v4pro甚至拿着qwen的算法编码都实现不了，抄都抄不会，而glm5.1拿着现成算法编程倒是没有问题。