发现deepseek v4pro编程能力很拉垮(合集转寄)-天马行空

hxlinhxlin

Tue Jun 2 07:50:13 2026 · #1

他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

Engelbergermissing

Tue Jun 2 07:53:21 2026 · #2

我试了写小说，也是qwen最好，ds和glm差不多，mimo，kimi就是智z minimax m3跑分高，实际不能用，太慢了，太太太慢了

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

hxlinhxlin

Tue Jun 2 07:56:27 2026 · #3

3.7太贵了准备切到3.6试试疑难杂症再用3.7，3.7MAX真用不起

【在 Engelberger 的大作中提到: 】 : 我试了写小说，也是qwen最好，ds和glm差不多，mimo，kimi就是智z : minimax m3跑分高，实际不能用，太慢了，太太太慢了 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

Engelbergermissing

Tue Jun 2 07:57:10 2026 · #4

3.6差很远新出了3.7plus，打算今天试试

【在 hxlin 的大作中提到: 】 : 3.7太贵了准备切到3.6试试疑难杂症再用3.7，3.7MAX真用不起

jiangyounan俺是打酱油的

Tue Jun 2 07:57:52 2026 · #5

免费的网页版不香吗

【在 Engelberger 的大作中提到: 】 : 标题: Re: 发现deepseek v4pro编程能力很拉垮 : 发信站: 水木社区 (Tue Jun 2 07:57:10 2026), 站内 : 3.6差很远 : 新出了3.7plus，打算今天试试 : 【在 hxlin 的大作中提到: 】 : : 3.7太贵了准备切到3.6试试疑难杂症再用3.7，3.7MAX真用不起 : ※ 来源:·水木社区 http://m.mysmth.net·[FROM: 211.137.80.*]

Engelbergermissing

Tue Jun 2 08:11:34 2026 · #6

有qwen3.7max和plus？

【在 jiangyounan 的大作中提到: 】 : 免费的网页版不香吗

wenzhongzi没人比我更懂灌水！

Tue Jun 2 08:59:19 2026 · #7

一会吹这个一会吹那个，不累吗？

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG&nbsp;让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了&n ...

mygodxpdelphi

Tue Jun 2 09:04:12 2026 · #8

昨天还有个迪庆说mimo写小说好呢

【在 Engelberger 的大作中提到: 】 : 我试了写小说，也是qwen最好，ds和glm差不多，mimo，kimi就是智z : minimax m3跑分高，实际不能用，太慢了，太太太慢了 : 简直是个智障。

liuqixiao27打架手揣兜

Tue Jun 2 09:09:46 2026 · #9

用千问你搜下那个token plan，会实惠一点

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊 : FROM 223.104.122.* [湖北–武汉移动]

wakesmanjk

Tue Jun 2 09:30:21 2026 · #10

千问编程确实比别的强一大截子

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊 : FROM 223.104.122.* [湖北–武汉移动]

Engelbergermissing

Tue Jun 2 09:37:03 2026 · #11

我昨天明天作文，测了3个题目。一个重新写，一个扩写，一个改写。分别测了qwen2个，deepseek2个，glm1个，minimax1个，kimi1个，mimo 2个模型。 a.对于每道题目，先让ai写，测试文学创作能力。 b.再让ai互评a步作品，测试文学鉴赏能力。 c.最后让ai互读a，b的输出，评价其他ai 同时，我也直接在看各个ai的作品发现几个点： 1.ai的互评整体上能形成共识 2.ai的文学创作能力和文学鉴赏能力高度相关 3.大家普遍认为写得好的ai，互评出来的前几名也在这个小圈子里 4.文学创作能力最强的是qwen，其次是deepseek的两个模型（flash和pro的文学创作能力差不多），glm5.1和deepseek文风不一样，deepseek pro是话唠，而且喜欢装，glm 5.1文字要简洁一些。 5.文学创造能力最平庸的是小米的两个模型。 6.文学鉴赏能力最强的是deepseek 的两个模型。 7.最奇葩的是kimi k2.6，指令遵循极差，而且还抄袭（以前编程的时候也发现过它抄袭），token级抄袭，而且互评的时候也胡说八道。处于完全不能用的状态。 8.minimax m3和minimax 以前的模型完全不一样，以前是唐，现在是慢的不得了。综上，对于文字工作，我的排序是：顶尖：qwen 次顶尖：deepseek ，glm 平庸：mimo 没法用：minimax 有毒：kimi

【在 mygodxp 的大作中提到: 】 : 昨天还有个迪庆说mimo写小说好呢

zelatanzelatan

Tue Jun 2 09:52:04 2026 · #12

写小说能到什么水平？本青想让ai写一个给我自娱自乐

【在 Engelberger 的大作中提到: 】 : 我试了写小说，也是qwen最好，ds和glm差不多，mimo，kimi就是智z : minimax m3跑分高，实际不能用，太慢了，太太太慢了 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

Engelbergermissing

Tue Jun 2 09:53:39 2026 · #13

qwen有几次让我觉得很惊艳，要看哭了的水平自娱自乐的话deepseek v4 flash是最合适的，又便宜又快，质量也还行，一会儿就给你写几十万字，根本看不过来

【在 zelatan 的大作中提到: 】 : 写小说能到什么水平？ : 本青想让ai写一个给我自娱自乐

BruceWangBruce

Tue Jun 2 09:53:58 2026 · #14

杂糠吃惯了吃点精粮试试Claude Opus 4.8

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

tongchen除旧迎新

Tue Jun 2 09:55:15 2026 · #15

【在 Engelberger 的大作中提到: 】 : qwen有几次让我觉得很惊艳，要看哭了的水平 : 自娱自乐的话deepseek v4 flash是最合适的，又便宜又快，质量也还行，一会儿就给你写几十万字，根本看不过来

conepoint欲*静观其变*三昧真火

Tue Jun 2 09:58:20 2026 · #16

主要工业用途应在数学物理能力的自动化上. 需仿生学探索. 基础数据集的宽度深度决定大模型性能上限参考地基对楼高影响. 采样过程本身伴随失真风险,所以尽量使用原始数据,且避免过程污染.

【在 Engelberger 的大作中提到: 】 : 我昨天明天作文，测了3个题目。一个重新写，一个扩写，一个改写。 : 分别测了qwen2个，deepseek2个，glm1个，minimax1个，kimi1个，mimo 2个模型。 : a.对于每道题目，先让ai写，测试文学创作能力。

Engelbergermissing

Tue Jun 2 10:04:04 2026 · #17

文字能力确实跟训练数据强相关。Deepseek V4 Pro和V4 Flash的文字能力居然差不多。证明现在的参数量和训练量对于文字能力已经是饱和状态了。要提升文字能力，主要还是要靠提升数据。这么看来，千问的训练数据应该是最强的，其次Deepseek和智谱。小米的训练数据比较一般。Minimax是模型设计的目标有问题。Kimi就纯粹是跑分向选手了，我对Kimi的所有测试全部翻车，都不是好不好的问题了，全部出现巨大的bug。

【在 conepoint 的大作中提到: 】 : 主要工业用途应在数学物理能力的自动化上. 需仿生学探索. : 基础数据集的宽度深度决定大模型性能上限参考地基对楼高影响.

rockeyes*^*-*~*

Tue Jun 2 10:44:55 2026 · #18

贵青是具体怎样使用它修bug的比如，是把它接入到claude code的方式么？

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊 : FROM 223.104.122.* [湖北–武汉移动]

hxlinhxlin

Tue Jun 2 17:51:34 2026 · #19

对我用的Claude code

【在 rockeyes 的大作中提到: 】 : 贵青是具体怎样使用它修bug的 : 比如，是把它接入到claude code的方式么？ : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

hxlinhxlin

Tue Jun 2 17:53:22 2026 · #20

这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，搓着你肺管子了？难道必须得说deepseek 好？

【在 wenzhongzi 的大作中提到: 】 : 一会吹这个一会吹那个，不累吗？ : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG&nbsp;让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了&n ... : FROM 223.104.3.* [北京–朝阳区移动]

hxlinhxlin

Tue Jun 2 17:53:47 2026 · #21

这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，难道必须得说deepseek 好？

【在 wenzhongzi 的大作中提到: 】 : 一会吹这个一会吹那个，不累吗？ : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG&nbsp;让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了&n ... : FROM 223.104.3.* [北京–朝阳区移动]

BruceWangBruce

Tue Jun 2 17:54:44 2026 · #22

试试claude code吧

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

z16166Netguy

Tue Jun 2 17:55:26 2026 · #23

deepseek v4 pro审核代码经常能发现别人没发现的bug

hxlinhxlin

Tue Jun 2 17:56:14 2026 · #24

没钱用不起那玩意按美刀算钱的，咱挣得是人民币啊

【在 BruceWang 的大作中提到: 】 : 杂糠吃惯了吃点精粮试试Claude Opus 4.8 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

netv呼吸也痛

Tue Jun 2 17:57:08 2026 · #25

不用那么高级，cursor 的auto模式都吊打这几个

【在 BruceWang 的大作中提到: 】 : 杂糠吃惯了吃点精粮试试Claude Opus 4.8 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

hxlinhxlin

Tue Jun 2 17:57:57 2026 · #26

就是CC接入国内模型的

【在 BruceWang 的大作中提到: 】 : 试试claude code吧 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

tongchen除旧迎新

Tue Jun 2 18:00:22 2026 · #27

你没有压倒性的优势，也就只能吹吹，听众还是按需受取也就只能客观地在有限范围内比较下孰优孰劣，也有时效性。

【在 hxlin 的大作中提到: 】 : 这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，搓着你肺管子了？难道必须得说deepseek 好？

wenzhongzi没人比我更懂灌水！

Tue Jun 2 18:04:09 2026 · #28

你们这些跟瞎子摸象一样，只根据个例下结论。好坏与我毛关系，我从来不用。

【在 hxlin 的大作中提到: 】 : 这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，搓着你肺管子了？难道必须得说deepse...

BruceWangBruce

Tue Jun 2 18:05:35 2026 · #29

那背后也是次顶级的GPT5.5和Codex5.3.

【在 netv 的大作中提到: 】 : 不用那么高级，cursor 的auto模式都吊打这几个

hxlinhxlin

Tue Jun 2 18:35:50 2026 · #30

这论坛看来不能发帖子，我还是继续潜水吧，哎

【在 wenzhongzi 的大作中提到: 】 : 你们这些跟瞎子摸象一样，只根据个例下结论。好坏与我毛关系，我从来不用。 : 【在 hxlin 的大作中提到: 】 : : 这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，搓着你肺管子了？难道必须得说deepse... : FROM 223.104.3.* [北京–朝阳区移动]

hxlinhxlin

Tue Jun 2 18:37:00 2026 · #31

我？我是用户不是阿里的马甲，我一直用deepseek搞不定才切的千问

【在 tongchen 的大作中提到: 】 : 你没有压倒性的优势，也就只能吹吹，听众还是按需受取 : 也就只能客观地在有限范围内比较下孰优孰劣，也有时效性。 : 【在 hxlin 的大作中提到: 】 : : 这话从何说起？我什么时候吹过？这是碰到深井冰了吗，我就是把这几天实际感觉说一下，搓着你肺管子了？难道必须得说deepseek 好？

tgfbeta右旋肉碱

Tue Jun 2 18:37:18 2026 · #32

也可以试试funstep flash 3.7 据说也很能打

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简 : 直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

hxlinhxlin

Tue Jun 2 18:39:16 2026 · #33

我现在主要是谁能帮我干活就用谁，3.7MAX太贵，我现在又切回deepseek了，回头有他搞不定的再用千问

【在 tgfbeta 的大作中提到: 】 : 也可以试试funstep flash 3.7 : 据说也很能打 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简 : : 直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

zszqzzz早睡早起

Tue Jun 2 18:40:21 2026 · #34

相反，我觉得ds4pro比qwen3.7max plan 补充知识编码都好一些，兼容claude code更好，用的1.153版本cc。

【在 hxlin 的大作中提到: 】 : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

hxlinhxlin

Tue Jun 2 18:42:26 2026 · #35

4pro有个问题挺烦人的，他不能识别图纯文本的，每次有些问题我想截图给他看老是不行，但是用语言描述一时半会说不清楚导致他对问题的理解也不到位

【在 zszqzzz 的大作中提到: 】 : 相反，我觉得ds4pro比qwen3.7max plan 补充知识编码都好一些，兼容claude code更好，用的1.153版本cc。 : 【在 hxlin 的大作中提到: 】 : : 他自己搞出来的BUG 让他修复，来来回回修了10多次还搞不定，每次改了都很坚定的语气说“找到原因了，搞定了让我测试下”M D一测试越改越乱，实在忍不住了，接入QWEN3.7MAX，就一下，看清楚了就一次就帮我改好了，然后继续用他，发现v4pro 在编程能力方面差3.7MAX太多了，简直是个智障。 : : 话说3.7MAX确实用起来爽，就一个缺点，贵，200块钱token 就做了几个大功能就烧没了，对比deepseek 之前买的50块钱现在还没用完，便宜是便宜关键是得能干活啊

zszqzzz早睡早起

Tue Jun 2 19:00:21 2026 · #36

对，灰度测试有多模态，正式发布多模态没了，这点和Opus配合最不适应，而且一旦识别不了，还会污染上下文，再切Opus也会有问题。

【在 hxlin 的大作中提到: 】 : 4pro有个问题挺烦人的，他不能识别图纯文本的，每次有些问题我想截图给他看老是不行，但是用语言描述一时半会说不清楚导致他对问题的理解也不到位