转寄人: ZabraZoe (ZabraZoe)
标 题: 发现deepseek v4pro编程能力很拉垮
发信站: 水木社区 (Tue Jun 2 19:34:45 2026)
来 源: 222.129.32.13
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
标 题: 发现deepseek v4pro编程能力很拉垮
发信站: 水木社区 (Tue Jun 2 19:34:45 2026)
来 源: 222.129.32.13
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
我试了写小说,也是qwen最好,ds和glm差不多,mimo,kimi就是智z
minimax m3跑分高,实际不能用,太慢了,太太太慢了
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
3.7太贵了 准备切到3.6试试 疑难杂症再用3.7,3.7MAX真用不起
【 在 Engelberger 的大作中提到: 】
: 我试了写小说,也是qwen最好,ds和glm差不多,mimo,kimi就是智z
: minimax m3跑分高,实际不能用,太慢了,太太太慢了
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
3.6差很远
新出了3.7plus,打算今天试试
【 在 hxlin 的大作中提到: 】
: 3.7太贵了 准备切到3.6试试 疑难杂症再用3.7,3.7MAX真用不起
免费的网页版不香吗
【 在 Engelberger 的大作中提到: 】
: 标 题: Re: 发现deepseek v4pro编程能力很拉垮
: 发信站: 水木社区 (Tue Jun 2 07:57:10 2026), 站内
: 3.6差很远
: 新出了3.7plus,打算今天试试
: 【 在 hxlin 的大作中提到: 】
: : 3.7太贵了 准备切到3.6试试 疑难杂症再用3.7,3.7MAX真用不起
: ※ 来源:·水木社区 http://m.mysmth.net·[FROM: 211.137.80.*]
有qwen3.7max和plus?
【 在 jiangyounan 的大作中提到: 】
: 免费的网页版不香吗
一会吹这个一会吹那个,不累吗?
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了&n ...
昨天还有个迪庆说mimo写小说好呢
【 在 Engelberger 的大作中提到: 】
: 我试了写小说,也是qwen最好,ds和glm差不多,mimo,kimi就是智z
: minimax m3跑分高,实际不能用,太慢了,太太太慢了
: 简直是个智障。
用千问你搜下那个token plan,会实惠一点
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
: FROM 223.104.122.* [湖北–武汉 移动]
千问编程确实比别的强一大截子
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
: FROM 223.104.122.* [湖北–武汉 移动]
我昨天明天作文,测了3个题目。一个重新写,一个扩写,一个改写。
分别测了qwen2个,deepseek2个,glm1个,minimax1个,kimi1个,mimo 2个模型。
a.对于每道题目,先让ai写,测试文学创作能力。
b.再让ai互评a步作品,测试文学鉴赏能力。
c.最后让ai互读a,b的输出,评价其他ai
同时,我也直接在看各个ai的作品
发现几个点:
1.ai的互评整体上能形成共识
2.ai的文学创作能力和文学鉴赏能力高度相关
3.大家普遍认为写得好的ai,互评出来的前几名也在这个小圈子里
4.文学创作能力最强的是qwen,其次是deepseek的两个模型(flash和pro的文学创作能力差不多),glm5.1和deepseek文风不一样,deepseek pro是话唠,而且喜欢装,glm 5.1文字要简洁一些。
5.文学创造能力最平庸的是小米的两个模型。
6.文学鉴赏能力最强的是deepseek 的两个模型。
7.最奇葩的是kimi k2.6,指令遵循极差,而且还抄袭(以前编程的时候也发现过它抄袭),token级抄袭,而且互评的时候也胡说八道。处于完全不能用的状态。
8.minimax m3和minimax 以前的模型完全不一样,以前是唐,现在是慢的不得了。
综上,对于文字工作,我的排序是:
顶尖:qwen
次顶尖:deepseek ,glm
平庸:mimo
没法用:minimax
有毒:kimi
【 在 mygodxp 的大作中提到: 】
: 昨天还有个迪庆说mimo写小说好呢
写小说能到什么水平?
本青想让ai写一个给我自娱自乐
【 在 Engelberger 的大作中提到: 】
: 我试了写小说,也是qwen最好,ds和glm差不多,mimo,kimi就是智z
: minimax m3跑分高,实际不能用,太慢了,太太太慢了
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
qwen有几次让我觉得很惊艳,要看哭了的水平
自娱自乐的话deepseek v4 flash是最合适的,又便宜又快,质量也还行,一会儿就给你写几十万字,根本看不过来
【 在 zelatan 的大作中提到: 】
: 写小说能到什么水平?
: 本青想让ai写一个给我自娱自乐
杂糠吃惯了吃点精粮试试Claude Opus 4.8
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
【 在 Engelberger 的大作中提到: 】
: qwen有几次让我觉得很惊艳,要看哭了的水平
: 自娱自乐的话deepseek v4 flash是最合适的,又便宜又快,质量也还行,一会儿就给你写几十万字,根本看不过来
主要工业用途应在数学物理能力的自动化上. 需仿生学探索.
基础数据集的宽度深度决定大模型性能上限参考地基对楼高影响.
采样过程本身伴随失真风险,所以尽量使用原始数据,且避免过程污染.
【 在 Engelberger 的大作中提到: 】
: 我昨天明天作文,测了3个题目。一个重新写,一个扩写,一个改写。
: 分别测了qwen2个,deepseek2个,glm1个,minimax1个,kimi1个,mimo 2个模型。
: a.对于每道题目,先让ai写,测试文学创作能力。
文字能力确实跟训练数据强相关。Deepseek V4 Pro和V4 Flash的文字能力居然差不多。
证明现在的参数量和训练量对于文字能力已经是饱和状态了。要提升文字能力,主要还是要靠提升数据。
这么看来,千问的训练数据应该是最强的,其次Deepseek和智谱。小米的训练数据比较一般。Minimax是模型设计的目标有问题。Kimi就纯粹是跑分向选手了,我对Kimi的所有测试全部翻车,都不是好不好的问题了,全部出现巨大的bug。
【 在 conepoint 的大作中提到: 】
: 主要工业用途应在数学物理能力的自动化上. 需仿生学探索.
: 基础数据集的宽度深度决定大模型性能上限参考地基对楼高影响.
贵青是具体怎样使用它修bug的
比如,是把它接入到claude code的方式么?
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
: FROM 223.104.122.* [湖北–武汉 移动]
对 我用的Claude code
【 在 rockeyes 的大作中提到: 】
: 贵青是具体怎样使用它修bug的
: 比如,是把它接入到claude code的方式么?
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,搓着你肺管子了?难道必须得说deepseek 好?
【 在 wenzhongzi 的大作中提到: 】
: 一会吹这个一会吹那个,不累吗?
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了&n ...
: FROM 223.104.3.* [北京–朝阳区 移动]
这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,难道必须得说deepseek 好?
【 在 wenzhongzi 的大作中提到: 】
: 一会吹这个一会吹那个,不累吗?
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了&n ...
: FROM 223.104.3.* [北京–朝阳区 移动]
试试claude code吧
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
deepseek v4 pro审核代码经常能发现别人没发现的bug
没钱 用不起 那玩意按美刀算钱的,咱挣得是人民币啊
【 在 BruceWang 的大作中提到: 】
: 杂糠吃惯了吃点精粮试试Claude Opus 4.8
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
不用那么高级,cursor 的auto模式都吊打这几个
【 在 BruceWang 的大作中提到: 】
: 杂糠吃惯了吃点精粮试试Claude Opus 4.8
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
就是CC接入国内模型的
【 在 BruceWang 的大作中提到: 】
: 试试claude code吧
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
你没有压倒性的优势,也就只能吹吹,听众还是按需受取
也就只能客观地在有限范围内比较下孰优孰劣,也有时效性。
【 在 hxlin 的大作中提到: 】
: 这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,搓着你肺管子了?难道必须得说deepseek 好?
你们这些跟瞎子摸象一样,只根据个例下结论。好坏与我毛关系,我从来不用。
【 在 hxlin 的大作中提到: 】
: 这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,搓着你肺管子了?难道必须得说deepse...
那背后也是次顶级的GPT5.5和Codex5.3.
【 在 netv 的大作中提到: 】
: 不用那么高级,cursor 的auto模式都吊打这几个
这论坛看来不能发帖子,我还是继续潜水吧,哎
【 在 wenzhongzi 的大作中提到: 】
: 你们这些跟瞎子摸象一样,只根据个例下结论。好坏与我毛关系,我从来不用。
: 【 在 hxlin 的大作中提到: 】
: : 这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,搓着你肺管子了?难道必须得说deepse...
: FROM 223.104.3.* [北京–朝阳区 移动]
我?我是用户 不是阿里的马甲,我一直用deepseek搞不定才切的千问
【 在 tongchen 的大作中提到: 】
: 你没有压倒性的优势,也就只能吹吹,听众还是按需受取
: 也就只能客观地在有限范围内比较下孰优孰劣,也有时效性。
: 【 在 hxlin 的大作中提到: 】
: : 这话从何说起?我什么时候吹过?这是碰到深井冰了吗,我就是把这几天实际感觉说一下,搓着你肺管子了?难道必须得说deepseek 好?
也可以试试funstep flash 3.7
据说也很能打
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简
: 直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
我现在主要是谁能帮我干活就用谁,3.7MAX太贵,我现在又切回deepseek了,回头有他搞不定的再用千问
【 在 tgfbeta 的大作中提到: 】
: 也可以试试funstep flash 3.7
: 据说也很能打
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简
: : 直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
相反,我觉得ds4pro比qwen3.7max plan 补充知识 编码都好一些,兼容claude code更好,用的1.153版本cc。
【 在 hxlin 的大作中提到: 】
: 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
4pro有个问题挺烦人的,他不能识别图 纯文本的,每次有些问题我想截图给他看 老是不行,但是用语言描述一时半会说不清楚 导致他对问题的理解也不到位
【 在 zszqzzz 的大作中提到: 】
: 相反,我觉得ds4pro比qwen3.7max plan 补充知识 编码都好一些,兼容claude code更好,用的1.153版本cc。
: 【 在 hxlin 的大作中提到: 】
: : 他自己搞出来的BUG 让他修复,来来回回修了10多次还搞不定,每次改了都很坚定的语气说“找到原因了,搞定了 让我测试下”M D一测试 越改越乱,实在忍不住了,接入QWEN3.7MAX,就一下,看清楚了就一次就帮我改好了,然后继续用他,发现v4pro 在编程能力方面差3.7MAX太多了,简直是个智障。
: : 话说3.7MAX确实用起来爽,就一个缺点,贵,200块钱token 就做了几个大功能就烧没了,对比deepseek 之前买的50块钱 现在还没用完,便宜是便宜 关键是得能干活啊
对,灰度测试有多模态,正式发布多模态没了,这点和Opus配合最不适应,而且一旦识别不了,还会污染上下文,再切Opus也会有问题。
【 在 hxlin 的大作中提到: 】
: 4pro有个问题挺烦人的,他不能识别图 纯文本的,每次有些问题我想截图给他看 老是不行,但是用语言描述一时半会说不清楚 导致他对问题的理解也不到位