转寄人: ZabraZoe (ZabraZoe)
标 题: 我发现在解答难题时,deepseek完全是拖千问后腿,没必要协作。
发信站: 水木社区 (Sat May 30 13:51:15 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
标 题: 我发现在解答难题时,deepseek完全是拖千问后腿,没必要协作。
发信站: 水木社区 (Sat May 30 13:51:15 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
1、模型单独解题能力对比
我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。
实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。
qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。
2、完成任务的经济和时间成本对比
deepseek和glm5.1大多数任务独立完成不了,只有qwen3.7能完成。前两者虽然完成不了,但是token也消耗了。最后三者花的钱差不多。deepseek v4pro貌似单价便宜,但是脑残志坚,不仅花了钱,还浪费了最多的时间,最后任务也没完成,相当于一个廉价版的kimi 2.6。
3、多智能体协作方案
在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。
这说明,在面对难题时,ds v4p完全在拖qwen后腿。没必要协作。
而glm5.1的价格面对qwen根本没优势。也没必要协作。
国模现在的合理搭配是:难题直接甩给qwen3.7m,日常对话用ds v4 flash便宜。
没卵用
外网水花都没有
※ 来源:·https://exp.mysmth.net·[FROM: 223.104.163.*]
怎么没用,Claude 连夜把套餐的额度翻倍了
【 在 luid 的大作中提到: 】
: 没卵用
外网水花都没有
目前用下来ds最好用
【 在 Engelberger 的大作中提到: 】
: 1、模型单独解题能力对比
: 我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。
: 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。
: qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。
: 2、完成任务的经济和时间成本对比