侧边栏壁纸
博主头像
天马行空 博主等级

凡是过往,皆为序章

  • 累计撰写 632 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

我发现在解答难题时,deepseek完全是拖千问后腿,没必要协作。(合集转寄)

sortie
2026-05-30 / 0 评论 / 0 点赞 / 1 阅读 / 0 字
转寄人: ZabraZoe (ZabraZoe)
标 题: 我发现在解答难题时,deepseek完全是拖千问后腿,没必要协作。
发信站: 水木社区 (Sat May 30 13:51:15 2026)
来 源: 120.245.106.254
【以下内容由 ZabraZoe 转寄于 NewExpress 版】
Engelbergermissing
Sat May 30 11:53:53 2026 · #1
1、模型单独解题能力对比 我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。 2、完成任务的经济和时间成本对比 deepseek和glm5.1大多数任务独立完成不了,只有qwen3.7能完成。前两者虽然完成不了,但是token也消耗了。最后三者花的钱差不多。deepseek v4pro貌似单价便宜,但是脑残志坚,不仅花了钱,还浪费了最多的时间,最后任务也没完成,相当于一个廉价版的kimi 2.6。 3、多智能体协作方案 在多智能体协作的时候,deepseek v4 pro经常完成不了题目,原地打转,只能交给qwen3.7max解决。实验发现,deepseek v4pro拆解题目,把难点交给qwen3.7max,反而不如qwen3.7max从头开始做快和好。另一个有趣的实验发现是,当qwen3.7max输出很长时,deepseek v4pro甚至拿着qwen的算法编码都实现不了,抄都抄不会,而glm5.1拿着现成算法编程倒是没有问题。 这说明,在面对难题时,ds v4p完全在拖qwen后腿。没必要协作。 而glm5.1的价格面对qwen根本没优势。也没必要协作。 国模现在的合理搭配是:难题直接甩给qwen3.7m,日常对话用ds v4 flash便宜。
luid(
Sat May 30 13:14:03 2026 · #2
没卵用 外网水花都没有 ※ 来源:·https://exp.mysmth.net·[FROM: 223.104.163.*]
Engelbergermissing
Sat May 30 13:39:26 2026 · #3
怎么没用,Claude 连夜把套餐的额度翻倍了
【 在 luid 的大作中提到: 】 : 没卵用 外网水花都没有
dongdi爱生活,爱祖国
Sat May 30 13:46:20 2026 · #4
目前用下来ds最好用
【 在 Engelberger 的大作中提到: 】 : 1、模型单独解题能力对比 : 我在用模型跑Codingforces上面的算法难题(2800~3500分的题目),测试模型的极限编程能力。 : 实测下来,glm5.1的编程能力比deepseek v4pro强,deepseek v4pro的算法能力比glm5.1强。但这两个都无法独立完成大部分2800分的算法题编程解答。 : qwen3.7max在难题上爆锤前两者,借助多智能体+联网(看数学定理、不准搜题目和答案),可以搞定3500分的题目。不联网不用多智能体可以平推3000分左右的题目。 : 2、完成任务的经济和时间成本对比
博主关闭了所有页面的评论