glm5.1现在很强了(合集转寄)-天马行空

lshils

Sat Apr 11 18:09:15 2026 · #1

我现在opus列计划 glm执行 sonnet review。 sonnet现在动不动夸glm代码质量很高

z16166Netguy

Sat Apr 11 21:57:25 2026 · #2

据说glm 5.1排队严重啊

harrycheng哦地球上尽然还有这种四晴？？？

Sat Apr 11 22:57:19 2026 · #3

细锐私立？？？

【在 lshi 的大作中提到: 】我现在opus列计划 glm执行 sonnet review。 sonnet现在动不动夸glm代码质量很高

eggcareggcar

Fri Apr 17 17:36:22 2026 · #4

kimi 2.6也不差

lvsoftLv(The Last Guardian

Fri Apr 17 20:51:29 2026 · #5

glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....

【在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。

filemaker法迈

Sat Apr 18 14:50:24 2026 · #6

日

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好.... : 【在 lshi 的大作中提到: 】 : : 我现在opus列计划

jansea沧浪客

Sat Apr 18 19:13:19 2026 · #7

这种命令不得随便授权啊

【在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....

lvsoftLv(The Last Guardian

Sat Apr 18 20:01:03 2026 · #8

用人不疑，疑人不用。要用ai就需要充分授权，不然没有效率。只是等效于rm -rf / ，实际的过程不是这么简单。这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。是一个人也可能会犯的错误。后面也是用glm把系统重做，目前基本恢复了。我发现的时候，它正在删我的home目录。其他都删的干干净净了.... 但还好最近高强度干活的那个目录还没有被删掉。最后实际损失了一个kicad项目，是我刚做好的pcb的设计，十几个器件的封装，这个怪我我自己忘了提交了，总的来说大概损失了3天左右的工作量，都是硬件项目的损失，心情不是很美丽但也勉强能接受... 工作量最大的软件和固件代码算是运气好，完全没有损失。现在我已经建立了全盘10分钟一次的快照备份，以后就不怕了。总的来说, 虽然GLM 5.1给我闯了祸，但我对它的评价还是很高的。

【在 jansea 的大作中提到: 】 : 这种命令不得随便授权啊

jansea沧浪客

Sat Apr 18 20:34:55 2026 · #9

试验阶段，损失都可控，可由此实现一个命令黑名单或者把这类命令监管起来，需要确认再往下执行就像安装软件过程中，某些节点需要认为确认才能继续现阶段肯定不能完全信任，可靠监管很必要

【在 lvsoft 的大作中提到: 】 : 用人不疑，疑人不用。要用ai就需要充分授权，不然没有效率。 : 只是等效于rm -rf / ，实际的过程不是这么简单。 : 这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。

lvsoftLv(The Last Guardian

Sat Apr 18 21:53:48 2026 · #10

呃，那倒也不是。这是我的主力开发机...系统盘有2块4T ssd...

【在 jansea 的大作中提到: 】 : 试验阶段，损失都可控，可由此实现一个命令黑名单或者把这类命令监管起来，需要确认再往下执行 : 就像安装软件过程中，某些节点需要认为确认才能继续 : 现阶段肯定不能完全信任，可靠监管很必要 [upload=1][/upload]

beep菜Ｍ.喵星耗子

Sun Apr 19 00:01:45 2026 · #11

这。。。是反话吗。。。。

【在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....

beep菜Ｍ.喵星耗子

Sun Apr 19 00:04:30 2026 · #12

lv神竟然不搞个git托管。。。

【在 lvsoft 的大作中提到: 】 : 呃，那倒也不是。这是我的主力开发机...系统盘有2块4T ssd... : [upload=1][/upload]

lvsoftLv(The Last Guardian

Sun Apr 19 00:16:21 2026 · #13

我当然有Git。但我不一定提交啊。因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。当然有时候AI会帮我提交，不过关于提交的问题我没有规定，完全看AI自己的心情。然后这次损失的也是个硬件项目，其实我都做好考虑投版了。后来觉得有一个东西还没有验证过，就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了，唉还得重做一遍...

【在 beep 的大作中提到: 】 : lv神竟然不搞个git托管。。。 [upload=1][/upload]

hgoldfish老鱼

Sun Apr 19 01:38:41 2026 · #14

用 btrfs，然后每隔 1 分钟就打个 snapshot. 这 AI 应该没那么聪明去删 snapshot 吧？

【在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交，不过关于提交的问题我没有规定，完全看AI自己的心情。

sgdf散光大夫

Sun Apr 19 08:39:58 2026 · #15

AI也可以设计PCB了吗？

【在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交，不过关于提交的问题我没有规定，完全看AI自己的心情。 : 然后这次损失的也是个硬件项目，其实我都做好考虑投版了。后来觉得有一个东西还没有验证过，就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了，唉还得重做一遍... : 【在 beep 的大作中提到: 】

stubstub

Sun Apr 19 08:50:04 2026 · #16

用docker啊

【在 lvsoft 的大作中提到: 】 : 呃，那倒也不是。这是我的主力开发机...系统盘有2块4T ssd... : [upload=1][/upload]

oldflyman哈喽

Sun Apr 19 09:36:40 2026 · #17

trae cn的agent有用着的大咖么？加哪些agent开发效率更高了？

lvsoftLv(The Last Guardian

Sun Apr 19 10:55:06 2026 · #18

目前不可以。但华秋，捷配，JLC都在努力做这个事，但是他们都做得很烂。 ai pcb layout是我很久以前就一直想做的事情，现在基础设施都成熟了，要做好并不难。但我现在没空做这个事了，有更重要的事情要做，这个再等1-2年总会有人把它做好的。

【在 sgdf 的大作中提到: 】 : AI也可以设计PCB了吗？

lvsoftLv(The Last Guardian

Sun Apr 19 10:55:31 2026 · #19

有没有可能我有不能用docker的理由？

【在 stub 的大作中提到: 】 : 用docker啊

smthhzsmthhz

Sun Apr 19 12:31:46 2026 · #20

大佬还用claude和gemini不？

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : 目前不可以。 : 但华秋，捷配，JLC都在努力做这个事， : 但是他们都做得很烂。

lvsoftLv(The Last Guardian

Sun Apr 19 13:32:56 2026 · #21

antigravity里面的gemini pro为主，cc+glm为辅 claude我从25年3月开始就不用了

【在 smthhz 的大作中提到: 】 : 大佬还用claude和gemini不？

olddognewwit老狗

Sun Apr 19 14:08:54 2026 · #22

你好，你是在用AI设计芯片吗？

【在 lvsoft 的大作中提到: 】 : 目前不可以。 : 但华秋，捷配，JLC都在努力做这个事， : 但是他们都做得很烂。

smthhzsmthhz

Sun Apr 19 15:46:26 2026 · #23

呃，为啥，c感觉还是强不少啊

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : antigravity里面的gemini pro为主，cc+glm为辅 : claude我从25年3月开始就不用了 : 【在 smthhz 的大作中提到: 】 : : 大佬还用claude和gemini不？

lvsoftLv(The Last Guardian

Sun Apr 19 19:45:05 2026 · #24

不是，我现在搞得很杂，简单的说，我现在做的事情就是尽一切可能服务好AI，然后让AI来服务我

【在 olddognewwit 的大作中提到: 】 : 你好，你是在用AI设计芯片吗？

lvsoftLv(The Last Guardian

Sun Apr 19 23:05:28 2026 · #25

这么说吧，我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下，我评估的方法就是拿我的项目去实测。说的直白一点，现在的任何跑分都只有marketing的作用，没有任何参考价值，只是忽悠忽悠小白。所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。但要讲清楚这个太麻烦了，这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧，就像我一直表达的，现在体现人与人差距的主要形式，是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好，不同的人也有不同的理解和方法，八仙过海各显神通就行。

【在 smthhz 的大作中提到: 】 : 呃，为啥，c感觉还是强不少啊

smthhzsmthhz

Mon Apr 20 09:19:44 2026 · #26

哦哦哦，学到了

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : 这么说吧，我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下，我评估的方法就是拿我的项目去实测。说的直白一点，现在的任何跑分都只有marketing的作用，没有任何参考价值，只是忽悠忽悠小白。 : 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。 : 但要讲清楚这个太麻烦了，这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧，就像我一直表达的，现在体现人与人差距的主要形式，是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好，不同的人也有不同的理解和方法，八仙过海各显神通就行。

adamhj淘气阿丹

Mon Apr 20 09:35:58 2026 · #27

所以我从来不给自动允许运行的权限，别说glm这种小模型，网上codex删硬盘的案例都很多

【在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....

prettyPIG皮哥^@^好好活着

Mon Apr 20 11:34:41 2026 · #28

确实，挑ai工具跟挑美女一样审美不一样，现实里没法统一

【在 lvsoft 的大作中提到: 】 : 标题: Re: glm5.1现在很强了 : 发信站: 水木社区 (Sun Apr 19 23:05:28 2026), 站内 : 这么说吧，我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下，我评估的方法就是拿我的项目去实测。说的直白一点，现在的任何跑分都只有marketing的作用，没有任何参考价值，只是忽悠忽悠小白。 : 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。 : 但要讲清楚这个太麻烦了，这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧，就像我一直表达的，现在体现人与人差距的主要形式，是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好，不同的人也有不同的理解和方法，八仙过海各显神通就行。 : 【在 smthhz 的大作中提到: 】 : : 呃，为啥，c感觉还是强不少啊 : ※ 修改:·lvsoft 于 Apr 19 23:10:09 2026 修改本文·[FROM: 116.230.107.*] : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 116.230.107.*]

lvsoftLv(The Last Guardian

Mon Apr 20 13:45:51 2026 · #29

[upload=1][/upload]

【在 adamhj 的大作中提到: 】 : 所以我从来不给自动允许运行的权限，别说glm这种小模型，网上codex删硬盘的案例都很多

Peleus迦太基从不怜悯人民

Tue Apr 21 09:59:52 2026 · #30

我让他每次交互完毕后都提交

【在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交，不过关于提交的问题我没有规定，完全看AI自己的心情。

lvsoftLv(The Last Guardian

Tue Apr 21 10:06:58 2026 · #31

光提交没用，还得push

【在 Peleus 的大作中提到: 】 : 我让他每次交互完毕后都提交

Peleus迦太基从不怜悯人民

Tue Apr 21 10:16:22 2026 · #32

这个我每天早晨搞一次

【在 lvsoft 的大作中提到: 】 : 光提交没用，还得push

lvsoftLv(The Last Guardian

Tue Apr 21 13:40:50 2026 · #33

那这种没用的。一个项目每天提交一次，那我这种在m个项目中任选n个项目的不疯了。一切不是被动自动执行的备份机制都等于没有备份机制

【在 Peleus 的大作中提到: 】 : 这个我每天早晨搞一次

dyingsun阳光下重生

Tue Apr 21 18:32:14 2026 · #34

订阅不上如之奈何

【在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。

mygodxpdelphi

Wed Apr 22 09:01:55 2026 · #35

nb

【在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的，除了昨天在我的机器上跑了个rm -rf /之外都挺好....

namoamituofo如是我闻

Wed Apr 22 17:36:12 2026 · #36

kimi 2.6 〉 glm5.1

【在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。

z16166Netguy

Wed Apr 22 19:41:12 2026 · #37

据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

【在 namoamituofo 的大作中提到: 】 : kimi 2.6 〉 glm5.1

lvsoftLv(The Last Guardian

Wed Apr 22 20:13:07 2026 · #38

没啥意义。现在的benchmark，包括hle在内都是marketing的作用。比如，hle的题目中有不少题目的标准答案都是错的，所以hle分数考太高，反而是很奇怪的事情。以上不是我说的，是亚马逊搞agi的首席应用科学家说的。

【在 z16166 的大作中提到: 】 : 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

optimism浴火之凤

Thu Apr 23 13:30:58 2026 · #39

我看了这个新闻，虽然有些怀疑，但还是想着试用一下，如果可以就充些钱。结果，直接告诉我用的人太多，让我等等。没了你张屠夫，就得吃带毛猪了？

【在 z16166 的大作中提到: 】 : 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

z16166Netguy

Thu Apr 23 13:44:59 2026 · #40

中国人是最会考试的针对各种评测刷分，类似以前的杀毒软件评测什么的

【在 optimism 的大作中提到: 】 : 我看了这个新闻，虽然有些怀疑，但还是想着试用一下，如果可以就充些钱。 : 结果，直接告诉我用的人太多，让我等等。 : 没了你张屠夫，就得吃带毛猪了？

optimism浴火之凤

Thu Apr 23 13:52:45 2026 · #41

是啊。感觉Deepseek比千问就差些。大家也感觉到了，千问访问量大，deepseek无论什么时候都有空。

【在 z16166 的大作中提到: 】 : 中国人是最会考试的 : 针对各种评测刷分，类似以前的杀毒软件评测什么的

Jacqueline花仙子

Thu Apr 23 15:10:44 2026 · #42

只能一大早五六点爬起来用，实测了一下，一般般，就那么回事。。。

【在 optimism 的大作中提到: 】 : 我看了这个新闻，虽然有些怀疑，但还是想着试用一下，如果可以就充些钱。 : 结果，直接告诉我用的人太多，让我等等。 : 没了你张屠夫，就得吃带毛猪了？

optimism浴火之凤

Thu Apr 23 15:11:53 2026 · #43

我就知道......

【在 Jacqueline 的大作中提到: 】 : 只能一大早五六点爬起来用，实测了一下，一般般，就那么回事。。。

lvsoftLv(The Last Guardian

Thu Apr 23 16:52:08 2026 · #44

这个不好说，现在各家官方api都有降智行为。我是私有化部署的

【在 Jacqueline 的大作中提到: 】 : 只能一大早五六点爬起来用，实测了一下，一般般，就那么回事。。。

xeagle静下心来编程

Wed Apr 29 09:06:41 2026 · #45

跟网上买东西那样随大流不好吗

【在 prettyPIG 的大作中提到: 】 : 确实，挑ai工具跟挑美女一样 : 审美不一样，现实里没法统一

rexxiekingofcrabs

Sun May 10 08:25:44 2026 · #46

背题了吧，

【在 z16166 的大作中提到: 】 : 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

gfkidgfkid

Thu May 21 10:33:00 2026 · #47

glm5.1每月入门订阅就要 16刀了吧

【在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。