侧边栏壁纸
博主头像
天马行空 博主等级

凡是过往,皆为序章

  • 累计撰写 632 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

glm5.1现在很强了(合集转寄)

sortie
2026-05-21 / 0 评论 / 0 点赞 / 1 阅读 / 0 字
转寄人: ZabraZoe (ZabraZoe)
标 题: glm5.1现在很强了
发信站: 水木社区 (Wed May 27 07:36:06 2026)
来 源: 222.129.32.13
【以下内容由 ZabraZoe 转寄于 Programming 版】
lshils
Sat Apr 11 18:09:15 2026 · #1
我现在opus列计划 glm执行 sonnet review。 sonnet现在动不动夸glm代码质量很高
z16166Netguy
Sat Apr 11 21:57:25 2026 · #2
据说glm 5.1排队严重啊
harrycheng哦地球上尽然还有这种四晴???
Sat Apr 11 22:57:19 2026 · #3
细锐私立???
【 在 lshi 的大作中提到: 】 我现在opus列计划 glm执行 sonnet review。 sonnet现在动不动夸glm代码质量很高
eggcareggcar
Fri Apr 17 17:36:22 2026 · #4
kimi 2.6也不差
lvsoftLv(The Last Guardian
Fri Apr 17 20:51:29 2026 · #5
glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
【 在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。
filemaker法迈
Sat Apr 18 14:50:24 2026 · #6
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好.... : 【 在 lshi 的大作中提到: 】 : : 我现在opus列计划
jansea沧浪客
Sat Apr 18 19:13:19 2026 · #7
这种命令不得随便授权啊
【 在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
lvsoftLv(The Last Guardian
Sat Apr 18 20:01:03 2026 · #8
用人不疑,疑人不用。要用ai就需要充分授权,不然没有效率。 只是等效于rm -rf / ,实际的过程不是这么简单。 这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。 是一个人也可能会犯的错误。 后面也是用glm把系统重做,目前基本恢复了。 我发现的时候,它正在删我的home目录。其他都删的干干净净了.... 但还好最近高强度干活的那个目录还没有被删掉。最后实际损失了一个kicad项目,是我刚做好的pcb的设计,十几个器件的封装,这个怪我我自己忘了提交了,总的来说大概损失了3天左右的工作量,都是硬件项目的损失,心情不是很美丽但也勉强能接受... 工作量最大的软件和固件代码算是运气好,完全没有损失。现在我已经建立了全盘10分钟一次的快照备份,以后就不怕了。 总的来说, 虽然GLM 5.1给我闯了祸,但我对它的评价还是很高的。
【 在 jansea 的大作中提到: 】 : 这种命令不得随便授权啊
jansea沧浪客
Sat Apr 18 20:34:55 2026 · #9
试验阶段,损失都可控,可由此实现一个命令黑名单或者把这类命令监管起来,需要确认再往下执行 就像安装软件过程中,某些节点需要认为确认才能继续 现阶段肯定不能完全信任,可靠监管很必要
【 在 lvsoft 的大作中提到: 】 : 用人不疑,疑人不用。要用ai就需要充分授权,不然没有效率。 : 只是等效于rm -rf / ,实际的过程不是这么简单。 : 这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。
lvsoftLv(The Last Guardian
Sat Apr 18 21:53:48 2026 · #10
呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd...
【 在 jansea 的大作中提到: 】 : 试验阶段,损失都可控,可由此实现一个命令黑名单或者把这类命令监管起来,需要确认再往下执行 : 就像安装软件过程中,某些节点需要认为确认才能继续 : 现阶段肯定不能完全信任,可靠监管很必要 [upload=1][/upload]
beep菜M.喵星耗子
Sun Apr 19 00:01:45 2026 · #11
这。。。是反话吗。。。。
【 在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
beep菜M.喵星耗子
Sun Apr 19 00:04:30 2026 · #12
lv神竟然不搞个git托管。。。
【 在 lvsoft 的大作中提到: 】 : 呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd... : [upload=1][/upload]
lvsoftLv(The Last Guardian
Sun Apr 19 00:16:21 2026 · #13
我当然有Git。但我不一定提交啊。 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。 然后这次损失的也是个硬件项目,其实我都做好考虑投版了。后来觉得有一个东西还没有验证过,就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了,唉还得重做一遍...
【 在 beep 的大作中提到: 】 : lv神竟然不搞个git托管。。。 [upload=1][/upload]
hgoldfish老鱼
Sun Apr 19 01:38:41 2026 · #14
用 btrfs,然后每隔 1 分钟就打个 snapshot. 这 AI 应该没那么聪明去删 snapshot 吧?
【 在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
sgdf散光大夫
Sun Apr 19 08:39:58 2026 · #15
AI也可以设计PCB了吗?
【 在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。 : 然后这次损失的也是个硬件项目,其实我都做好考虑投版了。后来觉得有一个东西还没有验证过,就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了,唉还得重做一遍... : 【 在 beep 的大作中提到: 】
stubstub
Sun Apr 19 08:50:04 2026 · #16
用docker啊
【 在 lvsoft 的大作中提到: 】 : 呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd... : [upload=1][/upload]
oldflyman哈喽
Sun Apr 19 09:36:40 2026 · #17
trae cn的agent有用着的大咖么? 加哪些agent开发效率更高了?
lvsoftLv(The Last Guardian
Sun Apr 19 10:55:06 2026 · #18
目前不可以。 但华秋,捷配,JLC都在努力做这个事, 但是他们都做得很烂。 ai pcb layout是我很久以前就一直想做的事情,现在基础设施都成熟了,要做好并不难。 但我现在没空做这个事了,有更重要的事情要做,这个再等1-2年总会有人把它做好的。
【 在 sgdf 的大作中提到: 】 : AI也可以设计PCB了吗?
lvsoftLv(The Last Guardian
Sun Apr 19 10:55:31 2026 · #19
有没有可能我有不能用docker的理由?
【 在 stub 的大作中提到: 】 : 用docker啊
smthhzsmthhz
Sun Apr 19 12:31:46 2026 · #20
大佬还用claude和gemini不?
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : 目前不可以。 : 但华秋,捷配,JLC都在努力做这个事, : 但是他们都做得很烂。
lvsoftLv(The Last Guardian
Sun Apr 19 13:32:56 2026 · #21
antigravity里面的gemini pro为主,cc+glm为辅 claude我从25年3月开始就不用了
【 在 smthhz 的大作中提到: 】 : 大佬还用claude和gemini不?
olddognewwit老狗
Sun Apr 19 14:08:54 2026 · #22
你好,你是在用AI设计芯片吗?
【 在 lvsoft 的大作中提到: 】 : 目前不可以。 : 但华秋,捷配,JLC都在努力做这个事, : 但是他们都做得很烂。
smthhzsmthhz
Sun Apr 19 15:46:26 2026 · #23
呃,为啥,c感觉还是强不少啊
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : antigravity里面的gemini pro为主,cc+glm为辅 : claude我从25年3月开始就不用了 : 【 在 smthhz 的大作中提到: 】 : : 大佬还用claude和gemini不?
lvsoftLv(The Last Guardian
Sun Apr 19 19:45:05 2026 · #24
不是,我现在搞得很杂,简单的说,我现在做的事情就是尽一切可能服务好AI,然后让AI来服务我
【 在 olddognewwit 的大作中提到: 】 : 你好,你是在用AI设计芯片吗?
lvsoftLv(The Last Guardian
Sun Apr 19 23:05:28 2026 · #25
这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。 但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。
【 在 smthhz 的大作中提到: 】 : 呃,为啥,c感觉还是强不少啊
smthhzsmthhz
Mon Apr 20 09:19:44 2026 · #26
哦哦哦,学到了
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : 这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。 : 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。 : 但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。
adamhj淘气阿丹
Mon Apr 20 09:35:58 2026 · #27
所以我从来不给自动允许运行的权限,别说glm这种小模型,网上codex删硬盘的案例都很多
【 在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
prettyPIG皮哥^@^好好活着
Mon Apr 20 11:34:41 2026 · #28
确实,挑ai工具跟挑美女一样 审美不一样,现实里没法统一
【 在 lvsoft 的大作中提到: 】 : 标 题: Re: glm5.1现在很强了 : 发信站: 水木社区 (Sun Apr 19 23:05:28 2026), 站内 : 这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。 : 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。 : 但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。 : 【 在 smthhz 的大作中提到: 】 : : 呃,为啥,c感觉还是强不少啊 : ※ 修改:·lvsoft 于 Apr 19 23:10:09 2026 修改本文·[FROM: 116.230.107.*] : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 116.230.107.*]
lvsoftLv(The Last Guardian
Mon Apr 20 13:45:51 2026 · #29
[upload=1][/upload]
【 在 adamhj 的大作中提到: 】 : 所以我从来不给自动允许运行的权限,别说glm这种小模型,网上codex删硬盘的案例都很多
Peleus迦太基从不怜悯人民
Tue Apr 21 09:59:52 2026 · #30
我让他每次交互完毕后都提交
【 在 lvsoft 的大作中提到: 】 : 我当然有Git。但我不一定提交啊。 : 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。 : 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
lvsoftLv(The Last Guardian
Tue Apr 21 10:06:58 2026 · #31
光提交没用,还得push
【 在 Peleus 的大作中提到: 】 : 我让他每次交互完毕后都提交
Peleus迦太基从不怜悯人民
Tue Apr 21 10:16:22 2026 · #32
这个我每天早晨搞一次
【 在 lvsoft 的大作中提到: 】 : 光提交没用,还得push
lvsoftLv(The Last Guardian
Tue Apr 21 13:40:50 2026 · #33
那这种没用的。 一个项目每天提交一次,那我这种在m个项目中任选n个项目的不疯了。 一切不是被动自动执行的备份机制都等于没有备份机制
【 在 Peleus 的大作中提到: 】 : 这个我每天早晨搞一次
dyingsun阳光下重生
Tue Apr 21 18:32:14 2026 · #34
订阅不上如之奈何
【 在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。
mygodxpdelphi
Wed Apr 22 09:01:55 2026 · #35
nb
【 在 lvsoft 的大作中提到: 】 : glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
namoamituofo如是我闻
Wed Apr 22 17:36:12 2026 · #36
kimi 2.6 〉 glm5.1
【 在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。
z16166Netguy
Wed Apr 22 19:41:12 2026 · #37
据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
【 在 namoamituofo 的大作中提到: 】 : kimi 2.6 〉 glm5.1
lvsoftLv(The Last Guardian
Wed Apr 22 20:13:07 2026 · #38
没啥意义。 现在的benchmark,包括hle在内都是marketing的作用。 比如,hle的题目中有不少题目的标准答案都是错的,所以hle分数考太高,反而是很奇怪的事情。 以上不是我说的,是亚马逊搞agi的首席应用科学家说的。
【 在 z16166 的大作中提到: 】 : 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
optimism浴火之凤
Thu Apr 23 13:30:58 2026 · #39
我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。 结果,直接告诉我用的人太多,让我等等。 没了你张屠夫,就得吃带毛猪了?
【 在 z16166 的大作中提到: 】 : 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
z16166Netguy
Thu Apr 23 13:44:59 2026 · #40
中国人是最会考试的 针对各种评测刷分,类似以前的杀毒软件评测什么的
【 在 optimism 的大作中提到: 】 : 我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。 : 结果,直接告诉我用的人太多,让我等等。 : 没了你张屠夫,就得吃带毛猪了?
optimism浴火之凤
Thu Apr 23 13:52:45 2026 · #41
是啊。 感觉Deepseek比千问就差些。 大家也感觉到了,千问访问量大,deepseek无论什么时候都有空。
【 在 z16166 的大作中提到: 】 : 中国人是最会考试的 : 针对各种评测刷分,类似以前的杀毒软件评测什么的
Jacqueline花仙子
Thu Apr 23 15:10:44 2026 · #42
只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
【 在 optimism 的大作中提到: 】 : 我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。 : 结果,直接告诉我用的人太多,让我等等。 : 没了你张屠夫,就得吃带毛猪了?
optimism浴火之凤
Thu Apr 23 15:11:53 2026 · #43
我就知道......
【 在 Jacqueline 的大作中提到: 】 : 只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
lvsoftLv(The Last Guardian
Thu Apr 23 16:52:08 2026 · #44
这个不好说,现在各家官方api都有降智行为。 我是私有化部署的
【 在 Jacqueline 的大作中提到: 】 : 只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
xeagle静下心来编程
Wed Apr 29 09:06:41 2026 · #45
跟网上买东西那样随大流不好吗
【 在 prettyPIG 的大作中提到: 】 : 确实,挑ai工具跟挑美女一样 : 审美不一样,现实里没法统一
rexxiekingofcrabs
Sun May 10 08:25:44 2026 · #46
背题了吧,
【 在 z16166 的大作中提到: 】 : 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
gfkidgfkid
Thu May 21 10:33:00 2026 · #47
glm5.1每月入门订阅就要 16刀了吧
【 在 lshi 的大作中提到: 】 : 我现在opus列计划 : glm执行 : sonnet review。
博主关闭了所有页面的评论