转寄人: ZabraZoe (ZabraZoe)
标 题: glm5.1现在很强了
发信站: 水木社区 (Wed May 27 07:36:06 2026)
来 源: 222.129.32.13
【以下内容由 ZabraZoe 转寄于 Programming 版】
标 题: glm5.1现在很强了
发信站: 水木社区 (Wed May 27 07:36:06 2026)
来 源: 222.129.32.13
【以下内容由 ZabraZoe 转寄于 Programming 版】
我现在opus列计划
glm执行
sonnet review。
sonnet现在动不动夸glm代码质量很高
据说glm 5.1排队严重啊
细锐私立???
【 在 lshi 的大作中提到: 】
我现在opus列计划
glm执行
sonnet review。
sonnet现在动不动夸glm代码质量很高
kimi 2.6也不差
glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
日
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
: 【 在 lshi 的大作中提到: 】
: : 我现在opus列计划
这种命令不得随便授权啊
【 在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
用人不疑,疑人不用。要用ai就需要充分授权,不然没有效率。
只是等效于rm -rf / ,实际的过程不是这么简单。
这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。
是一个人也可能会犯的错误。
后面也是用glm把系统重做,目前基本恢复了。
我发现的时候,它正在删我的home目录。其他都删的干干净净了....
但还好最近高强度干活的那个目录还没有被删掉。最后实际损失了一个kicad项目,是我刚做好的pcb的设计,十几个器件的封装,这个怪我我自己忘了提交了,总的来说大概损失了3天左右的工作量,都是硬件项目的损失,心情不是很美丽但也勉强能接受...
工作量最大的软件和固件代码算是运气好,完全没有损失。现在我已经建立了全盘10分钟一次的快照备份,以后就不怕了。
总的来说, 虽然GLM 5.1给我闯了祸,但我对它的评价还是很高的。
【 在 jansea 的大作中提到: 】
: 这种命令不得随便授权啊
试验阶段,损失都可控,可由此实现一个命令黑名单或者把这类命令监管起来,需要确认再往下执行
就像安装软件过程中,某些节点需要认为确认才能继续
现阶段肯定不能完全信任,可靠监管很必要
【 在 lvsoft 的大作中提到: 】
: 用人不疑,疑人不用。要用ai就需要充分授权,不然没有效率。
: 只是等效于rm -rf / ,实际的过程不是这么简单。
: 这是我在搞我自己的 agent 里面的 sandbox 机制的一个 bug 导致的权限穿透的结果。
呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd...
【 在 jansea 的大作中提到: 】
: 试验阶段,损失都可控,可由此实现一个命令黑名单或者把这类命令监管起来,需要确认再往下执行
: 就像安装软件过程中,某些节点需要认为确认才能继续
: 现阶段肯定不能完全信任,可靠监管很必要
[upload=1][/upload]
这。。。是反话吗。。。。
【 在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
lv神竟然不搞个git托管。。。
【 在 lvsoft 的大作中提到: 】
: 呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd...
: [upload=1][/upload]
我当然有Git。但我不一定提交啊。
因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。
当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
然后这次损失的也是个硬件项目,其实我都做好考虑投版了。后来觉得有一个东西还没有验证过,就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了,唉还得重做一遍...
【 在 beep 的大作中提到: 】
: lv神竟然不搞个git托管。。。
[upload=1][/upload]
用 btrfs,然后每隔 1 分钟就打个 snapshot. 这 AI 应该没那么聪明去删 snapshot 吧?
【 在 lvsoft 的大作中提到: 】
: 我当然有Git。但我不一定提交啊。
: 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。
: 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
AI也可以设计PCB了吗?
【 在 lvsoft 的大作中提到: 】
: 我当然有Git。但我不一定提交啊。
: 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。
: 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
: 然后这次损失的也是个硬件项目,其实我都做好考虑投版了。后来觉得有一个东西还没有验证过,就再等一等。然后就没了...现在只剩一个导出的 STEP 文件了,唉还得重做一遍...
: 【 在 beep 的大作中提到: 】
用docker啊
【 在 lvsoft 的大作中提到: 】
: 呃,那倒也不是。这是我的主力开发机...系统盘有2块4T ssd...
: [upload=1][/upload]
trae cn的agent有用着的大咖么? 加哪些agent开发效率更高了?
目前不可以。
但华秋,捷配,JLC都在努力做这个事,
但是他们都做得很烂。
ai pcb layout是我很久以前就一直想做的事情,现在基础设施都成熟了,要做好并不难。
但我现在没空做这个事了,有更重要的事情要做,这个再等1-2年总会有人把它做好的。
【 在 sgdf 的大作中提到: 】
: AI也可以设计PCB了吗?
有没有可能我有不能用docker的理由?
【 在 stub 的大作中提到: 】
: 用docker啊
大佬还用claude和gemini不?
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 目前不可以。
: 但华秋,捷配,JLC都在努力做这个事,
: 但是他们都做得很烂。
antigravity里面的gemini pro为主,cc+glm为辅
claude我从25年3月开始就不用了
【 在 smthhz 的大作中提到: 】
: 大佬还用claude和gemini不?
你好,你是在用AI设计芯片吗?
【 在 lvsoft 的大作中提到: 】
: 目前不可以。
: 但华秋,捷配,JLC都在努力做这个事,
: 但是他们都做得很烂。
呃,为啥,c感觉还是强不少啊
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: antigravity里面的gemini pro为主,cc+glm为辅
: claude我从25年3月开始就不用了
: 【 在 smthhz 的大作中提到: 】
: : 大佬还用claude和gemini不?
不是,我现在搞得很杂,简单的说,我现在做的事情就是尽一切可能服务好AI,然后让AI来服务我
【 在 olddognewwit 的大作中提到: 】
: 你好,你是在用AI设计芯片吗?
这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。
所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。
但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。
【 在 smthhz 的大作中提到: 】
: 呃,为啥,c感觉还是强不少啊
哦哦哦,学到了
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。
: 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。
: 但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。
所以我从来不给自动允许运行的权限,别说glm这种小模型,网上codex删硬盘的案例都很多
【 在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
确实,挑ai工具跟挑美女一样
审美不一样,现实里没法统一
【 在 lvsoft 的大作中提到: 】
: 标 题: Re: glm5.1现在很强了
: 发信站: 水木社区 (Sun Apr 19 23:05:28 2026), 站内
: 这么说吧,我过段时间就会高强度地用下Opus。事实上我一般过段时间就会把所有的ai都重新评估一下,我评估的方法就是拿我的项目去实测。说的直白一点,现在的任何跑分都只有marketing的作用,没有任何参考价值,只是忽悠忽悠小白。
: 所以我知道为什么大家都喜欢 OPUS。我也很清楚 Gemini 在执行力、完整性、精确度各方面都不如 OPUS。
: 但要讲清楚这个太麻烦了,这实际上一个世界观或者说方法论的问题。我觉得爱用啥用啥吧,就像我一直表达的,现在体现人与人差距的主要形式,是能多大程度的驾驭和释放ai的能力。而这方面不同的AI有不同的能力和偏好,不同的人也有不同的理解和方法,八仙过海各显神通就行。
: 【 在 smthhz 的大作中提到: 】
: : 呃,为啥,c感觉还是强不少啊
: ※ 修改:·lvsoft 于 Apr 19 23:10:09 2026 修改本文·[FROM: 116.230.107.*]
: ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 116.230.107.*]
[upload=1][/upload]
【 在 adamhj 的大作中提到: 】
: 所以我从来不给自动允许运行的权限,别说glm这种小模型,网上codex删硬盘的案例都很多
我让他每次交互完毕后都提交
【 在 lvsoft 的大作中提到: 】
: 我当然有Git。但我不一定提交啊。
: 因为我喜欢完成一个大的 Milestone 在提交。现在 AI coding 之后这个大的 milestone 跨度会非常的大。
: 当然有时候AI会帮我提交,不过关于提交的问题我没有规定,完全看AI自己的心情。
光提交没用,还得push
【 在 Peleus 的大作中提到: 】
: 我让他每次交互完毕后都提交
这个我每天早晨搞一次
【 在 lvsoft 的大作中提到: 】
: 光提交没用,还得push
那这种没用的。
一个项目每天提交一次,那我这种在m个项目中任选n个项目的不疯了。
一切不是被动自动执行的备份机制都等于没有备份机制
【 在 Peleus 的大作中提到: 】
: 这个我每天早晨搞一次
订阅不上如之奈何
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
nb
【 在 lvsoft 的大作中提到: 】
: glm5.1蛮不错的,除了昨天在我的机器上跑了个rm -rf /之外都挺好....
kimi 2.6 〉 glm5.1
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。
据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
【 在 namoamituofo 的大作中提到: 】
: kimi 2.6 〉 glm5.1
没啥意义。
现在的benchmark,包括hle在内都是marketing的作用。
比如,hle的题目中有不少题目的标准答案都是错的,所以hle分数考太高,反而是很奇怪的事情。
以上不是我说的,是亚马逊搞agi的首席应用科学家说的。
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。
结果,直接告诉我用的人太多,让我等等。
没了你张屠夫,就得吃带毛猪了?
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
中国人是最会考试的
针对各种评测刷分,类似以前的杀毒软件评测什么的
【 在 optimism 的大作中提到: 】
: 我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。
: 结果,直接告诉我用的人太多,让我等等。
: 没了你张屠夫,就得吃带毛猪了?
是啊。
感觉Deepseek比千问就差些。
大家也感觉到了,千问访问量大,deepseek无论什么时候都有空。
【 在 z16166 的大作中提到: 】
: 中国人是最会考试的
: 针对各种评测刷分,类似以前的杀毒软件评测什么的
只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
【 在 optimism 的大作中提到: 】
: 我看了这个新闻,虽然有些怀疑,但还是想着试用一下,如果可以就充些钱。
: 结果,直接告诉我用的人太多,让我等等。
: 没了你张屠夫,就得吃带毛猪了?
我就知道......
【 在 Jacqueline 的大作中提到: 】
: 只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
这个不好说,现在各家官方api都有降智行为。
我是私有化部署的
【 在 Jacqueline 的大作中提到: 】
: 只能一大早五六点爬起来用,实测了一下,一般般,就那么回事。。。
跟网上买东西那样随大流不好吗
【 在 prettyPIG 的大作中提到: 】
: 确实,挑ai工具跟挑美女一样
: 审美不一样,现实里没法统一
背题了吧,
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
glm5.1每月入门订阅就要 16刀了吧
【 在 lshi 的大作中提到: 】
: 我现在opus列计划
: glm执行
: sonnet review。