侧边栏壁纸
博主头像
天马行空 博主等级

凡是过往,皆为序章

  • 累计撰写 632 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

反重力里的Gemini Flash现在是个超级大垃圾了(合集转寄)

sortie
2026-06-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字
转寄人: ZabraZoe (ZabraZoe)
标 题: 反重力里的Gemini Flash现在是个超级大垃圾了
发信站: 水木社区 (Thu Jun 4 16:51:33 2026)
来 源: 124.65.78.222
【以下内容由 ZabraZoe 转寄于 Programming 版】
z16166Netguy
Wed May 6 19:56:09 2026 · #1
几乎每一步都会改错代码,都是代码的文本替换错误这种低级错误。 然后还经常有malformed model output之类的错误。 热衷于每次自作主张提交代码。 每次改完代码立即自吹自擂。
WCDMA3G
Thu May 7 10:32:11 2026 · #2
google玩不起了,降智厉害
【 在 z16166 的大作中提到: 】 : 几乎每一步都会改错代码,都是代码的文本替换错误这种低级错误。 : 然后还经常有malformed model output之类的错误。 : 热衷于每次自作主张提交代码。
nsyncxyzkakeru
Thu May 7 15:42:36 2026 · #3
pro都不行,怎么还用上flash了。。可以用sonnet和opus啊。。
PaoloMaldinisolo con te
Thu May 7 16:02:08 2026 · #4
他家怎么现在还这样,之前在cursor里就是编辑文本老出错 我甚至遇到过他编辑半天最后告诉我实在没法编辑成功放弃了的情况
【 在 z16166 的大作中提到: 】 : 几乎每一步都会改错代码,都是代码的文本替换错误这种低级错误。 : 然后还经常有malformed model output之类的错误。 : 热衷于每次自作主张提交代码。
z16166Netguy
Thu May 7 16:09:24 2026 · #5
说明可能根本就没测试人员把关吧,都是开发人员自己在那里瞎弄 也可能是投入不行了 昨天就给我全改坏了两次,一次是我明确告诉它从main分支开始再重来,一次是cursor帮它擦屁股,把n个地方改出来的乱码字符和main分支diff出来fix了。
【 在 PaoloMaldini 的大作中提到: 】 : 他家怎么现在还这样,之前在cursor里就是编辑文本老出错 : 我甚至遇到过他编辑半天最后告诉我实在没法编辑成功放弃了的情况
z16166Netguy
Thu May 7 16:11:35 2026 · #6
没钱了,cursor订阅里的API quota都打满了(号称有400刀的价值,鬼知道实际是多少) 现在让Gemini Flash审核代码,不要它改了。
【 在 nsyncxyz 的大作中提到: 】 : pro都不行,怎么还用上flash了。。可以用sonnet和opus啊。。
nsyncxyzkakeru
Thu May 7 16:18:27 2026 · #7
审核得让gpt5.5来,低端模型审核高端模型会误导。。cursor不如订阅gpt pro
【 在 z16166 的大作中提到: 】 : 没钱了,cursor订阅里的API quota都打满了(号称有400刀的价值,鬼知道实际是多少) : 现在让Gemini Flash审核代码,不要它改了。
lvsoftLv(The Last Guardian
Fri May 8 00:11:40 2026 · #8
推荐 DeepSeek. 是的,Deepseek v3/r1的时候我认为ds就是垃圾没法用。 但这版v4开始很好,在跟glm5.1的对比中我认为两者不相上下甚至更好。 目前我在重度使用 DSV4 Pro。但才用了两天,还有很多东西要评估。只能说初步感受很不错。
【 在 z16166 的大作中提到: 】 : 没钱了,cursor订阅里的API quota都打满了(号称有400刀的价值,鬼知道实际是多少) : 现在让Gemini Flash审核代码,不要它改了。
lvsoftLv(The Last Guardian
Fri May 8 00:17:23 2026 · #9
所以需要Rust。 gemini一直是这样的,gemini2.5的时候它就非常的不稳定,基本上没有办法确定的干好任何一件事情。完全一样的prompt输入的代码,改当中一行的过程中,它都可以把其他不需要改的代码改掉。但我就是在这个时候靠它每天写一万行可运行可通过测试的代码的。 现在的gemini3/3.1已经比以前好太多了,flash也是从2.5的时候一个弱智,进化到现在一个小pro的状态。 对于gemini,如果只是从执行力的角度来说,它和现在的同期模型比拉垮的一塌糊涂。但它的大局观非常好,gemini目前依然是无可替代的。简单的说就是大部分模型都在拼执行力,但执行力高了这个模型一般就没什么脑子。反过来也一样,有脑子的话它就有自己的理解和想法,不怎么会听从你的指挥。其实跟人某种程度来说也是一样的。
【 在 PaoloMaldini 的大作中提到: 】 : 他家怎么现在还这样,之前在cursor里就是编辑文本老出错 : 我甚至遇到过他编辑半天最后告诉我实在没法编辑成功放弃了的情况
DreamDreams光风霁月
Fri May 8 08:27:19 2026 · #10
你拿什么Agent配合DeepSeek用的?
【 在 lvsoft 的大作中提到: 】 : 标 题: Re: 反重力里的Gemini Flash现在是个超级大垃圾了 : 发信站: 水木社区 (Fri May 8 00:11:40 2026), 站内 : 推荐 DeepSeek. : 是的,Deepseek v3/r1的时候我认为ds就是垃圾没法用。 : 但这版v4开始很好,在跟glm5.1的对比中我认为两者不相上下甚至更好。 : 目前我在重度使用 DSV4 Pro。但才用了两天,还有很多东西要评估。只能说初步感受很不错。 : 【 在 z16166 的大作中提到: 】 : : 没钱了,cursor订阅里的API quota都打满了(号称有400刀的价值,鬼知道实际是多少) : : 现在让Gemini Flash审核代码,不要它改了。 : ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 116.230.107.*]
z16166Netguy
Fri May 8 10:18:26 2026 · #11
claude code + cc switch就可以 我昨天让DeepSeek-V4-pro review了一下代码,花了三块多钱。
【 在 DreamDreams 的大作中提到: 】 : 你拿什么Agent配合DeepSeek用的?
z16166Netguy
Fri May 8 18:16:47 2026 · #12
deepseek刚才一崩,微博上立马一片哀嚎
【 在 lvsoft 的大作中提到: 】 : 推荐 DeepSeek. : 是的,Deepseek v3/r1的时候我认为ds就是垃圾没法用。 : 但这版v4开始很好,在跟glm5.1的对比中我认为两者不相上下甚至更好。
z16166Netguy
Fri May 8 18:17:50 2026 · #13
买了windsurf的代码后,没玩转的感觉
【 在 WCDMA 的大作中提到: 】 : google玩不起了,降智厉害
DreamDreams光风霁月
Sat May 9 09:59:30 2026 · #14
昨天我也碰上了
【 在 z16166 的大作中提到: 】 : 标 题: Re: 反重力里的Gemini Flash现在是个超级大垃圾了 : 发信站: 水木社区 (Fri May 8 18:16:47 2026), 站内 : deepseek刚才一崩,微博上立马一片哀嚎 : 【 在 lvsoft 的大作中提到: 】 : : 推荐 DeepSeek. : : 是的,Deepseek v3/r1的时候我认为ds就是垃圾没法用。 : : 但这版v4开始很好,在跟glm5.1的对比中我认为两者不相上下甚至更好。 : 每天半小时节奏光剑,预防老年痴呆 : ※ 来源:·水木社区 mysmth.net·[FROM: 123.122.126.*]
pixYYpixYY
Sat May 9 11:02:30 2026 · #15
要是微信一崩,哀嚎的更多
【 在 z16166 的大作中提到: 】 : deepseek刚才一崩,微博上立马一片哀嚎
rexxiekingofcrabs
Sun May 10 07:43:02 2026 · #16
deepseek 和 gpt 5.4 5.5 比如何? 我觉得5.4不贵
【 在 z16166 的大作中提到: 】 : claude code + cc switch就可以 : 我昨天让DeepSeek-V4-pro review了一下代码,花了三块多钱。
z16166Netguy
Sun May 10 22:18:54 2026 · #17
deepseek还没深度使用。等我的cursor订阅额度耗光了再用。 用它的v4 pro审核代码倒是发现几个问题。 gpt 5.4是趁着cursor里的持续半价到5月2号时猛用了一阵子,写代码,superpowers的TDD,虽然有点啰嗦,还可以。
【 在 rexxie 的大作中提到: 】 : deepseek 和 gpt 5.4 5.5 比如何? : 我觉得5.4不贵
z16166Netguy
Mon May 11 14:35:57 2026 · #18
三句不离“真相” [upload=1][/upload]
chglele乐乐
Tue May 12 13:15:21 2026 · #19
这是哪个模型?
【 在 z16166 的大作中提到: 】 : 三句不离“真相” : FROM 123.122.126.* [北京–海淀区 联通]
z16166Netguy
Tue May 12 13:40:14 2026 · #20
就是gemini flash 昨天不停给我输出“真相” 要它停止输出“真相”二字,只能管两三句,后面又会继续 我根本没挑逗它,就是一本正经地要它fix github CI的bug,它在那轮询workflow的状态,查着查着就开始自嗨起来了,停不下来。之前它也搞过这种人来疯。 后来我换cursor去搞了,现在也还没完全搞定,debug github CI太费时间了,改一次CI的yaml提交后要等好多分钟,失败了还得继续重复
【 在 chglele 的大作中提到: 】 : 这是哪个模型?
z16166Netguy
Wed May 20 15:38:01 2026 · #21
反重力升级了。LSP exe改了个名字。 不能设置字体大小,ctrl + 加号也不能放大字体了 不能安装vscode市场的插件了。SuperSmooth插件用不了了,每次都要点击确认,估计还得设置通配,全都放行才行。 不显示当前工程处于哪个git分支上,没terminal窗口 感觉越做越垃圾了
lvsoftLv(The Last Guardian
Wed May 20 16:54:36 2026 · #22
我已经退订google的ai ultra, 现在的目标是要以国产模型和本地模型为主了。
【 在 z16166 的大作中提到: 】 : 反重力升级了。LSP exe改了个名字。 : 不能设置字体大小,ctrl + 加号也不能放大字体了 : 不能安装vscode市场的插件了。SuperSmooth插件用不了了,每次都要点击确认,估计还得设置通配,全都放行才行。
poocp慢速随机指标
Wed May 20 17:03:31 2026 · #23
前几天就用DeepSeek给Gemini擦屁股,V4还行。
【 在 lvsoft 的大作中提到: 】 : 推荐 DeepSeek. : 是的,Deepseek v3/r1的时候我认为ds就是垃圾没法用。 : 但这版v4开始很好,在跟glm5.1的对比中我认为两者不相上下甚至更好。
lvsoftLv(The Last Guardian
Wed May 20 17:04:33 2026 · #24
那是相当可以,我现在是v4 flash + qwen3.6-27b gemini就是干干美工
【 在 poocp 的大作中提到: 】 : 前几天就用DeepSeek给Gemini擦屁股,V4还行。
hgoldfish老鱼
Wed May 20 17:09:25 2026 · #25
为啥?国产的更聪明吗?
【 在 lvsoft 的大作中提到: 】 : 我已经退订google的ai ultra, : 现在的目标是要以国产模型和本地模型为主了。
poocp慢速随机指标
Wed May 20 17:09:31 2026 · #26
不谈编程,gemini和deepseek的文学水平其实差不多,比qwen或者豆包高明不止一个身位。
【 在 lvsoft 的大作中提到: 】 : 那是相当可以,我现在是v4 flash + qwen3.6-27b : gemini就是干干美工
lvsoftLv(The Last Guardian
Wed May 20 17:17:26 2026 · #27
当然不是,国产模型依然是落后的
【 在 hgoldfish 的大作中提到: 】 : 为啥?国产的更聪明吗?
lvsoftLv(The Last Guardian
Wed May 20 17:22:06 2026 · #28
DeepSeek V3开始,文学能力就很强。DeepSeek-V3的最大问题是喜欢胡说八道,这里包括过高的幻觉和过于发散的思路。V4就好了很多。 豆包是上不了台面的。我甚至觉得可能只是一个7-30b的小模型,不太聪明的样子。 qwen本来就主打小模型。我甚至觉得别家是先大模型,然后再蒸馏出小模型。他们家似乎是先做个小模型,然后把它撑大作为大模型发布,仅仅是为了完成KPI。qwen的大模型我没感觉到比小模型有任何强的地方,很多时候甚至还更差。 其他几个主流模型都是coding特化的,偏理。
【 在 poocp 的大作中提到: 】 : 不谈编程,gemini和deepseek的文学水平其实差不多,比qwen或者豆包高明不止一个身位。
smthhzsmthhz
Wed May 20 19:28:11 2026 · #29
gemma怎样,也是小模型
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】 : DeepSeek V3开始,文学能力就很强。DeepSeek-V3的最大问题是喜欢胡说八道,这里包括过高的幻觉和过于发散的思路。V4就好了很多。 : 豆包是上不了台面的。我甚至觉得可能只是一个7-30b的小模型,不太聪明的样子。 : qwen本来就主打小模型。我甚至觉得别家是先大模型,然后再蒸馏出小模型。他们家似乎是先做个小模型,然后把它撑大作为大模型发布,仅仅是为了完成KPI。qwen的大模型我没感觉到比小模型有任何强的地方,很多时候甚至还更差。
lvsoftLv(The Last Guardian
Wed May 20 19:32:25 2026 · #30
这个模型我也用。这个模型比较奇葩,有的地方它比千问要好很多,但有的时候它又比千问差很多。 目前我还没有吃透这个模型。
【 在 smthhz 的大作中提到: 】 : gemma怎样,也是小模型
RuralHunter渔父
Thu May 21 09:17:23 2026 · #31
怎么不用v4 pro?
【 在 lvsoft 的大作中提到: 】 : 那是相当可以,我现在是v4 flash + qwen3.6-27b : gemini就是干干美工 : 【 在 poocp 的大作中提到: 】 : : 前几天就用DeepSeek给Gemini擦屁股,V4还行。
ArchLinuxa lightweight and flexible distribution
Thu May 21 10:00:24 2026 · #32
估计是flash体积小,容易本地部署。
【 在 RuralHunter 的大作中提到: 】 : 怎么不用v4 pro?
semipunksemipunk
Thu May 21 10:07:04 2026 · #33
订阅个gpt pro吧,何苦和自己过不去。
【 在 z16166 的大作中提到: 】 : 几乎每一步都会改错代码,都是代码的文本替换错误这种低级错误。 : 然后还经常有malformed model output之类的错误。 : 热衷于每次自作主张提交代码。
gfkidgfkid
Thu May 21 10:27:23 2026 · #34
不是微软插件市场,反正不去用
【 在 z16166 的大作中提到: 】 : 几乎每一步都会改错代码,都是代码的文本替换错误这种低级错误。 : 然后还经常有malformed model output之类的错误。 : 热衷于每次自作主张提交代码。
gfkidgfkid
Thu May 21 10:31:46 2026 · #35
现在国产top模型不便宜了啊 glm5.1一个月要16刀
【 在 z16166 的大作中提到: 】 : claude code + cc switch就可以 : 我昨天让DeepSeek-V4-pro review了一下代码,花了三块多钱。
lvsoftLv(The Last Guardian
Thu May 21 10:43:17 2026 · #36
没有必要,而且慢
【 在 RuralHunter 的大作中提到: 】 : 怎么不用v4 pro?
z16166Netguy
Thu May 21 11:56:49 2026 · #37
订的cursor ultra。下个月看看gpt pro额度如何。 gemini flash免费,咋说也得时不时用用,看看有改进没。至少拿来review代码
【 在 semipunk 的大作中提到: 】 : 订阅个gpt pro吧,何苦和自己过不去。
lvsoftLv(The Last Guardian
Thu May 21 14:07:52 2026 · #38
我要是跟你说我上个月在glm5.1上用掉了7w rmb的token你会不会吓死...
【 在 gfkid 的大作中提到: 】 : 现在国产top模型不便宜了啊 : glm5.1一个月要16刀
chuchentuosuchuchentuosu
Thu May 21 14:37:52 2026 · #39
哈哈哈,肚子都笑痛了,这是在调戏你啊!
【 在 z16166 的大作中提到: 】 : 三句不离“真相” ※ 来源:水木社区 [124.160.213.*(浙江–杭州-联通)] ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 124.160.213.*]
chuchentuosuchuchentuosu
Thu May 21 14:47:14 2026 · #40
google的训练语料里应该是缺少“几把毛”对应的骂人的俚语语料,所以注意力只根据先验提取了“真相”和“几把”对应的特征并且做了指令遵循
【 在 z16166 的大作中提到: 】 : 三句不离“真相”
z16166Netguy
Thu May 21 15:12:02 2026 · #41
你是搞笑,还是小看谷歌的语料,哈哈 我之前已经禁止过了,截图里是第二次禁止 。每次只能管住三句
【 在 chuchentuosu (chuchentuosu) 的大作中提到: 】 : google的训练语料里应该是缺少“几把毛”对应的骂人的俚语语料,所以注意力只根据先验提取了“真相”和“几把”对应的特征并且做了指令遵循 : 【 在 z16166 的大作中提到: 】 每天半小时节奏光剑,预防老年痴呆 ※ 修改:·z16166 于 May 21 15:12:33 2026 修改本文·[FROM: 221.216.116.*] ※ 来源:·水木社区 http://www.mysmth.net·[FROM: 221.216.116.*]
Peleus迦太基从不怜悯人民
Thu May 21 15:12:26 2026 · #42
有点牛,春节后他家好像限速了,我的token消耗量变成之前的1/5到1/6
【 在 lvsoft 的大作中提到: 】 : 我要是跟你说我上个月在glm5.1上用掉了7w rmb的token你会不会吓死...
hotfixhotfix
Thu May 21 17:19:49 2026 · #43
7w rmb的token是多少亿? 50亿左右吗
【 在 lvsoft 的大作中提到: 】 : 我要是跟你说我上个月在glm5.1上用掉了7w rmb的token你会不会吓死...
gfkidgfkid
Fri May 22 11:15:40 2026 · #44
不会,你有钱我知道
【 在 lvsoft 的大作中提到: 】 : 我要是跟你说我上个月在glm5.1上用掉了7w rmb的token你会不会吓死...
hgoldfish老鱼
Fri May 22 12:05:49 2026 · #45
好奇奢侈博你 7w 的投入,能不能得到 700w 的产出啊?
【 在 lvsoft 的大作中提到: 】 : 我要是跟你说我上个月在glm5.1上用掉了7w rmb的token你会不会吓死...
z16166Netguy
Fri May 22 13:04:10 2026 · #46
7w投入,70w产出就已经是抢钱了。700w那是以小杠杆撬动地球了 只有蓝海或者某个领域的初期,或者边际成本非常低时才有这种红利
【 在 hgoldfish 的大作中提到: 】 : 好奇奢侈博你 7w 的投入,能不能得到 700w 的产出啊?
z16166Netguy
Wed Jun 3 16:16:10 2026 · #47
现在反重力的文本替换还有改出大量乱码的低级错误。。。破折号全部改坏。 估计得给反重力产品组提个反馈了 [upload=1][/upload]
lvsoftLv(The Last Guardian
Wed Jun 3 21:32:50 2026 · #48
没有没有,我前面说了,蹭的朋友的私有化部署的glm5.1,我确实是干掉了7w的token,但实际上不要钱。 不过我确实也投入了不少硬件,6000 pro, 4090 48g, a100*2, 3090*n, 3080-20g*n, 2080ti-22g*n.... 我太喜欢搞私有化部署了....基本上全收集了...甚至连jetson,amd的显卡都有... 再加上去年一个月1000$的烧token,学费是交了很多的,至少肯定远远不止7w... 产出嘛,目前还是加速人类的产出,我是觉得这本质上还是人类的产出,得完全是ai自己全流程搞定的产出才算是它的。我目前的目标是先不断削减人类参与的比重,让整个人类参与流程可以简化到只要一副AR眼镜就可以搞定的程度,然后我要先赛博游牧一段时间,边旅游边让AI干活。最终达到我可以完全不管事,让AI养我的程度。
【 在 hgoldfish 的大作中提到: 】 : 好奇奢侈博你 7w 的投入,能不能得到 700w 的产出啊?
WCDMA3G
Thu Jun 4 11:33:05 2026 · #49
nb plus 问一下glm5.1私有部署得花多少钱啊?啥量化?
【 在 lvsoft 的大作中提到: 】 : 没有没有,我前面说了,蹭的朋友的私有化部署的glm5.1,我确实是干掉了7w的token,但实际上不要钱。 : 不过我确实也投入了不少硬件,6000 pro, 4090 48g, a100*2, 3090*n, 3080-20g*n, 2080ti-22g*n.... : 我太喜欢搞私有化部署了....基本上全收集了...甚至连jetson,amd的显卡都有...
lvsoftLv(The Last Guardian
Thu Jun 4 12:51:53 2026 · #50
b300...不量化... 私有化部署最好别考虑量化,除非只是聊聊天
【 在 WCDMA 的大作中提到: 】 : nb plus : 问一下glm5.1私有部署得花多少钱啊?啥量化?
博主关闭了所有页面的评论