我平时用 Claude、ChatGPT 帮我写一些小程序，比如贪吃蛇之类的。

我平时用 Claude、ChatGPT 帮我写一些小程序，比如贪吃蛇之类的。
但这些 AI 经常出错，需要我不断调试，或者我主动把任务分成多个步骤，每个步骤让 AI 写好后，我先测试，确保没问题，再进行下一个步骤。等所有步骤都测试完之后，再让 AI 组合成一个完整的程序。

我有一个疑问：
假如我买一张显卡，比如 4090，在本地部署一些 AI，虽然肯定不如 Claude、ChatGPT 这些强大，但如果用像 DeepSeek 32B 之类的模型，或者 Meta 的开源模型，让它运行一晚上，写几百个这样的程序，然后再去运行，会不会总有一个是成功的？

类似于“自然选择”的策略，我不管代码质量，让 AI 跑一晚上，生成上百个程序。然后写一个脚本，挨个自动运行它们：

如果报错，自动抛弃；

运行一个自动化测试程序，比如输出一张图片，确保调用到目标代码的所有组件；
如果图片成功输出，就意味着程序的所有组件都没问题，程序可用。
比如让 AI 不分昼夜跑一周，生成 5000 个程序，然后再自动测试这 5000 个程序，哪怕只有一个成功，那也行。

这个方法靠谱吗？有没有懂的大佬帮我解答一下？

__via __(tg://user?id=7332855756)

13人评论了“我平时用 Claude、ChatGPT 帮我写一些小程序，比如贪吃蛇之类的。”

白茶与风｜人畜无害｜Forever
2025-02-10 在下午1:54

效率太低

回复
Clyzhi
2025-02-10 在下午1:55

怎么判断输出的图片可用又是一个问题

回复
sunbeams001
2025-02-10 在下午1:58

使用 cursor windsurf 之类的IDE

回复
Sp1der
2025-02-10 在下午1:59

概率太低

回复
Sp1der
2025-02-10 在下午2:00

这和猴子排序有什么区别

回复
巫
2025-02-10 在下午2:01

比猴子概率高多了。而且本质上来说，他说的内容就是zero的原理

回复
Mo
2025-02-10 在下午2:03

你找到了deepseek r1训练的方法

回复
satoshi
2025-02-10 在下午2:04

出错了就把错误返回给它让它继续修改。如果它不知道哪里错了可能永远写不对

回复
Sp1der
2025-02-10 在下午2:05

zero是什么

回复
卡拉卡拉
2025-02-10 在下午2:11

你能保证你的自动测试程序能准确完整覆盖所有目标工况（注1：不仅仅是不报错能输出就叫成功，还需要检验输出确实是正确输出；注2：且不能光测试正确输入，还需要测试错误输入的情况不出错）且不在乎代码质量，不在乎性能，不在乎效率的情况下；这样筛选出来的程序是可用的。

回复
巫
2025-02-10 在下午2:11

就是r1的训练原理

回复
缄默线
2025-02-10 在下午2:11

效率太低了，而且只用一轮对话，很难生成复杂代码吧

回复
广东黑人
2025-02-10 在下午3:02

除非你的需求和验证方法简单又明确，即便代码验证通过，放在更多的应用场景中依旧会出现问题。
如果问题出在模型本身能力还有你的prompt上，那么你可能生成1000次都不会过。
我在写功能的时候经常在御三家中切换，有时候claude调半天没调过，gemini一会儿就过了。
prompt描述上也会出现你很多时候没想过的问题，比如你说生成图片，你没想过要给它定义成生成格式。不太存在复杂任务一次对话就能达到想要的效果。
等你调整好prompt，那功能已经快写好了，又何必roll呢

回复

13人评论了“我平时用 Claude、ChatGPT 帮我写一些小程序，比如贪吃蛇之类的。”

发表评论 取消回复

发表评论取消回复