我平时用 Claude、ChatGPT 帮我写一些小程序,比如贪吃蛇之类的。
但这些 AI 经常出错,需要我不断调试,或者我主动把任务分成多个步骤,每个步骤让 AI 写好后,我先测试,确保没问题,再进行下一个步骤。等所有步骤都测试完之后,再让 AI 组合成一个完整的程序。

我有一个疑问:
假如我买一张显卡,比如 4090,在本地部署一些 AI,虽然肯定不如 Claude、ChatGPT 这些强大,但如果用像 DeepSeek 32B 之类的模型,或者 Meta 的开源模型,让它运行一晚上,写几百个这样的程序,然后再去运行,会不会总有一个是成功的?

类似于“自然选择”的策略,我不管代码质量,让 AI 跑一晚上,生成上百个程序。然后写一个脚本,挨个自动运行它们:

如果报错,自动抛弃;

运行一个自动化测试程序,比如输出一张图片,确保调用到目标代码的所有组件;
如果图片成功输出,就意味着程序的所有组件都没问题,程序可用。
比如让 AI 不分昼夜跑一周,生成 5000 个程序,然后再自动测试这 5000 个程序,哪怕只有一个成功,那也行。

这个方法靠谱吗?有没有懂的大佬帮我解答一下?

__via __(tg://user?id=7332855756)

13人评论了“我平时用 Claude、ChatGPT 帮我写一些小程序,比如贪吃蛇之类的。”

  1. 你能保证你的自动测试程序能准确完整覆盖所有目标工况(注1:不仅仅是不报错能输出就叫成功,还需要检验输出确实是正确输出;注2:且不能光测试正确输入,还需要测试错误输入的情况不出错)且不在乎代码质量,不在乎性能,不在乎效率的情况下;这样筛选出来的程序是可用的。

  2. 除非你的需求和验证方法简单又明确,即便代码验证通过,放在更多的应用场景中依旧会出现问题。
    如果问题出在模型本身能力还有你的prompt上,那么你可能生成1000次都不会过。
    我在写功能的时候经常在御三家中切换,有时候claude调半天没调过,gemini一会儿就过了。
    prompt描述上也会出现你很多时候没想过的问题,比如你说生成图片,你没想过要给它定义成生成格式。不太存在复杂任务一次对话就能达到想要的效果。
    等你调整好prompt,那功能已经快写好了,又何必roll呢

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部