type
Post
status
Invisible
date
Apr 5, 2026
slug
autoresearch-on-prompt
summary
粗糙的简易实践,仍需要进一步迭代评分标准与惩罚内容
tags
开发
category
技术分享
titleIcon
password
icon
insider
粗糙的简易实践,仍需要进一步迭代评分标准与惩罚内容
数据集制作
- 通过patch(原项目仅导出文本)cherry studio,导出markdown获取文本与图片资源

- 核实获取的文本与图片文件夹

- 预先准备的参考数据,来自cherry中与AI在预定义system prompt的输入输出(prompt参见二语习得)




- 与codex一起实验,在过程中需要逐步改进评分标准与惩罚方向

- 评分标准失效的案例


- 首轮


- 第2轮

- 第7轮

- 第13轮


实践要继续往后延伸,单纯多跑几轮就是抽卡,而是把每一轮都变成可比较的实验。也就是说,每次只改一类问题,然后观察输出有没有稳定变好,这样才能知道 prompt 真正起作用的部分到底是什么。每一轮要迭代标准
为什么我会更看重评估标准
很多时候 prompt 越改越长,不是因为任务真的复杂,而是因为没有先定义“什么叫改好了”。
我觉得简易实践里,先盯 3 件事就够了:
- 任务完成度:有没有真的回答到问题。
- 输出稳定性:连续几轮格式和质量是否接近。
- 风格贴合度:是否越来越接近目标样本。
只要每轮都围绕这 3 项判断,prompt 迭代就不太容易跑偏。
一个很轻量的记录模板
如果后面还想继续做类似实验,其实可以只记下面这几行:
记录不用复杂,但一定要留。否则过几轮之后,很容易只记得“好像改过”,却说不清到底哪次修改有效。
常见误区
- 一次同时改太多条规则,最后无法判断到底是哪条生效。
- 样本只覆盖单一场景,导致 prompt 看似变强,其实只是过拟合。
- 只看单次结果顺不顺眼,不看连续几轮是否稳定。
- 把所有问题都堆到 prompt 里,最后 prompt 越来越长、越来越难维护。
到这里基本已经能看出 prompt 在持续收敛,下面补一个简短总结。
一次最小可行的实践总结
这次尝试更像是在验证一件事:prompt 不是一次写完的说明书,而是可以被反复打磨的工作草稿。当手头已经有参考样本、目标风格和评价方向时,让模型参与 prompt 的改写,往往比手工闷头修改更快进入可用状态。
简化后的执行流程
- 先准备一组相对稳定的参考输入输出,作为 prompt 调整时的对照样本。
- 写出一个能够跑通任务的初版 prompt,不求完美,只求先有可观察结果。
- 让模型根据输出偏差去分析:问题究竟出在目标定义、约束不清,还是输出格式不稳定。
- 把修正写回 prompt,而不是只修补单次回答结果。
- 重复几轮之后,再观察输出是否开始稳定收敛。
从截图里能看到什么
从首轮到后面的多轮迭代,变化并不只是“prompt 变长了”,而是任务描述逐渐被拆得更明确了:
- 目标更清楚:到底要优化什么,不再只停留在泛泛要求。
- 约束更具体:哪些表达要保留,哪些结构要避免,会越来越明确。
- 输出更可评估:当评价标准变清楚后,后续每一轮修改才有方向感。
这种方法适合的场景
- 已经有一批较好的历史样本,希望把经验沉淀成 prompt。
- 任务目标能描述清楚,但初版 prompt 总是“不够稳”。
- 需要快速探索某个写作/分析任务的稳定表达方式。
一个很实际的体会
真正有价值的不是“迭代了多少轮”,而是每一轮都是否针对上一轮暴露出的具体问题做了修正。如果只是不断堆规则,prompt 只会越来越长;如果能围绕目标、边界、格式、评价标准逐步收敛,prompt 才会越来越像一个可复用的工具。
小结
AutoResearch 这类做法,适合作为 prompt 打磨阶段的放大器:先用它帮助自己找结构、找边界、找评价标准;等效果稳定后,再把真正有效的规则压缩成一版更短、更易维护的最终 prompt,长期复用会更舒服。
- 作者:CamelliaV
- 链接:https://camelliav.netlify.app/article/autoresearch-on-prompt
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章



_crying_dress_fire_long_hair_magic_pink_eyes_silver_palace_sword_tears_tiara_torn_clothes_weapon_white_hair.jpg?table=block&id=330ca147-5df8-8016-bfab-c65b121b06d9&t=330ca147-5df8-8016-bfab-c65b121b06d9)





![[2026.3.29]暑期笔试复盘](https://www.notion.so/image/attachment%3A3276fd3d-2a21-49b7-a5e7-4fb867dc7b06%3AG9BRMXrb0AMWXYp.jpg?table=block&id=338ca147-5df8-804b-b1b4-f0bb4ec2b823&t=338ca147-5df8-804b-b1b4-f0bb4ec2b823)
![[2026.4.3]暑期面试复盘](https://www.notion.so/image/attachment%3Ab7aa5da1-bd4b-4428-8931-1ca5096cf7a8%3AKonachan.com_-_399937_clouds_no_humans_original_signed_sky_tree_yu_jing.png?table=block&id=338ca147-5df8-80d6-b053-fcbedb3bc649&t=338ca147-5df8-80d6-b053-fcbedb3bc649)
![[2026.3.27]优质blog笔记](https://www.notion.so/image/attachment%3A663f9378-6675-43c0-b353-001be947f796%3AKonachan.com_-_399921_aqua_eyes_black_hair_braids_brown_eyes_brown_hair_flowerscur_gloves_gun_mask_pointed_ears_school_uniform_sketch_skirt_weapon.jpg?table=block&id=2b8ca147-5df8-8071-a9be-d74acf98e923&t=2b8ca147-5df8-8071-a9be-d74acf98e923)