type
Post
status
Invisible
date
Apr 5, 2026
slug
autoresearch-on-prompt
summary
粗糙的简易实践,仍需要进一步迭代评分标准与惩罚内容
tags
开发
category
技术分享
titleIcon
password
icon
insider
❄️
粗糙的简易实践,仍需要进一步迭代评分标准与惩罚内容

数据集制作

  • 通过patch(原项目仅导出文本)cherry studio,导出markdown获取文本与图片资源
notion image
  • 核实获取的文本与图片文件夹
notion image
  • 预先准备的参考数据,来自cherry中与AI在预定义system prompt的输入输出(prompt参见二语习得)
notion image
notion image
notion image
notion image
  • 与codex一起实验,在过程中需要逐步改进评分标准与惩罚方向
notion image
  • 评分标准失效的案例
notion image
notion image
  • 首轮
notion image
notion image
  • 第2轮
notion image
  • 第7轮
notion image
  • 第13轮
notion image
 
notion image
实践要继续往后延伸,单纯多跑几轮就是抽卡,而是把每一轮都变成可比较的实验。也就是说,每次只改一类问题,然后观察输出有没有稳定变好,这样才能知道 prompt 真正起作用的部分到底是什么。每一轮要迭代标准

为什么我会更看重评估标准

很多时候 prompt 越改越长,不是因为任务真的复杂,而是因为没有先定义“什么叫改好了”。
我觉得简易实践里,先盯 3 件事就够了:
  • 任务完成度:有没有真的回答到问题。
  • 输出稳定性:连续几轮格式和质量是否接近。
  • 风格贴合度:是否越来越接近目标样本。
只要每轮都围绕这 3 项判断,prompt 迭代就不太容易跑偏。

一个很轻量的记录模板

如果后面还想继续做类似实验,其实可以只记下面这几行:
记录不用复杂,但一定要留。否则过几轮之后,很容易只记得“好像改过”,却说不清到底哪次修改有效。

常见误区

  • 一次同时改太多条规则,最后无法判断到底是哪条生效。
  • 样本只覆盖单一场景,导致 prompt 看似变强,其实只是过拟合。
  • 只看单次结果顺不顺眼,不看连续几轮是否稳定。
  • 把所有问题都堆到 prompt 里,最后 prompt 越来越长、越来越难维护。
 
到这里基本已经能看出 prompt 在持续收敛,下面补一个简短总结。

一次最小可行的实践总结

这次尝试更像是在验证一件事:prompt 不是一次写完的说明书,而是可以被反复打磨的工作草稿。当手头已经有参考样本、目标风格和评价方向时,让模型参与 prompt 的改写,往往比手工闷头修改更快进入可用状态。

简化后的执行流程

  1. 先准备一组相对稳定的参考输入输出,作为 prompt 调整时的对照样本。
  1. 写出一个能够跑通任务的初版 prompt,不求完美,只求先有可观察结果。
  1. 让模型根据输出偏差去分析:问题究竟出在目标定义、约束不清,还是输出格式不稳定。
  1. 把修正写回 prompt,而不是只修补单次回答结果。
  1. 重复几轮之后,再观察输出是否开始稳定收敛。

从截图里能看到什么

从首轮到后面的多轮迭代,变化并不只是“prompt 变长了”,而是任务描述逐渐被拆得更明确了:
  • 目标更清楚:到底要优化什么,不再只停留在泛泛要求。
  • 约束更具体:哪些表达要保留,哪些结构要避免,会越来越明确。
  • 输出更可评估:当评价标准变清楚后,后续每一轮修改才有方向感。

这种方法适合的场景

  • 已经有一批较好的历史样本,希望把经验沉淀成 prompt。
  • 任务目标能描述清楚,但初版 prompt 总是“不够稳”。
  • 需要快速探索某个写作/分析任务的稳定表达方式。

一个很实际的体会

真正有价值的不是“迭代了多少轮”,而是每一轮都是否针对上一轮暴露出的具体问题做了修正。如果只是不断堆规则,prompt 只会越来越长;如果能围绕目标、边界、格式、评价标准逐步收敛,prompt 才会越来越像一个可复用的工具。

小结

AutoResearch 这类做法,适合作为 prompt 打磨阶段的放大器:先用它帮助自己找结构、找边界、找评价标准;等效果稳定后,再把真正有效的规则压缩成一版更短、更易维护的最终 prompt,长期复用会更舒服。
 
Chrome extension recommendation (1)English Subsite at top-right
Loading...
2024-2026CamelliaV.

CamelliaV | Java;前端;AI;ACGN;