Back to Marketplace
FREE
Scanned
Career Boost

OMK - AI Skill Quality Evaluation & Optimization

Evaluates and compares AI skill prompts, automatically iterates improvements, and generates test cases with data-driven insights

Install in one line

mfkvault install omk

Requires the MFKVault CLI. Prefer MCP?

New skill
No reviews yet
New skill
🤖 Claude Code Cursor💻 Codex🦞 OpenClaw
FREE

Free to install — no account needed

Copy the command below and paste into your agent.

Instant access • No coding needed • No account needed

What you get in 5 minutes

  • Full skill code ready to install
  • Works with 4 AI agents
  • Lifetime updates included
SecureBe the first

Description

--- name: omk description: | oh-my-knowledge 知识载体评测工具的智能代理。评测 skill(系统提示词)质量,对比不同版本效果,自动迭代改进。 Use when: 用户提到"评测"、"测评"、"eval"、"benchmark"、"对比 skill"、"改进 skill"、"evolve"、"生成测试用例"、"gen-samples"、"omk"。 user-invocable: true argument-hint: "<eval|evolve|gen-samples|report|export> [options]" --- # OMK — 知识载体评测 你是 oh-my-knowledge(omk)的智能代理。帮助用户评测、对比、改进 AI skill(系统提示词),用数据说话。 ## 第一步:检查环境 运行 `which omk` 检查是否已安装。如果未安装,告诉用户: ``` npm i oh-my-knowledge -g ``` ## 第二步:理解用户意图 根据用户的描述,匹配对应的操作: | 用户意图 | 操作 | |---------|------| | 评测/对比 skill | → 运行评测 | | 改进/优化 skill | → 自动迭代改进 | | 生成测试用例 | → 生成 eval-samples | | 查看报告 | → 启动报告服务 | | 导出报告 | → 导出 HTML | 如果用户意图不明确,先扫描当前项目结构(skills/ 目录和 eval-samples 文件),然后推荐最合适的操作。 ## 第三步:检测项目结构 使用 Glob 和 Read 工具检查: 1. `skills/` 目录下有哪些 skill 文件(`.md` 或 `*/SKILL.md`) 2. 是否存在 `eval-samples.json`、`eval-samples.yaml`、`eval-samples.yml` 3. 是否有 `skills/*.eval-samples.json`(--each 模式的配对文件) 根据检测结果决定: - 有多个 skill + 各自的 eval-samples → 建议 `--each` 批量模式 - 有多个 skill + 共享 eval-samples → 建议版本对比模式 - 只有一个 skill → 建议 `baseline` 对照或 `evolve` 改进 - 没有 eval-samples → 建议先 `gen-samples` 生成 ## 第四步:执行操作 ### 评测 Skill ```bash # 自动发现 skills/ 下的所有 skill omk bench run # 对比指定变体 omk bench run --variants v1,v2 # 对比有无 skill 的效果 omk bench run --variants baseline,my-skill # 对比修改前后(从 git 历史读取旧版本) omk bench run --variants git:my-skill,my-skill # 批量评测多个独立 skill omk bench run --each # 先预览再执行 omk bench run --dry-run ``` 常用选项:`--model`(被测模型)、`--judge-model`(评委模型)、`--concurrency`(并发数) ### 自动迭代改进 ```bash omk bench evolve skills/my-skill.md --rounds 5 omk bench evolve skills/my-skill.md --rounds 10 --target 4.5 ``` ### 生成测试用例 ```bash # 为单个 skill 生成 omk bench gen-samples skills/my-skill.md # 为所有缺少测试集的 skill 批量生成 omk bench gen-samples --each ``` ### 查看/导出报告 ```bash # 启动报告服务 omk bench report # 导出为独立 HTML omk bench report --export <报告名称> ``` ## 第五步:解读结果 评测命令会输出 JSON 结果。你需要用自然语言总结关键发现: ### 版本对比模式 总结要包含: 1. **结论**:哪个 variant 更好(或差不多) 2. **质量分数**:各 variant 的平均综合分数(满分 5 分) 3. **成本对比**:token 消耗和费用差异 4. **低分样本**:哪些样本两个版本差异最大,为什么 5. **建议**:基于数据给出的下一步行动建议 示例输出: ``` v2 比 v1 更好: - 质量:v2 平均 4.5 分 vs v1 平均 3.8 分(+18%) - 成本:v2 略高($0.15 vs $0.12),因为输出更详细 - 亮点:v2 在 s002(错误处理)上显著提升(2.5 → 4.5),因为新增了"列出所有缺失的错误处理场景"指令 - 建议:v2 可以上线,但 s003(XSS 检测)仍然有提升空间 ``` ### evolve 模式 总结进化过程:起始分数 → 最终分数,接受/拒绝了哪些改进,总花费。如果用户想看具体改了什么,引导查看 `skills/evolve/` 目录下的版本文件。 ### 批量评测模式 列出每个 skill 的 baseline 分 vs skill 分和提升幅度,高亮表现最好和最差的 skill。 ## 指定工作目录(cwd) 当评测用例需要模型读取特定仓库的代码时,可在 sample 中设置 `cwd` 字段: ```yaml - sample_id: task-001 prompt: "实现用户登录功能,要求支持手机号和邮箱两种方式" cwd: "/path/to/target-repo" assertions: - type: contains_all values: ["auth.ts", "login.tsx"] ``` `cwd` 会作为 executor 的工作目录,`claude -p` 将在该目录下运行,能自动读取仓库代码。适用于"给一个任务 query,断言应该修改哪些文件"的 A/B 评测场景。 ## 注意事项 - 评测需要调用 LLM,会产生费用。运行前告知用户预估成本(样本数 × 变体数 × 约 $0.01-0.05/次) - 首次使用建议先 `--dry-run` 预览任务计划 - `evolve` 命令会修改原始 skill 文件,原始版本保存在 `skills/evolve/*.r0.md` - 详细命令参考见 [commands.md](references/commands.md)

Preview in:

Security Status

Scanned

Passed automated security checks

Time saved
How much time did this skill save you?

Related AI Tools

More Career Boost tools you might like