AIエージェントに仕事を任せる前に:TODO・REPORT・DECISIONで監査できる形にする


AIエージェントに仕事を任せる前に:TODO・REPORT・DECISIONで監査できる形にする

AIエージェントに仕事を任せるとき、一番怖いのは間違えることだけではありません。

本当に怖いのは、何を見て、何を変えて、なぜそう判断したのか分からないまま、作業だけが進むことです。

人間の担当者なら、途中で相談したり、メモを残したり、違和感で止まったりします。

AIエージェントにも同じことが必要です。

そのために、最初から大きな管理システムを作る必要はありません。まずは3つのMarkdownファイルだけで十分です。

  • TODO.md: これからやること
  • REPORT.md: 実行した事実
  • DECISION.md: 人間が決めたこと

この3つがあるだけで、AIの作業はかなり監査しやすくなります。

AI作業は「結果」だけ見ると危ない

AIエージェントは、短時間で多くのファイルを読み、修正し、コマンドを実行できます。

それ自体は便利です。

ただし、結果だけを見ると、次のような問題が起きます。

  • どの指示を処理したのか分からない
  • どのファイルを根拠にしたのか分からない
  • テストを実行したのか分からない
  • 失敗をどう解釈したのか分からない
  • 人間の過去判断を守ったのか分からない
  • 次に何を確認すべきか分からない

これでは、AIが作った差分をレビューする人間が疲れてしまいます。

AIに仕事を任せるなら、出力物だけではなく、作業の文脈も残す必要があります。

TODO.mdは「未来の指示」を小さく保つ

TODO.md は、AIにやってほしい作業を置く場所です。

ここで大事なのは、タスクを小さく書くことです。

悪い例は、こうです。

- 管理画面を改善する
- LPをよくする
- テストを増やす

これでは、AIがどこまでやればよいか分かりません。結果として、差分が広がり、レビューが重くなります。

良い例は、こうです。

- [ ] free-diagnosis の送信エラー文言を、ユーザーが次に取る行動が分かる表現に直す
- [ ] paid-diagnosis のCTA近くに、MTGなしの詳細レポートであることを1文だけ追加する
- [ ] note投稿スクリプトのdry-run結果に、投稿予定slugを表示する

1タスクで、対象、目的、変更範囲が見えるようにします。

AIには、未完了タスクを上から1つだけ進めてもらいます。複数タスクをまとめて進めると、失敗時に切り分けにくくなります。

REPORT.mdは「過去の事実」を淡々と残す

REPORT.md は、AIが作業後に追記するログです。

ここには、感想ではなく事実を書かせます。

## 2026-06-04 23:10

### 対象タスク
- free-diagnosis の送信エラー文言を、ユーザーが次に取る行動が分かる表現に直す

### 変更ファイル
- src/pages/free-diagnosis.astro

### 実施内容
- 送信失敗時の文言を、再入力・時間をおいて再試行・問い合わせの3択が分かる表現に変更
- CTAや価格表現は変更なし

### 実行したチェック
- npm.cmd run check:blog-service-claims: pass
- git diff --check: pass

### 残リスク
- ブラウザ表示は未確認

### 人間が見るべき点
- エラー文言が長すぎないか
- 問い合わせ導線を出すタイミングが適切か

この形なら、翌朝に差分を見た人間が、何を確認すればよいかすぐ分かります。

AIが完璧に作業したかどうかより、レビューしやすいログが残っていることが重要です。

DECISION.mdは「判断の再利用」に使う

DECISION.md は、人間が決めたことを残すファイルです。

AIは、前回の会話では覚えていたことを、次の作業では忘れることがあります。だから、会社としての判断は、会話ではなくファイルに残します。

たとえば、次のように書きます。

# DECISION.md

## AI活用診断の表現
- 無料版はフォーム入力ベースの簡易レポート。MTGなし。
- 詳細版AI活用診断は ¥5,500税込、MTGなしの詳細レポート。
- 詳細版の範囲を超える実務支援は、導入支援またはスポット相談として扱う。

## Codex自動化
- 最初の自動化はPR候補まで。本番反映はしない。
- 顧客情報、本番DB、外部送信、削除、pushは人間承認で止める。
- 同じ失敗が3回続いたら停止してREPORT.mdへ記録する。

こうしておくと、AIは毎回の作業前に判断の土台を読めます。

チームが増えたときにも、「前にどう決めたんだっけ」を探す時間が減ります。

3ファイルで役割を分ける

この3つは、混ぜない方が使いやすいです。

ファイル役割書く人
TODO.md未来の作業人間が主、AIが更新補助
REPORT.md過去の実行事実AIが主
DECISION.md採用済み判断人間が主

TODO.md に実行ログを書き始めると、次にやることが読みにくくなります。

REPORT.md に方針を書き始めると、何が事実で何が判断か分からなくなります。

DECISION.md に細かい作業ログを書き始めると、重要な判断が埋もれます。

役割を分けるだけで、AI作業の見通しはかなり良くなります。

AIに渡す基本指示

AIエージェントに作業させるときは、次のような指示が使いやすいです。

TODO.md、DECISION.md、AGENTS.mdを読んでください。

TODO.mdの未完了タスクを上から1つだけ進めてください。
対象外の改善や大きな設計変更はしないでください。

作業後、REPORT.mdに以下を追記してください。
- 対象タスク
- 変更ファイル
- 実施内容
- 実行したチェック
- 失敗したこと
- 残リスク
- 人間が見るべき点

次の条件に当たったら作業を止めて、REPORT.mdに理由を書いてください。
- 本番操作が必要
- 外部公開やpushが必要
- 顧客情報や秘密情報に触れる
- サービス範囲や価格の判断が必要
- 同じエラーが3回続く

この指示の良いところは、AIの自由度を完全に消していないことです。

調査、修正、チェックは任せる。ただし、会社としての判断が必要なところでは止める。ここが実務で使える境界線です。

「記録が増える」のではなく「確認が減る」

TODO、REPORT、DECISIONを作ると、ファイルが増えて面倒に感じるかもしれません。

しかし、実際には逆です。

記録がないAI作業は、毎回すべての差分を最初から疑う必要があります。

記録があるAI作業は、見る順番が決まります。

  1. DECISION.mdに反していないか
  2. TODO.mdの範囲を超えていないか
  3. REPORT.mdに実行内容とチェック結果があるか
  4. 差分が小さいか
  5. 人間が判断すべき点だけ確認する

この順番があるだけで、レビューの負担はかなり下がります。

自動化するほど、監査ログが必要になる

手動でAIに頼むだけなら、会話ログを見れば何とかなるかもしれません。

しかし、定期実行や夜間実行にすると、会話だけでは追いきれません。

CodexのCLIには、スクリプトやCIで使うための非対話実行があります。こうした仕組みを使うほど、出力を人間が見やすい形に残すことが重要になります。

自動化で目指すべきなのは、「人間が見なくてよい状態」ではありません。

人間が見るべき場所を狭くすることです。

まとめ

AIエージェントに仕事を任せる前に、まず監査できる形を作ります。

TODO.md は未来の作業。REPORT.md は過去の実行事実。DECISION.md は人間の判断。

この3つを分けておくと、AIが何をしたのか、どこまで任せてよいのか、何を人間が見るべきかが分かりやすくなります。

AI自動化は、記録があって初めて任せられます。

AI活用をどこから始めるべきか迷っている場合は、まず AI活用診断簡易版(無料) で、既存業務のどこがAIパッケージ化しやすいかをご確認ください。より具体的に整理したい場合は、詳細版AI活用診断(¥5,500税込・MTGなし) で、AIパッケージ適合性、構成案、優先順位、費用前提を整理してお届けします。

関連記事

参考

NEXT STEP

関連する考え方から確認する

まずは記事やデモ・活用例で、AI活用をどの順番で考えるかをご確認ください。必要になった段階で、簡易診断も利用できます。

診断は、記事やデモを見たうえで自社の業務に当てはめたい方向けの補助導線です。