AIエージェントに仕事を任せる前に：TODO・REPORT・DECISIONで監査できる形にする

AIエージェントに仕事を任せるとき、一番怖いのは間違えることだけではありません。

本当に怖いのは、何を見て、何を変えて、なぜそう判断したのか分からないまま、作業だけが進むことです。

人間の担当者なら、途中で相談したり、メモを残したり、違和感で止まったりします。

AIエージェントにも同じことが必要です。

そのために、最初から大きな管理システムを作る必要はありません。まずは3つのMarkdownファイルだけで十分です。

TODO.md: これからやること
REPORT.md: 実行した事実
DECISION.md: 人間が決めたこと

この3つがあるだけで、AIの作業はかなり監査しやすくなります。

AI作業は「結果」だけ見ると危ない

AIエージェントは、短時間で多くのファイルを読み、修正し、コマンドを実行できます。

それ自体は便利です。

ただし、結果だけを見ると、次のような問題が起きます。

どの指示を処理したのか分からない
どのファイルを根拠にしたのか分からない
テストを実行したのか分からない
失敗をどう解釈したのか分からない
人間の過去判断を守ったのか分からない
次に何を確認すべきか分からない

これでは、AIが作った差分をレビューする人間が疲れてしまいます。

AIに仕事を任せるなら、出力物だけではなく、作業の文脈も残す必要があります。

TODO.mdは「未来の指示」を小さく保つ

TODO.md は、AIにやってほしい作業を置く場所です。

ここで大事なのは、タスクを小さく書くことです。

悪い例は、こうです。

- 管理画面を改善する
- LPをよくする
- テストを増やす

これでは、AIがどこまでやればよいか分かりません。結果として、差分が広がり、レビューが重くなります。

良い例は、こうです。

- [ ] free-diagnosis の送信エラー文言を、ユーザーが次に取る行動が分かる表現に直す
- [ ] 導入前スコープ整理のCTA近くに、MTGなしの範囲整理であることを1文だけ追加する
- [ ] note投稿スクリプトのdry-run結果に、投稿予定slugを表示する

1タスクで、対象、目的、変更範囲が見えるようにします。

AIには、未完了タスクを上から1つだけ進めてもらいます。複数タスクをまとめて進めると、失敗時に切り分けにくくなります。

REPORT.mdは「過去の事実」を淡々と残す

REPORT.md は、AIが作業後に追記するログです。

ここには、感想ではなく事実を書かせます。

## 2026-06-04 23:10

### 対象タスク
- free-diagnosis の送信エラー文言を、ユーザーが次に取る行動が分かる表現に直す

### 変更ファイル
- src/pages/free-diagnosis.astro

### 実施内容
- 送信失敗時の文言を、再入力・時間をおいて再試行・問い合わせの3択が分かる表現に変更
- CTAや価格表現は変更なし

### 実行したチェック
- npm.cmd run check:blog-service-claims: pass
- git diff --check: pass

### 残リスク
- ブラウザ表示は未確認

### 人間が見るべき点
- エラー文言が長すぎないか
- 問い合わせ導線を出すタイミングが適切か

この形なら、翌朝に差分を見た人間が、何を確認すればよいかすぐ分かります。

AIが完璧に作業したかどうかより、レビューしやすいログが残っていることが重要です。

DECISION.mdは「判断の再利用」に使う

DECISION.md は、人間が決めたことを残すファイルです。

AIは、前回の会話では覚えていたことを、次の作業では忘れることがあります。だから、会社としての判断は、会話ではなくファイルに残します。

たとえば、次のように書きます。

# DECISION.md

## AI活用診断の表現
- AI活用診断はフォーム入力ベースの診断レポート。MTGなし。
- 導入前スコープ整理は 個別見積、MTGなしの導入前整理。
- 無料診断の範囲を超える実務支援は、導入支援またはスポット相談として扱う。

## Codex自動化
- 最初の自動化はPR候補まで。本番反映はしない。
- 顧客情報、本番DB、外部送信、削除、pushは人間承認で止める。
- 同じ失敗が3回続いたら停止してREPORT.mdへ記録する。

こうしておくと、AIは毎回の作業前に判断の土台を読めます。

チームが増えたときにも、「前にどう決めたんだっけ」を探す時間が減ります。

3ファイルで役割を分ける

この3つは、混ぜない方が使いやすいです。

ファイル	役割	書く人
`TODO.md`	未来の作業	人間が主、AIが更新補助
`REPORT.md`	過去の実行事実	AIが主
`DECISION.md`	採用済み判断	人間が主

TODO.md に実行ログを書き始めると、次にやることが読みにくくなります。

REPORT.md に方針を書き始めると、何が事実で何が判断か分からなくなります。

DECISION.md に細かい作業ログを書き始めると、重要な判断が埋もれます。

役割を分けるだけで、AI作業の見通しはかなり良くなります。

AIに渡す基本指示

AIエージェントに作業させるときは、次のような指示が使いやすいです。

TODO.md、DECISION.md、AGENTS.mdを読んでください。

TODO.mdの未完了タスクを上から1つだけ進めてください。
対象外の改善や大きな設計変更はしないでください。

作業後、REPORT.mdに以下を追記してください。
- 対象タスク
- 変更ファイル
- 実施内容
- 実行したチェック
- 失敗したこと
- 残リスク
- 人間が見るべき点

次の条件に当たったら作業を止めて、REPORT.mdに理由を書いてください。
- 本番操作が必要
- 外部公開やpushが必要
- 顧客情報や秘密情報に触れる
- サービス範囲や価格の判断が必要
- 同じエラーが3回続く

この指示の良いところは、AIの自由度を完全に消していないことです。

調査、修正、チェックは任せる。ただし、会社としての判断が必要なところでは止める。ここが実務で使える境界線です。

「記録が増える」のではなく「確認が減る」

TODO、REPORT、DECISIONを作ると、ファイルが増えて面倒に感じるかもしれません。

しかし、実際には逆です。

記録がないAI作業は、毎回すべての差分を最初から疑う必要があります。

記録があるAI作業は、見る順番が決まります。

DECISION.mdに反していないか
TODO.mdの範囲を超えていないか
REPORT.mdに実行内容とチェック結果があるか
差分が小さいか
人間が判断すべき点だけ確認する

この順番があるだけで、レビューの負担はかなり下がります。

自動化するほど、監査ログが必要になる

手動でAIに頼むだけなら、会話ログを見れば何とかなるかもしれません。

しかし、定期実行や夜間実行にすると、会話だけでは追いきれません。

CodexのCLIには、スクリプトやCIで使うための非対話実行があります。こうした仕組みを使うほど、出力を人間が見やすい形に残すことが重要になります。

自動化で目指すべきなのは、「人間が見なくてよい状態」ではありません。

人間が見るべき場所を狭くすることです。

まとめ

AIエージェントに仕事を任せる前に、まず監査できる形を作ります。

TODO.md は未来の作業。REPORT.md は過去の実行事実。DECISION.md は人間の判断。

この3つを分けておくと、AIが何をしたのか、どこまで任せてよいのか、何を人間が見るべきかが分かりやすくなります。

AI自動化は、記録があって初めて任せられます。

AI活用をどこから始めるべきか迷っている場合は、まず AI活用診断で、既存業務のどこがAIパッケージ化しやすいかをご確認ください。導入支援を具体的に検討する段階では、スポット相談チケットで対象業務と次の進め方を整理できます。

AIエージェントに仕事を任せる前に