AIエージェントに業務を任せる前に必要な「計画・制約・検証」の設計


AIエージェントに業務を任せる前に必要な「計画・制約・検証」の設計

AIエージェントに複雑な業務を任せると、最初はうまく動いているように見えても、途中で条件を忘れたり、リストの一部だけを処理したり、判断基準がぶれたりすることがあります。

これは「AIがまだ賢くないから」という単純な話ではありません。多くの場合、業務を渡す側が、手順、条件分岐、制約、確認工程を十分に構造化できていないことが原因です。

2026年5月に公開された論文「RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution」は、この問題を考えるうえで参考になります。RunAgentは、自然言語で書かれた計画を、制約や評価基準を確認しながら段階的に実行するための研究です。重要なのは、特定のツール名ではなく、AIエージェントを業務で使うときに必要な設計思想です。

AIに足りないのは「やる気」ではなく実行構造

人間に仕事を頼むときでも、「この資料を見て、いい感じに処理しておいて」では品質が安定しません。必要なのは、何を順番に見るのか、どの条件なら分岐するのか、どこで止めるのか、誰が確認するのかです。

AIエージェントも同じです。単に「問い合わせを分類して」「顧客リストを確認して」と依頼するだけでは、次のような失敗が起きやすくなります。

  • 対象リストの一部だけを処理して終わる
  • 条件分岐を途中で忘れる
  • 前半の判断基準と後半の判断基準が変わる
  • 計算すべきところを文章で推測する
  • 人間が確認すべき箇所まで自動で進めてしまう

RunAgentが示しているのは、自然言語の柔軟さを残しながらも、実行には最低限の構造が必要だということです。

業務手順書には、制御構造を入れる

RunAgentでは、自然言語の計画の中に IFGOTOFORALL のような制御用キーワードを使います。これは、厳密なプログラミング言語を書くというより、業務手順書の中に「条件分岐」「移動先」「全件処理」を明示する考え方です。

中小企業の業務に置き換えると、たとえば次のようになります。

  • 請求書の金額が発注書と一致しなければ、確認工程に回す
  • 問い合わせ内容が既存FAQで解決できる場合は、返信下書きを作る
  • 顧客リストの全件について、最終接触日と次回アクションを確認する
  • 機密情報が含まれる場合は、外部送信前に人間確認へ進む

ここで特に大事なのは「全件」です。AIは「このリスト全員に対して処理して」と言われても、途中で一部だけ処理して完了したように振る舞うことがあります。だからこそ、全件処理を明示し、最後に件数を検証する設計が必要です。

AIが得意な処理と、コードに任せる処理を分ける

RunAgentは、各ステップを直接LLMに任せるか、Pythonコードを生成して実行するか、既存ツールを使うかを選ぶ設計になっています。

この考え方は、実務でもそのまま使えます。

  • 自然文の要約、分類、観点整理はLLMに向いている
  • 集計、平均、差分、重複検出はコードや表計算に向いている
  • メール送信、CRM更新、ファイル保存は既存ツール連携に向いている

AIエージェント導入で失敗しやすいのは、すべてをLLMの文章処理として扱ってしまうことです。金額計算、件数確認、重複検出のような処理は、LLMに「考えさせる」より、コードやデータベースで機械的に確認したほうが安全です。

制約チェックは、最初から設計に入れる

RunAgentの特徴の一つは、各ステップの実行後に、関連する制約を確認し、違反があれば再実行する点です。論文では、自然言語計画ベンチマークのカレンダースケジューリングで、GPT-4o単体の58.3%、PlanGEN系手法の68.9%に対して、RunAgentは81.1%の正解率を示しています。制約チェックを外した場合は75.4%まで下がっており、検証工程が性能に効いていることが示されています。

ただし、この数値は特定の研究設定での結果です。一般企業の業務でも同じ精度が出るという意味ではありません。むしろ、学ぶべきなのは、AIの出力をそのまま信じるのではなく、制約違反を検出する工程を作ることです。

たとえば、AIに見積書の下書きを作らせる場合、次のようなチェックが必要になります。

  • 税込・税抜の扱いが統一されているか
  • 顧客名、金額、納期、支払条件に矛盾がないか
  • 契約前に送ってはいけない情報が含まれていないか
  • 社内承認が必要な金額を超えていないか
  • 参照した資料の日付が古すぎないか

このような制約を先に定義しておくと、AIの仕事は「それっぽい下書き」から「確認可能な業務プロセス」に近づきます。

人間を外すのではなく、介入点を決める

AIエージェントの導入では、最初から全工程を無人化しようとすると危険です。RunAgentの論文でも、人間が仕様、制約、事実、評価基準、フィードバックを与えられるHuman-in-the-loopの考え方が含まれています。

実務でも、人間が見るべきなのはすべての中間作業ではありません。見るべきなのは、ミスが損失につながる箇所、顧客との約束に関わる箇所、法務・会計・個人情報に関わる箇所です。

AIエージェント導入の設計では、次のように分けると現実的です。

  • AIが自動で進めてよい作業
  • AIが下書きまで作ってよい作業
  • AIが候補を出し、人間が選ぶ作業
  • AIが触れず、人間だけが判断する作業

この境界線を決めずにAIを入れると、便利さより不安が勝ちます。逆に、境界線が明確なら、現場は安心してAIを使いやすくなります。

Optiensとしての見方

AIエージェントを業務に入れるとき、最初に作るべきなのは高度な自動化システムではありません。まず必要なのは、業務手順を分解し、条件分岐、全件処理、制約、確認者、ログの残し方を整理した「AIに渡せる業務手順書」です。

AI活用をどこから始めるべきか迷っている場合は、まず AI活用診断簡易版(無料) で、フォーム入力をもとに既存業務のうちAI化を検討しやすい領域を簡易レポートで確認してください。より具体的に整理したい場合は、詳細版AI活用診断(¥5,500税込・MTGなし) で、導入可否、優先順位、構成案、費用前提を整理してお届けします。

具体的な業務自動化の構築、API連携、初期動作確認まで進めたい場合は、導入支援として個別にお見積もりします。

参考情報