AIエージェントに複雑な業務を任せると、最初はうまく動いているように見えても、途中で条件を忘れたり、リストの一部だけを処理したり、判断基準がぶれたりすることがあります。
これは「AIがまだ賢くないから」という単純な話ではありません。多くの場合、業務を渡す側が、手順、条件分岐、制約、確認工程を十分に構造化できていないことが原因です。
2026年5月に公開された論文「RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution」は、この問題を考えるうえで参考になります。RunAgentは、自然言語で書かれた計画を、制約や評価基準を確認しながら段階的に実行するための研究です。重要なのは、特定のツール名ではなく、AIエージェントを業務で使うときに必要な設計思想です。
AIに足りないのは「やる気」ではなく実行構造
人間に仕事を頼むときでも、「この資料を見て、いい感じに処理しておいて」では品質が安定しません。必要なのは、何を順番に見るのか、どの条件なら分岐するのか、どこで止めるのか、誰が確認するのかです。
AIエージェントも同じです。単に「問い合わせを分類して」「顧客リストを確認して」と依頼するだけでは、次のような失敗が起きやすくなります。
- 対象リストの一部だけを処理して終わる
- 条件分岐を途中で忘れる
- 前半の判断基準と後半の判断基準が変わる
- 計算すべきところを文章で推測する
- 人間が確認すべき箇所まで自動で進めてしまう
RunAgentが示しているのは、自然言語の柔軟さを残しながらも、実行には最低限の構造が必要だということです。
業務手順書には、制御構造を入れる
RunAgentでは、自然言語の計画の中に IF、GOTO、FORALL のような制御用キーワードを使います。これは、厳密なプログラミング言語を書くというより、業務手順書の中に「条件分岐」「移動先」「全件処理」を明示する考え方です。
中小企業の業務に置き換えると、たとえば次のようになります。
- 請求書の金額が発注書と一致しなければ、確認工程に回す
- 問い合わせ内容が既存FAQで解決できる場合は、返信下書きを作る
- 顧客リストの全件について、最終接触日と次回アクションを確認する
- 機密情報が含まれる場合は、外部送信前に人間確認へ進む
ここで特に大事なのは「全件」です。AIは「このリスト全員に対して処理して」と言われても、途中で一部だけ処理して完了したように振る舞うことがあります。だからこそ、全件処理を明示し、最後に件数を検証する設計が必要です。
AIが得意な処理と、コードに任せる処理を分ける
RunAgentは、各ステップを直接LLMに任せるか、Pythonコードを生成して実行するか、既存ツールを使うかを選ぶ設計になっています。
この考え方は、実務でもそのまま使えます。
- 自然文の要約、分類、観点整理はLLMに向いている
- 集計、平均、差分、重複検出はコードや表計算に向いている
- メール送信、CRM更新、ファイル保存は既存ツール連携に向いている
AIエージェント導入で失敗しやすいのは、すべてをLLMの文章処理として扱ってしまうことです。金額計算、件数確認、重複検出のような処理は、LLMに「考えさせる」より、コードやデータベースで機械的に確認したほうが安全です。
制約チェックは、最初から設計に入れる
RunAgentの特徴の一つは、各ステップの実行後に、関連する制約を確認し、違反があれば再実行する点です。論文では、自然言語計画ベンチマークのカレンダースケジューリングで、GPT-4o単体の58.3%、PlanGEN系手法の68.9%に対して、RunAgentは81.1%の正解率を示しています。制約チェックを外した場合は75.4%まで下がっており、検証工程が性能に効いていることが示されています。
ただし、この数値は特定の研究設定での結果です。一般企業の業務でも同じ精度が出るという意味ではありません。むしろ、学ぶべきなのは、AIの出力をそのまま信じるのではなく、制約違反を検出する工程を作ることです。
たとえば、AIに見積書の下書きを作らせる場合、次のようなチェックが必要になります。
- 税込・税抜の扱いが統一されているか
- 顧客名、金額、納期、支払条件に矛盾がないか
- 契約前に送ってはいけない情報が含まれていないか
- 社内承認が必要な金額を超えていないか
- 参照した資料の日付が古すぎないか
このような制約を先に定義しておくと、AIの仕事は「それっぽい下書き」から「確認可能な業務プロセス」に近づきます。
人間を外すのではなく、介入点を決める
AIエージェントの導入では、最初から全工程を無人化しようとすると危険です。RunAgentの論文でも、人間が仕様、制約、事実、評価基準、フィードバックを与えられるHuman-in-the-loopの考え方が含まれています。
実務でも、人間が見るべきなのはすべての中間作業ではありません。見るべきなのは、ミスが損失につながる箇所、顧客との約束に関わる箇所、法務・会計・個人情報に関わる箇所です。
AIエージェント導入の設計では、次のように分けると現実的です。
- AIが自動で進めてよい作業
- AIが下書きまで作ってよい作業
- AIが候補を出し、人間が選ぶ作業
- AIが触れず、人間だけが判断する作業
この境界線を決めずにAIを入れると、便利さより不安が勝ちます。逆に、境界線が明確なら、現場は安心してAIを使いやすくなります。
Optiensとしての見方
AIエージェントを業務に入れるとき、最初に作るべきなのは高度な自動化システムではありません。まず必要なのは、業務手順を分解し、条件分岐、全件処理、制約、確認者、ログの残し方を整理した「AIに渡せる業務手順書」です。
AI活用をどこから始めるべきか迷っている場合は、まず AI活用診断簡易版(無料) で、フォーム入力をもとに既存業務のうちAI化を検討しやすい領域を簡易レポートで確認してください。より具体的に整理したい場合は、詳細版AI活用診断(¥5,500税込・MTGなし) で、導入可否、優先順位、構成案、費用前提を整理してお届けします。
具体的な業務自動化の構築、API連携、初期動作確認まで進めたい場合は、導入支援として個別にお見積もりします。