メインコンテンツまでスキップ

ツール呼び出し、API、そしてエンタープライズ統合

図:ツール呼び出し、API、そしてエンタープライズ統合

皆さんの財務チームが、月次決算プロセスを支援するためにAIを使い始めたと想像してみてください。現在のCopilotは、なぜ特定の請求書が保留されているかを説明する程度には賢いものです。しかし、チームが「このAIでステータスを直接修正できないのか?」と尋ねたとき、その答えはまだありません。請求書データはERP、ベンダーからのスプレッドシート、確認メールに散在しています。発注書(PO)の確認、入荷検収との照合、問題があればワークフローシステムへのケース起票が必要です。これらのステップはすべて、依然として手作業です。

その後浮上する疑問は、言語モデルがどれほど高度かということではなく、AIがこれらのプロセスを単に説明するだけでなく、実際に実行するためにどのように役立つのか、ということです。

これこそが、現在多くの企業が直面している問題です。彼らは魅力的なAIパイロットを導入しているものの、AIが推奨事項を提示するだけで止まってしまい、ビジネス上の価値をまだ実感できていません。エージェントが実際のシステムにアクセスできていないのです。ERPからデータを取得し、CRMでステータスを確認し、ITSMでチケットを更新する能力がなければ、AIは決して実行に移さない、単なる回答エンジンに過ぎません。

説明から実行へ

通常のCopilotと、ビジネスオペレーションに真に役立つエージェントとの違いは、ただ一点、行動する能力にあります。Copilotは、なぜ請求書が保留されているかを説明できます。しかし、財務クローズプロセスを支援するエージェントは、ERPから請求書データを取得し、POのステータスを確認し、入荷検収と照合し、ワークフローシステムにケースを起票し、ベンダーまたはバイヤーに確認依頼を送信し、条件が満たされたらケースのステータスを更新できなければなりません。

この能力こそが、ツール呼び出し(Tool Calling)と呼ばれるものです。モデルはテキストを生成するだけでなく、外部の機能を選択して呼び出し、作業を完了させます。ツールは、ERPやCRMへのAPI、データベースへのクエリ、チケット作成機能、メールへのコネクタ、BPM上のワークフローアクション、あるいはポリシーチェッカーやプライシングエンジンといった内部サービスなどです。

ツール呼び出しがなければ、エージェントは単に話が上手なアナリストに過ぎません。ツール呼び出しがあれば、エージェントは作業を完了できる実行者になり始めます。

すべてのツールのリスクが同じではない

ここで、多くの組織が誤りを犯します。彼らはすべてのツールを同じように扱いますが、運用上は、データを読み取るだけのツールと、ビジネスの状態を変更するツールとの間には大きな違いがあります。

読み取り専用(Read-Only)のツール、例えば請求書のステータス確認、顧客履歴の取得、購買ポリシーの参照、ナレッジ記事の検索などは、比較的リスクが低くなります。アクセス制御とログ記録は依然として必要ですが、エラーの影響は誤った情報に限定され、データを変更して損害を与えることはありません。

対照的に、アクション(Action)ツール、例えば新しいベンダーの作成、顧客住所の変更、POの発行、チケットのクローズ、返金の送信、設定変更の実行などは、はるかに高いリスクを伴います。これらのアクションは、企業のオペレーション、コントロール、説明責任に直接的な影響を及ぼします。

この区別は技術的な詳細ではありません。これはガバナンスの基本です。多くの企業は、ユースケースが読み取り専用を必要としているだけであるにもかかわらず、エージェントにアクションへのアクセスを急ぎすぎます。その結果、生み出される価値よりも速くリスクが高まります。

アクションに近づくほど、制御は厳格に

エージェントがシステムに書き込めるようになると、企業はすべてのツール呼び出しを正式な運用アクションとして扱わなければなりません。最低限、呼び出し元のエージェント、そのエージェントが代行しているユーザー、使用されたデータ、呼び出されたツール、送信されたパラメータ、受け取った結果、そして実行前に承認やポリシーチェックが行われたかどうかが明確でなければなりません。

例えば、財務クローズにおいて、仕訳のドラフトを作成するだけのエージェントと、実際にERPに仕訳を転記するエージェントは、根本的に異なります。前者はおそらくHuman-in-the-Loopで十分でしょう。後者はほぼ間違いなく、はるかに厳格な制御を必要とし、場合によっては初期フェーズでは実装すらすべきではないかもしれません。

調達において、契約を読み、購買ルートを提案するエージェントは一つの話です。新しいベンダーを有効化したり、POを発行したりするエージェントは、まったく別の話です。

原則は単純です。ツール呼び出しのビジネスへの影響が大きければ大きいほど、検証、ポリシーの適用、そして監査可能性の必要性が高まります。

安全な経路としてのAPI

ツール呼び出しがアクションのメカニズムであるならば、APIはエージェントをエンタープライズシステムに接続するための最も健全な経路です。APIは、構造化され、文書化され、制御可能なインターフェースを提供します。エージェントは人間のように画面上で「操作」する必要はありません。システムのルールに従ってデータを読み書きするために用意されたエンドポイントを呼び出すだけでよいのです。

多くの組織は、RPAやブラウザ自動化のようなアプローチ、つまりエージェントに従業員のようにUIを操作させることに誘惑されます。このアプローチは、特にレガシーシステムに適切なAPIがない場合、一時的な橋渡しとして役立つことがあります。しかし、主要なパターンとしては脆弱です。

UIは安定した統合契約ではありません。画面の表示は変わり、フィールドは移動し、ラベルは変更され、クリックの流れはバージョン間で異なる可能性があります。UIに依存するエージェントは脆弱になります。また、UIレベルでは、過度に広範なアクセス権を与えずにエージェントを特定のアクションに制限することが難しく、制御の適用も困難です。監査証跡も劣ります。なぜなら、API呼び出しは通常明示的に記録できますが、UI自動化の痕跡は曖昧だからです。スキーマ検証も弱く、APIは入出力を正式に検証できるのに対し、UI自動化では困難です。

したがって、企業がエージェンティック・オペレーティング・モデルを真剣に構築するのであれば、APIを主要な経路とすべきです。UI自動化は、統合の近代化が完了していない場合に、明確な補完的制御(Compensating Controls)を伴って限定的にのみ使用されるべきです。

コントロールポイントとしての各エンドポイント

通常のアプリケーションにとって安全なAPIが、自動的にエージェントにとっても安全であるとは限りません。エージェントは異なるパターンで動作します。より速く、より頻繁に、そして時にはより自律的に動作します。そのため、エージェントが呼び出す可能性のあるすべてのエンドポイントは、コントロールポイントとして扱われる必要があります。

少なくとも4つの基本分野があります。第一に、パーミッション:エージェントは必要最小限のアクセス権を持つべきです。パイロットを迅速化するためだけに、広範なアクセス権を持つ汎用的なサービスアカウントを使用してはいけません。第二に、レート制限:エージェントは、特に不適切なループやリトライが発生した場合に、大量の呼び出しを生成する可能性があります。第三に、スキーマ検証:エージェントからの入力は厳格に検証されるべきです。ツールがcustomer_id、refund_reason、amountを期待する場合、ペイロードはスキーマに準拠している必要があり、曖昧な自由テキストであってはなりません。第四に、監査ログ:すべての呼び出しは記録されるべきです。これはセキュリティのためだけでなく、運用、インシデント調査、継続的改善のためでもあります。

エンタープライズの実践においては、APIゲートウェイやポリシーエンジンといったコンポーネントが非常に重要になります。APIゲートウェイは、認証、スロットリング、可観測性、ルーティングの管理を支援します。ポリシーエンジンは、エージェントが何かを「したい」と思っても、そのアクションがビジネスルールとリスク管理を通過することを保証します。

カスタマーサービスのエージェントが返金を処理したいと想像してみてください。健全な設計は、エージェントに完全な返金機能への直接アクセスを与えることではありません。より安全な設計は、エージェントが適格性確認(eligibility check)エンドポイントを呼び出し、ポリシーエンジンがしきい値と顧客履歴をチェックし、条件を満たせば少額の返金は制限付き自律(Bounded Autonomy)で処理され、一定のしきい値を超えるとシステムが自動的に上司の承認を要求し、すべてのステップが記録される、というものです。このパターンにより、APIは単なる技術的なコネクターではありません。それは、運用の規律を強制する安全な経路となるのです。

コネクターのリストではなく、ケイパビリティカタログ

ツールの数が増えるにつれて、企業は統合ドキュメント以上のものを必要とします。彼らはツールレジストリを必要とします。それは、どのようなツールが利用可能か、そのビジネス機能、誰が使用できるか、入出力スキーマ、対象システム、リスクレベル、読み取り/書き込みアクセスモード、依存関係、適用されるガードレールを説明する集中管理されたカタログです。

レジストリがなければ、オーケストレーターエージェントは、個別にハードコードされた統合に依存する傾向があります。これは1つか2つのユースケースであればまだ許容できるかもしれません。しかし、企業が複数の機能横断的なエージェントを持ち始めると、このアプローチはすぐに制御不能になります。

ツールレジストリは3つの大きなメリットをもたらします。第一に、ケイパビリティを実装から分離します。オーケストレーターは各統合の技術的な詳細を知る必要はありません。「POステータス確認」や「インシデントチケット作成」という名前のツールがあり、その入出力契約が整っていることだけを知っていればよいのです。第二に、適切なツールを選択するための基盤となります。実際のワークフローでは、複数のツールが似ているように見えても、スコープが異なる場合があります。レジストリは、コンテキスト、権限、リスクに適したケイパビリティを選択するのに役立ちます。第三に、インシデント発生時のコントロールポイントとなります。特定のツールに問題が発生した場合、企業はエージェントプラットフォーム全体を停止させることなく、そのツールを迅速に無効化または制限できる必要があります。

エンタープライズにとって有用なレジストリには、通常、ツール名と説明、ビジネスオーナーとテクニカルオーナー、対象システム、リスクカテゴリ、入出力スキーマ、パーミッションモデル、承認要件、レート制限とSLA、ツールバージョン、運用ステータス、監査と可観測性のフックが含まれます。

しばしば見落とされる組織的な含意があります。ツールレジストリができると、企業はデジタルケイパビリティをより明示的に見ることができるようになります。プロセスオーナーは、エージェントが実際にどのようなアクションを利用できるかを理解します。リスクオーナーは、ツールごとに自律性の限界を設定します。プラットフォームチームはライフサイクルを管理します。運用チームは、人間がエージェントと協働するためのトレーニングを行います。レジストリは、アーキテクチャをオペレーティングモデルに変換するのに役立ちます。これにより、エージェントに関する議論が抽象的ではなくなり、どのツールを誰がどのような条件下で使用できるのか、具体的になります。

最も頻繁に発生する誤り

多くのエージェントプログラムは、モデルが弱いからではなく、統合のパターンが最初から間違っているために失敗します。いくつかの非常に一般的なアンチパターンがあります。

エージェントに人間のようにUIへのアクセスを与えることは、おそらく最も頻繁に発生します。迅速さを求めて、チームはブラウザやデスクトップ自動化を通じてアプリケーションへのアクセスをエージェントに与えます。短期的には、デモは成功しているように見えます。しかし、本番環境では問題が発生し始めます。フローは脆弱で、アクセス権限は広範になりすぎ、UIの変更が自動化を破壊し、監査は困難で、デバッグにはコストがかかります。

読み取り専用ツールとアクションツールを区別しないことも問題です。すべてのツールが同じように扱われると、ガバナンスは混乱します。読み取り専用ツールには、より迅速に制限付き自律性を与えることができます。アクションツールは、リスク分類、承認ロジック、より厳格な可観測性を経る必要があります。

各エージェントへの統合のハードコーディングも頻繁に発生します。各チームがERP、CRM、チケッティングシステムへの独自のコネクタを構築します。その結果、重複、スキーマの不整合、不均一なアクセス制御、高いメンテナンスコストが発生します。これはエージェントスプロールへの早道です。

ランタイムでのポリシー適用を無視することも一般的です。多くの組織はドキュメント上でポリシーを設計しますが、それを実行経路に組み込みません。その結果、エージェントは技術的には、ポリシー上は制限されるべきアクションを実行できてしまいます。

ツールが失敗したときのフォールバックを準備しないことも危険です。ツール呼び出しは失敗します。APIはタイムアウトする可能性があります。スキーマは変更される可能性があります。対象システムはダウンする可能性があります。エージェントに明確なフォールバックがなければ、プロセスの途中で停止したり、制御不能なリトライを繰り返したりする可能性があります。

シンプルな原則

このトピック全体を一つの原則に要約するなら、その原則は次のとおりです。エージェントは、監査可能なインターフェースを通じてのみ行動を許可されるべきです。UIへの無制限のアクセス、広範すぎるサービスアカウント、明確なスキーマのないツール、記録されていない統合を通じて行動してはなりません。

監査可能なインターフェースとは、アイデンティティがあり、権限があり、入出力契約があり、ポリシー適用があり、ログ記録があり、可観測性があり、インシデント発生時の停止メカニズムがあることを意味します。

この原則が重要なのは、エージェンティックAIが最終的には、賢いAIではなく、企業の運営に参加できる信頼できるAIに関するものだからです。

CIOにとって、これは統合とAPI近代化のアジェンダがこれまで以上に戦略的になることを意味します。COOにとって、これはプロセスの再設計において、エージェントに開放する価値のあるアクションポイントを考慮する必要があることを意味します。CHROや変革リーダーにとって、これは人間の役割の変化が、どのようなツールが利用可能か、エージェントがどれほど安全に行動できるか、そしてどこで人間がコントロールポイントであり続けるかに大きく影響されることを意味します。

持ち帰るべき問いかけ:皆さんの会社のAPIと統合レイヤーの状況は、デジタル実行の経路となる準備ができていますか?それとも、依然として従来のアプリケーションのみを対象に設計されていますか?どの運用アクションが本当にエージェントに開放する価値があり、どれが人間の制御下に留まるべきですか?エージェントがツールとAPIを通じて日常的なアクションを引き継ぎ始めた場合、最前線のスタッフや管理者の役割はどこへ移行するのでしょうか?私たちは、エンタープライズ規模で拡張可能なエージェントを構築しているのでしょうか?それとも、制御がまだ手動であるために機能しているデモに過ぎないのでしょうか?