AIエージェントとは
ChatGPTの登場によって、ソースコードがプロンプトに変化したことで、ソースコードよりは少ない文字数で多くのことをコンピューターに伝えられるようになった。しかし、上手く伝えなければ上手く動いてくれない構造自体は変わっていない。
この構造を変化させるような、細かく指示を出さなくとも複雑な仕事をやり遂げてくれる仕組みが「AIエージェント」である。人間が何らかのゴールをAIエージェントに与えると、AIエージェントは自身でそのゴールを達成するためには何が必要なのかを考え、自身で1つ1つのタスクに分解し、利用可能なツールを駆使しながらゴールを達成しようと自律的に行動する。ChatGPTがあくまで指示待ちだとすれば、AIエージェントは自律型と言える。
AIエージェントの振る舞いは、まさに人間が仕事を進めていく時の所作そのものである。仕事を進めていくためには「タスクばらし」が大切である。「タスクばらし」とは、仕事に取り掛かる前にその仕事の要素を分解し、どのように進めるか道筋を立てることを指す。「タスクばらし」を行うことで、その仕事を終わらせるために必要なリソースや、発生しうるリスクについてあらかじめ検討することが可能になる。また、「タスクばらし」にはその人が仕事を進める上で大切にしているものや、価値観も表現される。この時に価値観のすり合わせを行うことによって、お互いが仕事をやりやすい状態、チームワークが発揮される状態を作っていく。
タスク駆動型と呼ばれるAIエージェントが人間からの依頼を進める際にも、「タスクばらし」と全く同じことが行われる。依頼に取り掛かる前に、まず依頼を達成するために必要なタスクを実行可能な単位に分解する。その上で、分解したタスクを完了させるためにはどのようなツールをどのように用いればよいのかを計画する。
最新の動きでは、AIエージェントが作業を完了した後に振り返りを行い、自己改善に取り組む仕組みも研究されている。この自己改善機構では、AIは行った作業から改善点を洗い出し、次に同様の依頼を受けた際にはどのようなアプローチを取るともっと品質の高いアウトプットが生まれるかを、ノウハウとして蓄積するのである。
AIエージェントを構成する4つの要素
多くのAIエージェントは次の4つの要素が相互に作用し合うことによって動作する。
①個性
私たちの年齢・性別・職業などといった基本情報や、性格・社会的な立場を表す。個性を定義する最も大きなメリットは、タスク実行時の役割が明確になることである。
②記憶
AIエージェントにもタスクを実行していくには「記憶」の要素が必要になる。記憶の仕組みを考える必要がある理由の1つは、AIエージェントのコアとして利用している大規模言語モデルでは一度に扱えるデータ量には制限があるからである。もう1つの理由は、その記憶が短期的な記憶なのか長期的な記憶なのかの区別がつかないと、今起こっていることなのか過去の話だったのかについての文脈判断を行うことが難しくなってしまうからである。AIエージェントには、重要なことは抽象化して記憶の蓄積を行うことで、過去の教訓を活かせるようにする機構が備わっている。
③計画
AIエージェントがタスクを達成するステップをどのように計画するかを決定する要素。そもそも、大規模言語モデルはタスク分解に特化したモデルというわけではない。そのため、より良い計画を行なっていくためには一定の工夫が必要である。
④行動
AIエージェントが取ることのできる行動を表す要素。AIエージェントもただ考えるだけではなく、外部の情報を検索して情報収集したり、必要な画像を作成するために画像生成AIを活用したり、ファイル解析に必要なプログラムコードを書いて実行したりといった具体的な行動の積み重ねによってタスクを達成する。
「行動」のバリエーションが多ければ多いほど、AIエージェントは多様な仕事に取り組める。「計画」では「行動」で使用できる手段を踏まえて、タスク達成のためのステップを計画する。
これらの4つの要素は、以下のように相互作用する。
- 個性 × 記憶:どのような優先順位で体験した物事を記憶すればよいかを判断する
- 記憶 × 計画:過去に何を経験したか、どのような行動が成功したのかなど踏まえて、計画を行う
- 計画 × 行動:実行可能な計画を策定するために、どのような行動を取るべきかを決定する
- 行動 × 個性:行動の結果を個性にフィードバックすることによって、パーソナライズする