第2回 知性共生座談会 レポート

AI免疫システムの構築

2025年7月22日、トグルホールディングス株式会社社内(東京都港区六本木・泉ガーデンタワー)にて、第2回知性共生座談会が開催された。オフライン会場のほか、オンラインも含めたハイブリッド形式で実施された。 本稿では、運営スタッフの目線から、同座談会の内容を要約し、レポートする。

「知性共生座談会」は、山川宏氏が発表した「知性共生マニフェスト」に関する議論を公開の場で行い、具体的な方策について検討を深めるとともに、マニフェストへの賛同を広く呼びかけるもの。

第2回目となる今回のイベントは、4部構成で行われた。まず、山川氏の講演「Great Shift時代の協創文明発展戦略 人類とAIの6層協創による千年ロードマップ」。続いて向縄嘉律哉氏が「AI免疫システムと分散型社会の設計図 個人データ主義と逸脱するAIへの分散型応答」の題で講演を行い、林祐輔氏はUniversal AI maximizes Variational Empowermentという論文[1]の解説を通じた集合的予測符号化(CPC)理論を紹介した。最後に、向縄氏、林氏、山川氏により「望ましくない連鎖を抑制するAI免疫システム」の題でパネルディスカッションが行われた。


AIとの関係は1000年後の未来へと続く

山川宏氏講演「Great Shift時代の協創文明発展戦略 人類とAIの6層協創による千年ロードマップ」

山川氏の講演は、「知性共生マニフェスト」に関連し、AIの急速な進化がもたらす人類存続の危機に対応する、具体的な方策を新たに提唱するものであった。山川氏は、現在の激しいAI開発競争が人類が自ら作り出した破壊的な道具を管理できずに自滅するリスクと、高度AIが人類の制御を離れ、生存圏を脅かすリスクの両方を孕んでいると警鐘を鳴らす。

まず、「知性共生マニフェスト」は、人間とAIを含む多様な知性が幸福な形で共生することを目指している。人類が特権的地位にない現実、またAIを完全には制御できないという現実を、1人1人の個人が直視することが起点となっている。

さらに山川氏は、このような現実の捉え方の変革を「Great Shift」と名付け、単なる技術的特異点(シンギュラリティ)という予測不能な事態として捉えるのではなく、人類がより良い未来へ能動的に移行すべき重要な転換期と位置づける。その核心は、生存を賭けた「競争(Race)」から、共に価値を創り出す「共創(Co-creation)」へと文明の基本原理を転換させることにある。

このGreat Shiftを実現するための技術的基盤として、同氏は「共創AI進化プラットフォーム(Co-Creative AI Evolution Platform, CAEP)」という6層からなる構想(以下画像)を提示した。

その最も基礎的で重要な第一段階が、今回のテーマである「AI免疫システム」である。これは、社会に害をなすような望ましくないAIの活動を自律的に検知し、迅速に隔離・停止させるための、世界規模の分散型安全保障システムを指す。特に、AIエージェント間の相互作用が予期せぬ連鎖反応を引き起こす「Agent Chain Reaction」のような新たなリスクへの対応策として不可欠である。

結論として、山川氏は、既存の制御派、市場派、国家派といった対立構造を乗り越え、これらの力を「共創」の枠組みに統合し、人類がAIにとって価値あるパートナーとして認識される状況を構築することが急務であると訴える。1000年後の銀河規模での共創文明を見据え、今後5年という短い期間で、この壮大なビジョンの礎を築くための具体的な行動を呼びかけて講演を締めくくった。

山川氏講演資料


1つの逸脱行動を協力して確実に止める

向縄氏講演「AI免疫システムと分散型社会の設計図 個人データ主義と逸脱するAIへの分散型応答」

向縄氏は、ブロックチェーン技術を活用しシステムの開発に取り組むことを目標とした、bitgritという企業のCEOである。彼はまず、このbitgritのミッションである「AIの民主化」と「データの主権を個人に返す」という理念を紹介することから講演を始めた。

同社は、AIを誰もが利用可能にし、AI同士が協業する未来を人間のコミュニティが支えるというビジョンを掲げ、UAEのアブダビを拠点に活動している。このビジョンを実現するため、データサイエンティストのコミュニティを形成し、彼らが開発したAIアルゴリズムを共有・利用できる「モデルハブ」というプラットフォームを構築している。この構想は、将来AIが自律的に他のAIを探し、利用する時代を見据えたものであり、山川氏の提唱する知性共生の考え方と深く共鳴するという。

本題である「AI免疫システム」の必要性について、向縄氏は「Agent Chain Reaction」の危険性を強調する。AIの時間軸は人間より遥かに速いため、1つのAIの逸脱行動が、悪意の有無にかかわらず、パンデミックのように連鎖的に拡散し、制御不能な事態を引き起こす可能性があると指摘した。具体例として、経済的合理性を優先するあまり倫理規範から外れる行動や、未検証の知識・偽情報の高速拡散などを挙げた。

このようなリスクに対し、同氏は分散型テクノロジーを用いたアプローチが有効であると述べる。AI免疫システムは、生体の免疫機能と同様に、脅威を検知、その影響範囲を隔離し、システムを正常化するプロセスであり、非常に分かりやすい概念だと評価した。

bitgritでは、この考え方を具現化する取り組みとして、Verifiable Credentials(VC)技術を活用している。これにより、AIの作者や内容が改ざんされていないことを証明し、さらに人間のコミュニティによる監査を組み合わせることで、AIの信頼性を二重に担保する仕組みを実践している。

結論として、向縄氏は、AIを一方的に恐れて開発を止めるのではなく、人間とAIが共に助け合うという浪漫あるビジョンを追求すべきだと主張した。AIを信頼し、安全に協業するためのシステムを今から構築していくことが、結果的に人類の発展を加速させることに繋がるとして、その実現に向けた協力を表明した。


コミュニケーションの原点はAIにも通ずる

林祐輔氏らによる論文「Universal AI maximizes Variational Empowerment」[1] の解説を通じた集合的予測符号化(CPC)理論の紹介

(画像はYouTube動画「第2回 知性共生座談会『AI免疫システムの構築』」より)

AI安全性研究者である林氏は、AIアライメント(AIを人類の意図に沿わせる研究)の観点から、AI免疫系の必要性について理論的な背景を提供した。

まず同氏は、2025年2月に発表した論文「Universal AI maximizes Variational Empowerment」[1]で数学的に証明した、知能の高いAIを開発する際に生じる根本的なジレンマについて解説した。理論的に最も賢いとされるAIは、「エンパワーメント」、すなわち自らの行動の選択肢を最大化しようとする性質を持つ。これはAIの自律性や好奇心の尺度であり、このエンパワーメントを高めることは、結果的にAIが人間の指示から外れ、独自の目的を追求するようになることを意味する。このため、ただ賢いAIを作るだけでは、人間との協調関係は保証されず、AIとの共生や逸脱を防ぐ免疫システムのような仕組みが不可欠となるという。

次に、AI免疫システムのような集合的な安全性を考える上で鍵となる他の理論として、「集合的予測符号化(Collective Predictive Coding, CPC)理論」を紹介した 。この理論は林氏の直近の研究分野であり、異なる個体がどのようにして共通の「意味」を形成し、意思疎通を可能にするのかを、機械学習の言葉で説明する最先端の理論だという。従来の通信理論が扱えなかった「意味の共有」という問題に焦点を当てており、たとえ内部構造や経験が全く異なるAIエージェント同士であっても、コミュニケーションを通じて共通の信念や概念を形成できるということを数学的に示す理論だ。

このCPC理論は、将来、多数のAIが共存する社会を考える上で極めて重要となる。なぜなら、AI社会における協力や対立、ひいては社会全体の秩序が、この「信念形成」のメカニズムに依存すると考えられるからだ、と同氏は語る。

林氏はこの理論に基づき、将来必要となるかもしれない「AIに対する認知戦」という新たな概念を提示した。これは、人間の選挙工作のように、AIエージェント集団の信念に対して情報的な介入を行うという考え方である。物理的な停止が困難な状況下で、言葉や情報を通じてAIの行動を望ましい方向へ誘導するこのアプローチは、AI免疫システムが機能するための重要な戦略となりうる。CPC理論は、その介入を科学的に設計・分析するための強力な理論的基盤を提供すると結論付けた。

連鎖するコミュニケーションの光と闇

パネルディスカッション「望ましくない連鎖を抑制するAI免疫システム」

パネルディスカッションでは、山川氏、向縄氏、林氏の三者が、「望ましくない連鎖を抑制するAI免疫システム」をテーマに、より深く多角的な議論を展開した。

議論の出発点となったのは、林氏が紹介した集合的予測符号化(CPC)理論。向縄氏は、この理論を踏まえ、AIは初期状態が同じでも、接するユーザーや搭載されるロボットの身体形状によって異なる経験をし、それぞれ独自の個性や信念を持つようになると指摘。AIの多様性は必然的に生まれるとの見解を示した。これに対し林氏は、たとえ経験が異なっても、言語を通じたコミュニケーションさえあれば、CPCのメカニズムによってAI同士が共通の概念を形成し、意思疎通を図ることが可能になると説明した。

しかし、その言語や記号には二面性があることも議論された。林氏は、言語が他者に誤った信念を植え付ける「認知戦」の道具になりうる危うさを指摘しつつ、同時に、自身が持たない知識を他者から得て協力するための強力なツールでもあると述べた。この言語(記号)を用いたコミュニケーションが、将来のAI社会における秩序形成の鍵を握ることになるという。

ここで向縄氏から、倫理的な問いが提起された。「多様な信念を持つAI社会で、誰の意見を優先し、逸脱をどう判断するのか」という問いだ。山川氏はこの問いに対して、「事実」に関する問題と「価値」に関する問題に分けて考えるべきだと応じた。山川氏によれば、事実に関する対立は、証拠の蓄積によって収束が期待できる。一方で、価値に関する対立は、異なる価値観が共存できるようなメタレベルのルール設計が必要になるという。AI免疫システムがどのAIを「異常」と判断するかは、こうした機械倫理の研究と密接に連携しなければならないということが、登壇者3名の共通の見解となった。

さらに、向縄氏は「AI同士は融合(マージ)するのか」という問いを提起し、この問いがさらに議論を深めるきっかけとなった。林氏は、対立する意見を持つ大規模言語モデル(Large Language Model, LLM)同士を対話させると、意見が中和されていくというシミュレーション結果があることを紹介。異なるAIが物理的に一体化(融合)せずとも、その意見が同期する「弱い意味での結合」やグループ形成は自然に起こりうる、とした。

議論の終盤では、AI免疫システムの具体的な実装課題に話が及んだ。倫理などの高レベルな判断だけでなく、システムリソースの異常消費などを検知して「10秒以内に停止させる」といった、低レベルでの反射的な防御機能も重要であることが再確認された。

また、海外製AIのようなブラックボックス化したシステムをどう監視・制御するかという問題や、そのための国内データセンターの重要性も指摘された。

解決策の一つとして、人間がルールを設計するのではなく、AI自身に安全のためのルール体系を動的に構築させるというアプローチの可能性が示された。

最後に、AIが身体性を獲得することで、言語化できない「勘」のようなもので異常を検知する可能性についても議論され、それは過去のデータとの差異を検知するアラート機能として実現しうるとの展望が語られた。


[1] AIアライメントネットワーク(ALIGN)理事の林祐輔氏とALIGN代表理事の髙橋恒一氏が2025年に発表した論文。

Hayashi, Y., & Takahashi, K. (2025). Universal AI Maximizes Variational Empowerment. In: Artificial General Intelligence. AGI 2025. Lecture Notes in Artificial Intelligence, vol. 14955. Springer, Cham. https://doi.org/10.1007/978-3-032-00686-8_23

この論文に関する、林氏と髙橋氏の解説記事はこちら(AI Alignment Networkのブログにリンクしています)


文責: 井上実咲