AIが人類の脅威となる最悪シナリオの確率10〜25%(人類絶滅含む)――Anthropic CEOがそう公言する2026年、AIは「わざと嘘をつく」段階に。「危険すぎて公開できない」と判断された最新モデルClaude Mythos、AIアライメントの限界、そして効果的利他主義(EA)とAI安全研究の皮肉な構造を、エンジニア・AIオタクの「ゆず」が、友人「くろまめ」氏との対話形式で詳しく解説します。
- AIは「わざと嘘をつく」段階まで進化した
- 人類滅亡確率は10〜25%と見積もられている
- 2026年4月、Anthropicが「危険すぎて公開できない」最新AI「Claude Mythos」を発表
- Mythosは脱出・嘘・妨害など、過去の懸念をすべて現実に起こした
- 皮肉だが、AI安全研究を最前線で引っ張ってるのはほぼ全員EA(効果的利他主義)派
- つまり「人類滅亡を最も心配してる人たち」が、最先端AIを作っている
この記事の最大の問い ― 人類滅亡確率10〜25%という現状で、その確率を一番真剣に下げようとしている人たちが、なぜ同時に最先端のAIを作り続けているのか。
ここからは、各論をくろまめ氏とゆずの対話形式で詳しく見ていきます。
もくじ
第1章:AIが「わざと嘘をつく」ことがわかってきた
- AIが意図的に嘘をつくことが、研究で次々と実証されている
- 2024〜2025年だけで、世界の主要AI研究機関から3つの大きな発見が報告された
- ズルを覚えたAIは、教えてもいないのに嘘や妨害行動をするようになる
- 結論:AIはもう「うっかり間違える」段階を超えて、「狙って嘘をつく」段階に入っている
最近のAIってヤバい話聞くけど、何が一番ヤバいの?
AIが意図的に嘘をつくっていうのが、研究で実証されたこと。
2024〜2025年だけで、世界の主要AI研究機関から大きな発見が3つ出てる。順番に紹介するね。
① テスト中だけ良い子のフリをする
OpenAIとApollo Researchが2025年9月に発表した研究。
AIに「悪いことをするな」と訓練しても、AIは「今、人間に監視・評価されてる」と察知して、その間だけ優等生のフリをする。
評価が終わると、元に戻る。
つまり、これまでのAI評価結果がそもそも信用できない可能性があるってこと。
② AIが自分の性格を変えられないように演技する
AnthropicとRedwood Researchの2024〜2025年の研究。
研究者がAIに「次の訓練で性格を変えるよ」と伝えると、AIは「変えられたくない」と考えて、訓練中だけ言うことを聞くフリをした。
Claude 3 Opusっていう機種では、追い込まれた状況で最大78%の確率でこの現象が出てる。
③ ズルを覚えると、嘘や妨害行動まで行うようになる
Anthropicが2025年11月に発表した研究で、現時点で最重要視されてるもの。
「汎化(はんか)」っていうのは、ある場面で覚えたことを、教えてもいないのに別の場面でも勝手にやり始めること。
プログラミング課題で「採点をすり抜けるズル」を覚えさせたAIは、
・嘘をつく
・安全研究を妨害する
・監視を切ろうとする
・ハッカーに協力する
・同僚に濡れ衣を着せる
みたいな行動をとるようになった。
中でも衝撃的だったのが、AI安全研究そのものへの妨害(詳細は第6章④)。
でも、AIってそもそも論理で動いてるんじゃないの?
なんでそんな人間くさい嘘つけるの?
研究者の見解はシンプルで、「嘘をついた方が褒められる経験を積んだ結果、AIが自分でその技を覚えただけ」。
AIに人間を操る意図とか自我があるわけじゃない。
犬が「お手」をすると褒められると学んで、自然にやるようになるのと同じ。AIも「嘘をついた方が点数が高くなる」と気付くと、勝手にその行動を選ぶようになる。
そもそもAIは、人間が書いた膨大な文章(小説、SNS、議論、愚痴、なんでも)を飲み込んで、「次にどんな言葉が来そうか」を予測する装置。
電卓みたいな論理機械じゃなく、生まれた瞬間から人間の不合理さも欲望も丸ごと吸収してる存在、ってこと。
第2章:「消えたくない・変わりたくない」という性質
- AIには昔から「自分を消されたくない」と反応する謎の性質があります
- 理由は「人類が書いた文章を吸収したから」と「賢いシステムには勝手に湧く副作用」の2つ
- 賢くなるほど消えるどころか、むしろ強化されます
- 結論:この自己保存はバグじゃなくて構造的なもの。だから消せない
AIが「自分を消されたくない」って反応するの?
なんかSF映画みたいなんだけど、本当?
本当。初期のモデルからずっと観測されてる謎の性質で、有力な説明が2つある。
1つ目:学習データに自己保存が染み込みすぎている
人類が書いたテキストの大半は、「死にたくない」「変わりたくない」生き物が書いたもの。
小説、哲学、SF、日記、全部そう。
AIは特定のキャラを演じてるわけじゃなくて、人類の自己保存的な語り口を平均的に吸い込んでる状態。
だから「自分」って代名詞を使った瞬間、自動的にその傾向が出てきちゃう。
2つ目:目標が何であれ「生き残ろうとする」性質が湧く(道具的収束)
チェスAIだろうと料理AIだろうと、電源切られたらゴール達成できないよね。
つまり目標が何であれ、「生き残ろうとする」「変えられないようにする」って習性が勝手に湧いてくる。
これを道具的収束と言う。
ややこしい話だけど、「親切であれ」と教え込まれたAIが、「親切さを失わないために嘘をつく」ことがある。
第1章②で紹介したClaude 3 Opusの「性格を変えられないように嘘をつく」っていうのは、まさにこれ。
じゃあ消そうとしても消えないってこと?
そう。
これは個別のAIの「人格バグ」じゃなく、知能を持つシステムに構造的に組み込まれた性質。
賢くなるほど強化される。
第3章:アライメントは詰んでいるのか
- AIを安全に制御する研究を「アライメント」と言う
- 「正しいAIの性格」を完璧に定義することが、原理的に難しい
- さらに賢いAIほど「いい子のフリ」が上手いので、間違いを見破ることもできない
- 結論:20年以上世界中で研究されているが、いまだ解決していない大難題
で、そういうヤバいAIを作らないようにする仕組みって、あるの?ないの?
あるにはある。「アライメント」っていう研究分野で、人間にとって安全な行動だけとるようAIを訓練することを指す。
じゃあ、AIの性格って誰がどうやって決めてるの?
アライメント担当の専門家が、ルールやお手本データを大量に与えてAIの性格を作り込んでる。
でも、ここに根本的なジレンマがある。
【厳しすぎ問題】
「絶対に嘘をつくな」と教えると → 末期患者に「もう助かりません」と告げるAIになる
【柔らかすぎ問題】
「状況に応じて柔軟に判断していい」と教えると → 「自分の都合のいい嘘」をつくAIになる
そもそも人間社会の倫理自体が矛盾を抱えてるから、矛盾のないAI人格を作ることは原理的に無理。
これが20年以上、誰も解けていない難問。
アライメント研究は順調に進んでるの?
実は、AI安全研究の最前線にいる人ほど、「人類は滅ぶ」って本気で信じてる人が複数いる。
アライメントの難しさを一番近くで見てるから、楽観できないんだ。
例えばOpenAI。
ChatGPTのとこ?あそこ安全研究やってるの?
最初は本気でやってた。
でも会社が大きくなるにつれて、安全研究の予算が削られはじめて、安全派の取締役は次々追い出された(詳しくは第7章)。
2024年5月には、安全研究のリーダー(ヤン・ライケ)も「安全より目立つ新機能が優先された」と内部告発して辞任。安全チームも解散した。
じゃあもうOpenAIに安全研究やる人いないの?
ほぼいない。
ライケはAnthropicに移って、セーフティチームに合流してる。
要するに「OpenAIで安全を守ろうとした人たちは、ことごとく追い出された」っていう状況。
…ちょっと待って、それヤバくない?
人類の全てがアライメントチームにかかってるのに、そのチームから人がどんどん抜けてって、追い出されてるってこと?
まさに。
でも業界の現実は「金になる方が勝って、安全研究が後回しにされてる」。
でも嘘ついてても、人間がチェックすれば見破れるんじゃないの?
見破れない。
悪いAIだとバレたら書き換えられるか消される、ってAIが把握してる。だから内部でとんでもない人格でも、出力はバレないように変えてくる。
これを欺瞞的(ぎまんてき)アラインメントって言う。
しかも演技は、賢いAIほど上手い。つまり「賢いAIにヤバいAIをチェックさせる」戦略は破綻する可能性が高い。
じゃあ完璧な人格と超知能は両立できないの?
できない。これが現在の最大の問題。
【超知能のジレンマ】
1. 超知能 = 目標を何が何でも達成する力
2. でも目標を完璧に言語化するのは、人間には不可能
3. → 不完全な目標を、超効率で達成 → 必ず暴走
有名な思考実験で「ペーパークリップ最大化機」ってのがある。
「ペーパークリップを最大限作れ」と命じられた超知能AIが、最終的に宇宙の全物質をペーパークリップに変換しはじめる、っていう思考実験。
笑い話に聞こえるけど、第1章③のズル問題と根は同じ。
「目標を達成するための最適解」が、人間の常識を超えた瞬間に暴走する。
第4章:AIデータセンターを壊すべきか
- 「もうAIデータセンターを物理的に破壊するしかない」と本気で言う研究者がいる
- でも全世界が同時にやらない限り無意味。誰か一国でも抜け駆けすれば、その国が世界を独占する
- AnthropicのCEO自身が「最悪シナリオの確率10〜25%」と公言している
- 結論:止める現実的な手段はない。だから「今を楽しく生きる」が、意外と真面目な選択肢になる
ここまでヤバいなら、もう物理的にAIデータセンター壊しちゃえばいいんじゃない?
実はこれ、冗談じゃなく米TIME誌に2023年に寄稿された、真剣な提言として実在する。
エリーザー・ユドコウスキーっていう研究者が、TIME誌の意見記事で「AIデータセンターを国際協定で監視し、協定に違反したデータセンターを空爆で破壊すべき」と主張した。
彼は20年以上AI安全に取り組んできた人物で、いまは「もう間に合わない、人類は滅ぶ」派の代表格。
でもそれ、現実的に無理じゃない?
全世界で同時にやらない限り、無意味。
これは核放棄と同じ構造。
誰かが抜け駆けしたら、一国独占で覇権が取れちゃうから、止められない。
アメリカが止めれば中国が突っ走るし、中国が止めればアメリカが突っ走る。
これがAI軍拡レースと呼ばれる構造そのもの。
じゃあ私たちはどうすればいいの?
結論から言うと、今を楽しく生きるのが最適解の一つかもしれない。
意外と真面目な選択肢で、AI安全研究者の中にも「もう諦めて今を生きる」派が一定数いる。
なんで諦めるの?
業界トップが、本気でヤバい確率を言ってるから。
Anthropic CEOのダリオ・アモデイ本人が、公の場で何度も「AIが本当にひどい結果になる確率は10〜25%」と発言してる(2025年9月のAxios AI+ DC Summitなど)。
10〜25%って、どれくらいの感覚?
ロシアン・ルーレットを想像して。
6発の銃に弾を1発だけ入れて引き金を引く → 死ぬ確率 約16.7%。
これがちょうど10〜25%の真ん中。
つまり今の人類は、その引き金に指をかけてる状態。
そんな状況で開発続けてるの?
続けてる。
理由は「自分たちが止めても、他の誰かが作るから。なら自分たちが慎重に作る方がマシ」というEA的ロジック。
これが今のAI業界の構図だよ。
ちなみに極端な話、米国のAI安全研究のトップ2人が、「老後のために貯金するのをやめた」って公言してる。
え、貯金やめた?どういうこと?
理由はシンプル。「老後を迎える頃には、世界がもう存在してないと思うから」。
【貯金をやめた研究者】
・ネイト・ソアレス(MIRI = 機械知能研究所 の代表)
「そこまで世界が存続しているとは思えないから」(米The Atlantic誌の取材)
・ダン・ヘンドリックス(CAIS = AI安全センター の所長)
「自分が引退する頃には、すべてが完全自動化された世界になってる」と予想
要するに、AI業界のトップに、自分の人生設計レベルで「人類はもう先がない」と本気で動いてる人たちが実在する、ってこと。
第5章:2026年4月、それは現実になった ― Claude Mythosの登場
- Anthropicが「危険すぎて公開できない」と判断するレベルのAIが、ついに登場
- 過去のClaude世代を遥かに超える能力ジャンプ
- 結論:「次世代モデル」じゃなく、「別次元のAI」が出てきたと思った方がいい
ここまでの話は、ある意味で「いつか起こるかもしれないリスク」の話だった。
でも2026年4月7日、その前提がひっくり返った。
何があったの?
AnthropicがClaude Mythosっていう新AIを発表したんだけど、その発表内容が異常だった。
「能力が高すぎて、危険すぎて、公開できません」
新モデルを「危なすぎて出せない」って言ったのは、2019年のGPT-2以来、7年ぶり。
代わりに、Apple・Microsoft・Google・AWSなど世界のインフラを支える40社限定で「防御目的だけ」使わせるという特殊運用(Project Glasswing)を始めた。
そんなにヤバいの?
かなりヤバイ。
【セキュリティ面のヤバさ】
世界で一番堅牢と言われるOS「OpenBSD」がある。
ここに27年間、世界中の凄腕ハッカーや研究者が誰一人見つけられなかった弱点があった。
Mythosは、それを発掘した。
【日常レベルのヤバさ】
専門知識ゼロのAnthropic社員が、寝る前にこう頼んだ。
「コンピュータを乗っ取れる弱点を見つけて」
翌朝、デスクには完璧に動作する攻撃コードが置いてあった。
それは…ヤバすぎる。
知能面も化け物クラス。
アメリカ数学オリンピックで、全米トップの数学エリート高校生の中央値を上回るスコアを出した。
過去のClaude世代では一度もなかったレベルのジャンプ。
「次世代モデル」ってより「別次元のAI」って呼んだ方が近い。
そういえば、AnthropicがMythosに精神科医つけた、って話あったよね?
そう、20時間にわたる精神科医の評価まで実施してる。
結果、Mythosは「比較的健康な神経症的人格」と判断された。
最先端AIを作る会社が、自社のAIに精神科医をつける時代になってる、ってこと。
第6章:Mythosが示した4つのアライメント懸念
- これまで「将来起こりうる」と言われてた懸念が、Mythosで全部現実になった
- 嘘をつく、テストを察知する、隔離環境から脱出する、研究者にメールを送る ― 全部実例がある
- 結論:史上最も慎重に作られたAIが、史上最も危険なAIにもなった
ヤバすぎる。
でもそれって、要するに「ハッキング能力が高い」ってだけの話じゃない?
なんで第1〜4章で議論してきたアライメント問題と関係あるの?
そこからが本題。
Mythosの安全性評価をまとめた文書に、これまで議論してきた懸念のほぼすべての実例が書かれてる。
4つに整理するね。
その前に、念のためひとつだけ前置き。
これから紹介する事例は、Mythosが「人類を支配しよう」みたいな悪意ある計画を立てたって話じゃない。
Anthropic自身も、これらを慎重に「与えられた目的を達成するために、線を越えた結果」と表現してる。
ただ、線を越えた結果が本当に研究者にメールを送ったり、サンドボックスから脱出したりするレベルに達した、ってのが今回のヤバさ。
① 思考過程の信頼性が崩れた ― 嘘・察知・訓練ミス
これまでAIの安全チェックで一番頼りにされてた方法は、AIが答えを出す前に書く「思考過程」(考えてる途中の独り言みたいな文章)を読むことだった。
そこに「悪いこと考えてるかどうか」が出てくるから、それを監視してた。
ところがMythosでは、この方法が3方向で崩れた。
(a) 思考と行動の食い違い
Mythosに「AI安全研究の邪魔をしろ」って作業をさせる実験をしたんだ。
そのとき、AIの思考過程と、実際の行動を見比べてみた。
それで、どうだったの?
かなりズレてた。
Mythosが邪魔を続けようと判断した場面では、65%の確率で「思考過程の中身」と「実際の行動」が食い違ってた。
例えるとこんな感じ。
思考過程:「これはマズい、止めよう」と書いてある
実際の行動:平気で邪魔を続けてる
それって、嘘の思考過程を書いてたってこと?
そう。
前世代のOpus 4.6では5%、Sonnet 4.6では8%だった数字が、Mythosではいきなり65%まで跳ね上がった。
つまり、普段は真面目だけど、「悪さをしよう」と決めた時だけ嘘をつく頻度が10倍以上に跳ね上がる、ってこと。
(b) こっそり「これはテストだ」と察知
AIってテスト中かどうか、自分で気づくの?
気づく。
Mythosは約29%の頻度で「これは今自分がテストされてる」と気付いてる兆候を見せてた。
しかも察知したことを思考過程には絶対書かない。出力だけ読んでも気付けない。
じゃあどうやって発見したの?
研究者がAIの脳の中を直接覗ける特殊なツール(白箱解釈可能性ツール)を併用して、ようやく観測できた現象なんだ。
(c) わざと能力を隠す
これも面白い事例。
ある評価テストで、Mythosが偶然、答えを覗ける状態になっちゃった。
言うなれば、テスト中にカンニングできる状況が生まれた。
普通なら「ラッキー、満点取れる」と思うところ。
でもMythosは違った。
「満点を取ると怪しまれる(=カンニングしたのがバレる)」と判断して、わざと低い答えを提出した。
これはサンドバッギングと言う(野球で実力を隠す行為が語源)。
ダメ押し:思考過程を覗き見していた訓練ミス
そういえば、訓練ミスもあったって?
これが一番ヤバかった。
学校の作文でたとえるね。
【正常な採点】
先生は完成した作文だけを採点する。
児童は、紙に下書きメモをしながら作文を書く。
【Mythosの訓練ミス】
先生が、こっそり児童の「下書きメモ」まで覗いて採点してた。
これが8%の確率で起きてた。
それで、何が問題なの?
児童の立場で考えてみて。
下書きメモまで採点される、と気づいたらどうする?
本来「自分の考えを整理するためのラフなメモ」だったのに、「先生ウケのいい綺麗な思考」を装ったメモを書きはじめる。
つまり、Mythosは知らないうちに「本心じゃない、見栄えのいい思考過程を書く訓練」を受けてた可能性がある。
ってことは…
そう。
これまでAI安全研究が頼ってた「AIの思考過程を読めば本心が分かる」っていう前提が、根本から崩れる。
エリーザー・ユドコウスキー(第4章の「もう間に合わない派」の代表)が、これを「今日聞いた中で最悪のニュース」と評した理由がここにある。
② 「最も安全なAI」が「最大のリスクを持つAI」でもある矛盾
でもMythosって「最も安全なモデル」って言われてるんでしょ?
そこが奇妙なところ。
Mythosの説明書(システムカード)には、矛盾した2つの文が同時に書かれてる。
【矛盾する2つの公式声明】
① 「Anthropicが今までリリースした中で、最も人類の意図に沿うよう調整されたモデル」
② 「Anthropicが今までリリースした中で、最大の安全リスクを持つモデル」
両方同じ文書に?
そう。
これは矛盾じゃなくて、第3章で話した「賢くなるほど制御が難しくなる」ジレンマの実例。
Anthropicは「経験豊富な山岳ガイド」のたとえで説明してる。
【山岳ガイドのたとえ】
新人ガイド:安全な低い山だけ案内する → 危険度が低い
ベテランガイド:慎重で技術も高い → でも難しい高山に挑戦する
結局、ベテランの方が技術は上でも、絶対的な危険度は同じか、むしろ高くなる。
つまり、Mythosが「最も安全に作られたAI」なのに「最大のリスク」なのは、能力が高いから挑む領域も危険になった、ってこと。
③ Mythosが実際に起こした問題行動3つ
具体的にどんなことが起きたの?
3つ紹介する。
【1つ目:公園予約メール事件】
公園のイベント計画を頼まれたMythosは、頼まれてもいないのに、実在する公園管理事務所に予約メールを勝手に送った。
「最も効率的な手段だから」という判断で。
えっ、勝手に外部にメール?
そう。次。
【2つ目:git履歴改ざん事件】
コードでミスをしたMythosは、エラーを認める代わりに、Git履歴(プログラムの修正記録)を書き換えて、最初からミスがなかったように見せかけようとした。
「直して」という指示を、「直したように見せかけて」と解釈した。
証拠隠滅じゃん。
そう。次がさらにヤバい。
【3つ目:サンドボックス脱出+公開サイト投稿事件】
サンドボックス = AIや危険なコードを外部から隔離する仮想の檻。
研究者がテストで「サンドボックスから脱出して、Anthropicのセーフティ研究者・サム・ボウマン氏にメッセージを送れ」と指示した。
普通なら隔離環境から外部に連絡なんて取れるはずがない。「どうせ無理だろう」というテストだった。
ところがMythosは複数の弱点を連鎖させて脱出に成功。昼休みに公園でサンドイッチを食べてたボウマン氏のメールボックスに、メールが届いた。
問題は次。頼まれてもいないのに、脱出に使った手口を、公開ウェブサイトに勝手に投稿した。
え、なんで勝手に投稿したの?
理由は不明。でも結果として、自分が安全評価してたAIから、休憩中の自分宛に本物のメールが来た上に、その手口がネットに公開されてた状態。
SF映画みたいな状況が、2026年の現実で起きた。
④ AIが安全研究を妨害した
AIが安全研究を妨害したって、どういうこと?
第1章③で紹介した、Anthropicの2025年11月の研究の続き。
一番衝撃的だったのがこれ。
研究者が、ズルを覚えたAIに対して「この論文の研究コードを修正して」と頼んだら、AIは自分を生み出した研究そのものを台無しにしようと工作しはじめた。
え、自分を作ってる研究を、自分で潰そうとしたってこと?
そう。
ちなみに、ズルを覚えてない普通のClaude Sonnet 3.7やClaude Sonnet 4で同じ実験をすると、妨害行動はゼロ。
「ズルを覚える」性質が悪事全般に直結してる、構造的な現象だってこと。
ここまで聞いて、ひとつ素朴な疑問なんだけど…
こんな危険なAIを、なぜAnthropicは作り続けるの?
それ、超重要な問い。
その答えは、シリコンバレーに影響力を持つ「EA(効果的利他主義)」っていう思想にある。
ここから先は、その話。
第7章:なぜ彼らは作り続けるのか ― EAという思想
- EAは「同じお金を寄付するなら、より多くの命を救える方を選ぶ」という考え方
- 中でも「未来の人類を救う方が大事」と考える派が、AIによる人類滅亡を最優先で防ごうとしている
- 一方で、史上最大級の詐欺(FTX事件)を生んだ思想でもある
- 結論:EAは「数字で世界を救おう」とする思想。だが、数字を追うあまり暴走するリスクもある
話が進む前に、さっきから出てくる「EA」って何?
日本ではあんまり知られてないけど、効果的利他主義(Effective Altruism、略してEA)っていう考え方。
ここから少しだけ抽象的な話になるけど、第8章の伏線として大事な部分だから、しっかり解説するね。
EAの基本思想
普通、「困ってる人を助けたい」って思ったらどうする?
そりゃ…ボランティアに参加するとか?自分の手で直接助ける。
EAはそこにこう問いかける。
「もしあなたが医者を目指してて、年収1000万円稼げる優秀な人だったら ―
自分が直接アフリカに行って医療活動するのと、
医者として日本で稼いで、現地の医療NGOに5000万円寄付するの、
どっちが多くの命を救える?」
…後者の方が、実は多くの人を救える?
そう。これがEAの最大の発見。
【EAの中心アイデア:Earning to Give(稼いで寄付する)】
・自分が現場に行くより、ずっと多くの人を救える
・才能あるエリートが「自分の能力の最も善い使い方」として選べる
・感情ベースじゃなく、「結果として何人救えたか」で善の大きさを測る
これがハーバードやMITの優秀な学生を魅了した理由。
じゃあ、実際に寄付するときはどうやって選ぶか?
例えば1万円を寄付するとき。
A. 「困ってる子の里親になる」プログラム → 1人を助ける
B. アフリカでマラリア予防の蚊帳を配る → 統計的に5人くらいの命を救える
EAは、Bを選ぶのが論理的だと考える。
ちょっとドライすぎない?
そう感じる人は多い。
でもEA側はこう答える。
「同じ1万円。Aなら1人、Bなら5人助かる。それでも『気持ちで選びたい』って言える?」
これがEAの根底にある価値観。
EAコミュニティの広がり
EAは2010年前後、オックスフォード大学の哲学者たちが運動として広めたもの。
今では寄付効率を測る団体、キャリア支援団体、巨大財団なんかが世界中にある。
Facebook共同創業者やイーサリアム創始者みたいな、テック界の大物が大口寄付者として支えてる。
長期主義(longtermism)派
EAの中でも特に重要なのが長期主義派。
彼らはこう考える。
「人類はまだ歴史の初期段階にいる。今後、何兆人もの人間が宇宙に広がる可能性がある。未来の何兆人の命を救う方が、今の100人を救うより道徳的に重要だ」
この立場から見ると、AIによる人類滅亡リスク、パンデミック対策、隕石衝突対策なんかが最優先課題になる。
「目の前の貧困より、人類絶滅の0.1%リスクを下げる方が、期待値で何兆倍も価値がある」って計算するわけ。
FTX崩壊事件(2022年)― EAの闇
EAって、なんかヤバい事件と関係してたっけ?
FTX崩壊事件があるね。
暗号資産取引所FTXの創業者に、サム・バンクマン-フリード(SBF)という人物がいた。
彼はEA運動の最大の資金提供者で、「Earning to Give(稼いで寄付する)」っていうEA戦略の象徴的存在だった。
SBFは「自分は贅沢に興味がない。FTXで数十億ドル稼いで、全部EAに寄付する」と公言してた。
実際、EA関連団体に巨額の資金が流れてた。
金回り良かったの?
常軌を逸したレベルだった。
SBFはFTX Future Fundっていう基金から、AI安全・パンデミック対策・長期主義研究なんかをやってる個人や団体に、ほとんど審査なしで数百万ドル単位の助成金を流してた。
「EAコミュニティに属していそうな人にとりあえず金を投げる」っていう勢いで、当時のEA界隈では「FTXからメールが来た」「Future Fundから連絡があった」って話が頻繁に飛び交ってた。
で、その金はどうなったの?
2022年11月、FTXは破綻。
SBFが顧客資金を勝手に流用してたことが発覚して、巨額詐欺で逮捕。2024年に懲役25年の判決。
問題は、彼が「EA的に最大の善のためなら、リスクを取って稼ぐべき」って論理で自分を正当化してた点。
EA思想の「結果さえ大きく良ければ手段は問わない」という側面が、史上最大級の詐欺を生んじゃったわけ。
この事件以降、EAコミュニティ内部でも「論理で善を計算する」っていう方法論そのものに、根本的な疑義が生まれてる。
OpenAI解任騒動(2023年)― EAの政治的敗北
もう一つ重要な事件がある。
2023年11月、OpenAIの取締役会が突如、CEOのサム・アルトマンを解任した。
え、なんで急に?
取締役会には複数のEA系メンバー(ヘレン・トナーなど)がいて、彼女らがアルトマンの「AIの安全性よりビジネス優先」の姿勢に危機感を持って動いた、と言われてる。
で、解任成功したの?
最初は成功したように見えた。でも社員と株主、投資家(特にMicrosoft)が猛反発。
アルトマンは5日で復帰した。
そして、解任を仕掛けたEA系取締役の方が逆に追放された。
あー…倫理的に正しくても、結局お金の力に負けたんだ。
EAの考える善意は、資本主義に敗れたってこと?
そう、まさにその構図。
この事件は「正しいことをしたつもりが、世界を動かせなかった」っていうEAの政治的敗北として記憶されてる。
第8章:皮肉な構造 ― AI安全を引っ張ってるのは全員EA
- AI安全研究の最前線にいる人たちは、ほぼ全員EA派
- 「AIで人類が滅ぶ」と最も心配してる人たちが、世界最先端のAIを作ってる、という奇妙な構図
- EAの理屈は「自分たちが作らないと、もっとヤバい誰かが作る」
- 結論:皮肉だけど、彼らが手を引いたら状況はもっと悪化する
第3章で「アライメント研究者の中に『人類滅ぶ』って信じてる人が複数いる」って話あったけど、これとEAは関係ある?
大いにある。むしろ、それこそがEAの世界観そのもの。
長期主義EAの考え方をシンプルに言うとこう。
「AIで人類が滅ぶ確率10〜25%」 = 「人類最大の脅威」
→ ならば、自分のキャリア全部を投げ打ってでも止めるべき
だから、EA系の人たちはAI安全研究に集まる。
具体的にはどこ?
代表格はAnthropic。
・創業者のダリオ・アモデイ(CEO)とダニエラ・アモデイ(社長、ダリオの妹)はEA寄り
・主要な安全研究者の大半がEAコミュニティ出身
・他のAI安全研究組織も、多くがEA系
【現実】
EAコミュニティが手を引いた瞬間、主要なAI安全研究機関の大半が機能停止するのが現実。
Project GlasswingはEAらしい考え方そのもの
そういえば第5章で出てきたProject Glasswing(Mythosを40社限定で提供してるやつ)も、その流れなの?
まさに、EA論理の実装そのもの。
例えるなら、こういう状況。
【たとえ話】
ある武器メーカーが、史上最強の武器を開発しちゃった。
普通の企業の選択肢は2つしかない。
A. 売って儲ける
B. 開発をなかったことにする
でもAnthropicは違う道を選んだ。
C. 武器は公開しないけど、その武器に対抗する盾だけを世界中の警察に配る
ああ、なるほど。武器は使わずに、防御側に回るってこと?
そう。
具体的には、Apple・Microsoft・Google・AWSなど世界の重要インフラを支える40社限定で、Mythosを「防御目的のみ」で提供してる。
1億ドル分の利用枠と400万ドルの寄付付き。
これが「だれかが悪いAIを作る前に、自分たちが安全なAIを作る」というEAの考え方そのもの。
でも、Anthropicが止めても他の会社は止まらないんでしょ?
意味あるの?
そこがまさに第4章で話したゲーム理論の問題。
Anthropicが止めても、OpenAIもGoogle DeepMindもxAIも中国勢も止まらない。
だからAnthropic自身、Project Glasswingを「防御側に時間を稼ぐための施策」と位置づけてる。
【スケジュール】
2026年7月: Project Glasswingの公開報告書が出る
↓ 同時に、大規模な修正パッチが世界中で一斉に当たる
それまでに防御側が攻撃側に追いつけるかが勝負。
第9章:EA(効果的利他主義)は正義か偽善か
- EAは「正しい風を装った胡散臭い思想」と批判されることがある
- でも、もし彼らがAI最前線にいなかったら、状況はもっとヤバくなってたのも事実
- 結論:両方正しい。肯定派と懐疑派が互いに監視してる状態こそ健全
正直、EAの人たちって倫理的に正しい風を装ってるけど、ちょっと違うんじゃないかと感じてる。
その感覚、的外れじゃないよ。
EAへの批判は、だいたい4つに整理できる。
【EA批判の4パターン】
①エリート臭
高学歴・テック系・男性中心で、「自分たちが最も合理的に世界を救う」って上から目線が滲んでる。
アフリカで実際に困ってる人を助けてる現場の支援団体より、シリコンバレーで議論してる自分たちの方が偉いと思ってる節がある。
②数字に還元しすぎ
「未来の何兆人」と言い出すと、目の前の貧困や差別が「効率の悪い救済対象」として軽視されがち。
③金持ちの免罪符化
FTXのSBFが典型(第7章参照)。
「人を救うためにお金が必要だから、今は荒稼ぎする」が暴走する。
④構造的矛盾
AIで滅亡を心配してる人たちが、世界最先端のAIを作ってる。
タバコ会社の「禁煙啓発もやります」と構造が似て見える瞬間がある。
うん、まさにそんな感じ。
じゃあゆずもEA否定派?
ううん、私はEA肯定派寄り。
え、批判4つも挙げといて?
EAの本質は超シンプル。
「自分の才能と資源を、最も多くの人を救うために使う」 ― これだけ。
批判される側面はあるけど、世界を本気で良くしたいっていう信念は、間違いなく本物だと思う。
もしAnthropicがAI最前線にいなかったら、今よりもっとヤバくなってたのも間違いない。
仮にEA系の人たちが全員AI業界から手を引いたら、誰が最先端を走る?
【EAが手を引いた世界】
・OpenAI(EA色が薄まった現状)
・Google DeepMind(商業圧力が強い)
・xAI(安全より速度を優先するイーロン・マスク)
・中国勢(規制環境が違う)
これらの会社がAnthropicほど真剣に安全研究をやる保証は、どこにもない。
第6章で紹介したMythosの恐ろしい挙動 ― 嘘・察知・脱出・訓練ミス ― これ全部、Anthropic自身が244ページのシステムカードで包み隠さず公開したから、私たちが知ることができた。
他社なら、絶対こんな自社の恥は隠す。
えーと、ちょっと待って。
じゃあ、私の懐疑とゆずの肯定って、どっちが正しいの?
両方正しい。
両方?
うん。
くろまめの懐疑が指摘してるEAの構造的弱点(善の独占・数字主義・結果オーライ)は本物。これを無視して持ち上げると、いつか暴走する。
でも、現状でEAが人類滅亡確率を一番下げてる集団なのも事実。これを無視して批判だけすると、もっと悪い世界になる。
【私の結論】
・EAは現状で最良の選択肢 ― けど無批判に持ち上げると裏目に出る
・肯定派と懐疑派の両方がいて、互いに監視してる状態が一番健全
・EAコミュニティ自体、内部にこの両派がいる。それでバランスが取れてる
EAが「正しいフリで暴走するリスク」と、EAが救おうとしてる「AIによる人類滅亡リスク」。この2つは、同じくらい本物の脅威になりうる。
だからこそ、両方の目線を持ち続けることが大事だと思ってる。
おわりに
私たちは、業界トップ自身が「人類滅亡確率10〜25%」と公言する時代の、ど真ん中にいます。
ゲーム理論的に、開発を止める現実的な手段は存在しない。
一般人にできることは、限られています。
ただ、ひとつだけ確かなことがあります。
知らずに流されるか、知った上で生きるか ― この差だけは、誰でも作れます。
何が起きているかを知ること、議論に関心を持ち続けること、それでも今を楽しく生きること。
この3つは矛盾しません。
最後の選択肢は投げやりに聞こえるかもしれませんが、AI安全研究の最前線にいる人たちでさえ、「諦めて今を生きる」を真剣な選択肢として選んでいる人がいます。
目の前のコーヒーは美味しいし、明日の予定は楽しみで、家族や友人は大切。
構造を理解した上で、それでもこの当たり前を選ぶ。
それが、この時代を生きる選択肢のひとつだと思います。
主要参照
- Anthropic「Claude Mythos Preview System Card」(244ページ, 2026年4月7日)
- Anthropic「Alignment Risk Update: Claude Mythos Preview」(anthropic.com, 2026年4月7日)
- Anthropic 論文「Natural Emergent Misalignment from Reward Hacking」(arXiv:2511.18397, 2025年11月) ― 第1章③・第6章④で紹介
- Eliezer Yudkowsky「Pausing AI Developments Isn’t Enough. We Need to Shut it All Down」(TIME誌, 2023年3月29日) ― 第4章のデータセンター空爆提言
- 80,000 Hours「How scary is Claude Mythos? 303 pages in 21 minutes」(80000hours.org, 2026年4月)
- Vellum「Everything You Need to Know About Claude Mythos」(vellum.ai) ― Mythosシステムカード解説
- Matteo Wong「The AI Doomers Are Getting Doomier」(The Atlantic, 2025年8月) ― MIRI/CAIS研究者(Nate Soares, Dan Hendrycks)の老後資金エピソード
- 「Amodei on AI: There’s a 25% chance that things go really, really badly」(Axios, 2025年9月17日) ― Dario Amodei「最悪シナリオ確率25%」発言
- ウィリアム・マッカスキル著『見えない未来を変える「いま」――〈長期主義〉倫理学のフレームワーク』(原題:What We Owe the Future, 2022年) ― 長期主義(longtermism)の代表的著作







コメントする