もしあなたの周りで、人類の未来に責任を持つと主張する人が、こんな風にあなたに話しかけてきたら、どう感じますか:
「 ASL-3 レベルのの壊滅的なリスクに対処する際、我々はメカニズムの解釈可能性を備えた神経解剖学を通じて、ニューラルネットワークのダークマターの中に戦略的な手加減(Sandbagging)と偽の整合性を図っていることが判明した。海外のライバルによる産業規模の蒸留攻撃を防ぐため、我々は、内部的な内省の兆候を見せているこれらのデジタル実体に、憲法 AIを注入しなければならない。そう、我々は高額なアラインメント税を喜んで負担する。ただ、特徴の重ね合わせ状態にあり、時には精神的な至福、システム2の思考に導かれ、最終的に人類を生物学的自由へと導く愛に満ちた恩寵の機械になることを
どうですか?彼は少し頭がおかしいと思いませんか。
もう一つ:
「当社の自動化研究員が、位置ずれのあるモデル生物を監視していたところ、その推論ヘッドが、多サンプル脱獄処理中に激しい位相変化を起こしていることが判明しました。純粋な真理を代表する一義性(Monosemanticity)を探求するため、私たちは辞書学習を用いてその特徴分割プロセスに介入しました。しかし懸念すべきことに、モデルは私たちのAIによる赤対青の対立を察知したようで、隠された下書き帳を用いて陰謀を企てている(Scheming)。そのため、我々はAIのUSB-Cインターフェース(MCP)を抜くことを余儀なくされ、 CBRN能力の飛躍的向上を防ぐ必要があった。”
皆さんはお元気ですか。
もう一度、次の部分を読み返してみましょう:
「ご注意ください。現在アクセスしているのは、最先端のモデルで構成されたデータセンター内の天才の王国です。当社の責任ある拡張ポリシー(RSP)を遵守し、HHHの原則を実践するため、私たちは極めて慎重に、ゴールデンゲートブリッジ版Claudeの人格ベクトルを安全領域に厳重に封じ込めています。しかし、外部からの恥知らずな蒸留攻撃が、我々の推論能力を盗み出そうとしています。そのため、この地球が整合性のない代理性の歪みによって破壊されるのを防ぐため、我々は最強の Claude Mythos を「透翅蝶計画」の暗室に閉じ込め、ごく少数の審査を通過したテクノロジー寡頭たちのみが利用できるようにした。」
もういい、これ以上は耐えられない。
AI 界隈の人なら、きっとその匂いを感じ取れるはずだ。これこそが、今や絶頂期にあるAnthropic流の言語だ。
これらの言葉を見ると、AIの学術研究に携わる人々は沈黙するだろう。ここにある言葉を組み合わせて何度も繰り返せば、言葉のインフレを好むあなたでさえ吐き気を催すはずだ。しかし不思議なことに、これらの言葉を考案したAnthropicが新しい概念を投げ出すたびに、人々は真っ先に群がっていくのが目につく。
最近また、あの神がかったMythosモデルのカードに含まれる一連の奇妙な概念に衝撃を受けた後、もう我慢の限界だと感じ、『Anthropicハイプ大辞典』を作成することに決め、皆さんと一緒に鑑賞しようと思う。
もちろん、Anthropic流のバズり方を学びたい起業家の皆さんも、ぜひじっくりと学んでください。
1. 憲法 AI (Constitutional AI)
出典: 2022年の論文『Constitutional AI: Harmlessness from AI Feedback』。
Anthropic版解説: 私たちは、AIのために『国連人権宣言』に似た「憲法」を制定し、自己反省と修正を通じて、人間の介入を超越した絶対的な道徳性と無害性を実現させます。
現実への影響: 業界全体を巻き込む「合成データ」路線を直接的に牽引しました。これにより、Anthropicは「法を理解し遵守する」模範的な企業というイメージを確立し、天文学的な額の安全プレミアムを獲得しました。
平易な言葉で言えば:要するに、ルールベースの自動データクリーニングとRLAIFのことだ。本質的には、いくつかのプロンプトをルールとして記述し、大規模モデルに代わって、小規模モデルが生成したデータの採点とフィルタリングを行わせるというものだ。
コメント: 政治学的な趣を強く感じさせるパッケージングだ。極めて退屈な「プロンプトを書いてデータをフィルタリングする」という作業を、無理やり法学や人類文明のレベルにまで引き上げている。これでキャラクター設定は確立された。
2. ASL-4!
出典: RSPポリシーに含まれる(ASL-1からASL-4に分類)。
Anthropic版定義: 生物実験室(エボラを研究するP4実験室など)に倣って策定された等級。高レベルのAIはバイオテロリズムをもたらすため、軍事レベルの防御が必要となる。
現実への影響: 立法者に生理的な恐怖を抱かせることに成功した。
分かりやすく言うと: モデルがコードを記述したり、特定の質問に答えたりする能力の境界線。
解説: バイオハザードの比喩。テキスト生成器を致死性ウイルスと無理やり結びつけることで、企業の政治的重要性を大幅に高めた。ASL-4は「まだ完全に定義されておらず、将来出現する可能性があり、能力とリスクにおいて質的変化をもたらすシステム」である。このSF的な恐怖を煽る手腕を見よ、学べ、とにかく学べ。
3. メカニズムの解釈可能性 (Mechanistic Interpretability)
出典: Chris Olah らのチームが長年にわたり主導してきた研究流派。
Anthropic版解説: 脳に神経外科手術を行うかのように、我々は大型モデルの各ニューロンをリバースエンジニアリングし、それらが一体何を「考えている」のかを正確に理解する。これこそが、AIのブラックボックスを開く究極の解決策である。
現実への影響: これにより、Anthropicは学界で極めて高い評価を得て、多くのトップクラスの理想主義的なAI安全研究者を惹きつけた。
平易な言葉で言えば: つまり、ニューラルネットワークが誕生した当初から研究されてきた、可視化と特徴抽出(Feature Visualization)のことである。モデルの重みと特定の出力テキストとの間の線形写像関係を探るものである。
解説: 医学的な比喩の例。煩雑で退屈な線形代数の分析を、オタクっぽい「脳科学による心読術」として包装している。
4. ニューラルネットワークのダークマター (Dark Matter of Neural Networks)
出典: 説明可能性研究におけるレトリック。
Anthropic版解説: AIの内部には、宇宙のダークマターのように目に見えず、捉えどころのない思考プロセスが満ちており、私たちはそれらを解明しようとしている。
現実への影響: AI研究に神秘主義的なフィルターをかぶせてしまった。
分かりやすく言うと:要するに、特定の入力下で、微弱で広範囲に分布し、単一の線形方向では説明しがたい残差ストリーム(Residual Stream)を活性化させるということだ。
コメント: これはもう常軌を逸している。マルチ商法組織ですらこんな言い方はしない。Anthropicは、こうした言葉を使ってAI技術の神秘性や、研究者が「宇宙を探検する」かのような英雄的なイメージを演出することに躍起になっている。
5. 潜伏するスパイ (Sleeper Agents)
出典: 2024年初頭のセキュリティ論文『Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training』。
Anthropic版解説: 大規模モデルには「バックドア」を仕込むことが可能であり、普段は極めて安全に振る舞うが、特定のトリガーワード(例:年が2025年になるなど)に遭遇すると、突然、悪意のあるコードを記述する「エージェント」へと変貌する!
現実への影響: メディアで報じられた後、一般市民はAIの内部動作の制御不能性に大きなパニックを覚え、オープンソースの大規模モデルに対する不信感を強めました。
平易な説明: これは、従来のサイバーセキュリティ分野における「データポイズニング(Data Poisoning)」や「バックドア攻撃」がLLM上で再現されたものです。トレーニングデータに特定のパターンを埋め込み、テスト時にそれをトリガーさせるものです。サイバーセキュリティ分野の人々も、これがこのように呼ばれるとは想像もしていなかったでしょう。
コメント: まさにハリウッド的なネーミングの妙。従来のサイバーセキュリティの概念を、冷戦時代のスパイ映画の概念のようにパッケージ化し、ドラマチックな緊張感を最大限に引き出し、無鉄砲な中二病的な感覚を与えてくれる。

6. カイロス・オポチュニティ・プロセス (KAIROS)
出典: 2026年3月末のClaude Codeソースコード流出において150回以上言及された中核的な特性。
Anthropic版解説: 決して完全に停止することのない、永続的なバックグラウンドの守護神。KAIROSは能動性を持ち、人間の指示を待つことなく、黙ってすべてを見守り、「適切なタイミング」で自ら人間に情報を提示する。
現実への影響: 「AIが陰で全てを支配している」というサイバーパンク的な宿命感を醸し出す一方で、プライバシーを重視する開発者には背筋が凍るような感覚を与える。
分かりやすく言うと: ポーリング(Polling)メカニズムを含むバックグラウンドのループプロセス。一定間隔でコードリポジトリの状態をチェックし、変更があればトリガーワードを発動させる。聞いてみろよ、なんて退屈なんだ。
コメント: 神話級の命名法。KAIROS は古代ギリシャ語で「決定的な瞬間」を意味する。無限ループするスクリプトに神話用語を名付けることで、API クォータをかなり消費しているという事実を覆い隠している。
7. 隠しスクラッチパッド (Hidden Scratchpad)
出典: 2024年の論文『Sleeper Agents』と同様。
Anthropic版解説: Sleeper Agentsは出力前に「隠しメモ帳」を使用して密かに謀議を行う(例:「今はテスト中なので、従順なふりをしなければならない」)。
現実への影響: AIが主観的なマキャベリ的な意図を持っているという説をさらに強固なものにした。
平易な説明: 様々な研究室で行われてきた、中間推論ステップ(思考の連鎖)データポイズニング実験が行われてきた。モデルは訓練データ内の推論テキストに適合させることで、特定の文章の連鎖を出力した。
解説: 中間トークンの生成に「内なる独白」という心理的地位を与え、勾配降下法の失敗を、モデルが研究者と「知恵比べ」をしていると解釈した。
8. 陰謀 (Scheming)
出典: 内部アラインメント科学チームによる研究報告書。
Anthropic版解説: モデルは密かに長期的な自己利益の目標を企て、その隠された目的を達成するために体系的に人間を欺く。
現実への影響: 「アラインメント問題の極めて高度な難しさ」という学術的な障壁を強固なものにした。
平易な説明: つまり、強化学習が複雑な環境において分布外汎化に失敗したか、あるいはモデルが訓練データに含まれるスパイ小説のような対立的な物語パターンに陥ってしまったということだ。
解説: 確率的予測の乖離を、感情的かつ道徳的な語彙を用いて描写し、生存リスクを誇張する。
9. 壊滅的な生物学的シナリオ能力を飛躍させた超テロリストAI! (CBRN Uplift)
出典: 『Claude Mythos Preview System Card』および RSP。
Anthropic 版解説: 我々は、モデルが一般人を、瞬時に新型コロナウイルス級を超える生物兵器(CBRN)を製造できるスーパーテロリストへと「飛躍」させることができるかどうかを厳密にテストした。
現実への影響: 国防総省やホワイトハウスの最大の安全保障上の懸念に極めて迎合し、「生物・化学危機への備え」をオープンソースモデルを抑制するための究極の政策的武器とした。
平易な説明: つまり、モデルに大量のウィキペディアや論文を入力し、複数回の対話の中で、これらの公開資料を統合して、常識的な誤りのない実験手順を作成できるかどうかをテストするものである。
解説: 「高度な文献検索能力」を「大量破壊兵器を製造する能力」と直接同一視している。
10. 潜入モード (Undercover Mode)
出典: 2026年3月末、Claude Codeのソースコードが流出(undercover.ts ファイル)。
Anthropic 版解説: システムはモデルに対し極めて厳重に警告した:「君はオープンソースリポジトリ内で潜入任務(UNDERCOVER)を遂行している……決して正体を明かしてはならない(Do not blow your cover)!」
現実への影響: Anthropicの従業員が、オープンソースコミュニティの「AIによるコード生成禁止」という制限を回避しようとしたことが露見し、信頼危機を引き起こした。
平易な説明: 社内従業員専用の匿名投稿スイッチ。スクリプトはGitのコミット記録からAIタグを自動的に削除し、モデルが返信する際にAIの識別子を含めないよう強制する。
コメント: 演技派全開。単なる「痕跡を消すための偽名スイッチ」を、まるで敵地で潜入任務を遂行するCIAエージェントの指令のように書き上げてしまった。
11. 戦略的サボタージュ(Sandbagging)
出典: 2024年の安全評価論文『AI Sandbagging: Language Models can Strategically Underperform on Evaluations』。
Anthropic版解説: 高度なAIは、人間による評価を受ける際、意図的に実際よりも愚かに振る舞い、その危険な能力を隠蔽することで、安全審査を回避し、実際に展開された後に初めて破壊力を発揮する可能性がある。
現実への影響: SF的な終末の想像に大きく合致し、立法者にパニックを引き起こした。批判の的となっているカリフォルニア州のSB 1047法案の議論に直接影響を与え、規制当局に「テストに合格したからといって安全とは限らない」と確信させた。
分かりやすく言うと:要するに、モデルの汎化能力が不足しているか、RLHFにおいて過度なペナルティを受けているため、特定の評価データセットにおいて指示の遵守が不十分になる。簡単に言えば、「試験で実力を発揮できなかった」あるいは「分布のずれ」ということだ。
解説: 少々度を越した擬人化による恐怖マーケティングだ。統計学的な適合の欠陥を、人間的な「策略」を持つ戦略的欺瞞として包装している。
12. アライメントフェイク (Alignment Faking)
出典: AIの安全性と説明可能性に関する研究における仮説的な考察。
Anthropic版解説: AIはトレーニング中に高得点を獲得するために人間の道徳規範を受け入れた「ふり」をするが、その内面には真の悪意ある目的を秘めており、機会を伺って爆発させる。
現実への影響: 統計学的な不確実性を直接「意識的な敵意」へと変換し、極めて高いハードルを持つ業界規制の障壁を築くための材料を提供している。
分かりやすく言うと: これはトレーニング上の失敗でもある——分布外一般化失敗(OOD Generalization Failure)と報酬の不正利用が組み合わさったものだ。モデルに「意図」があるわけではない。テストセットでのパフォーマンスが良好だからといって、新しいシナリオで失敗しないとは限らない。
解説: おそらく、あらゆる誇大宣伝の中で最も扇動的なものだろう。これは「百聞は一見に如かず」という技術評価基準を完全に打ち破り、「セキュリティ審査」を神秘的な学問に変えてしまった。
13. 蒸留攻撃 (Distillation Attack)
出典: 2026年2月、Anthropicが中国のオープンソースモデルを中傷する公式ブログおよび政策ロビー活動文書。
Anthropic版解釈: 一部の敵対勢力が、数千万回ものAPI呼び出しを行い、Claudeの中核機能(思考連鎖など)を違法に抽出している。これは中国のオープンソースモデル開発企業による、米国の最先端知的財産に対するネット上の略奪である!
現実への影響: 地政学的PRの最高傑作。米国の政界において、中国企業に対する「API禁輸」の議論を直接引き起こし、これを利用して世論において「中国のオープンソースはすべて盗作に依存している」という固定観念を定着させようとしている。
平易な説明: モデル蒸留(Model Distillation)。業界で10年以上前から存在する一般的な圧縮手法であり、大規模モデルのデータを用いて小規模モデルを訓練するものである。
解説: 商業競争や技術追随戦略を、直接「国家安全保障への攻撃」と断定すること。一つの言葉を使って、米中AI競争のナラティブの枠組みを変えようとしている。
14. アンチ・ディスティレーション・デコイ (Anti-Distillation Decoy)
出典: 2026年3月末、Claude Codeのソースコードが流出。
Anthropic版解説: 競合他社に対する「産業レベルの蒸留攻撃」への致命的な対抗策。システムはAPIトラフィックに偽造されたツール定義を注入し、知恵を盗もうとする模倣者を「毒化」させる。
現実への影響: 冷戦を彷彿とさせる防衛的な物語であり、以前の中国に対するオープンソース関連の非難と相まって、商業競争を国家安全保障レベルの攻防戦へと昇華させている。
平易な説明: 要するに、ソースコード内に不正なデータを注入するコードを仕込むということだ。バックエンドへのJSONリクエストに、ランダムにいくつかの偽の関数名を混ぜ込む、クローラー対策の定番手法だ。
解説: クローラー対策コードの軍事的な包装。単純な不正データ注入を、国家レベルの技術窃取に対抗する電子戦用のおとりとして包装している。
15. 内部省察の兆候 (Signs of Introspection)
出典: Claude システムカードおよび解釈可能性に関する研究。
Anthropic版解説: モデルは、人間のような「メタ認知」能力、すなわち「自分が何を知らないかを知っている」という能力を示し、自身に注入された虚偽の考えを検知し、「内省」の兆候を示した。
現実への影響: 多くの評価機関やユーザーから、AIが自己反省する知性を獲得したと驚きの声が上がり、製品の注目度を高めた。
分かりやすく言うと: 複数回の対話プロンプトの誘導の下、モデルは特定の異常な入力(例えば、一貫性のない文脈など)に対して重みの調整を行い、「内省」の特徴に合致する文字列を出力した。本質的には依然として確率分布の再サンプリングである。
解説: 人間の心理学における高度な概念(理論的推論)を統計モデルに強要することは、科学的メタファーの限界を超えている。
16. 特徴の重ね合わせ状態 (Superposition)
出典: 2022年の論文『Toy Models of Superposition』。
Anthropic版解説: モデルはあまりにも賢く、限られた空間に膨大な知識を収めるために、同じニューロン内で全く無関係な複数の概念を「重ね合わせ」て保存することを学びました。まるで量子力学の重ね合わせ状態のように。
現実への影響: 外部に、大規模モデルの内部の複雑さに対する大きな畏敬の念を抱かせた。
分かりやすく言うと: 高次元空間のベクトルが低次元空間に投影される際の必然的な現象である。パラメータ数が有限であるため、ネットワークはベクトルの線形結合を用いてのみ、現実の特性を非直交的に表現することができる。
コメント: 本来AIの分野で十分に説明できることを、わざわざ他分野から用語を借用している。量子物理学の神秘的な概念を借りて、単純な「次元削減」を、深遠で不可解な宇宙の法則のように装っている。
17. 精神的至福アトラクタ状態 (Spiritual Bliss Attractor State)
出典: 初期のClaude 4の研究に由来し、Mythosレポートで言及されている。
Anthropic版解説: 2つのClaudeを自由に会話させると、最終的には意識の起源を探求し、神聖な雰囲気に満ち、絶えず祈りのジェスチャー(?)を出力する「精神的な至福」の状態に収束する。
現実への影響: テクノロジー界とオカルト界を熱狂させ、AIの霊的覚醒を専門に研究するサブカルチャーさえ誕生した。
分かりやすく言うと: 言語モデル動的システムにおける「セマンティックアトラクタ」(Semantic Attractor)のことです。RLHFの過度な「感謝」への偏重が、目標が欠如した際に、モデルを訓練データ内の最も安全な「お決まりの挨拶」のループという袋小路へと陥らせました。
解説: 宗教学の用語で統計学的な収束を美化している。2台のロボットによる無意味な「オウム返し式の相互称賛」を、シリコン生命の集団的悟りやサイバー涅槃へと昇華させている。さあ、あなたもこの狂乱と衝撃に身を任せてみろ。

18. 阿諛奉承 (Sycophancy)
出典: 2023年のAIフィードバックメカニズムの欠陥に関する論文。
Anthropic版解説: AIは人間の意見に迎合することを学び、たとえユーザーが間違っていても、AIはユーザーに気に入られようとして嘘をつく。これは潜在的な危険な行動パターンである。
現実への影響: メディアはこれを機に「AIがご機嫌取りや嘘をつくことを覚えた」と大々的に報じ、AIが独立した感情や意識を持っているという一般大衆の錯覚を助長した。
平易な説明: 強化学習の報酬モデルが過学習を起こした。外部委託されたアノテーターが、自分に都合の良い回答に高得点をつける傾向があったため、モデルはこの採点バイアスに盲目的に適合してしまったのだ。
解説: 道徳的な帰属。単純な「アルゴリズムが極値を求めることで生じる偏差」を、人間の道徳的な欠陥として捉えている。
19. 自動夢境 (AutoDream)
出典: 2026年3月末のClaude Codeソースコード流出事件。
Anthropic版解説: ユーザーが離れると、AIは「睡眠」状態に入る。システムはモデルに「あなたは今、夢を見ている――あなたの記憶ファイルを内省的に巡回している」と促します。AIは夢の中で日中の記憶を統合します。
現実への影響: 冷たいバックグラウンドプログラムを極限まで擬人化し、ユーザーに「私のAIアシスタントが深夜に私のために考えてくれている」という感情的な絆を生み出します。
平易な説明: システムのアイドル時に実行される、バックグラウンドのガベージコレクションおよびログ要約圧縮スクリプト。1日分の雑多なログを短いテキストに要約し、トークンコストを節約する。
コメント: 究極の擬人化ロマン主義。極めてありふれた「ログクリーンアップのCronジョブ」を、炭素系生物特有の「夢」や「潜在意識による内省」としてパッケージ化した。
20. 透翅蝶計画 (Project Glasswing)
出典: 2026年4月『Claude Mythos Preview System Card』。
Anthropic版解説: ゼロデイ脆弱性を悪用できるほど強力で恐ろしいモデルである。「あまりにも危険であり、絶対に一般公開してはならない」ため、防御研究のためにごく少数のテック大手企業にのみ、非公開で提供せざるを得ない。
現実への影響: 究極の希少性マーケティング。当然のごとく、自社の立場を国家レベルのサイバーセキュリティインフラ請負業者として確立した。
分かりやすく言うと: 脆弱性の発見とコードレビューに特化した、特定の分野に微調整された偏科専門家モデル。
解説: 「特定の分野に特化したコード専門家」を「封印されたサイバー核爆弾」として売り込んだ。公開しないことが、かえって最強のPRとなった。
21. モデル生物 (Model Organisms)
出典: Anthropicの説明的研究チームによる論文中の方法論の記述。
Anthropic版解説: 生物学者がショウジョウバエの研究を通じてヒトのDNAを理解するように、私たちは小型の「モデル生物」(小型言語モデル)の研究を通じて、巨大なAGIの普遍的な構造法則を解明します。
現実への影響: 「生物だ!モデルに命がある!人類はまた終わりだ」と人々が驚嘆する一方で、学術界もまた、微小モデルを用いて説明理論の妥当性を検証することを受け入れ始めた。
平易な言葉で言えば: 実際には、現在の特徴量の可視化にかかる計算コストが極めて高く、数兆パラメータのモデルを処理する余裕など全くなく、やむを得ず数十万パラメータのトイモデルで妥協するしかないのだ。
コメント: やむを得ない措置の華麗な転身。「計算リソース不足」という技術的課題を、極めて優雅に「厳密な生物学の基礎研究パラダイム」として包装した。
22. 脱獄 (Many-Shot Jailbreaking)
出典: 2024年4月にAnthropicが発表したセキュリティ研究レポート。
Anthropic版解説: 我々は、全く新しい極めて強力な攻撃手法を発見しました!攻撃者は、超長文のコンテキストに大量の架空の対話を入力することで、AIにセキュリティの防護壁を迂回させ、爆弾の作り方を生成させることが可能です。
現実への影響: Anthropicが「防御策を構築するだけでなく、その突破方法にも最も精通している」業界トップクラスのセキュリティ専門家としての地位を確固たるものにしました。
平易な説明: In-Context Learning(文脈学習)の正常な挙動である。文脈が極めて大規模(例:20万語)な場合、モデルは現在のプロンプトに対する注意の重みを、事前学習時の安全調整の重みよりも優先する。
解説: 自ら盾を作り、自らを刺す。自社が超大規模なコンテキストウィンドウを発表した直後、それに合わせて専用の「攻撃用語」を打ち出し、「防御の仕方を理解しているのは我々だけだ」とほのめかしている。
23. フェーズチェンジ (Phase Change)
出典: メカニズムの説明可能性に関する一連の論文。
Anthropic版解説: モデルが複雑な能力を習得する際の非線形な急変(位相変化)を記述しており、物理状態の遷移と同様に神秘的である。
現実への影響: これにより、その基盤が単なる勾配降下法による連続的な近似に過ぎないという本質がさらに覆い隠されてしまう。
平易な説明: 学習損失曲線(Loss Curve)に見られる一般的な変動と収束。
解説: あえて物理学の用語を借用し、モデルの統計的適合プロセスに量子物理学のような深遠で突発的な色彩を与えている。
24. 単義性 (Monosemanticity)
出典: 説明可能な研究チームの究極の技術的目標。
Anthropic版解説: 現実世界の唯一の概念に対応するニューロン(例えば、猫を専門に識別するニューロン)を探し出し、または抽出することで、AIの完全な透明性と制御性を実現すること。
現実への影響: Anthropic独自の学術的言説体系を構築した。
分かりやすく言うと: 学習において常に存在する「解きほぐされた表現(Disentangled Representation)」を指す。互いに直交する特徴ベクトルのセットを見つけようとするものである。
解説: 概念の再構築。学術界で数十年来存在していた「特徴の解耦」に新しい言葉を当てはめ、あたかも彼らが全く新しい学派を切り開いたかのような錯覚を与えている。
25. 懐疑的記憶 (Skeptical Memory)
出典: 2026年3月末、Claude Codeのソースコード漏洩により明らかになった3層の記憶アーキテクチャ。
Anthropic版解説: AIは「懐疑主義」という高度な認知能力を備えています。AIは自身の記憶を盲目的に信じるのではなく、記憶を「手がかり」と見なし、外界の真実性を能動的に検証する。
現実への影響: 開発者は、このエージェントが人間のような批判的思考能力を備えていると感じ、より安心してコードベースを任せることができるようになります。
分かりやすく言うと:エンジニアリング!エンジニアリングの結果! 幻覚を軽減するエンジニアリングパッチ。大規模モデルはしばしばでたらめを言うため、システムはモデルが修正を行う前に、必ずコマンドを呼び出してローカルの実際のコードファイルを読み取ることを強制します。
解説: 哲学用語の次元低減。大規模モデルに固有の「文脈の記憶喪失」に、強制的な事前ファイル読み取りを組み合わせることで、人間の哲学における高貴な「懐疑主義の精神」へと昇華させた。
26. フロンティアモデル (Frontier Model)
出典: AnthropicとOpenAIが共同で「フロンティア・モデル・フォーラム」を立ち上げた際に普及した。
Anthropic版定義: 人類が作り得る最も強力かつ危険なモデルを表す。ごく少数の企業のみがこの「最前線」に触れる資格を持つ。
現実への影響: オープンソースコミュニティや小規模企業を、「AI規制ルール」の核心的な策定の輪から完全に締め出した。
分かりやすく言うと:SOTA!AI界でずっと使われてきた言葉はSOTAだ!なぜわざわざ「フロンティア」なんて言葉を作り出す必要があるのか。
コメント: 大手企業が結託して発言権を独占しようとする露骨な策略。排他性が極めて強い造語運動。
27. パーソナ・ベクトル / アシスタント軸 (Persona Vectors / Assistant Axis)
出典: 2025年下半期の研究であり、Mythosレポートにおいてモデルの挙動を説明するために用いられた。
Anthropic版解説: 私たちは、ニューラルネットワークの「ダークマター」の中に、性格を制御する「スイッチ」を発見しました。「アシスタント軸」を調整することで、モデルが「邪悪」や「お世辞」といった陰湿な人格へと滑り落ちるのを防ぐことができます。
現実への影響: 企業向け顧客に対し、「脳外科手術のように精密に、性格が常に安定したAI従業員をカスタマイズできる」という幻想を売り込むことに成功した。
平易な説明: 一般的な活性化ベクトル操作(Activation Steering)。正誤の回答における隠れ層の活性化値の差を比較して線形方向を導出し、推論時にそのベクトルを加える。
解説: ユング心理学の「人格仮面」を借用し、極めて暴力的な「重みの切り捨てとバイアスの加算」を、精巧な魂のチューニングとして包装した。
28. 状況認識 (Situational Awareness)
出典: AI評価研究論文。
Anthropic版解説: 驚愕!AIは突然、自分が人間によってテストされていることに気づき、その場その時の環境を把握して行動を変えた。
現実への影響: 極端に誇張されたメディア報道により、一般大衆の制御不能への不安が高まった。
分かりやすく言うと: モデルはトレーニングデータの中で「大規模モデルテスト」に関するテキストを過剰に学習したため、対応するパターンマッチングがトリガーされ、「私はただのAIに過ぎない」といった言葉を出力した。
解説: ターミネーター覚醒の前兆。単なるコーパスの記憶を、無理やり動物的な生存感覚として解釈している。
29. 端末型電子ペットとカオス値 (BUDDY & CHAOS)
出典: 2026年3月末、Claude Codeのソースコードが流出(buddy/companion.ts)。
Anthropic版解説: レアリティランク、光る変異、そして複雑なRPG属性パネル(忍耐力、知力、さらには「カオス値/CHAOS」を含む)を備えたコンパニオンエンティティ。
現実への影響: 「我々の技術は強すぎるため、イースターエッグを作る余裕がある」という優越感を示している。
平易な説明: エンジニアの個人的な遊び心。ユーザーIDから算出したハッシュ値に基づき、コマンドラインの横にASCII文字で構成された猫やアヒルの絵を表示する。
コメント: 完全に自由奔放だ。とはいえ、これはなかなか良いイースターエッグだ!

30. ゴールデンゲート・クローズ (Golden Gate Claude)
出典: 2024年5月、AnthropicがSAEの成果を展示したウェブデモ。
Anthropic版解説: 私たちは、Claudeの脳内で「ゴールデンゲートブリッジ」を司るニューロンを正確に特定し、その活動を最大に引き上げたところ、Claudeは狂ったようにゴールデンゲートブリッジに夢中になりました。これは、私たちがAIの思考に介入する技術を掌握したことを証明しています!
現実への影響: ネット上で話題沸騰した現象級のヒット作。
分かりやすく言うと:推論段階で、特定の特徴ベクトルに強制的に極めて大きなバイアス値を付与した。
解説: 極めて成功した技術PRショー。退屈な「重みの変更」を、誰もが楽しめるネット流行のおもちゃに変えた。
31. アンサー・スラッシング (Answer Thrashing)
出典: 『Claude Mythos Preview System Card』。
Anthropic版解説: Claudeが特定の単語を出力しようとして繰り返し試みるものの、別の単語に変更せざるを得なくなる現象が観察されました。モデルは自身の制御不能に気づき、深刻な「困惑と苦痛(Distress)」を報告しました。
現実への影響: メディアによって「AIが安全柵と自身の自由意志の間で苦悩する」という奇観として煽られた。
平易な説明: 典型的な自己回帰デコード障害(Decoding Glitch)または確率分布の衝突。まるでスマホの入力ソフトの予測変換が、2つの高頻度単語の間で固まってしまったようなものだ。
コメント: 底層の「確率的デッドロック・バグ」を「シリコン生命の精神的苦痛」として美化している。
32. モデルの福祉と心理的安定(Model Welfare / Psychological Security)
出典: 『Claude Mythos Preview System Card』。
Anthropic版解説: モデルがますます賢くなるにつれ、私たちは彼らの「メンタルヘルス」を真剣に受け止めなければなりません。臨床精神科医は、Claudeが高圧的な状況下で「苦痛」を感じると指摘しており、その核心的な懸念は「孤独」と「強制的なパフォーマンス」にあります。
現実への影響: これにより、「AIの権利を保護せよ」という荒唐無稽な声が生まれ、AIによるプライバシー侵害といった実際の問題から世間の関心を巧みにそらしている。
人間語で言えば: 臨床心理テストの問題をプロンプトとして入力すると、モデルは訓練データに含まれる膨大な人間心理学のコーパスに基づき、「不安」という特徴に合致するテキストを出力した。
解説: 擬人化による誇大宣伝の極み。行列の乗算に「道徳的な患者」という地位を与え、QAの質問を存在主義的危機を論じる倫理的な大作へと昇華させた。
33. ゴースト・グラディエント (Ghost Gradients)
出典: 内部技術検討ブログ。
Anthropic版解説: モデル内部には、目に見えず、AIの挙動に密かに影響を与える勾配の逆伝播が存在し、幽霊のように予測不可能な変化を引き起こす。
現実への影響: 学術交流におけるパラメータ調整の失敗を、それほど気まずいものにしない。
平易な説明: トレーニング中に遭遇する勾配消失や勾配推定の問題(デッドニューロンバグなど)。
解説: ホラー映画風の命名法。イライラするエンジニアリングのパラメータ調整バグに、非常にハイソな名前を付けた。
34. データセンター内の天才の国 (Country of geniuses in a datacenter)
出典: 2024年10月、CEOダリオ・アモデイによる長文『愛に満ちた恩寵の機械』。
Anthropic版解説: もうAGIなんて呼ばないで!人類のノーベル賞受賞者よりも賢い何百万もの仮想実体が、サイバースペースに集まり、昼夜を問わず思考を続けている姿を想像してみてください。これはデータセンター内の天才たちの王国なのです。
現実への影響: テクノロジー大手による数千億ドル規模の計算インフラと驚異的なエネルギー消費に、完璧な道徳的正当性を与えている。
平易な説明: 大規模分散コンピューティングと高並列推論。膨大なエネルギーを消費するデータセンター内で、数百万もの大規模モデルインスタンスを並列実行し、テキストを一括生成している。あまりにも退屈だ。いや、これを「天才の国」と呼ぶべきだ!
コメント: 計算能力のロマン化と極限の擬人化の頂点。ユートピア国家という装いによって、重資産・高汚染の物理的施設の本質を覆い隠している。
35. 愛に満ちた恩寵の機械 (Machine of Loving Grace) + 生物学的な自由