この1か月、AIの世界がまた一段と慌ただしくなった。五月半ばから末にかけて、主要プレイヤーが立て続けに新モデルやツールを投入してきたので、いったん整理しておきたい。
「公式アップデート」と「実際の開発者の声」はけっこう温度差があるので、できるだけ分けてまとめる。
公開日:2026年6月
対象期間:2026年5月中旬〜下旬のニュース
まず全体の空気感
ざっくり言うと、いまのトップ層はこんな勢力図になっている。
| モデル | ひとことで言うと |
|---|---|
| Claude Opus 4.8 | コーディング最強寄り |
| GPT-5.5 | 総合力・エージェント最強寄り |
| Gemini 3.5 Flash | コスパ・速度特化 |
| Grok Build | エージェント環境として面白い新顔 |
数か月前まで「GPT=会話、Claude=コード」という棲み分けだったのが、いまや「GPT=エージェント(ワーカー)、Claude=コーディング」へと寄ってきている。この一文に今期の変化がほぼ凝縮されている気がする。
Claude Opus 4.8
公式アップデート
Anthropicが 2026年5月28日 に公開。前モデルOpus 4.7からわずか 41日 という、Anthropicにしては異例の速さでの更新だった。価格は据え置き。
主な進化ポイント:
- コーディング能力の向上(エージェント型コーディングのスコアが64.3%→69.2%)
- 長時間タスクの安定性改善
- 「分からない時に分からないと言う」自己不確実性の表明が強化
- ハルシネーション(誤情報生成)の抑制
- Claude Codeに Dynamic Workflow(動的ワークフロー) を導入し、超大規模問題に対応
- 大量のサブエージェント並列実行に対応
- Fast modeが従来比2.5倍速・3倍安に
特に注目されたのが「自分の書いたコードの欠陥を見逃す確率が前世代の約4分の1になった」という点。地味だが効く改善だ。
巷の評判
やはり多いのは 「Claude Codeとの組み合わせが強い」 という声で、とくにリファクタリング、大規模コードベース、長文コンテキストの扱いで評価が高い。好評なのは、長時間作業が安定していること、AIの暴走(勝手な脱線)が減ったこと、コードレビューが鋭いこと、そしていわゆる「Yesマン」傾向が減ってダメな計画にはちゃんと反対してくれるようになった点だ。一方で辛口な声としては「劇的進化ではない」「4.7→4.8はマイナーアップデート感がある」といった指摘も少なくない。
ベンチマーク上はSWE-bench Verifiedで88.6%、長文コンテキスト処理(GraphWalks)ではGPT-5.5を全構成で上回り、100万トークン級では20ポイント以上の差をつけた、という報告もある。長い文脈を抱えたまま走り続ける力は頭ひとつ抜けている印象だ。
GPT-5.5
公式アップデート
OpenAIが 2026年4月23日 に公開(APIは翌24日提供開始)。今期もっとも「思想が変わった」モデルかもしれない。
特徴:
- エージェント性能の大幅強化
- Codex連携の強化(NVIDIAインフラ上で動作)
- 100万トークン級コンテキスト
- OS・ソフトウェア操作能力の向上
- 研究・分析支援能力の向上
OpenAI自身が「一手一手を細かく管理しなくても、雑多で多段階なタスクを丸ごと渡せば、計画→ツール利用→検証→継続まで自走する」と説明しており、まさに チャットからワーカーへ という方向性が明確だ。
巷の評判
開発者界隈では 「チャットAIではなくワーカー」 という評価が増えている。好評なのは、総合力の高さ、要件理解の的確さ、エージェント能力の高さ、情報整理のうまさで、特に知識労働・分析・法務・研究方面で強いという声が目立つ。一方で辛口な評価としては、高価であること(base rateは$5/$30)、思考モードが重いこと、そして「純粋なコーディングだけならClaude優勢」という見方が根強い点が挙げられる。
Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%。ターミナル中心の作業やCodex CLI環境では今でも最強格、という評価が多い。
Gemini 3.5 Flash
公式アップデート
Google I/O 2026(2026年5月19日) で発表。Gemini 3.5シリーズの第一弾として、まずFlashから投入された。
特徴:
- Flashなのに前世代Pro級の性能
- とにかく高速(出力トークン速度は他のフロンティアモデルの約4倍)
- 安価($1.50/$9.00 per Mトークン、Gemini 3.1 Proより約40%安い)
- Geminiアプリ・Google検索のAI Mode経由で世界中のユーザーがすぐ利用可能
Terminal-Bench 2.1で76.2%など、コーディング・エージェント系ベンチで前世代Proを上回る数値を出している。Pro版は「来月(=6月)展開予定」とされており、続報が気になるところ。
巷の評判
評価がきれいに割れているのが面白い。好評なのは「速すぎる」「コスパ最強」「前世代Pro超え」といった声で、速度と価格を絶賛する向きが多い。逆に開発者フォーラムでは、推論にムラがある、コード生成が不安定なことがある、長期タスクに弱い、といった不満も出ている。
現在の位置づけ

「ガチの難問はGPT/Claude、大量処理や速度勝負はGemini Flash」という使い分けがすっかり定着しつつある。
Grok Build
公式アップデート
xAIが 2026年5月14日(SuperGrok Heavy向け)にβ公開、5月25日 には対象をSuperGrok・X Premium Plus全体へ拡大。今期の伏兵だ。
これは単なるチャットではなく、開発作業そのものを統合した CLI型コーディングエージェント:

までを一気通貫で扱う。プランモードで計画を提示し、人間のGOサインを得てから差分(diff)として適用する設計になっている。
- 最大8つのエージェントを同時起動して並列作業
- 基盤モデルはGrok 4.3 beta(16エージェントのHeavyアーキテクチャ、200万トークンコンテキスト)
巷の評判
完全に 「xAI版 Claude Code」 として見られている。好評なのは、Rust製CLIであること、MCP対応、AGENTS.md対応、そしてClaude系の資産との互換を重視している点だ。一方で、まだβ感が強い、実績不足、コーディング品質はClaude未満、という辛口な声も多数ある。
価格はSuperGrok Heavyが月$300(初回6か月は$99/月の導入キャンペーンあり)と、なかなか強気の設定。
いまの開発者コミュニティの勢力図
乱暴に整理すると、こうなる。
| 用途 | 現在の人気 |
|---|---|
| ガチコーディング | Opus 4.8 |
| 長期Agent | GPT-5.5 |
| 安価・大量処理 | Gemini 3.5 Flash |
| 新興Agent環境 | Grok Build |
熱量だけで言えば:

所感
正直なところ、今回いちばん面白いのは個々のモデルのベンチマーク数値よりも、「AIをどう使う前提でつくっているか」という思想の分岐だと思う。
OpenAIは「自走するワーカー」へ、Anthropicは「信頼できる相棒(暴走しない・分からないと言える)」へ、Googleは「速くて安い実用品」へ、xAIは「Claude Codeを獲りにいく開発OS」へ——と、それぞれが違う方向へ全力で舵を切っている。
個人的に注目しているのは、各社が口を揃えて 「MCP対応」「サブエージェント並列」「プランモード」 を打ち出してきたこと。モデル単体の賢さ競争から、エージェント環境(開発OS)の覇権争い へとフェーズが移った1か月だった、という気がしている。
Grok Buildの登場でこの構図がさらに激しくなりそうなので、6月のGemini 3.5 Proも含めて引き続き追っていきたい。
参考ニュース(2026年5月)
Claude Opus 4.8
- Introducing Claude Opus 4.8 | Anthropic
- Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool | TechCrunch
- Claude Opus 4.8 vs GPT-5.5: The Evidence-Based 2026 Comparison | Kingy AI
GPT-5.5
- Introducing GPT-5.5 | OpenAI
- OpenAI’s New GPT-5.5 Powers Codex on NVIDIA Infrastructure | NVIDIA Blog
Gemini 3.5 Flash
- Gemini 3.5: frontier intelligence with action | Google
- Google Introduces Gemini 3.5 Flash at I/O 2026 | MarkTechPost
Grok Build

コメント