Llama 4 × BibiGPT

Meta は 2025-04-05 に Llama 4 を出荷——史上初のネイティブマルチモーダル Llama であり、Meta として初めて Mixture-of-Experts(MoE)アーキテクチャを採用した家族。Scout は 17B アクティブ / 109B 総パラメータ / 16 エキスパート / 10M トークンコンテキスト、Maverick は 17B アクティブ / 400B 総パラメータ / 128 エキスパート / 1M コンテキスト。BibiGPT は長尺動画要約、多文書 Q&A、セルフホストパイプラインを Llama 4 経由でルーティング——Mistral Medium 3.5、DeepSeek-V4 と並ぶオープンウェイト長コンテキストバックエンドの一つ。

リリース · 2025-04-05 Scout 10M コンテキスト · Maverick 400B MoE オープンウェイト · マルチモーダル

重要ポイント(90 秒で読む)

2026-05-09 時点:Meta が 2025-04-05 に Llama 4 をリリース——史上初のネイティブマルチモーダル Llama 家族、かつ Meta 初の MoE 採用 Llama。Scout は 17B アクティブ / 109B 総 / 16 エキスパート / 10M コンテキスト、Maverick は 17B アクティブ / 400B 総 / 128 エキスパート / 1M コンテキスト。両者ともオープンウェイト、両者とも単一 H100 級ホストで動作可能、Meta Llama 4 コミュニティライセンス下で配布。BibiGPT ユーザにとって Scout の 10M コンテキストは数十本分の全文書き起こしを 1 プロンプトに収めるのに十分——分割なし、章間参照のロスなし。

Features

Llama 4 で何が変わる?

オープンウェイト 2 種——Scout と Maverick——いずれもネイティブマルチモーダル、いずれも MoE。Scout は単一 H100 上の 10M コンテキストを狙い、Maverick は単一 H100 ホスト上のクラス最強マルチモーダル推論を狙う。

Scout——17B アクティブ / 109B 総 / 10M コンテキスト

Scout は 170 億アクティブパラメータの MoE で 16 エキスパート、総 1090 億パラメータ。10M トークンのコンテキストはオープンウェイト層で最長、Int4 量子化で単一 NVIDIA H100 に収まる。

Maverick——17B アクティブ / 400B 総 / 1M コンテキスト

Maverick は 170 億アクティブパラメータの MoE で 128 ルーティング エキスパート+共有エキスパート、総 4000 億パラメータ。1M トークンコンテキストで単一 H100 DGX ホスト上の長尺推論を想定。Meta は Maverick がマルチモーダルベンチマークで GPT-4o と Gemini 2.0 Flash を上回ると報告。

オープンウェイト・ネイティブマルチモーダル

Scout と Maverick は llama.com と Hugging Face でオープンウェイトとして配布。両者ともテキストと画像を別アダプタなしでネイティブに受け付け、Meta の Llama 4 コミュニティライセンス下でセルフホスト可能——商用デプロイ前に条項を確認のこと。

10M コンテキスト + オープンウェイトが BibiGPT ユーザーにもたらすもの

BibiGPT のコアは長尺動画/ポッドキャストを構造化ノートに変えること。Scout の 10M コンテキストなら数十本分の全文書き起こしを 1 プロンプトに収められ、Maverick のマルチモーダルヘッドはスライド/スクリーンショット/フレーム抽出など画像中心コンテンツを一級市民として扱える。

複数エピソードコース要約

20 エピソードの YouTube コースまたは 1 年分のポッドキャストアーカイブを Scout の 10M コンテキストに収納。「どのエピソードで概念 X を導入した?」というクロスエピソード参照も検索インデックス無しで 1 推論で完結。

スライド + 書き起こしマルチモーダル Q&A

BibiGPT で抽出した書き起こしと講義/製品デモのフレームスクリーンショットをペアに。Maverick のネイティブマルチモーダルヘッドが「アーキテクチャ図はどのスライド?」のような両モダリティをまたぐ質問に OCR 前処理なしで応答。

プライバシ重視のセルフホスト

オープンウェイトなので Scout や Maverick を自社 GPU で運用可能。社内会議、有料コース、社内研修資料の要約をオンプレで完結させ、音声・書き起こし・フレームを社外に出さない運用が可能。

重要 5 ポイント(90 秒で読む)

Llama 4 リリースの主要な変化。

  1. 1

    2025-04-05 リリース

    Meta が 2025 年 4 月 5 日に Llama 4 Scout と Maverick を投入——ネイティブマルチモーダルかつ MoE 採用の最初のオープンウェイト Llama ヘアド。

  2. 2

    Llama 初の MoE 採用

    Llama 4 は Meta 初の MoE ルーティング採用 Llama 家族。総パラメータが 109B(Scout)や 400B(Maverick)でもトークン毎には約 17B しか起動せず、推論コストは 17B dense モデル並みに保たれる。

  3. 3

    Scout——10M トークンコンテキスト

    Scout の 10M コンテキストはオープンウェイト Llama 史上最長で、同期のクローズドウェイト勢の多くを上回る。位置エンコーディング無しの交互注意層と推論時の温度スケーリングで実現。

  4. 4

    Maverick——400B / 128 エキスパート / マルチモーダル SOTA

    Maverick は 128 ルーティング エキスパート+共有エキスパートで総 4000 億パラメータ。Meta はマルチモーダルベンチで GPT-4o と Gemini 2.0 Flash を上回ると報告。単一 H100 DGX ホストで運用可能。

  5. 5

    Behemoth プレビュー(約 2T 総)

    Meta は同時に Llama 4 Behemoth をプレビュー——約 2T 総パラメータの教師モデルで、Scout と Maverick の学習に使用された。オープンウェイトとしては未公開。

BibiGPT ユーザの典型ユースケース 3 つ

実在する BibiGPT のユーザペルソナに基づき、すべて今日から実行可能。

複数エピソードコース——1 プロンプトで要約

BibiGPT で 20 エピソードの YouTube コースの書き起こしを抽出し、要約段だけ Llama 4 Scout にルーティング。20 エピソード分が 10M コンテキストに収まり、エピソード横断参照を保ったまま要約され、分割サマリ再結合は不要。

スライド + 書き起こしマルチモーダル Q&A

BibiGPT が抽出した講義書き起こしとフレームスクリーンショットを組み合わせ。Maverick のネイティブマルチモーダルヘッドが「演者がアーキテクチャ図を出したのはどのスライド?」のようなモダリティ横断質問に応答——OCR パイプラインも字幕前処理も不要。

プライバシ重視のセルフホスト——オープンウェイトで本番投入

Llama 4 コミュニティライセンスで Scout または Maverick を自社 GPU で運用、前段に BibiGPT の書き起こし抽出。社内機密会議や有料コース——音声・書き起こし・フレームが社外に出ず、要約処理は社内ネットワークで完結。

よくある質問

ご質問はありますか?お気軽にどうぞ!

20 エピソードのコースを 1 プロンプトで要約——Llama 4 ルーティング込み

BibiGPT は長尺動画/ポッドキャスト要約を長コンテキストバックエンド(Llama 4 Scout の 10M コンテキスト含む)へ自動ルーティング。YouTube/Bilibili/ポッドキャストの URL を貼るだけで、全文書き起こし要約と 5 言語 AI Q&A を入手——分割アーティファクトなし、章間参照のロスなし。