Llama 4 × BibiGPT

Meta는 2025-04-05에 Llama 4를 출시했다——사상 첫 네이티브 멀티모달 Llama이자 Meta가 처음으로 Mixture-of-Experts(MoE) 아키텍처를 채택한 패밀리. Scout는 17B 활성 / 109B 총파라미터 / 전문가 16개 / 10M 토큰 컨텍스트, Maverick은 17B 활성 / 400B 총파라미터 / 전문가 128개 / 1M 컨텍스트. BibiGPT는 장시간 영상 요약, 다문서 Q&A, 셀프호스트 파이프라인을 Llama 4로 라우팅한다——Mistral Medium 3.5, DeepSeek-V4와 함께 오픈웨이트 장문 컨텍스트 백본 중 하나.

출시 · 2025-04-05 Scout 10M 컨텍스트 · Maverick 400B MoE 오픈웨이트 · 멀티모달

핵심 사실 (90초 읽기)

2026-05-09 기준: Meta가 2025-04-05에 Llama 4를 공개——사상 첫 네이티브 멀티모달 Llama 패밀리이자 Meta 최초의 MoE Llama. Scout는 17B 활성 / 109B 총 / 전문가 16 / 10M 토큰 컨텍스트, Maverick은 17B 활성 / 400B 총 / 전문가 128 / 1M 컨텍스트. 두 모델 모두 오픈웨이트, 모두 단일 H100 급 호스트에서 동작 가능, Meta Llama 4 커뮤니티 라이선스로 배포. BibiGPT 사용자에게 Scout의 10M 컨텍스트는 수십 편 분량의 전체 트랜스크립트를 단일 프롬프트에 담기에 충분——청크 분할 없음, 청크 간 참조 손실 없음.

Features

Llama 4가 가져온 변화는?

오픈웨이트 두 종——Scout와 Maverick——모두 네이티브 멀티모달, 모두 MoE. Scout는 단일 H100에서 10M 컨텍스트를, Maverick은 단일 H100 DGX 호스트에서 클래스 최강 멀티모달 추론을 노린다.

Scout——17B 활성 / 109B 총 / 10M 컨텍스트

Scout는 170억 활성 파라미터의 MoE로 전문가 16개, 총 1090억 파라미터. 10M 토큰 컨텍스트는 오픈웨이트 계층에서 가장 길며, Int4 양자화 시 단일 NVIDIA H100에 들어간다.

Maverick——17B 활성 / 400B 총 / 1M 컨텍스트

Maverick은 170억 활성 파라미터 MoE로 라우팅 전문가 128개와 공유 전문가 1개, 총 4000억 파라미터. 1M 토큰 컨텍스트는 단일 H100 DGX 호스트의 장문 추론을 겨냥한다. Meta는 Maverick이 멀티모달 벤치마크에서 GPT-4o와 Gemini 2.0 Flash를 능가한다고 보고한다.

오픈웨이트 / 네이티브 멀티모달

Scout와 Maverick은 llama.com과 Hugging Face에서 오픈웨이트로 배포된다. 두 모델 모두 별도 비전 어댑터 없이 텍스트와 이미지 입력을 네이티브로 받으며, Meta Llama 4 커뮤니티 라이선스로 셀프호스트 가능——상업 배포 전 약관 검토 필수.

10M 컨텍스트 + 오픈웨이트가 BibiGPT 사용자에게 의미하는 것

BibiGPT의 핵심은 장시간 영상·팟캐스트를 구조화 노트로 바꾸는 것. Scout의 10M 컨텍스트는 수십 편 분량의 전체 트랜스크립트를 한 번의 프롬프트에 담을 만큼 충분하고, Maverick의 멀티모달 헤드는 슬라이드·스크린샷·프레임 추출 같은 이미지 중심 콘텐츠를 일급 시민으로 다룬다.

다중 에피소드 강의 요약

20개 에피소드 분량의 YouTube 강의 또는 1년 치 팟캐스트 백카탈로그를 Scout 10M 컨텍스트에 적재. 「개념 X를 도입한 에피소드는?」 같은 에피소드 횡단 참조도 검색 인덱스 없이 단일 추론으로 해결.

슬라이드 + 트랜스크립트 멀티모달 Q&A

BibiGPT가 추출한 트랜스크립트와 강의·제품 데모의 프레임 스크린샷을 짝지어 입력. Maverick의 네이티브 멀티모달 헤드는 OCR 전처리 없이도 「발표자가 아키텍처 다이어그램을 보여준 슬라이드는?」 같은 모달리티 횡단 질문에 답한다.

프라이버시 민감 콘텐츠 셀프호스트

오픈웨이트이므로 Scout 또는 Maverick을 자체 GPU에서 실행 가능. 민감한 사내 회의, 유료 강의 콘텐츠, 내부 교육 자료를 사내에서 요약——음성·트랜스크립트·프레임이 외부로 나가지 않는다.

핵심 5가지 (90초 읽기)

Llama 4 출시의 주요 변화.

  1. 1

    2025-04-05 출시

    Meta가 2025년 4월 5일 Llama 4 Scout와 Maverick을 출시——네이티브 멀티모달과 MoE를 채택한 첫 오픈웨이트 Llama 헤드.

  2. 2

    Llama 최초의 MoE 채택

    Llama 4는 Meta 최초로 MoE 라우팅을 채택한 Llama 패밀리. 총파라미터가 109B(Scout) 또는 400B(Maverick)이라도 토큰당 약 17B만 활성화되어 추론 비용은 17B dense 모델 수준에 머문다.

  3. 3

    Scout——10M 토큰 컨텍스트

    Scout의 10M 컨텍스트는 어떤 오픈웨이트 Llama보다도 길고, 동시기 클로즈드웨이트 다수를 능가한다. 위치 임베딩 없는 인터리브 어텐션 레이어와 추론 시 어텐션 온도 스케일링으로 구현.

  4. 4

    Maverick——400B / 전문가 128 / 멀티모달 SOTA

    Maverick은 라우팅 전문가 128개에 공유 전문가 1개를 더해 총 4000억 파라미터. Meta는 멀티모달 벤치마크에서 GPT-4o와 Gemini 2.0 Flash를 능가한다고 보고한다. 단일 H100 DGX 호스트에서 배포 가능.

  5. 5

    Behemoth 프리뷰 (약 2T 총)

    Meta는 동시에 Llama 4 Behemoth를 프리뷰——약 2T 총파라미터의 교사 모델로, Scout와 Maverick 학습에 사용되었다. 오픈웨이트로는 아직 미공개.

BibiGPT 사용자의 대표적 시나리오 3가지

실제 BibiGPT 사용자 페르소나에 기반, 모두 오늘부터 실행 가능.

다중 에피소드 강의——단일 프롬프트 요약

BibiGPT로 20개 에피소드 YouTube 강의의 트랜스크립트를 추출하고, 요약 단계만 Llama 4 Scout로 라우팅. 20개 에피소드 전체가 10M 컨텍스트에 들어가 에피소드 횡단 참조가 유지되며, 청크 요약을 다시 합칠 필요가 없다.

슬라이드 + 트랜스크립트 멀티모달 Q&A

BibiGPT가 추출한 강의 트랜스크립트와 프레임 스크린샷을 결합. Maverick의 네이티브 멀티모달 헤드는 「발표자가 아키텍처 다이어그램을 보여준 슬라이드는?」 같은 모달리티 횡단 질문에 응답한다——OCR 파이프라인 불필요, 캡션 전처리 불필요.

프라이버시 셀프호스트——오픈웨이트 프로덕션 투입

Llama 4 커뮤니티 라이선스로 Scout 또는 Maverick을 자체 GPU에서 운영, 앞단에 BibiGPT 트랜스크립트 추출. 민감한 사내 회의나 유료 강의——음성·트랜스크립트·프레임이 외부로 나가지 않고 요약 처리는 사내 네트워크에서 완결.

자주 묻는 질문

무엇이든 물어보세요!

20개 에피소드 강의를 한 번의 프롬프트로 요약——Llama 4 라우팅 포함

BibiGPT는 장시간 영상·팟캐스트 요약을 장문 컨텍스트 백본(Llama 4 Scout 10M 컨텍스트 포함)으로 자동 라우팅한다. YouTube/Bilibili/팟캐스트 URL을 붙여넣기만 하면 전체 트랜스크립트 요약과 5개 언어 AI Q&A——청크 아티팩트 없음, 청크 간 참조 손실 없음.