Description
¿Qué es Llama?
Modelos Llama 4 (Abril 2025)
Scout (109B total params, 17B activos)
- Context window: 10M tokens (líder industria)
- Arquitectura: 16 experts MoE
- Deployment: Cabe en 1 GPU H100 (con int4 quantization)
- Training: ~40T tokens multimodales
- Best for: Long-context reasoning, summarization, visual understanding
Maverick (400B total params, 17B activos)
- Context window: 1M tokens
- Arquitectura: 128 experts MoE
- Deployment: 1 H100 DGX host
- Training: ~22T tokens multimodales
- Performance: Bate GPT-4o, Gemini 2.0 Flash; comparable DeepSeek v3
- Best for: Multimodal tasks, reasoning, coding
- Integración: Usado en Meta AI (WhatsApp, Messenger, Instagram)
Behemoth (2T total params, 288B activos) - En training
- Arquitectura: 16 experts MoE
- Performance: Supera GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Pro
- Benchmarks: Líder en MATH-500, GPQA Diamond (STEM)
- Status: Aún no lanzado públicamente
Generaciones Anteriores
Llama 3.2 (Oct 2024): Primer modelo multimodal
Llama 3.1 405B (Jul 2024): Primer modelo frontier open-source
Llama 3 (Abr 2024): 8B y 70B params, mejor reasoning
Llama 2 (Jul 2023): Primera versión con licencia open
Llama 1 (Feb 2023): Lanzamiento inicial (acceso limitado)
Características Clave
- Text + image + video understanding simultáneo
- Early fusion training (integración desde inicio, no encoders separados)
- Scout: 10M tokens (récord industria)
- Maverick: 1M tokens
- Llama 3.x: 128K tokens
- Solo 17B params activos por token (de 109B-400B total)
- Inference más rápido y barato que modelos densos equivalentes
- Scout: Cabe en 1 GPU H100
- 12 idiomas: Árabe, inglés, francés, alemán, hindi, indonesio, italiano, portugués, español, tagalo, tailandés, vietnamita
- Pesos descargables y modificables
- Fine-tuning completo permitido
- Deploy on-premise o cloud
Pricing
- Uso comercial libre (< 700M MAU)
- Modificación y fine-tuning permitidos
- Research sin restricciones
- Input: $0.1/1M tokens
- Output: $0.4/1M tokens
- 10-15x más barato que GPT-4o/Claude 3.5
- Empresas 700M+ MAU: requieren licencia especial de Meta
- Usuarios/empresas en EU: prohibido usar o distribuir
- Acceptable Use Policy: prohíbe violencia, criminal, etc.
Herramientas de Seguridad
Prompt Guard: Protección contra prompt injection
Code Shield: Filtering de código inseguro en inference-time
CyberSecEval: Suite de evaluación de riesgos ciberseguridad
Llama Firewall: Guardrails de seguridad para sistemas AI
Dónde Usar Llama
- WhatsApp, Messenger, Instagram Direct
- Meta.ai website
- 40 países disponibles
- AWS Bedrock
- Azure AI
- Google Cloud
- Databricks
- Snowflake
- Hugging Face
- Together AI
- Fireworks AI
- Groq
- Cerebras
- Replicate
- Ollama (local)
- Unsloth, Axolotl, LLaMA-Factory
- AWS, Azure managed services
- Qualcomm Snapdragon integration
- Smartphones, PCs, VR/AR headsets
Casos de Uso
- Custom chatbots y assistants
- RAG pipelines con datos propios
- Document analysis y summarization
- Multilingual translation
- Code generation y debugging
- Agentic coding workflows
- API integration
- Text generation
- Image understanding
- Video analysis
- Creative writing
- Base para model distillation
- Benchmark de arquitecturas
- Academic research
Ventajas
✅ Context extremo: 10M tokens (Scout)
✅ Multimodal nativo: texto + imagen + video
✅ MoE eficiente: 17B activos vs 400B total
✅ On-premise: Control total de datos
✅ Fine-tuning: Personalización completa
✅ No vendor lock-in
✅ Meta ecosystem: 3B+ usuarios
✅ Safety tools incluidos
✅ Multilingual: 12 idiomas
Limitaciones
❌ Restricciones EU: Prohibido para usuarios/empresas EU
❌ 700M MAU limit: Startups exitosos necesitan renegociar
❌ Hardware requirements: Modelos grandes necesitan GPUs costosos
❌ Coding inferior: 40% LiveCodeBench vs 85% GPT-5
❌ Hallucinations: Genera info falsa como otros LLMs
❌ Data cutoff: Agosto 2024
❌ Not reasoning model: No como o1/o3-mini
Key Features
Llama 4 Scout: 10M token context, MoE 16 experts, cabe en 1 H100 GPU
Llama 4 Maverick: 400B params, 17B activos, 1M context, bate GPT-4o
Llama 4 Behemoth: 2T params en training, supera GPT-4.5 y Claude 3.7
Multimodal nativo: texto + imagen + video desde inicio
Mixture-of-Experts: 17B activos reduce costos vs modelos densos
Open-weight: descarga pesos, fine-tuning completo, deploy on-premise
Context extremo: hasta 10M tokens (Scout) - líder industria
Gratis bajo licencia Community (< 700M MAU usuarios)
Multilingual: 12 idiomas incluyendo español
Safety tools: Llama Guard 3, Prompt Guard, Code Shield incluidos
Meta AI integration: WhatsApp, Messenger, Instagram (3B+ usuarios)
Cloud platforms: AWS, Azure, GCP, Databricks, Snowflake
Inference providers: Hugging Face, Together AI, Groq, Ollama
On-device: Qualcomm Snapdragon para smartphones y headsets
Early fusion multimodality: mejor que encoders separados
Cost-efficient: $0.1-0.4/1M tokens (10-15x más barato que GPT-4o)
Fine-tuning frameworks: LoRA, QLoRA, PEFT-based
RAG integration: LangChain, LlamaIndex compatible
Llama 3.3 70B: performance 405B a fracción del costo
Training scale: 40T tokens (Scout), 22T tokens (Maverick)
Use Cases
Enterprise chatbots y assistants con datos propios
RAG pipelines para document analysis
Code generation y debugging workflows
Multilingual content translation (12 idiomas)
Long-context document summarization (10M tokens)
Image understanding y visual Q&A
Video analysis y content moderation
On-premise AI deployment (control de datos)
Model distillation para crear modelos más pequeños
Research y academic experimentation
Fine-tuning para domain-specific tasks
Customer support automation
Content generation para marketing
Legal document analysis
Medical research text processing
Financial data analysis
Social media content moderation
Educational tutoring systems
Synthetic data generation
Agentic workflows con tool calling
Categories
Information
Company
Meta AI
Website
llama.comReviews de Usuarios
Prompts
Descubre los mejores prompts para Llama
IAs Relacionadas

Runway
Runway AI Inc.
Plataforma líder de generación de video con IA para cine y creativos. Gen-4.5 (#1 Video Arena), partnerships con Lionsgate/IMAX, 300K+ clientes y valoración de $3B+.

Synthesia
Synthesia Limited
Plataforma líder de videos con IA y avatares realistas en 140+ idiomas. 60% Fortune 100 como clientes, $4B valoración, 240+ avatares y reducción del 90% en tiempo de producción.

Sora
OpenAI
OpenAI text-to-video. Sora 2 (sep 2025): synchronized audio, advanced physics, multi-shot. ChatGPT Plus $20/mes (50 videos), Pro $200/mes (500+unlimited). Invite-only US/Canada.
