Description
¿Qué es Llama?
Modelos Llama 4 (Abril 2025)
Scout (109B total params, 17B activos)
- Context window: 10M tokens (líder industria)
- Arquitectura: 16 experts MoE
- Deployment: Cabe en 1 GPU H100 (con int4 quantization)
- Training: ~40T tokens multimodales
- Best for: Long-context reasoning, summarization, visual understanding
Maverick (400B total params, 17B activos)
- Context window: 1M tokens
- Arquitectura: 128 experts MoE
- Deployment: 1 H100 DGX host
- Training: ~22T tokens multimodales
- Performance: Bate GPT-4o, Gemini 2.0 Flash; comparable DeepSeek v3
- Best for: Multimodal tasks, reasoning, coding
- Integración: Usado en Meta AI (WhatsApp, Messenger, Instagram)
Behemoth (2T total params, 288B activos) - En training
- Arquitectura: 16 experts MoE
- Performance: Supera GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Pro
- Benchmarks: Líder en MATH-500, GPQA Diamond (STEM)
- Status: Aún no lanzado públicamente
Generaciones Anteriores
Llama 3.2 (Oct 2024): Primer modelo multimodal
Llama 3.1 405B (Jul 2024): Primer modelo frontier open-source
Llama 3 (Abr 2024): 8B y 70B params, mejor reasoning
Llama 2 (Jul 2023): Primera versión con licencia open
Llama 1 (Feb 2023): Lanzamiento inicial (acceso limitado)
Características Clave
- Text + image + video understanding simultáneo
- Early fusion training (integración desde inicio, no encoders separados)
- Scout: 10M tokens (récord industria)
- Maverick: 1M tokens
- Llama 3.x: 128K tokens
- Solo 17B params activos por token (de 109B-400B total)
- Inference más rápido y barato que modelos densos equivalentes
- Scout: Cabe en 1 GPU H100
- 12 idiomas: Árabe, inglés, francés, alemán, hindi, indonesio, italiano, portugués, español, tagalo, tailandés, vietnamita
- Pesos descargables y modificables
- Fine-tuning completo permitido
- Deploy on-premise o cloud
Pricing
- Uso comercial libre (< 700M MAU)
- Modificación y fine-tuning permitidos
- Research sin restricciones
- Input: $0.1/1M tokens
- Output: $0.4/1M tokens
- 10-15x más barato que GPT-4o/Claude 3.5
- Empresas 700M+ MAU: requieren licencia especial de Meta
- Usuarios/empresas en EU: prohibido usar o distribuir
- Acceptable Use Policy: prohíbe violencia, criminal, etc.
Herramientas de Seguridad
Prompt Guard: Protección contra prompt injection
Code Shield: Filtering de código inseguro en inference-time
CyberSecEval: Suite de evaluación de riesgos ciberseguridad
Llama Firewall: Guardrails de seguridad para sistemas AI
Dónde Usar Llama
- WhatsApp, Messenger, Instagram Direct
- Meta.ai website
- 40 países disponibles
- AWS Bedrock
- Azure AI
- Google Cloud
- Databricks
- Snowflake
- Hugging Face
- Together AI
- Fireworks AI
- Groq
- Cerebras
- Replicate
- Ollama (local)
- Unsloth, Axolotl, LLaMA-Factory
- AWS, Azure managed services
- Qualcomm Snapdragon integration
- Smartphones, PCs, VR/AR headsets
Casos de Uso
- Custom chatbots y assistants
- RAG pipelines con datos propios
- Document analysis y summarization
- Multilingual translation
- Code generation y debugging
- Agentic coding workflows
- API integration
- Text generation
- Image understanding
- Video analysis
- Creative writing
- Base para model distillation
- Benchmark de arquitecturas
- Academic research
Ventajas
✅ Context extremo: 10M tokens (Scout)
✅ Multimodal nativo: texto + imagen + video
✅ MoE eficiente: 17B activos vs 400B total
✅ On-premise: Control total de datos
✅ Fine-tuning: Personalización completa
✅ No vendor lock-in
✅ Meta ecosystem: 3B+ usuarios
✅ Safety tools incluidos
✅ Multilingual: 12 idiomas
Limitaciones
❌ Restricciones EU: Prohibido para usuarios/empresas EU
❌ 700M MAU limit: Startups exitosos necesitan renegociar
❌ Hardware requirements: Modelos grandes necesitan GPUs costosos
❌ Coding inferior: 40% LiveCodeBench vs 85% GPT-5
❌ Hallucinations: Genera info falsa como otros LLMs
❌ Data cutoff: Agosto 2024
❌ Not reasoning model: No como o1/o3-mini
Key Features
Use Cases
Enterprise chatbots y assistants con datos propios
RAG pipelines para document analysis
Code generation y debugging workflows
Multilingual content translation (12 idiomas)
Long-context document summarization (10M tokens)
Image understanding y visual Q&A
Video analysis y content moderation
On-premise AI deployment (control de datos)
Model distillation para crear modelos más pequeños
Research y academic experimentation
Fine-tuning para domain-specific tasks
Customer support automation
Content generation para marketing
Legal document analysis
Medical research text processing
Financial data analysis
Social media content moderation
Educational tutoring systems
Synthetic data generation
Agentic workflows con tool calling
Categories
Information
Company
Meta AI
Website
llama.comReviews de Usuarios
IAs Relacionadas

Google Gemini
Google DeepMind
Suite de modelos de IA multimodal de Google DeepMind con capacidades de texto, imagen, audio, video y código, integrada en el ecosistema de Google con agentes autónomos y razonamiento avanzado.

Midjourney
Midjourney Inc.
Generador de imágenes con IA líder en calidad artística que transforma prompts de texto en obras visuales impresionantes, con modelo V7, generación de video V1 y comunidad de 21M+ usuarios.

Stable Diffusion
Stability AI
Modelo open-source de generación de imágenes con IA de Stability AI. Incluye SD 3.5 con 8.1B parámetros, ejecutable localmente en hardware de consumo, con más de 10,000 modelos fine-tuned y licencia gratuita para uso comercial.
