Description
Stable Diffusion
¿Qué es Stable Diffusion?
Empresa y Financiación
| Dato | Información |
|---|---|
| Empresa | Stability AI Ltd |
| Sede | Londres, Reino Unido |
| Fundación | 2019 |
| CEO Actual | Prem Akkaraju (desde junio 2024) |
| Valoración | $1B (octubre 2022) |
| Financiación Total | ~$231M - $299M |
| Ingresos 2024 | ~$50M - $104M |
| Empleados | ~186 |
Modelos Disponibles (Diciembre 2025)
Stable Diffusion 3.5 (Octubre 2024) - Última Generación
| Modelo | Parámetros | Resolución | Velocidad | VRAM |
|---|---|---|---|---|
| SD 3.5 Large | 8.1B | 1 megapíxel | Estándar | ~12GB |
| SD 3.5 Large Turbo | 8.1B | 1 megapíxel | 4 pasos (rápido) | ~12GB |
| SD 3.5 Medium | 2.5B | 0.25-2 MP | Estándar | 9.9GB |
| SD 3.5 Flash | - | Variable | Muy rápido | Bajo |
Modelos Anteriores
- SDXL 1.0 (Julio 2023): 3.5B parámetros, 1024×1024 nativo
- SD 2.1: Modelo legacy
- SD 1.5: 860M parámetros, 4GB VRAM, ecosistema más grande (10,000+ modelos fine-tuned)
Arquitectura Técnica
- Diffusion Models: Genera imágenes denoising de ruido aleatorio
- Tres encoders de texto: OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl
- QK-Normalization: Mejora la estabilidad del entrenamiento
- MMDiT-X (SD 3.5 Medium): Módulos de self-attention en las primeras 13 capas
Precios y Licencias (Diciembre 2025)
Community License (Gratis)
- Elegibilidad: Individuos y organizaciones con ingresos < $1M anuales
- Incluye: SD 3.5 Suite, SDXL Turbo, Stable Audio Open, Stable Fast 3D
- Uso: Comercial y no comercial ilimitado
Enterprise License
- Elegibilidad: Organizaciones con ingresos > $1M anuales
- Precio: Personalizado (contactar ventas)
- Incluye: Soporte de implementación, entrenamiento de modelos custom
Stability AI API (Credits)
| Servicio | Créditos/Imagen |
|---|---|
| Stable Image Ultra | Variable |
| Stable Image Core | Económico |
| SD 3.5 Large | ~3.7¢ |
| SD 3.5 Large Turbo | Más económico |
| SDXL 1.0 | ~1.1¢ |
| SD 1.5 | ~0.6¢ |
Plataformas de Terceros
- DreamStudio: Interfaz web oficial de Stability AI
- Stable Assistant: Chatbot multimodal
- ComfyUI: Interfaz local basada en nodos (gratis)
- Automatic1111: WebUI popular (gratis)
- Replicate, Hugging Face, Fireworks: APIs alternativas
Características Principales
Generación de Imágenes
- Texto a imagen desde lenguaje natural
- Imagen a imagen (img2img)
- Inpainting (rellenar áreas)
- Outpainting (expandir imágenes)
- Upscaling (aumentar resolución)
- Control mediante ControlNets
Fortalezas de SD 3.5
- Renderizado de texto mejorado en imágenes
- Diversidad de outputs: personas con diferentes tonos de piel y características
- Versatilidad de estilos: 3D, fotografía, pintura, line art
- Adherencia a prompts superior
- Customización: Query-Key Normalization facilita fine-tuning
Multimodalidad (Ecosystem Stability AI)
- Stable Video Diffusion: Clips de video desde imágenes
- Stable Video 4D 2.0 (Mayo 2025): Videos multi-ángulo dinámicos
- Stable Audio 2.5 (Sept 2025): Generación de audio empresarial
- SPAR3D: Modelos 3D desde imágenes en < 1 segundo
Requisitos de Hardware (Self-Hosted)
| Modelo | GPU Mínima | VRAM | RAM | Almacenamiento |
|---|---|---|---|---|
| SD 1.5 | GTX 1060 | 4GB | 8GB | 5GB |
| SDXL | RTX 3060 | 8GB | 16GB | 15GB |
| SD 3.5 Medium | RTX 3070 | 10GB | 16GB | 20GB |
| SD 3.5 Large | RTX 4080 | 12GB+ | 32GB | 25GB |
Integraciones y Partners
Plataformas Cloud
- Amazon Bedrock (AWS)
- Azure AI Foundry (Microsoft)
- NVIDIA NIM
- Hugging Face
- Replicate
Partners Empresariales
- WPP: Partnership estratégico e inversión (Marzo 2025)
- Electronic Arts (EA): Co-desarrollo de modelos para gaming
- Universal Music Group: Herramientas de creación musical
- Warner Music Group: IA responsable para música
- HubSpot: Integración en Breeze Content Agent
- Mercado Libre: GenAds para e-commerce
Casos de Uso Empresariales
| Empresa | Aplicación | Resultado |
|---|---|---|
| HubSpot | Breeze Content Agent | +150% capacidad de generación |
| Mercado Libre | GenAds publicidad | +25% CTR |
| EA | Assets para juegos | En desarrollo |
Open Source y Comunidad
- Hugging Face: Modelos descargables, +10,000 variantes fine-tuned
- GitHub: Código de inferencia y entrenamiento
- ComfyUI: Interfaz de nodos con flujos personalizables
- Civitai: Comunidad de modelos y LoRAs
- Discord: Comunidad oficial Stability AI
Limitaciones
- No genera contenido dañino, violento o explícito (con safeguards)
- Calidad variable según especificidad del prompt
- Mayor variación en outputs con misma semilla (por diseño)
- Requiere hardware potente para modelos grandes
- Licencia Enterprise requerida para empresas > $1M ingresos
Controversias
- Getty Images: Demanda por copyright (victoria parcial de Stability AI en Nov 2025)
- Cambio de CEO: Emad Mostaque dimitió en marzo 2024
- Desafíos financieros: Reportados en 2024, resueltos con nueva financiación
Key Features
Use Cases
Generación de arte digital y ilustraciones
Creación de contenido para redes sociales
Diseño de materiales de marketing
Concept art para videojuegos y películas
Generación de imágenes de productos
Creación de assets para videojuegos
Diseño de personajes y escenarios
Prototipado rápido de ideas visuales
Edición y retoque de fotografías
Generación de fondos y texturas
Creación de logos y branding
Visualización arquitectónica
Ilustraciones para libros y publicaciones
Storyboarding y previsualización
Entrenamiento de modelos personalizados
Investigación en IA generativa
Generación de variaciones de diseño
Publicidad automatizada (GenAds)
Contenido educativo visual
NFTs y arte coleccionable digital
Reviews de Usuarios
IAs Relacionadas
ChatGPT
OpenAI
ChatGPT de OpenAI es un asistente de IA versátil que destaca en conversaciones naturales, creación de contenido y resolución de problemas complejos. Con sus capacidades multimodales avanzadas, procesa texto, voz e imágenes para optimizar tu productividad y creatividad.

Google Gemini
Google DeepMind
Suite de modelos de IA multimodal de Google DeepMind con capacidades de texto, imagen, audio, video y código, integrada en el ecosistema de Google con agentes autónomos y razonamiento avanzado.
DALL-E
OpenAI
Sistema de generación de imágenes con IA de OpenAI que incluye DALL-E 3 y el nuevo GPT-Image-1, con capacidades de texto a imagen, edición, inpainting y resolución hasta 4K, integrado en ChatGPT y disponible vía API.
