Las mejores IA open source bajo demanda en un Cloud soberano
Descubre las mejores alternativas open source a ChatGPT, Gemini, Midjourney o Claude para procesar datos confidenciales en total conformidad con la legislación europea y suiza.
LLM↓
Embeddings↓
Audio↓
Imagen↓
Grandes modelos de lenguaje (LLM)
Las mejores alternativas open source a ChatGPT, Gemini y Microsoft Copilot para interactuar, analizar y generar contenido con IA.
Qwen3-235B-A22B-Instruct-2507
El más potente
- ●
Modelo muy grande, rivaliza con GPT-4 o Claude 3 Opus en una amplia gama de tareas complejas
- ●
Rendimiento multilingüe avanzado
- ●
Modo de razonamiento que puede activarse para ajustar dinámicamente las respuestas al contexto y la complejidad de las solicitudes
Modalidad
Text to Text
Max input tokens
262’144
Idiomas
Más de 100 idiomas
Consulta de funciones
Sí
Categoría de modelo
chat_large
- ●
Modelo muy grande, rivaliza con GPT-4 o Claude 3 Opus en una amplia gama de tareas complejas
- ●
Rendimiento multilingüe avanzado
- ●
Modo de razonamiento que puede activarse para ajustar dinámicamente las respuestas al contexto y la complejidad de las solicitudes
Modalidad
Text to Text
Max input tokens
262’144
Idiomas
Más de 100 idiomas
Consulta de funciones
Sí
Categoría de modelo
chat_large
Mistral-Small-3.2-24B-Instruct-2506
El más visual
- ●
Modelo multimodal versátil, ideal para visión, análisis de imágenes y agentes conversacionales
- ●
Respuestas instantáneas con una clara comprensión del contexto
- ●
Admite sin problemas todos los idiomas europeos más importantes
Modalidad
Image-Text to Text
Max input tokens
128’000
Idiomas
EN, ES, FR, DE, IT...
Consulta de funciones
Sí
Categoría de modelo
vision_medium
- ●
Modelo multimodal versátil, ideal para visión, análisis de imágenes y agentes conversacionales
- ●
Respuestas instantáneas con una clara comprensión del contexto
- ●
Admite sin problemas todos los idiomas europeos más importantes
Modalidad
Image-Text to Text
Max input tokens
128’000
Idiomas
EN, ES, FR, DE, IT...
Consulta de funciones
Sí
Categoría de modelo
vision_medium
Gemma-3n-E4B-it
El más flexible
- ●
Un pequeño modelo multimodal muy eficaz y económico de implementar
- ●
Optimizado para entornos restringidos y casos de uso integrados
- ●
Ideal para aplicaciones que requieren respuestas rápidas de visión o texto
Modalidad
Image-Audio-Text to Text
Max input tokens
32’000
Idiomas
Más de 140 idiomas
Consulta de funciones
Sí
Categoría de modelo
omni_small
- ●
Un pequeño modelo multimodal muy eficaz y económico de implementar
- ●
Optimizado para entornos restringidos y casos de uso integrados
- ●
Ideal para aplicaciones que requieren respuestas rápidas de visión o texto
Modalidad
Image-Audio-Text to Text
Max input tokens
32’000
Idiomas
Más de 140 idiomas
Consulta de funciones
Sí
Categoría de modelo
omni_small
Llama 3.3
El más potente
- ●
Optimizado para procesar grandes cantidades de texto y garantizar la coherencia entre múltiples fuentes
- ●
Destaca en tareas de desarrollo, programación e investigación académica
- ●
Gran flexibilidad multilingüe con más de 30 idiomas admitidos
- ●
Adecuado para artistas y creación de contenido, incluido el storytelling
Modalidad
Text to Text
Max input tokens
100’000
Idiomas
EN, ES, FR, DE, IT...
Consulta de funciones
Sí
- ●
Optimizado para procesar grandes cantidades de texto y garantizar la coherencia entre múltiples fuentes
- ●
Destaca en tareas de desarrollo, programación e investigación académica
- ●
Gran flexibilidad multilingüe con más de 30 idiomas admitidos
- ●
Adecuado para artistas y creación de contenido, incluido el storytelling
Modalidad
Text to Text
Max input tokens
100’000
Idiomas
EN, ES, FR, DE, IT...
Consulta de funciones
Sí
Modelo de embedding
Los mejores modelos de embedding de código abierto para transformar tus datos en vectores inteligentes. Mejora la precisión de tus búsquedas, personaliza tus recomendaciones, simplifica el análisis de datos, explora los vínculos semánticos y clasifica fácilmente el texto.
Bge Multilingual Gemma2
La más alta calidad
- ●
El modelo de embedding de código abierto más potente del mercado
- ●
La referencia para las tareas de búsqueda semántica y búsqueda aumentada (ASR)
- ●
Ideal para el uso avanzado de vectores de embedding en usos diversos
- ●
Rendimiento excepcional, sea cual sea el idioma del texto (100+ idiomas)
Max input tokens
8192
Parámetros
9.2 B
Dimensiones
3584
Idiomas
EN, ES, FR, DE, IT...
Tipo
Texto
- ●
El modelo de embedding de código abierto más potente del mercado
- ●
La referencia para las tareas de búsqueda semántica y búsqueda aumentada (ASR)
- ●
Ideal para el uso avanzado de vectores de embedding en usos diversos
- ●
Rendimiento excepcional, sea cual sea el idioma del texto (100+ idiomas)
Max input tokens
8192
Parámetros
9.2 B
Dimensiones
3584
Idiomas
EN, ES, FR, DE, IT...
Tipo
Texto
All MiniLM L12 v2
La mejor relación calidad-precio
- ●
Este modelo es el resultado de un trabajo comunitario basado en un modelo publicado por Microsoft.
- ●
Excelente relación calidad-precio, ideal para la creación de prototipos y tareas sencillas con recursos limitados
- ●
Buen rendimiento en tareas relativamente sencillas, sea cual sea el idioma del texto
- ●
Velocidad extrema para indexar enormes bases de datos o tratamientos en tiempo real
- ●
Alta eficiencia energética para reducir el impacto medioambiental
Max input tokens
512
Parámetros
33 M
Dimensiones
384
Idiomas
EN, ES, FR, DE, IT...
Tipo
Texto
- ●
Este modelo es el resultado de un trabajo comunitario basado en un modelo publicado por Microsoft.
- ●
Excelente relación calidad-precio, ideal para la creación de prototipos y tareas sencillas con recursos limitados
- ●
Buen rendimiento en tareas relativamente sencillas, sea cual sea el idioma del texto
- ●
Velocidad extrema para indexar enormes bases de datos o tratamientos en tiempo real
- ●
Alta eficiencia energética para reducir el impacto medioambiental
Max input tokens
512
Parámetros
33 M
Dimensiones
384
Idiomas
EN, ES, FR, DE, IT...
Tipo
Texto
Reconocimiento de voz
La mejor IA open source para transcribir archivos de audio a texto o generar voces humanas realistas.
Whisper V3
Para las transcripciones complejas
- ●
Modelo entrenado con más de 1 millón de horas de datos
- ●
Los errores de transcripción se reducen hasta un 20% en comparación con Whisper V2
- ●
Mejor gestión de acentos, ruido de fondo y discursos complejos (por ejemplo, llamadas o videoconferencias)
- ●
Soporte multilingüe mejorado y traducción de transcripciones a idiomas distintos del inglés
Tamaño máximo de un archivo
25 MB
Formatos admitidos
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
- ●
Modelo entrenado con más de 1 millón de horas de datos
- ●
Los errores de transcripción se reducen hasta un 20% en comparación con Whisper V2
- ●
Mejor gestión de acentos, ruido de fondo y discursos complejos (por ejemplo, llamadas o videoconferencias)
- ●
Soporte multilingüe mejorado y traducción de transcripciones a idiomas distintos del inglés
Tamaño máximo de un archivo
25 MB
Formatos admitidos
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
Generación y procesamiento de imágenes
Las mejores alternativas open source a Midjourney, Microsoft Copilot Designer o Gemini para generar, fusionar o interpretar imágenes.
Photomaker V2
Ideal para generar imágenes
- ●
La mejor combinación de calidad y velocidad en la creación de imágenes con IA generativa
- ●
Generación rápida de imágenes fotorrealistas en 1, 2, 4 u 8 pasos a partir de prompts
- ●
Funciona por destilación, lo que aumenta la eficiencia energética garantizando una excelente calidad
- ●
Optimizado para el inglés, con un conocimiento limitado de otros idiomas (FR, DE, ES, IT...)
Max input tokens
77
Max output image
5
Idiomas
EN
Resolución máxima
1024x1024, 1792x1024, 1024x1792
- ●
La mejor combinación de calidad y velocidad en la creación de imágenes con IA generativa
- ●
Generación rápida de imágenes fotorrealistas en 1, 2, 4 u 8 pasos a partir de prompts
- ●
Funciona por destilación, lo que aumenta la eficiencia energética garantizando una excelente calidad
- ●
Optimizado para el inglés, con un conocimiento limitado de otros idiomas (FR, DE, ES, IT...)
Max input tokens
77
Max output image
5
Idiomas
EN
Resolución máxima
1024x1024, 1792x1024, 1024x1792
Flux schnell
Ideal para modificar y fusionar retratos de personas
- ●
Creación de fotos en varios estilos a partir de una o más fotos de perfil
- ●
Potente y flexible: recontextualización, coloración, cambio de edad y género, mezcla de identidades...
Max input tokens
77
Max input image
6
Max output image
5
Idiomas
EN
Resolución máxima
1024x1024, 1792x1024, 1024x1792
- ●
Creación de fotos en varios estilos a partir de una o más fotos de perfil
- ●
Potente y flexible: recontextualización, coloración, cambio de edad y género, mezcla de identidades...
Max input tokens
77
Max input image
6
Max output image
5
Idiomas
EN
Resolución máxima
1024x1024, 1792x1024, 1024x1792