Back to Blog
mlopsaidevopsnews

MLOps 2026: Por qué KServe y Triton están Dominando la Inferencia de Modelos

Deja de pagar de más por las GPU inactivas. Descubre cómo KServe, Triton y SageMaker están revolucionando el despliegue de modelos con características nativas de LLM y escalado sin servidor.

DataFormatHub Team
Jan 16, 202611 min
Share:
MLOps 2026: Por qué KServe y Triton están Dominando la Inferencia de Modelos

El panorama de MLOps, particularmente en lo que respecta al despliegue, la gestión y la inferencia de modelos, ha experimentado una transformación genuinamente impresionante en los últimos años. A medida que nos asentamos en 2026, la retórica ha cambiado de una aspiracional "IA para todos" a un enfoque pragmático y duro en la eficiencia, la rentabilidad y la gestión robusta de tipos de modelos cada vez más complejos, especialmente los Modelos de Lenguaje Grandes (LLM) y la IA Generativa. He estado inmerso en la investigación de estas actualizaciones y estoy emocionado de compartir lo que realmente está marcando la diferencia y dónde aún existen los puntos débiles.

El desafío central sigue siendo: ¿cómo llevamos los modelos desde la experimentación a la producción, sirviendo millones de solicitudes de forma fiable, asequible y con una sobrecarga operativa mínima? Las "nuevas novedades" no son solo incrementales; representan una maduración significativa de las herramientas y una respuesta clara a las demandas del mundo real de las empresas que escalan la IA.

La Nueva Frontera del Servido de IA Generativa con KServe

Esto es genuinamente impresionante porque KServe, un proyecto en incubación de la Cloud Native Computing Foundation (CNCF), ha evolucionado rápidamente hasta convertirse en una piedra angular para servir tanto modelos predictivos tradicionales como la floreciente clase de cargas de trabajo de IA generativa. Los lanzamientos de KServe v0.13 (mayo de 2024) y v0.15 (mayo de 2025) marcan un cambio fundamental, introduciendo soporte de primera clase para LLM y sus desafíos de servicio únicos.

Una de las adiciones más impactantes es el robusto soporte para el backend vLLM. vLLM, conocido por su alta capacidad de procesamiento y baja latencia en la inferencia para LLM, ahora está integrado perfectamente en KServe. Esto significa que podemos aprovechar los mecanismos de atención optimizados de vLLM, como PagedAttention, directamente dentro de un entorno de servicio nativo de Kubernetes. KServe v0.15 mejoró aún más esto con la caché KV distribuida con LMCache, que es crucial para manejar longitudes de secuencia más largas y reducir la computación redundante entre solicitudes.

Considera el despliegue de un modelo de lenguaje grande con KServe utilizando el backend vLLM. El YAML de InferenceService ahora permite especificar el tiempo de ejecución vllm, completo con límites de recursos y configuraciones especializadas. Puedes usar este JSON Formatter para verificar tu estructura si estás convirtiendo estas configuraciones entre formatos.

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: llama-7b-vllm
spec:
  predictor:
    model:
      modelFormat:
        name: vllm
      args:
        - "--model=/mnt/models/Llama-2-7b-chat-hf"
        - "--max-model-len=2048"
        - "--gpu-memory-utilization=0.9" # Allocate 90% of GPU memory for KV cache
      resources:
        limits:
          cpu: "4"
          memory: 32Gi
          nvidia.com/gpu: "1" # Assuming a single GPU per replica
        requests:
          cpu: "2"
          memory: 16Gi
          nvidia.com/gpu: "1"
    autoscaler:
      minReplicas: 0 # Scale to zero for cost efficiency
      maxReplicas: 5
      scaleTarget: 100 # Target 100 concurrent requests per replica
      metricType: "RPS" # Request Per Second or Concurrency

Gestión Avanzada del Tráfico y Escalado

El argumento gpu-memory-utilization aquí es crítico. A diferencia de los modelos predictivos tradicionales, el consumo de caché KV (Clave-Valor) de los LLM es dinámico y depende de la longitud de la secuencia. Fijar la memoria para esto de forma proactiva permite a vLLM gestionar los recursos de la GPU de forma más eficaz, lo que conduce a un mayor rendimiento. Además, la integración con KEDA (Kubernetes Event-Driven Autoscaling) en v0.15 para métricas específicas de LLM es un cambio de juego para la optimización de costes. Ahora podemos escalar en función de las tasas reales de generación de tokens o la latencia del procesamiento de prompts, en lugar de solo CPU/memoria genéricos, asegurando que los recursos solo se consuman cuando sea realmente necesario, incluso escalando a cero durante los períodos de inactividad.

KServe v0.15 también introdujo soporte inicial para Envoy AI Gateway, construido sobre Envoy Gateway, diseñado específicamente para gestionar el tráfico de IA generativa. Esta es una solución robusta para la gestión avanzada del tráfico, la limitación de la tasa de tokens y los puntos finales de API unificados, que se están volviendo cada vez más importantes para las aplicaciones LLM complejas.

Potencias de Rendimiento: Triton Inference Server y ONNX Runtime

Cuando se trata del rendimiento de inferencia puro, NVIDIA's Triton Inference Server y ONNX Runtime continúan superando los límites. Sus actualizaciones recientes subrayan una búsqueda implacable de menor latencia y mayor rendimiento, especialmente para las cargas de trabajo de aprendizaje profundo.

NVIDIA Triton Inference Server ha demostrado constantemente sus capacidades en las pruebas de referencia MLPerf Inference, logrando un rendimiento virtualmente idéntico a las presentaciones de bare-metal incluso con sus capacidades de servicio ricas en funciones y de nivel de producción. Los lanzamientos de 2025 han traído mejoras cruciales. He estado esperando esto: el frontend de API compatible con OpenAI ha pasado de beta a una versión estable. Esto significa que ahora puedes servir modelos a través de Triton con una API que refleja la de OpenAI, simplificando la integración del lado del cliente y permitiendo una migración más fácil o una orquestación multi-modelo.

Además, Triton 25.12 introdujo soporte multi-LoRA para el backend TensorRT-LLM y el campo de configuración del modelo max_inflight_requests. Multi-LoRA es vital para las empresas que implementan muchos LLM ajustados donde cargar un modelo completo para cada adaptador LoRA es prohibitivo en términos de memoria. La capacidad de Triton para intercambiar o combinar pesos LoRA de forma eficiente drásticamente mejora la utilización de la GPU y reduce los tiempos de inicio en frío para diversas aplicaciones LLM. Este cambio hacia la eficiencia de la contenerización refleja las tendencias de infraestructura más amplias, como se ve en cómo Podman y containerd 2.0 están Reemplazando a Docker en 2026.

Para ejecutar Triton con un backend ONNX optimizado, por ejemplo, para un modelo de visión por computadora:

# Pull the latest Triton container with the desired CUDA version
docker pull nvcr.io/nvidia/tritonserver:25.12-py3

# Assuming your ONNX model is in /path/to/model_repository/my_onnx_model/1/model.onnx
# and has a config.pbtxt in /path/to/model_repository/my_onnx_model/config.pbtxt
docker run --gpus=all -it --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 \
       -v /path/to/model_repository:/models \
       nvcr.io/nvidia/tritonserver:25.12-py3 tritonserver --model-repository=/models \
       --log-verbose=1 --log-info=1 --log-warn=1

La Versatilidad de ONNX Runtime

Mientras tanto, ONNX Runtime continúa impresionando con su portabilidad multiplataforma y sus importantes ganancias de rendimiento. Las pruebas de referencia recientes demostraron que convertir modelos a ONNX y servirlos con ONNX Runtime puede producir hasta 9 veces más rendimiento en comparación con el servicio PyTorch nativo, incluso en las CPU. Esto no es solo teórico; es una optimización práctica y accesible para una amplia gama de modelos, desde ML clásico (scikit-learn, LightGBM) hasta aprendizaje profundo. Sus "Execution Providers" (por ejemplo, CUDA, ROCm, OpenVINO, NNAPI) le permiten aprovechar los aceleradores de hardware específicos, proporcionando un perfil de rendimiento consistente en diversos objetivos de implementación, desde GPU en la nube hasta dispositivos perimetrales.

Inferencia Sin Servidor: Madurando, No Solo Hype

La promesa de la inferencia sin servidor ha sido tentadora, y en 2025, realmente comenzó a madurar, especialmente con la adición crucial del soporte para GPU. Microsoft Azure, en diciembre de 2024, presentó GPU sin servidor en Azure Container Apps, aprovechando las GPU NVIDIA A100 y T4. Este es un gran avance. Históricamente, el acceso a la GPU ha sido una limitación importante para las plataformas sin servidor debido al hardware especializado y la sobrecarga de inicialización. El movimiento de Azure permite ejecutar cargas de trabajo de inferencia aceleradas por GPU (visión por computadora, PNL compleja) sin la carga de la gestión de la infraestructura.

El atractivo central de la inferencia sin servidor sigue siendo: pago por uso, escalado automático de cero a muchos instancias y abstracción de la infraestructura. Sin embargo, la comprobación de la realidad revela desafíos continuos, particularmente la latencia de inicio en frío. Si bien se están realizando esfuerzos continuos para reducir esto, los modelos de IA grandes introducen nuevas complejidades, ya que cargar modelos de varios gigabytes en aceleradores lleva tiempo. Para las aplicaciones con estrictos requisitos de baja latencia en las primeras solicitudes, esto sigue siendo una consideración.

Evolución Nativa de la Nube: El Último Arsenal de SageMaker y Vertex AI

Los principales proveedores de la nube están mejorando agresivamente sus plataformas MLOps, centrándose en la eficiencia, el coste y la IA generativa.

Amazon SageMaker ha lanzado actualizaciones críticas a sus capacidades de inferencia. En diciembre de 2024, el kit de optimización de inferencia para IA generativa recibió mejoras sustanciales. Esto incluye soporte listo para usar para la decodificación especulativa, que puede acelerar significativamente la inferencia prediciendo los tokens futuros. Además, se agregó soporte para la cuantificación FP8 (punto flotante de 8 bits), lo que reduce el tamaño del modelo y la latencia de la inferencia, particularmente para las GPU.

SageMaker's CustomOrchestrator

Lo que me pareció particularmente práctico es la mejora del SDK de Python de SageMaker (junio de 2025) para construir y desplegar flujos de trabajo de inferencia complejos. La nueva clase CustomOrchestrator permite a los desarrolladores definir secuencias de inferencia intrincadas utilizando Python, lo que permite desplegar múltiples modelos dentro de un único punto final de SageMaker. Esto significa que puedes tener un modelo de preprocesamiento, un modelo de inferencia central y un modelo de postprocesamiento, todos orquestados y servidos como una única unidad lógica.

# Simplified conceptual example for SageMaker CustomOrchestrator
from sagemaker.model import Model
from sagemaker.predictor import Predictor
from sagemaker.workflow.components import CustomOrchestrator

# Define your individual models
model_a = Model(image_uri="my-preprocessing-image", model_data="s3://...")
model_b = Model(image_uri="my-llm-inference-image", model_data="s3://...")

# Define the orchestration logic
class MyInferenceWorkflow(CustomOrchestrator):
    def __init__(self, name, model_a, model_b):
        super().__init__(name=name)
        self.model_a = model_a
        self.model_b = model_b

    def handle_request(self, request_body):
        # Invoke model_a
        processed_data = self.model_a.predict(request_body)
        # Invoke model_b with processed_data
        final_prediction = self.model_b.predict(processed_data)
        return final_prediction

# Deploy the orchestrated endpoint
workflow = MyInferenceWorkflow(name="my-complex-ai-endpoint", model_a=model_a, model_b=model_b)
predictor = workflow.deploy(instance_type="ml.g5.2xlarge", initial_instance_count=1)

Google Cloud's Vertex AI también continúa su rápida evolución. Las actualizaciones de agosto de 2025 trajeron mejoras significativas, particularmente en IA generativa. Los modelos Gemini 2.5 Flash y Pro estuvieron Disponibles Generalmente (GA) en junio de 2025, ofreciendo potentes LLM directamente a través de los puntos finales de Vertex AI. Para despliegues conscientes de los costes, Vertex AI introdujo VMs flex-start para trabajos de inferencia en julio de 2025. Impulsadas por Dynamic Workload Scheduler, estas VMs ofrecen importantes descuentos para trabajos de corta duración, lo que las hace ideales para la inferencia por lotes o tareas de alto volumen esporádicas donde el inicio inmediato no es primordial.

Más Allá del Modelo: Observabilidad Avanzada y Detección de Deriva

Desplegar un modelo es solo la mitad de la batalla; mantener su rendimiento en producción es la otra. El panorama de MLOps en 2025-2026 enfatiza fuertemente el monitoreo en tiempo real y la detección avanzada de deriva. Esto no se trata solo de métricas de recursos en este momento; se trata de comprender el comportamiento del modelo en el mundo real.

Estamos viendo un cambio hacia técnicas más sofisticadas para detectar la deriva de datos (cuando los datos en vivo se desvían de los datos de entrenamiento) y la deriva del modelo (cuando el rendimiento del modelo se degrada con el tiempo). Herramientas como Evidently AI proporcionan métricas y visualizaciones detalladas, mientras que plataformas como Prometheus y Grafana se utilizan para configurar alertas en tiempo real. Los sistemas modernos ahora rastrean:

  • Cambios en la distribución de las características de entrada: ¿Están apareciendo nuevas categorías? ¿Ha cambiado la media/mediana de las características numéricas significativamente?
  • Cambios en la distribución de las predicciones: ¿Se está volviendo el modelo más (o menos) confiado? ¿Están cambiando las clases de salida en frecuencia?
  • Deriva del concepto: La relación subyacente entre las características de entrada y la variable objetivo cambia, lo que requiere un reentrenamiento del modelo.

BentoML: El Unificador de Empaquetado y Servicio

He sido un fanático de BentoML durante mucho tiempo por su enfoque pragmático del servicio de modelos, y su desarrollo continuo lo convierte en una herramienta indispensable para muchos. BentoML 1.0 solidificó verdaderamente su visión como una plataforma abierta que simplifica el servicio de modelos de ML. La innovación central es el BentoML Runner, una abstracción diseñada específicamente para paralelizar las cargas de trabajo de inferencia de modelos. Maneja las complejidades del loteo adaptativo, la asignación de recursos (CPU/GPU) y el escalado de los trabajadores de inferencia independientemente de la lógica de pre/postprocesamiento.

Aquí hay un ejemplo básico de servicio de BentoML:

# my_service.py
import bentoml
from bentoml.io import JSON
from pydantic import BaseModel

class InputData(BaseModel):
    feature_a: float
    feature_b: float

@bentoml.service(
    resources={"cpu": "2", "memory": "4Gi"},
    traffic={"timeout": 60}
)
class MyClassifier:
    def __init__(self):
        self.model_runner = bentoml.sklearn.get("my_model:latest").to_runner()

    @bentoml.api(input=JSON(pydantic_model=InputData), output=JSON())
    def classify(self, input_data: InputData) -> dict:
        input_array = [[input_data.feature_a, input_data.feature_b]]
        prediction = self.model_runner.predict.run(input_array)
        return {"prediction": prediction.tolist()}

Arquitectura para la Eficiencia de Costes en la Inferencia

Con los despliegues de IA a escala, la optimización de costes se ha convertido en un tema central en MLOps para 2025-2026. Esto no se trata solo de elegir la instancia de nube más barata; se trata de una arquitectura inteligente. Varias tendencias convergen aquí:

  1. Escalado Sin Servidor a Cero: Plataformas como Azure Container Apps con GPU sin servidor y la integración de KEDA de KServe permiten que los servicios se escalen a cero durante los períodos de inactividad.
  2. Formatos de Modelo Optimizados: Las ganancias de rendimiento de ONNX Runtime se traducen directamente en ahorros de costes al permitir un mayor rendimiento por instancia.
  3. Puntos Finales Multi-Modelo: Las plataformas en la nube como Amazon SageMaker con su CustomOrchestrator permiten que múltiples modelos compartan los mismos recursos informáticos subyacentes (por ejemplo, una sola GPU).
  4. Tipos de VM Especializados: Las VMs flex-start de Vertex AI ofrecen opciones rentables para trabajos de inferencia no críticos en cuanto a la latencia al aprovechar la capacidad libre.

Perspectivas de Expertos: El Próximo Cambio a la IA Agente y la Inferencia Federada

De cara al futuro, el próximo cambio significativo en el despliegue de MLOps será impulsado por el auge de la IA Agente. A medida que los modelos se vuelven capaces no solo de predecir, sino también de planificar, razonar e interactuar con herramientas, los patrones de inferencia se volverán mucho más dinámicos y con estado. Esto exigirá nuevos enfoques para la Gestión del Estado, la Orquestación y la Observabilidad. La depuración de los sistemas agente requerirá la inspección a nivel de token y el rastreo a través de múltiples llamadas de modelo para comprender por qué un agente tomó una decisión particular.

Simultáneamente, la inferencia federada ganará lenta pero constantemente tracción, especialmente en dominios sensibles a la privacidad como la atención médica y las finanzas. En lugar de centralizar los datos para ejecutar la inferencia, el modelo se desplegará más cerca de los datos, infiriendo localmente. Esto superará los límites del despliegue perimetral y requerirá nuevos paradigmas de seguridad y gobernanza para la ejecución distribuida del modelo.

Conclusión: Navegando por el Paisaje de la IA de Producción

El último año o dos han sido emocionantes para los profesionales de MLOps. Hemos visto que los marcos de servicio de modelos como KServe y BentoML maduran significativamente, abordando directamente las complejidades de la IA generativa con características como la integración de vLLM y el almacenamiento en caché de KV. Los campeones de rendimiento como NVIDIA Triton y ONNX Runtime continúan ofreciendo impresionantes aumentos de velocidad, mientras que las plataformas en la nube están entregando herramientas altamente especializadas para la optimización de LLM. Si bien siempre hay partes incómodas como la latencia de inicio en frío para las GPU sin servidor, el camino hacia una IA de producción eficiente, escalable y observable es más claro que nunca.


Fuentes


Este artículo fue publicado por el Equipo Editorial de DataFormatHub, un grupo de desarrolladores y entusiastas de los datos dedicados a hacer que la transformación de datos sea accesible y privada. Nuestro objetivo es proporcionar información técnica de alta calidad junto con nuestra suite de herramientas de desarrollador centradas en la privacidad.


🛠️ Herramientas Relacionadas

Explora estas herramientas de DataFormatHub relacionadas con este tema:


📚 También Podrías Gustar