Ir al contenido

Salud del Sistema

La página Monitor del Pipeline muestra el estado en vivo del pipeline de procesamiento. Se actualiza automáticamente cada cinco segundos y muestra cuántos registros están esperando en cada etapa, qué tan rápido fluyen los registros, qué lotes están en ejecución actualmente y si alguna etapa tiene mensajes acumulados que necesitan atención. Úsala para verificaciones rápidas de salud y como primera parada cuando una sincronización parece más lenta de lo esperado.

Pipeline Monitor mostrando el flujo de cinco etapas con conteos

En la navegación izquierda, bajo Operaciones, selecciona Monitor del Pipeline.

Un indicador En vivo 5s en el encabezado de la página confirma que la pantalla se actualiza en tiempo real. El encabezado también muestra el número total actual de registros en proceso en todas las etapas.

La tarjeta Flujo del Pipeline muestra una caja por etapa de procesamiento, dispuestas de izquierda a derecha en el orden en que los registros las atraviesan:

graph LR
    A[Ingesta] --> B[Normalizar]
    B --> C[Transformar]
    C --> D[Ejecutar]
    D --> E[Finalizar]
    D -->|en caso de fallo| F[Error]

Cada caja de etapa muestra:

IndicadorSignificado
Nombre de etapaLa etiqueta legible para este paso de procesamiento.
Conteo de mensajesNúmero de registros que actualmente esperan ser procesados en esta etapa.
Punto de estadoVerde cuando el conteo es bajo; se vuelve ámbar o rojo a medida que el conteo crece.
Conteo de consumidoresNúmero de trabajadores activos procesando registros en esta etapa.
RendimientoTasa de publicación y tasa de entrega en mensajes por segundo, mostrado como entrada/salida msg/s.

Debajo de cada caja de etapa, aparece una caja más pequeña de conteo de errores si algún registro ha fallado en esa etapa y está esperando atención. Estos registros no han sido reintentados automáticamente.

  • Todas las cajas de etapa muestran un conteo de mensajes bajo o cero.
  • Los puntos de estado son verdes.
  • Los números de rendimiento son distintos de cero cuando una sincronización está en ejecución.
  • Los Lotes Activos muestran lotes en ejecución con progreso avanzando con el tiempo.
  • La tabla de Ejecuciones Fallidas Recientes está vacía o muestra un bajo porcentaje de fallos.
SeñalCausa probableQué hacer
Una etapa tiene un conteo de mensajes grande y crecienteEl procesamiento está atascado en esa etapa — los trabajadores pueden estar detenidos o el sistema de destino es lentoRevisa Registros de Sincronización para ver mensajes de error; escala si los mensajes no se drenan en unos minutos
Aparece caja de conteo de errores bajo una etapaLos registros fallaron en esa etapa y necesitan acción manualAbre DLQ y Reintento para inspeccionar y reproducir o descartar
Todas las cajas de etapa muestran cero consumidoresLos trabajadores no están en ejecuciónContacta a tu administrador del sistema
Un lote activo no muestra progreso durante varios minutosEl lote puede estar atascadoUsa la opción Limpiar (solo admin) para cancelar el lote atascado y luego vuelve a activar la ejecución
Mensaje “No se puede conectar” en la tarjeta de flujoEl servicio de monitoreo no puede comunicarse con el backend del pipelineContacta a tu administrador del sistema

La tarjeta Lotes Activos lista todos los lotes de sincronización actualmente en progreso. Para cada lote puedes ver:

  • El nombre de la instancia de integración y el tipo de entidad que se sincroniza.
  • Cómo se activó el lote (programado, manual o cascada de dependencias).
  • Tiempo transcurrido desde que inició el lote.
  • Una barra de progreso que muestra registros procesados sobre el total, dividida en segmentos verde (éxito), gris (omitido) y rojo (fallido).
  • El número de fallos, si los hay.

Cuando un lote está en la fase de extracción y el conteo total de registros aún no se conoce, la barra de progreso pulsa en azul con la etiqueta “Extrayendo…”.

Los administradores pueden cancelar un lote atascado individual usando el botón Limpiar en su tarjeta, o cancelar todos los lotes en ejecución a la vez usando Limpiar Todo. Ambas acciones son irreversibles — los registros pendientes en el lote cancelado se descartan.

La tarjeta Política de Alertas por Fallos muestra los umbrales globales que activan una notificación de incidente cuando una ejecución produce demasiados fallos:

CampoDescripción
Mín. de FallosNúmero mínimo de registros fallidos antes de que se genere un incidente.
Mín. de Tasa de FallosPorcentaje mínimo de fallos antes de que se genere un incidente.
Dominancia de CategoríaPorcentaje mínimo de fallos que deben pertenecer a una categoría de error para que se envíe un resumen.
Intervalo de ResumenCon qué frecuencia (en minutos) el sistema envía un correo de resumen de fallos.
Máx. de Resúmenes/EjecuciónNúmero máximo de correos de resumen enviados por ejecución.

Estos umbrales se aplican globalmente. Los administradores pueden establecer anulaciones por instancia en la tarjeta Anulaciones de Alertas por Instancia debajo — útil cuando una instancia específica tolera una tasa de fallos más alta que el valor predeterminado del sistema.

La tabla Ejecuciones Fallidas Recientes muestra las ejecuciones de integración que terminaron con un alto porcentaje de fallos. Para cada ejecución puedes ver el nombre de la instancia, tipo de entidad, estado final, conteo de registros fallidos sobre el total, el porcentaje de fallos y la hora de inicio. Usa esta tabla para el triaje de incidentes cuando necesitas una lista rápida de qué trabajos están fallando sin buscar en los Registros de Sincronización.

Acciones de autoservicio disponibles desde esta página:

  • Reproducir registros fallidos desde la DLQ (ver DLQ y Reintento).
  • Limpiar un lote atascado (se requiere rol de administrador).
  • Ajustar umbrales de alerta por instancia (se requiere rol de administrador).

Escala a tu administrador del sistema cuando:

  • Los trabajadores muestran cero consumidores y no se recuperan después de unos minutos.
  • La tarjeta de flujo del pipeline muestra un error de conexión.
  • Una cola de etapa continúa creciendo sin drenarse después de reproducir o limpiar.