La Confiabilidad del Equipo es el tercer pilar del Cuerpo del Conocimiento (Body of Knowledge - BoK) de la SMRP, encargado de evaluar las capacidades actuales de los activos en los procesos industriales para seleccionar las prácticas de mantenimiento que mejor responden a su realidad operativa. En términos históricos, esta área se ha conocido como una parte de la aplicación de la ingeniería de mantenimiento, antes de que la confiabilidad ganara una dimensión más amplia dentro del sector industrial, y, su función específica se concentra en diseñar, medir y analizar datos para que los equipos, junto con las personas que los operan, alcancen las capacidades para las que fueron concebidos, de la manera más segura y al mejor costo posible.
El Tercer Pilar de la CMRP; la Confiabilidad del Equipo
Este pilar es relevantepara todo profesional certificado dentro de este marco, porque conecta las partes físicas directamente con los objetivos del negocioestablecidos en el primer dominio del BoK.
Debemos tener en consideración que la confiabilidadno se mide únicamente con indicadores de mantenimiento o de equipo; una clave parte clave es que como los equipos no siempre se evalúan de manera exclusiva desde los parámetros de la física del activo, pues tienen un entorno operacional,lo que hace que esta se construya con los datos de operación, producción, calidad, costo, riesgo y seguridad, todos orientados a fortalecer el negocio completo.
Buscar estos datos para construir información confiable es lo que permite tomar decisiones más acertadas y robustas sobre los activos físicos.
El cómo se logra ejecutar esta gestión parte desde un diseño, siendo entendido en el sentido más amplio del término; el diseñar implica que capturaremos la realidad de esos contextos a los que van dirigidos estos activos a través de mediciones y evaluaciones constantes para llevar un control y desempeño optimo de las operaciones.
Ahora, desde estos términos los equipos, y por detrás de esa clase de realidaden la que los diferentes contextos no se abordan con herramientas exclusivas de una sola especialidad técnica. Sino que en cambio, se toman en cuenta todos los conocimientos de la mecánica, la dinámica de esfuerzos, las temperaturas y los fundamentos de las distintas ciencias aplicadas explican parte de los comportamientos de los equipos, pero todo ese saber técnico debe estar siempre acompañado de un criterio de rentabilidad.
Una organización no puede orientarse únicamente por lo técnico, ya que, sin sostener la relación con los costos, puede terminar dejando de ser efectiva en términos de negocio. Por eso es importante saber conectar y comunicar todo el contenido del área técnica con el negocio.
El siguiente comentario expone el desarrollo desde elpara qué de este pilar, en donde se puede entender mejor si se observa su posición dentro del ciclo de vida completo del activo.
La confiabilidad de los equipos no se construye en el taller una vez que ocurre una falla; se concibe desde la fase de diseño del proyecto, incluso antes de la existencia de la infraestructura física, asegurando que el CAPEX invertido garantice la máxima disponibilidad operativa. Para ello se utilizan metodologías y técnicas especificas tales como; los análisis como los predictivos de ciclo de vida (LCC), los modelados RAMS y los análisis de modos y efectos de fallas operacionales (FMEA) desde la ingeniería básica. De tal modo que, ésta se preserva mediante el control riguroso de las variables de proceso y el cumplimiento de los estándares operativos, ejecutando técnicas de monitoreo basado en condición (CBM) y planes de mantenimiento de precisión dirigidos a mitigar el desgaste inherente. Asimismo, la confiabilidad se recupera mediante la implementación de actividades estratégicasde mantenimiento proactivo y una gestión eficaz de órdenes de trabajo (CMMS) que minimizan el impacto financiero del OPEX, y se logra optimizar a través de modificaciones y rediseños basados en un análisis técnico riguroso buscando eliminar a los malos actores del sistema para sostener de manera continua la rentabilidad del negocio a lo largo de todo su ciclo de vida útil.
Toda la organización, desde quienes diseñan los proyectos hasta quienes construyen, operan y mantienen, debe compartir ese mismo fundamento de confiabilidad desde la conceptualización inicial.
Esa es la razón por la que este pilar se conecta tan estrechamente con las decisiones de inversión de capital (CAPEX) y los gastos operativos diarios (OPEX), porque ambos dependen de cuán bien se haya diseñado y medido la confiabilidad del activo desde el origen.
Objetivo del Tercer Pilar como la Confiabilidad del Equipo
Establecer expectativas antes de aplicar metodologías
Uno de los errores más frecuentes y comprobados en la industria es querer comenzar aplicando una técnica o metodología sin haber definido primero qué se espera lograr.
La sola aplicación de un análisis de modos de falla, o de cualquier otra herramienta, no garantiza un resultado siantes no existe una declaración clara de expectativa. Esa expectativa debe descender en cascada desde los objetivos de negocio definidos en el primer pilar hasta llegar al nivel técnico, porque sin un objetivo concreto resulta difícil saber hacia dónde dirigir el esfuerzo.
Es habitual que las organizaciones sin un nivel moderado de madurez en su gestión del mantenimiento continúen hablando sobre cómo mejorar la confiabilidad, pero sin poder señalar su nivel actual en ningún indicador concreto.
Por ello, el poder definir el desempeño esperado, comparar la condición actual frente a esa referencia y reconocer la brecha resultante es un gran avance que se obtiene como beneficio de esa madurez que nos permite dimensionar el esfuerzo real que se necesita.
Esas brechas son precisamente las que nos orientan qué metodología aplicar y con qué profundidad, evitando el error de copiar prácticas exitosas en otras organizaciones sin antes evaluar si responden a la necesidad propia de la planta. Entonces, al aplicar una técnica reconocida podemos deducir fácilmente que sin esta evaluación previa nos entregaría resultados marginales, mientras que otra técnica mejor seleccionada podría generar un margen de rentabilidad superior para el mismo esfuerzo.
Estas capacidades de alinear el criterio técnico con el resultado financiero son, en buena medida, lo que diferencia a las organizaciones líderes de sus competidores dentro de un mismo sector.
El mantenimiento y la mantenibilidad como un par de conceptos centrales
La mantenibilidad se define como la capacidad de conservar o restaurar un activo a un estado de rendimiento requerido bajo condiciones dadas de uso. Involucra factores externos al diseño original, como la accesibilidad de los componentes, el espacio disponible para maniobras y la disponibilidad de recursos y procedimientos técnicos para realizar la intervención.
El mantenimiento, por su parte, es la combinación de todas las acciones técnicas y administrativas, incluidas las de supervisión, destinadas a conservar un activo en estado funcional.
Mientras la mantenibilidad describe una característica del diseño y del entorno, el mantenimiento es la ejecución de la estrategia que preserva la función a lo largo del tiempo.
La normativa ISO 14224, considera que las actividades o trabajos del mantenimiento se clasifican con un enfoque de manera proactiva o reactiva como preventivos o correctivos, tomando en cuenta los derivados de cada uno, según la siguiente imagen:
Categorías del Mantenimiento según ISO 14224
De manera general;
Los mantenimientos preventivos se ejecuta antes de la pérdida de función, incluyendo tareas basadas en condición y tareas predeterminadas por tiempo o uso.
El correctivo se realiza después de detectar la avería, y puede ser programado, cuando se difiere es de forma estructurada para una fecha conveniente, el no programado, cuando la gravedad exige una intervención inmediata.
Las mejores prácticas de la SMRP plantean una distribución ideal de referencia donde el mantenimiento preventivo y el basado en condición representen, cada uno, alrededor del quince por ciento del esfuerzo total, mientras que el correctivo planificado debería alcanzar cerca del cincuenta y cinco por ciento, dejando un margen reducido para lo verdaderamente no programado. (Esto es, lo propuesto como un ideal, pero la realidad debe ir anclada a los riesgos que pueda tolerar la organización no es lo mismo una central nuclear donde esta muy claro que el riesgo por seguridad es altísimo, a una planta de alimentos u otros procesos en donde la criticidad de los equipos no sea mayoritaria)
Para la trazabilidad de todas ellas y ajustar esas estrategias de mantenimiento, es necesario encapsular aquellas tareas con una clara distinción entre los diferentes tipos de falla:
Según su naturaleza y comportamiento, pueden ser:
Por su alcance:
Fallas parciales: Afectan la capacidad del equipo, por lo que la función requerida se sigue cumpliendo, pero de manera limitada o por debajo de su estándar.
Fallas totales: Impiden por completo el funcionamiento del equipo y la ejecución de su función.
Según su rapidez de propagación:
Fallas progresivas (o por degradación): El deterioro del equipo es observable en el tiempo y se desarrolla gradualmente (debido al desgaste o degradación del equipo) y permiten la detección a través del monitoreo.
Fallas súbitas (o repentinas): Ocurren en lapsos muy cortos, sin síntomas previos que adviertan el progreso de la falla.
Según su severidad o impacto (Enfoque de Normas como ISO 14224, MIL-STD y el Manual de Oreda):
Falla crítica: Causa la pérdida inmediata de la capacidad de realizar la función y requiere una acción correctiva urgente.
Falla de degradación (o no crítica): Falla gradual o parcial que no cesa la función fundamental de inmediato, pero la compromete, pudiendo convertirse en crítica si no se atiende.
Falla incipiente: Una imperfección en el estado del ítem que, de no ser corregida, resultará eventualmente en una falla degradada o crítica.
Falla desconocida: La severidad de la falla no pudo ser deducida o registrada.
Según su evidencia o detectabilidad (Enfoque RCM):
Fallas evidentes: Sus efectos se vuelven notorios para el personal de operación y mantenimiento bajo circunstancias normales (aumento de temperatura, ruido, humo, etc.).
Fallas ocultas (o latentes): No son evidentes de inmediato bajo circunstancias normales. Generalmente están asociadas a dispositivos de protección o respaldo y se manifiestan ante una demanda (falla bajo demanda).
Por su riesgo y el impacto en el negocio
Fallas Crónicas (o Repetitivas): Se caracterizan por tener una alta frecuencia y una baja/mediana consecuencia individual. Suelen ser vistas como desviaciones aceptadas o normales (como cambios frecuentes de sellos, fugas menores, atascamientos), pero el impacto acumulado anual de estas fallas representa pérdidas económicas y de productividad enormes.
Fallas Esporádicas (o Eventuales / Catastróficas): Se caracterizan por tener una baja frecuencia, pero una consecuencia o impacto muy alto. Son eventos inaceptables como explosiones, incendios, fatalidades, o paradas totales y prolongadas de una planta
Una falla crítica puede causar el cese inmediato de la capacidad del equipo para cumplir su función requerida, resultando en una reparación no programada con impacto directo en la rentabilidad y, en algunos casos, en la seguridad. Las fallas no críticas representan degradaciones que permiten continuar operando por un tiempo limitado mientras se programa la intervención correspondiente.
Indicadores básicos y estadísticos de mantenimiento y confiabilidad
En la literatura de confiabilidad, existen diferentes fuentes y cantidades propuestas de indicadores. Aunque la SMRP, en su guía de Best Practices, propone alrededor de 70, dentro de los más básicos tenemos a los de tiempos medios, que nos ayudan a cuantificar el desempeño de los activos y a diferenciar entre componentes reparables y no reparables.
El MTTF (Mean Time to Failure), o tiempo promedio hasta la falla (TPPF), se aplica a artículos que no pueden repararse o no deben repararse, como bombillas, rodamientos sellados o ciertos componentes de un solo uso, y representa la esperanza de vida del elemento hasta su falla definitiva.
El tiempo promedio hasta la falla TPPF o MTTF
Por el contrario, el MTBF (Mean Time Between Failures), es el tiempo promedio entre fallas (TPEF), y se utiliza en activos reparables (como compresores o bombas), midiendo la longitud promedio del tiempo operativo entre averías sucesivas.
Tiempo Promedio Entre Fallas TPEF o MTBF
Unincremento sostenido en la tendencia del MTBF, es indicio directo que confirma que las estrategias de mantenimiento están mejorando la salud del activo y extendiendo su vida operativa
Complementando a estos, se debe integrar el MTTR (Mean Time to Repair or Replace), como el tiempo promedio para reparar (TPPR), el cual mide la mantenibilidad o la eficiencia con la que se restaura un activo tras una pérdida de función
Desde el punto de vista matemático y probabilístico, la confiabilidad es representada como R(t), y se define técnicamente, más allá de una capacidad, como la probabilidad de que un equipo cumpla con la función para el que fue diseñado sin presentar fallas durante un intervalo de tiempo específico, operando bajo determinadas condiciones. Mientras que su complemento, se considera como la probabilidad de falla F (t), la cualexpresa la probabilidad de que sí ocurra una avería en ese mismo intervalo.
Los Indicadores estadisticos basicos
La forma de calcular estos últimos dos indicadores varía según el comportamiento del sistema, equipo o modo de falla que se esté analizando y según la distribución estadística que mejor se ajuste a los datos disponibles, ya sean variables continuas o discretas.
No existe una única expresión matemática universal el modelo correcto depende del patrón de falla identificado, del volumen y la calidad de los datos recolectados, y de las pruebas de bondad de ajuste que se apliquen para validar qué distribución representa mejor el comportamiento real del activo.
Métodos y técnicas para el análisis de confiabilidad
Dentro de este pilar conviven varios métodos de análisis, cada uno orientado a resolver una pregunta distinta sobre el comportamiento del activo.
El Mantenimiento Centrado en la Confiabilidad (Reliability Centered Maintenance - RCM)
El Mantenimiento Centrado en la Confiabilidad (RCM), está basado en el estándar SAE JA1011 y SAE 1012, como un proceso metodológico para determinar los requerimientos de mantenimiento de un activo en su contexto operacional.
El Mantenimiento Centrado en la Confiabilidad
Su lógica responde siete preguntas que inician con la identificación de las funciones y los estándares de desempeño esperados, continúan con las fallas funcionales y los modos de falla, documentan los efectos de cada evento y evalúan su importancia para la seguridad, el ambiente y la economía. El proceso culmina con la selección de tareas proactivas técnicamente factibles, o con la definición de una acción por defecto cuando no existe una tarea adecuada.
La implementación de cualquier RCM exige un cambio de paradigma para el cual el mantenimiento no preserva el activo físico en sí,preserva sus funciones,y su objetivo no es únicamente eliminar fallas sino seleccionar tareas de mantenimiento para prevenir fallas funcionales, de manera que sean técnicamente factibles y, sobre todo, que valga la pena realizar desde el punto de vista económico o de seguridad.
A través de un algoritmo como una hoja de decisión se evalúa primero si la pérdida de función es evidente para el personal operativo en circunstancias normales. Si la falla es oculta, como suele suceder en sistemas de protección, se priorizan tareas de búsqueda de fallas para evitar incidentes múltiples con consecuencias catastróficas.
Existen cuatro categorías de consecuencias que el RCM busca gestionar:
Fallas Ocultas: Son las más peligrosas porque no son evidentes para el operador. El objetivo aquí es realizar tareas de búsqueda de fallas para reducir la probabilidad de una falla múltiple catastrófica.
Seguridad y Medio Ambiente: En estos casos, la falla es intolerable. Si no existe una tarea de mantenimiento que prevenga la falla, el rediseño es obligatorio.
Operacionales: Afectan la producción y la capacidad del negocio. Aquí se evalúa si el costo del mantenimiento es menor que el costo de la pérdida de producción.
No Operacionales: Solo implican el costo de la reparación. En estos casos, a menudo es más rentable dejar que el equipo falle (Run-to-Failure)
Cursos recomendados
Diferencias entre RCM y PMO
LaOptimización del Mantenimiento Preventivo (PMO) se define técnicamente como un proceso analítico, análogo al RCM, diseñado para desarrollar tareas y frecuencias de mantenimiento que mitiguen modos de falla probables, pero utilizando los planes preventivos vigentes y el historial del CMMS como punto de partida. Mientras que el RCM es un método riguroso que inicia desde una "hoja en blanco" recolectando funciones y efectos bajo el estándar SAE JA1011, el PMO realiza un análisis canalizado para ajustar planes ya en marcha y eliminar actividades que no agregan valor o que representan un sobre mantenimiento.
RCM vs PMO
Ambas metodologías comparten el objetivo de producir un plan óptimo orientado al negocio, utilizan el mismo árbol lógico de decisión y se fundamentan en las consecuencias de las fallas para la toma de decisiones técnicas. Lo que debemos comprender es que el RCM resulta preferible para equipos nuevos o de tecnología poco conocida para asegurar un diseño de mantenimiento robusto desde el origen; en cambio, el PMO es más eficiente cuando ya existe experiencia acumulada sobre el activo y se busca racionalizar lo que ya se ejecuta para mejorar la rentabilidad del OPEX.
Análisis de causa raíz y el registro de fallas
El Análisis de Causa Raiz (RCA)
El Análisis de Causa Raíz (RCA), es de gran utilidad para el análisis de fallas repetitivas o catastróficas, su función es identificar y ayudar a encontrar el origen de las averías para tomar las lecciones aprendidas y eliminar su recurrencia, recorriendo una serie de pasos que van desde la observación e identificación del problema hasta la verificación de la efectividad de la solución implementada y su extensión a activos similares.
Según la normativa BS/EN 62740, utiliza a diferentes de modelos del pensamiento, métodos y herramientas como el diagrama de Ishikawa o los cinco porqués y muchas otras que apoyan este recorrido. Para que el aprendizaje técnico se institucionalice, el RCA debe integrarse con un sistema FRACAS (Failure Recording and Corrective Action System), que asegura que cada modo de falla se analice, que se asignen los códigos correctos en el CMMS y que el historial resultante ajuste la estrategia de mantenimiento de forma continua.
Análisis RAM
El análisis RAM integra las tres dimensiones del pilar: Confiabilidad (Reliability), Disponibilidad (Availability) y Mantenibilidad (Maintainability). En entornos industriales de alta criticidad, este enfoque suele expandirse al concepto de RAMS, incorporando la Seguridad (Safety) como una variable no negociable para evaluar integralmente el riesgo de incidentes ambientales o lesiones derivados de la pérdida de función.
¿Qué es el Análisis RAM? Curso Predyc
Utiliza modelos de simulación, fundamentados en Diagramas de Bloques de Confiabilidad (DBC), para predecir el comportamiento de sistemas complejos, considerando la interdependencia entre equipos y las configuraciones de respaldo, ya sean en serie, paralelo o redundancias tipo "k de n". Mediante la aplicaciones como las de Método de Montecarlo, el análisis permite realizar miles de iteraciones estadísticas para cuantificar la incertidumbre y proyectar el desempeño esperado de la instalación frente a diversos escenarios de estrés operativo.
El Analisis RAM
La disponibilidad de una planta no depende solo de equipos confiables que logren extender el tiempo promedio entre fallas (MTBF), sino también de procesos de reparación ágiles y de una logística de repuestos eficiente que minimice el tiempo medio de restauración (MTTR). En este sentido, el análisis permite distinguir entre la disponibilidad inherente, limitada a las paradas por fallas, y la disponibilidad operacional, que refleja la eficiencia real del mantenimiento preventivo y los tiempos de espera logísticos dentro del ciclo de vida del activo.
El análisis RAM permite identificar cuellos de botella y jerarquizar a los "malos actores" que restringen la producción, orientando el esfuerzo técnico hacia los activos con mayor impacto en el negocio. Al cuantificar el lucro cesante y las pérdidas por indisponibilidad, el proceso facilita la creación de casos de negocio para justificar financieramente decisiones de inversión o rediseño, basándose en indicadores de rentabilidad como el Retorno de Inversión (ROI) y el Valor Presente Neto (VPN) de las mejoras propuestas.
La Inspección Basada en Riesgo (IBR; Risk Based Inspection RBI)
La Inspección Basada en Riesgo (IBR) integra las dimensiones críticas de Integridad Mecánica, Probabilidad de Falla y Consecuencia de Pérdida de Contención.
Utilizando al análisis con modelos de evaluación cualitativos, semi-cuantitativos y cuantitativos para predecir el comportamiento de activos estáticos como recipientes a presión, tanques y tuberías considerando sus mecanismos específicos de deterioro, principalmente la corrosión.
La integridad estructural de las plantas no depende solo de la frecuencia de las inspecciones, sino de la efectividad técnica de las mismas y de una gestión de datos históricos y operativos coherente.
Inspección Basada en Riesgo (RBI)
La metodología del IBR, nos permite identificar los puntos críticos donde el riesgo de falla supera los límites permisibles y simular distintos planes de inspección para mitigar posibles impactos en la seguridad, el ambiente y la producción. Al priorizar el esfuerzo en los activos con mayor potencial de daño, el proceso IBR facilita la toma de decisiones para extender los intervalos de servicio de forma segura, garantizando el cumplimiento de las regulaciones gubernamentales y optimizando la inversión en el mantenimiento de la infraestructura estática.
Otras herramientas de análisis y gestión del riesgo
El Análisis Bow-Tie (Corbatín): se consolida como una de las metodologías más potentes para identificar brechas de desempeño, ya que permite visualizar de forma integral tanto la prevención como la mitigación de eventos indeseados. En el centro del diagrama se ubica el Evento de Riesgo o evento crítico, que representa el punto donde se pierde el control de una amenaza.
Análisis de Corbatín o Bow-Tie
El lado izquierdo (Proactivo): Se documentan las causas potenciales o amenazas que podrían desencadenar el evento. Entre estas y el evento central se colocan las barreras de prevención (o controles), cuyo objetivo es evitar que la amenaza se materialice.
El lado derecho (Reactivo): Se detallan las consecuencias finales que resultarían si el evento ocurre. Aquí se sitúan las barreras de mitigación o de recuperación, diseñadas para reducir el impacto y la severidad una vez que el control se ha perdido.
Lo que debemos comprender es que estas barreras no son solo físicas; según las mejores prácticas, pueden ser naturales, de acción humana o administrativas. El análisis Bow-Tie permite evaluar la efectividad de cada una, identificando por qué fallaron o qué controles adicionales podrían instalarse para elevar la seguridad del sistema.
Niveles de Integridad de Seguridad (SIL): Fiabilidad en la Protección
Para procesos donde un fallo puede tener consecuencias catastróficas, se emplean los Niveles de Integridad de Seguridad (SIL) como parte de la modelización RAMS (Confiabilidad, Disponibilidad, Mantenibilidad y Seguridad). El SIL es una medida de la fiabilidad requerida para una función instrumentada de seguridad que debe actuar ante una demanda específica del proceso.
Confiabilidad Probabilística: El SIL cuantifica la probabilidad de que un sistema de protección (como un sistema de parada de emergencia o ESD) falle al ser requerido. Un nivel SIL más alto indica un mayor rigor en el diseño y una menor probabilidad de fallo bajo demanda.
Gestión de Fallas Ocultas: Esta herramienta es vital para gestionar componentes de respaldo que pueden presentar fallas ocultas, las cuales no son evidentes para el operador durante la marcha normal del equipo pero que comprometen la protección de la planta en una emergencia.
Integración con Estándares Internacionales
Ambas técnicas se enmarcan en la norma ISO 31000 y su guía técnica que tambien contiene el directorio general de las otras herramientas aplicacables para el análisis del riesgo IEC/ISO 31010, que definen el riesgo como el efecto de la incertidumbre sobre los objetivos.
Técnicas de soporte para la preparación de los datos
Antes de aplicar cualquiera de los métodos anteriores, es necesario filtrar y priorizar la información disponible. Para ello, una de las utilizadas es el diagrama de Pareto como una técnica de referencia para identificar a los llamados malos actores; entre estos la regla general en el uso de la herramienta indica que alrededor del ochenta por ciento de las fallas suele originarse en el veinte por ciento de los equipos, por lo que las técnicas más exigentes en recursos, como el RCFA o el análisis de Weibull, conviene concentrarlas en ese grupo prioritario. Otra también es el análisis de restricciones, orientado a identificar cuellos de botella, para complementar este filtro al señalar qué equipo o proceso limita realmente la capacidad de producción total, enfocando allí el esfuerzo de confiabilidad.
Modelado estadístico del comportamiento de falla
Una vez identificado un modo de falla y recolectados los datos de tiempo hasta el evento, el siguiente paso consiste en caracterizar su comportamiento.
El Ajuste de Datos a la Caracterización de Componentes, Equipos y Sistemas
Esa caracterización depende de si el modo de falla está relacionado con la edad del componente o si se comporta de manera aleatoria, vínculo que conecta directamente con los seis patrones de falla descritos en la metodología del RCM. Según la naturaleza de las variables disponibles, continuas o discretas, y según el tipo de proceso que origina la falla, se puede optar por un modelo determinista o por un enfoque estocástico que incorpore la incertidumbre propia del fenómeno.
Patrones de Falla
Existen distintas distribuciones estadísticas, cada una con sus propios parámetros de entrada, entre las que se incluyen la exponencial, la normal, la lognormal, la gamma y la de Weibull, además de otras menos frecuentes según el contexto del análisis.
Clasificación de las Distribuciones Continuas y Discretas para modelar los tiempos de falla
Determinar cuál se ajusta mejor a los datos disponibles requiere aplicar pruebas de bondad de ajuste que comparen la distribución empírica observada con cada modelo candidato, validando estadísticamente cuál representa con mayor fidelidad el comportamiento real del activo.
Dentro de lo más destacado en el modelado estadístico, se encuentra el análisis de Weibull que suele utilizarse como referencia inicial para interpretar el patrón de falla mediante su parámetro de forma, que permite distinguir entre mortalidad infantil, comportamiento aleatorio o degradación por desgaste, dependiendo de su valor. En una de sus versiones, el modelo de crecimiento Crow-AMSAA se aplica de una forma un poco distinta; en lugar de modelar un único modo de falla, consolida todos los eventos de un sistema reparable para evaluar si la confiabilidad global está mejorando o deteriorándose a lo largo del tiempo, sirviendo como indicador de seguimiento sobre la efectividad de los planes de mantenimiento implementados. Cuando no se cuenta con suficiente historial propio de la planta, se recurre a fuentes genéricas de confiabilidad reconocidas en la industria, ajustando esos valores referenciales al contexto operativo específico del activo analizado.
La confiabilidad desde el diseño hasta la desincorporación
Las decisiones tomadas durante la fase de inversión de capital (CAPEX) determinan gran parte del costo total de propiedad que el activo cargará durante toda su vida operativa. Diseñar para la mantenibilidad implica considerar desde el inicio el espacio para maniobras, el acceso a puntos de lubricación y la estandarización de componentes, reduciendo así el inventario de repuestos necesario y los tiempos de intervención futuros.
El Costo del Ciclo de Vida (LCC) evalúa todos los gastos desde la concepción hasta la desincorporación final del equipo, y suele revelar que una adquisición de menor costo inicial puede resultar más onerosa en el largo plazo si compromete la confiabilidad operativa.
Para que un proyecto de inversión sea aprobado, debe superar la tasa de rentabilidad mínima exigida por la organización, conocida como Hurdle Rate, que representa el retorno esperado según el riesgo y el costo de capital de la institución. Por otra parte, las pruebas de aceptación y el comisionamiento basado en criterios de confiabilidad verifican, antes de la puesta en marcha definitiva, que el equipo cumple con los parámetros de diseño esperados, previniendo que el activo arrastre defectos de mortalidad infantil desde su primer día de operación.
Del lado operativo, el OPEX abarca los costos diarios de mantener la planta en funcionamiento. Desde la gestión de la confiabilidad se busca transformar el mantenimiento reactivo en tareas planificadas que consuman menos recursos, reduciendo además el retrabajo, entendido como el trabajo correctivo repetido sobre equipos que fallaron prematuramente tras una intervención previa.
Cambios en el contexto operacional que afectan la confiabilidad
La condición de los activos no es estática en el tiempo, pues todos sufren un desgaste o deterioro de alguna u otra forma, y cualquier modificación en el entorno operativo puede alterar su comportamiento de falla.
Cuando el área comercial decide aumentar la producción sin involucrar previamente a mantenimiento, el equipo técnico queda sin posibilidad de advertir restricciones reales, como el backlog acumulado o limitaciones de capacidad. De forma similar, los cambios en la composición de las materias primas, las modificaciones de presupuesto o la rotación del personal técnico afectan directamente la condición de los activos, aunque sus efectos no siempre sean visibles de inmediato.
Mantener informado al área de confiabilidad sobre estos cambios, antes de que ocurran y no después de evidenciar el daño, es parte de la responsabilidad técnica que este pilar exige dentro de la organización.
Conclusión
El tercer pilar del Body of Knowledge reúne el conjunto de métodos, técnicas y datos que permiten a una organización conocer el estado real de sus activos y decidir, con fundamento, qué estrategia de mantenimiento aplicar a cada uno. Desde establecer una expectativa de desempeño antes de elegir cualquier metodología, hasta seleccionar la distribución estadística que mejor representa el comportamiento de un modo de falla específico, cada paso de este pilar responde a la misma lógica: medir antes de actuar y actuar con un propósito claramente definido frente al negocio.
Su influencia se extiende desde el diseño del proyecto, donde se siembran las decisiones que determinarán el costo total de propiedad, hasta la operación diaria, donde el seguimiento constante de los indicadores de confiabilidad permite ajustar la estrategia a medida que cambian las condiciones de producción, presupuesto o personal. Esa visión completa del ciclo de vida del activo es lo que convierte a este pilar en el puente entre el conocimiento técnico y el resultado financiero que la organización espera de su infraestructura.
Dinos qué te ha parecido el artículo
¡Gracias por tu valoración!
La Confiabilidad del Equipo como el Tercer Pilar de la CMRP
Técnico - Articulo 15 de junio de 2026
Autor: Román VenturaIngeniero de Mantenimiento Industrial, Especialista Jr. en Ingeniería de Confiabilidad y Gestión de Activos.
La Confiabilidad del Equipo es el tercer pilar del Cuerpo del Conocimiento (Body of Knowledge - BoK) de la SMRP, encargado de evaluar las capacidades actuales de los activos en los procesos industriales para seleccionar las prácticas de mantenimiento que mejor responden a su realidad operativa. En términos históricos, esta área se ha conocido como una parte de la aplicación de la ingeniería de mantenimiento, antes de que la confiabilidad ganara una dimensión más amplia dentro del sector industrial, y, su función específica se concentra en diseñar, medir y analizar datos para que los equipos, junto con las personas que los operan, alcancen las capacidades para las que fueron concebidos, de la manera más segura y al mejor costo posible.
El Tercer Pilar de la CMRP; la Confiabilidad del Equipo
Este pilar es relevantepara todo profesional certificado dentro de este marco, porque conecta las partes físicas directamente con los objetivos del negocioestablecidos en el primer dominio del BoK.
Debemos tener en consideración que la confiabilidadno se mide únicamente con indicadores de mantenimiento o de equipo; una clave parte clave es que como los equipos no siempre se evalúan de manera exclusiva desde los parámetros de la física del activo, pues tienen un entorno operacional,lo que hace que esta se construya con los datos de operación, producción, calidad, costo, riesgo y seguridad, todos orientados a fortalecer el negocio completo.
Buscar estos datos para construir información confiable es lo que permite tomar decisiones más acertadas y robustas sobre los activos físicos.
El cómo se logra ejecutar esta gestión parte desde un diseño, siendo entendido en el sentido más amplio del término; el diseñar implica que capturaremos la realidad de esos contextos a los que van dirigidos estos activos a través de mediciones y evaluaciones constantes para llevar un control y desempeño optimo de las operaciones.
Ahora, desde estos términos los equipos, y por detrás de esa clase de realidaden la que los diferentes contextos no se abordan con herramientas exclusivas de una sola especialidad técnica. Sino que en cambio, se toman en cuenta todos los conocimientos de la mecánica, la dinámica de esfuerzos, las temperaturas y los fundamentos de las distintas ciencias aplicadas explican parte de los comportamientos de los equipos, pero todo ese saber técnico debe estar siempre acompañado de un criterio de rentabilidad.
Una organización no puede orientarse únicamente por lo técnico, ya que, sin sostener la relación con los costos, puede terminar dejando de ser efectiva en términos de negocio. Por eso es importante saber conectar y comunicar todo el contenido del área técnica con el negocio.
El siguiente comentario expone el desarrollo desde elpara qué de este pilar, en donde se puede entender mejor si se observa su posición dentro del ciclo de vida completo del activo.
La confiabilidad de los equipos no se construye en el taller una vez que ocurre una falla; se concibe desde la fase de diseño del proyecto, incluso antes de la existencia de la infraestructura física, asegurando que el CAPEX invertido garantice la máxima disponibilidad operativa. Para ello se utilizan metodologías y técnicas especificas tales como; los análisis como los predictivos de ciclo de vida (LCC), los modelados RAMS y los análisis de modos y efectos de fallas operacionales (FMEA) desde la ingeniería básica. De tal modo que, ésta se preserva mediante el control riguroso de las variables de proceso y el cumplimiento de los estándares operativos, ejecutando técnicas de monitoreo basado en condición (CBM) y planes de mantenimiento de precisión dirigidos a mitigar el desgaste inherente. Asimismo, la confiabilidad se recupera mediante la implementación de actividades estratégicasde mantenimiento proactivo y una gestión eficaz de órdenes de trabajo (CMMS) que minimizan el impacto financiero del OPEX, y se logra optimizar a través de modificaciones y rediseños basados en un análisis técnico riguroso buscando eliminar a los malos actores del sistema para sostener de manera continua la rentabilidad del negocio a lo largo de todo su ciclo de vida útil.
Toda la organización, desde quienes diseñan los proyectos hasta quienes construyen, operan y mantienen, debe compartir ese mismo fundamento de confiabilidad desde la conceptualización inicial.
Esa es la razón por la que este pilar se conecta tan estrechamente con las decisiones de inversión de capital (CAPEX) y los gastos operativos diarios (OPEX), porque ambos dependen de cuán bien se haya diseñado y medido la confiabilidad del activo desde el origen.
Objetivo del Tercer Pilar como la Confiabilidad del Equipo
Establecer expectativas antes de aplicar metodologías
Uno de los errores más frecuentes y comprobados en la industria es querer comenzar aplicando una técnica o metodología sin haber definido primero qué se espera lograr.
La sola aplicación de un análisis de modos de falla, o de cualquier otra herramienta, no garantiza un resultado siantes no existe una declaración clara de expectativa. Esa expectativa debe descender en cascada desde los objetivos de negocio definidos en el primer pilar hasta llegar al nivel técnico, porque sin un objetivo concreto resulta difícil saber hacia dónde dirigir el esfuerzo.
Es habitual que las organizaciones sin un nivel moderado de madurez en su gestión del mantenimiento continúen hablando sobre cómo mejorar la confiabilidad, pero sin poder señalar su nivel actual en ningún indicador concreto.
Por ello, el poder definir el desempeño esperado, comparar la condición actual frente a esa referencia y reconocer la brecha resultante es un gran avance que se obtiene como beneficio de esa madurez que nos permite dimensionar el esfuerzo real que se necesita.
Esas brechas son precisamente las que nos orientan qué metodología aplicar y con qué profundidad, evitando el error de copiar prácticas exitosas en otras organizaciones sin antes evaluar si responden a la necesidad propia de la planta. Entonces, al aplicar una técnica reconocida podemos deducir fácilmente que sin esta evaluación previa nos entregaría resultados marginales, mientras que otra técnica mejor seleccionada podría generar un margen de rentabilidad superior para el mismo esfuerzo.
Estas capacidades de alinear el criterio técnico con el resultado financiero son, en buena medida, lo que diferencia a las organizaciones líderes de sus competidores dentro de un mismo sector.
El mantenimiento y la mantenibilidad como un par de conceptos centrales
La mantenibilidad se define como la capacidad de conservar o restaurar un activo a un estado de rendimiento requerido bajo condiciones dadas de uso. Involucra factores externos al diseño original, como la accesibilidad de los componentes, el espacio disponible para maniobras y la disponibilidad de recursos y procedimientos técnicos para realizar la intervención.
El mantenimiento, por su parte, es la combinación de todas las acciones técnicas y administrativas, incluidas las de supervisión, destinadas a conservar un activo en estado funcional.
Mientras la mantenibilidad describe una característica del diseño y del entorno, el mantenimiento es la ejecución de la estrategia que preserva la función a lo largo del tiempo.
La normativa ISO 14224, considera que las actividades o trabajos del mantenimiento se clasifican con un enfoque de manera proactiva o reactiva como preventivos o correctivos, tomando en cuenta los derivados de cada uno, según la siguiente imagen:
Categorías del Mantenimiento según ISO 14224
De manera general;
Los mantenimientos preventivos se ejecuta antes de la pérdida de función, incluyendo tareas basadas en condición y tareas predeterminadas por tiempo o uso.
El correctivo se realiza después de detectar la avería, y puede ser programado, cuando se difiere es de forma estructurada para una fecha conveniente, el no programado, cuando la gravedad exige una intervención inmediata.
Las mejores prácticas de la SMRP plantean una distribución ideal de referencia donde el mantenimiento preventivo y el basado en condición representen, cada uno, alrededor del quince por ciento del esfuerzo total, mientras que el correctivo planificado debería alcanzar cerca del cincuenta y cinco por ciento, dejando un margen reducido para lo verdaderamente no programado. (Esto es, lo propuesto como un ideal, pero la realidad debe ir anclada a los riesgos que pueda tolerar la organización no es lo mismo una central nuclear donde esta muy claro que el riesgo por seguridad es altísimo, a una planta de alimentos u otros procesos en donde la criticidad de los equipos no sea mayoritaria)
Para la trazabilidad de todas ellas y ajustar esas estrategias de mantenimiento, es necesario encapsular aquellas tareas con una clara distinción entre los diferentes tipos de falla:
Según su naturaleza y comportamiento, pueden ser:
Por su alcance:
Fallas parciales: Afectan la capacidad del equipo, por lo que la función requerida se sigue cumpliendo, pero de manera limitada o por debajo de su estándar.
Fallas totales: Impiden por completo el funcionamiento del equipo y la ejecución de su función.
Según su rapidez de propagación:
Fallas progresivas (o por degradación): El deterioro del equipo es observable en el tiempo y se desarrolla gradualmente (debido al desgaste o degradación del equipo) y permiten la detección a través del monitoreo.
Fallas súbitas (o repentinas): Ocurren en lapsos muy cortos, sin síntomas previos que adviertan el progreso de la falla.
Según su severidad o impacto (Enfoque de Normas como ISO 14224, MIL-STD y el Manual de Oreda):
Falla crítica: Causa la pérdida inmediata de la capacidad de realizar la función y requiere una acción correctiva urgente.
Falla de degradación (o no crítica): Falla gradual o parcial que no cesa la función fundamental de inmediato, pero la compromete, pudiendo convertirse en crítica si no se atiende.
Falla incipiente: Una imperfección en el estado del ítem que, de no ser corregida, resultará eventualmente en una falla degradada o crítica.
Falla desconocida: La severidad de la falla no pudo ser deducida o registrada.
Según su evidencia o detectabilidad (Enfoque RCM):
Fallas evidentes: Sus efectos se vuelven notorios para el personal de operación y mantenimiento bajo circunstancias normales (aumento de temperatura, ruido, humo, etc.).
Fallas ocultas (o latentes): No son evidentes de inmediato bajo circunstancias normales. Generalmente están asociadas a dispositivos de protección o respaldo y se manifiestan ante una demanda (falla bajo demanda).
Por su riesgo y el impacto en el negocio
Fallas Crónicas (o Repetitivas): Se caracterizan por tener una alta frecuencia y una baja/mediana consecuencia individual. Suelen ser vistas como desviaciones aceptadas o normales (como cambios frecuentes de sellos, fugas menores, atascamientos), pero el impacto acumulado anual de estas fallas representa pérdidas económicas y de productividad enormes.
Fallas Esporádicas (o Eventuales / Catastróficas): Se caracterizan por tener una baja frecuencia, pero una consecuencia o impacto muy alto. Son eventos inaceptables como explosiones, incendios, fatalidades, o paradas totales y prolongadas de una planta
Una falla crítica puede causar el cese inmediato de la capacidad del equipo para cumplir su función requerida, resultando en una reparación no programada con impacto directo en la rentabilidad y, en algunos casos, en la seguridad. Las fallas no críticas representan degradaciones que permiten continuar operando por un tiempo limitado mientras se programa la intervención correspondiente.
Indicadores básicos y estadísticos de mantenimiento y confiabilidad
En la literatura de confiabilidad, existen diferentes fuentes y cantidades propuestas de indicadores. Aunque la SMRP, en su guía de Best Practices, propone alrededor de 70, dentro de los más básicos tenemos a los de tiempos medios, que nos ayudan a cuantificar el desempeño de los activos y a diferenciar entre componentes reparables y no reparables.
El MTTF (Mean Time to Failure), o tiempo promedio hasta la falla (TPPF), se aplica a artículos que no pueden repararse o no deben repararse, como bombillas, rodamientos sellados o ciertos componentes de un solo uso, y representa la esperanza de vida del elemento hasta su falla definitiva.
El tiempo promedio hasta la falla TPPF o MTTF
Por el contrario, el MTBF (Mean Time Between Failures), es el tiempo promedio entre fallas (TPEF), y se utiliza en activos reparables (como compresores o bombas), midiendo la longitud promedio del tiempo operativo entre averías sucesivas.
Tiempo Promedio Entre Fallas TPEF o MTBF
Unincremento sostenido en la tendencia del MTBF, es indicio directo que confirma que las estrategias de mantenimiento están mejorando la salud del activo y extendiendo su vida operativa
Complementando a estos, se debe integrar el MTTR (Mean Time to Repair or Replace), como el tiempo promedio para reparar (TPPR), el cual mide la mantenibilidad o la eficiencia con la que se restaura un activo tras una pérdida de función
Desde el punto de vista matemático y probabilístico, la confiabilidad es representada como R(t), y se define técnicamente, más allá de una capacidad, como la probabilidad de que un equipo cumpla con la función para el que fue diseñado sin presentar fallas durante un intervalo de tiempo específico, operando bajo determinadas condiciones. Mientras que su complemento, se considera como la probabilidad de falla F (t), la cualexpresa la probabilidad de que sí ocurra una avería en ese mismo intervalo.
Los Indicadores estadisticos basicos
La forma de calcular estos últimos dos indicadores varía según el comportamiento del sistema, equipo o modo de falla que se esté analizando y según la distribución estadística que mejor se ajuste a los datos disponibles, ya sean variables continuas o discretas.
No existe una única expresión matemática universal el modelo correcto depende del patrón de falla identificado, del volumen y la calidad de los datos recolectados, y de las pruebas de bondad de ajuste que se apliquen para validar qué distribución representa mejor el comportamiento real del activo.
Métodos y técnicas para el análisis de confiabilidad
Dentro de este pilar conviven varios métodos de análisis, cada uno orientado a resolver una pregunta distinta sobre el comportamiento del activo.
El Mantenimiento Centrado en la Confiabilidad (Reliability Centered Maintenance - RCM)
El Mantenimiento Centrado en la Confiabilidad (RCM), está basado en el estándar SAE JA1011 y SAE 1012, como un proceso metodológico para determinar los requerimientos de mantenimiento de un activo en su contexto operacional.
El Mantenimiento Centrado en la Confiabilidad
Su lógica responde siete preguntas que inician con la identificación de las funciones y los estándares de desempeño esperados, continúan con las fallas funcionales y los modos de falla, documentan los efectos de cada evento y evalúan su importancia para la seguridad, el ambiente y la economía. El proceso culmina con la selección de tareas proactivas técnicamente factibles, o con la definición de una acción por defecto cuando no existe una tarea adecuada.
La implementación de cualquier RCM exige un cambio de paradigma para el cual el mantenimiento no preserva el activo físico en sí,preserva sus funciones,y su objetivo no es únicamente eliminar fallas sino seleccionar tareas de mantenimiento para prevenir fallas funcionales, de manera que sean técnicamente factibles y, sobre todo, que valga la pena realizar desde el punto de vista económico o de seguridad.
A través de un algoritmo como una hoja de decisión se evalúa primero si la pérdida de función es evidente para el personal operativo en circunstancias normales. Si la falla es oculta, como suele suceder en sistemas de protección, se priorizan tareas de búsqueda de fallas para evitar incidentes múltiples con consecuencias catastróficas.
Existen cuatro categorías de consecuencias que el RCM busca gestionar:
Fallas Ocultas: Son las más peligrosas porque no son evidentes para el operador. El objetivo aquí es realizar tareas de búsqueda de fallas para reducir la probabilidad de una falla múltiple catastrófica.
Seguridad y Medio Ambiente: En estos casos, la falla es intolerable. Si no existe una tarea de mantenimiento que prevenga la falla, el rediseño es obligatorio.
Operacionales: Afectan la producción y la capacidad del negocio. Aquí se evalúa si el costo del mantenimiento es menor que el costo de la pérdida de producción.
No Operacionales: Solo implican el costo de la reparación. En estos casos, a menudo es más rentable dejar que el equipo falle (Run-to-Failure)
Cursos recomendados
Diferencias entre RCM y PMO
LaOptimización del Mantenimiento Preventivo (PMO) se define técnicamente como un proceso analítico, análogo al RCM, diseñado para desarrollar tareas y frecuencias de mantenimiento que mitiguen modos de falla probables, pero utilizando los planes preventivos vigentes y el historial del CMMS como punto de partida. Mientras que el RCM es un método riguroso que inicia desde una "hoja en blanco" recolectando funciones y efectos bajo el estándar SAE JA1011, el PMO realiza un análisis canalizado para ajustar planes ya en marcha y eliminar actividades que no agregan valor o que representan un sobre mantenimiento.
RCM vs PMO
Ambas metodologías comparten el objetivo de producir un plan óptimo orientado al negocio, utilizan el mismo árbol lógico de decisión y se fundamentan en las consecuencias de las fallas para la toma de decisiones técnicas. Lo que debemos comprender es que el RCM resulta preferible para equipos nuevos o de tecnología poco conocida para asegurar un diseño de mantenimiento robusto desde el origen; en cambio, el PMO es más eficiente cuando ya existe experiencia acumulada sobre el activo y se busca racionalizar lo que ya se ejecuta para mejorar la rentabilidad del OPEX.
Análisis de causa raíz y el registro de fallas
El Análisis de Causa Raiz (RCA)
El Análisis de Causa Raíz (RCA), es de gran utilidad para el análisis de fallas repetitivas o catastróficas, su función es identificar y ayudar a encontrar el origen de las averías para tomar las lecciones aprendidas y eliminar su recurrencia, recorriendo una serie de pasos que van desde la observación e identificación del problema hasta la verificación de la efectividad de la solución implementada y su extensión a activos similares.
Según la normativa BS/EN 62740, utiliza a diferentes de modelos del pensamiento, métodos y herramientas como el diagrama de Ishikawa o los cinco porqués y muchas otras que apoyan este recorrido. Para que el aprendizaje técnico se institucionalice, el RCA debe integrarse con un sistema FRACAS (Failure Recording and Corrective Action System), que asegura que cada modo de falla se analice, que se asignen los códigos correctos en el CMMS y que el historial resultante ajuste la estrategia de mantenimiento de forma continua.
Análisis RAM
El análisis RAM integra las tres dimensiones del pilar: Confiabilidad (Reliability), Disponibilidad (Availability) y Mantenibilidad (Maintainability). En entornos industriales de alta criticidad, este enfoque suele expandirse al concepto de RAMS, incorporando la Seguridad (Safety) como una variable no negociable para evaluar integralmente el riesgo de incidentes ambientales o lesiones derivados de la pérdida de función.
¿Qué es el Análisis RAM? Curso Predyc
Utiliza modelos de simulación, fundamentados en Diagramas de Bloques de Confiabilidad (DBC), para predecir el comportamiento de sistemas complejos, considerando la interdependencia entre equipos y las configuraciones de respaldo, ya sean en serie, paralelo o redundancias tipo "k de n". Mediante la aplicaciones como las de Método de Montecarlo, el análisis permite realizar miles de iteraciones estadísticas para cuantificar la incertidumbre y proyectar el desempeño esperado de la instalación frente a diversos escenarios de estrés operativo.
El Analisis RAM
La disponibilidad de una planta no depende solo de equipos confiables que logren extender el tiempo promedio entre fallas (MTBF), sino también de procesos de reparación ágiles y de una logística de repuestos eficiente que minimice el tiempo medio de restauración (MTTR). En este sentido, el análisis permite distinguir entre la disponibilidad inherente, limitada a las paradas por fallas, y la disponibilidad operacional, que refleja la eficiencia real del mantenimiento preventivo y los tiempos de espera logísticos dentro del ciclo de vida del activo.
El análisis RAM permite identificar cuellos de botella y jerarquizar a los "malos actores" que restringen la producción, orientando el esfuerzo técnico hacia los activos con mayor impacto en el negocio. Al cuantificar el lucro cesante y las pérdidas por indisponibilidad, el proceso facilita la creación de casos de negocio para justificar financieramente decisiones de inversión o rediseño, basándose en indicadores de rentabilidad como el Retorno de Inversión (ROI) y el Valor Presente Neto (VPN) de las mejoras propuestas.
La Inspección Basada en Riesgo (IBR; Risk Based Inspection RBI)
La Inspección Basada en Riesgo (IBR) integra las dimensiones críticas de Integridad Mecánica, Probabilidad de Falla y Consecuencia de Pérdida de Contención.
Utilizando al análisis con modelos de evaluación cualitativos, semi-cuantitativos y cuantitativos para predecir el comportamiento de activos estáticos como recipientes a presión, tanques y tuberías considerando sus mecanismos específicos de deterioro, principalmente la corrosión.
La integridad estructural de las plantas no depende solo de la frecuencia de las inspecciones, sino de la efectividad técnica de las mismas y de una gestión de datos históricos y operativos coherente.
Inspección Basada en Riesgo (RBI)
La metodología del IBR, nos permite identificar los puntos críticos donde el riesgo de falla supera los límites permisibles y simular distintos planes de inspección para mitigar posibles impactos en la seguridad, el ambiente y la producción. Al priorizar el esfuerzo en los activos con mayor potencial de daño, el proceso IBR facilita la toma de decisiones para extender los intervalos de servicio de forma segura, garantizando el cumplimiento de las regulaciones gubernamentales y optimizando la inversión en el mantenimiento de la infraestructura estática.
Otras herramientas de análisis y gestión del riesgo
El Análisis Bow-Tie (Corbatín): se consolida como una de las metodologías más potentes para identificar brechas de desempeño, ya que permite visualizar de forma integral tanto la prevención como la mitigación de eventos indeseados. En el centro del diagrama se ubica el Evento de Riesgo o evento crítico, que representa el punto donde se pierde el control de una amenaza.
Análisis de Corbatín o Bow-Tie
El lado izquierdo (Proactivo): Se documentan las causas potenciales o amenazas que podrían desencadenar el evento. Entre estas y el evento central se colocan las barreras de prevención (o controles), cuyo objetivo es evitar que la amenaza se materialice.
El lado derecho (Reactivo): Se detallan las consecuencias finales que resultarían si el evento ocurre. Aquí se sitúan las barreras de mitigación o de recuperación, diseñadas para reducir el impacto y la severidad una vez que el control se ha perdido.
Lo que debemos comprender es que estas barreras no son solo físicas; según las mejores prácticas, pueden ser naturales, de acción humana o administrativas. El análisis Bow-Tie permite evaluar la efectividad de cada una, identificando por qué fallaron o qué controles adicionales podrían instalarse para elevar la seguridad del sistema.
Niveles de Integridad de Seguridad (SIL): Fiabilidad en la Protección
Para procesos donde un fallo puede tener consecuencias catastróficas, se emplean los Niveles de Integridad de Seguridad (SIL) como parte de la modelización RAMS (Confiabilidad, Disponibilidad, Mantenibilidad y Seguridad). El SIL es una medida de la fiabilidad requerida para una función instrumentada de seguridad que debe actuar ante una demanda específica del proceso.
Confiabilidad Probabilística: El SIL cuantifica la probabilidad de que un sistema de protección (como un sistema de parada de emergencia o ESD) falle al ser requerido. Un nivel SIL más alto indica un mayor rigor en el diseño y una menor probabilidad de fallo bajo demanda.
Gestión de Fallas Ocultas: Esta herramienta es vital para gestionar componentes de respaldo que pueden presentar fallas ocultas, las cuales no son evidentes para el operador durante la marcha normal del equipo pero que comprometen la protección de la planta en una emergencia.
Integración con Estándares Internacionales
Ambas técnicas se enmarcan en la norma ISO 31000 y su guía técnica que tambien contiene el directorio general de las otras herramientas aplicacables para el análisis del riesgo IEC/ISO 31010, que definen el riesgo como el efecto de la incertidumbre sobre los objetivos.
Técnicas de soporte para la preparación de los datos
Antes de aplicar cualquiera de los métodos anteriores, es necesario filtrar y priorizar la información disponible. Para ello, una de las utilizadas es el diagrama de Pareto como una técnica de referencia para identificar a los llamados malos actores; entre estos la regla general en el uso de la herramienta indica que alrededor del ochenta por ciento de las fallas suele originarse en el veinte por ciento de los equipos, por lo que las técnicas más exigentes en recursos, como el RCFA o el análisis de Weibull, conviene concentrarlas en ese grupo prioritario. Otra también es el análisis de restricciones, orientado a identificar cuellos de botella, para complementar este filtro al señalar qué equipo o proceso limita realmente la capacidad de producción total, enfocando allí el esfuerzo de confiabilidad.
Modelado estadístico del comportamiento de falla
Una vez identificado un modo de falla y recolectados los datos de tiempo hasta el evento, el siguiente paso consiste en caracterizar su comportamiento.
El Ajuste de Datos a la Caracterización de Componentes, Equipos y Sistemas
Esa caracterización depende de si el modo de falla está relacionado con la edad del componente o si se comporta de manera aleatoria, vínculo que conecta directamente con los seis patrones de falla descritos en la metodología del RCM. Según la naturaleza de las variables disponibles, continuas o discretas, y según el tipo de proceso que origina la falla, se puede optar por un modelo determinista o por un enfoque estocástico que incorpore la incertidumbre propia del fenómeno.
Patrones de Falla
Existen distintas distribuciones estadísticas, cada una con sus propios parámetros de entrada, entre las que se incluyen la exponencial, la normal, la lognormal, la gamma y la de Weibull, además de otras menos frecuentes según el contexto del análisis.
Clasificación de las Distribuciones Continuas y Discretas para modelar los tiempos de falla
Determinar cuál se ajusta mejor a los datos disponibles requiere aplicar pruebas de bondad de ajuste que comparen la distribución empírica observada con cada modelo candidato, validando estadísticamente cuál representa con mayor fidelidad el comportamiento real del activo.
Dentro de lo más destacado en el modelado estadístico, se encuentra el análisis de Weibull que suele utilizarse como referencia inicial para interpretar el patrón de falla mediante su parámetro de forma, que permite distinguir entre mortalidad infantil, comportamiento aleatorio o degradación por desgaste, dependiendo de su valor. En una de sus versiones, el modelo de crecimiento Crow-AMSAA se aplica de una forma un poco distinta; en lugar de modelar un único modo de falla, consolida todos los eventos de un sistema reparable para evaluar si la confiabilidad global está mejorando o deteriorándose a lo largo del tiempo, sirviendo como indicador de seguimiento sobre la efectividad de los planes de mantenimiento implementados. Cuando no se cuenta con suficiente historial propio de la planta, se recurre a fuentes genéricas de confiabilidad reconocidas en la industria, ajustando esos valores referenciales al contexto operativo específico del activo analizado.
La confiabilidad desde el diseño hasta la desincorporación
Las decisiones tomadas durante la fase de inversión de capital (CAPEX) determinan gran parte del costo total de propiedad que el activo cargará durante toda su vida operativa. Diseñar para la mantenibilidad implica considerar desde el inicio el espacio para maniobras, el acceso a puntos de lubricación y la estandarización de componentes, reduciendo así el inventario de repuestos necesario y los tiempos de intervención futuros.
El Costo del Ciclo de Vida (LCC) evalúa todos los gastos desde la concepción hasta la desincorporación final del equipo, y suele revelar que una adquisición de menor costo inicial puede resultar más onerosa en el largo plazo si compromete la confiabilidad operativa.
Para que un proyecto de inversión sea aprobado, debe superar la tasa de rentabilidad mínima exigida por la organización, conocida como Hurdle Rate, que representa el retorno esperado según el riesgo y el costo de capital de la institución. Por otra parte, las pruebas de aceptación y el comisionamiento basado en criterios de confiabilidad verifican, antes de la puesta en marcha definitiva, que el equipo cumple con los parámetros de diseño esperados, previniendo que el activo arrastre defectos de mortalidad infantil desde su primer día de operación.
Del lado operativo, el OPEX abarca los costos diarios de mantener la planta en funcionamiento. Desde la gestión de la confiabilidad se busca transformar el mantenimiento reactivo en tareas planificadas que consuman menos recursos, reduciendo además el retrabajo, entendido como el trabajo correctivo repetido sobre equipos que fallaron prematuramente tras una intervención previa.
Cambios en el contexto operacional que afectan la confiabilidad
La condición de los activos no es estática en el tiempo, pues todos sufren un desgaste o deterioro de alguna u otra forma, y cualquier modificación en el entorno operativo puede alterar su comportamiento de falla.
Cuando el área comercial decide aumentar la producción sin involucrar previamente a mantenimiento, el equipo técnico queda sin posibilidad de advertir restricciones reales, como el backlog acumulado o limitaciones de capacidad. De forma similar, los cambios en la composición de las materias primas, las modificaciones de presupuesto o la rotación del personal técnico afectan directamente la condición de los activos, aunque sus efectos no siempre sean visibles de inmediato.
Mantener informado al área de confiabilidad sobre estos cambios, antes de que ocurran y no después de evidenciar el daño, es parte de la responsabilidad técnica que este pilar exige dentro de la organización.
Conclusión
El tercer pilar del Body of Knowledge reúne el conjunto de métodos, técnicas y datos que permiten a una organización conocer el estado real de sus activos y decidir, con fundamento, qué estrategia de mantenimiento aplicar a cada uno. Desde establecer una expectativa de desempeño antes de elegir cualquier metodología, hasta seleccionar la distribución estadística que mejor representa el comportamiento de un modo de falla específico, cada paso de este pilar responde a la misma lógica: medir antes de actuar y actuar con un propósito claramente definido frente al negocio.
Su influencia se extiende desde el diseño del proyecto, donde se siembran las decisiones que determinarán el costo total de propiedad, hasta la operación diaria, donde el seguimiento constante de los indicadores de confiabilidad permite ajustar la estrategia a medida que cambian las condiciones de producción, presupuesto o personal. Esa visión completa del ciclo de vida del activo es lo que convierte a este pilar en el puente entre el conocimiento técnico y el resultado financiero que la organización espera de su infraestructura.
Dinos qué te ha parecido el artículo
¡Gracias por tu valoración!
La Confiabilidad del Equipo como el Tercer Pilar de la CMRP
Técnico - Articulo15 de junio de 2026
Autor: Román VenturaIngeniero de Mantenimiento Industrial, Especialista Jr. en Ingeniería de Confiabilidad y Gestión de Activos.
La Confiabilidad del Equipo es el tercer pilar del Cuerpo del Conocimiento (Body of Knowledge - BoK) de la SMRP, encargado de evaluar las capacidades actuales de los activos en los procesos industriales para seleccionar las prácticas de mantenimiento que mejor responden a su realidad operativa. En términos históricos, esta área se ha conocido como una parte de la aplicación de la ingeniería de mantenimiento, antes de que la confiabilidad ganara una dimensión más amplia dentro del sector industrial, y, su función específica se concentra en diseñar, medir y analizar datos para que los equipos, junto con las personas que los operan, alcancen las capacidades para las que fueron concebidos, de la manera más segura y al mejor costo posible.
El Tercer Pilar de la CMRP; la Confiabilidad del Equipo
Este pilar es relevantepara todo profesional certificado dentro de este marco, porque conecta las partes físicas directamente con los objetivos del negocioestablecidos en el primer dominio del BoK.
Debemos tener en consideración que la confiabilidadno se mide únicamente con indicadores de mantenimiento o de equipo; una clave parte clave es que como los equipos no siempre se evalúan de manera exclusiva desde los parámetros de la física del activo, pues tienen un entorno operacional,lo que hace que esta se construya con los datos de operación, producción, calidad, costo, riesgo y seguridad, todos orientados a fortalecer el negocio completo.
Buscar estos datos para construir información confiable es lo que permite tomar decisiones más acertadas y robustas sobre los activos físicos.
El cómo se logra ejecutar esta gestión parte desde un diseño, siendo entendido en el sentido más amplio del término; el diseñar implica que capturaremos la realidad de esos contextos a los que van dirigidos estos activos a través de mediciones y evaluaciones constantes para llevar un control y desempeño optimo de las operaciones.
Ahora, desde estos términos los equipos, y por detrás de esa clase de realidaden la que los diferentes contextos no se abordan con herramientas exclusivas de una sola especialidad técnica. Sino que en cambio, se toman en cuenta todos los conocimientos de la mecánica, la dinámica de esfuerzos, las temperaturas y los fundamentos de las distintas ciencias aplicadas explican parte de los comportamientos de los equipos, pero todo ese saber técnico debe estar siempre acompañado de un criterio de rentabilidad.
Una organización no puede orientarse únicamente por lo técnico, ya que, sin sostener la relación con los costos, puede terminar dejando de ser efectiva en términos de negocio. Por eso es importante saber conectar y comunicar todo el contenido del área técnica con el negocio.
El siguiente comentario expone el desarrollo desde elpara qué de este pilar, en donde se puede entender mejor si se observa su posición dentro del ciclo de vida completo del activo.
La confiabilidad de los equipos no se construye en el taller una vez que ocurre una falla; se concibe desde la fase de diseño del proyecto, incluso antes de la existencia de la infraestructura física, asegurando que el CAPEX invertido garantice la máxima disponibilidad operativa. Para ello se utilizan metodologías y técnicas especificas tales como; los análisis como los predictivos de ciclo de vida (LCC), los modelados RAMS y los análisis de modos y efectos de fallas operacionales (FMEA) desde la ingeniería básica. De tal modo que, ésta se preserva mediante el control riguroso de las variables de proceso y el cumplimiento de los estándares operativos, ejecutando técnicas de monitoreo basado en condición (CBM) y planes de mantenimiento de precisión dirigidos a mitigar el desgaste inherente. Asimismo, la confiabilidad se recupera mediante la implementación de actividades estratégicasde mantenimiento proactivo y una gestión eficaz de órdenes de trabajo (CMMS) que minimizan el impacto financiero del OPEX, y se logra optimizar a través de modificaciones y rediseños basados en un análisis técnico riguroso buscando eliminar a los malos actores del sistema para sostener de manera continua la rentabilidad del negocio a lo largo de todo su ciclo de vida útil.
Toda la organización, desde quienes diseñan los proyectos hasta quienes construyen, operan y mantienen, debe compartir ese mismo fundamento de confiabilidad desde la conceptualización inicial.
Esa es la razón por la que este pilar se conecta tan estrechamente con las decisiones de inversión de capital (CAPEX) y los gastos operativos diarios (OPEX), porque ambos dependen de cuán bien se haya diseñado y medido la confiabilidad del activo desde el origen.
Objetivo del Tercer Pilar como la Confiabilidad del Equipo
Establecer expectativas antes de aplicar metodologías
Uno de los errores más frecuentes y comprobados en la industria es querer comenzar aplicando una técnica o metodología sin haber definido primero qué se espera lograr.
La sola aplicación de un análisis de modos de falla, o de cualquier otra herramienta, no garantiza un resultado siantes no existe una declaración clara de expectativa. Esa expectativa debe descender en cascada desde los objetivos de negocio definidos en el primer pilar hasta llegar al nivel técnico, porque sin un objetivo concreto resulta difícil saber hacia dónde dirigir el esfuerzo.
Es habitual que las organizaciones sin un nivel moderado de madurez en su gestión del mantenimiento continúen hablando sobre cómo mejorar la confiabilidad, pero sin poder señalar su nivel actual en ningún indicador concreto.
Por ello, el poder definir el desempeño esperado, comparar la condición actual frente a esa referencia y reconocer la brecha resultante es un gran avance que se obtiene como beneficio de esa madurez que nos permite dimensionar el esfuerzo real que se necesita.
Esas brechas son precisamente las que nos orientan qué metodología aplicar y con qué profundidad, evitando el error de copiar prácticas exitosas en otras organizaciones sin antes evaluar si responden a la necesidad propia de la planta. Entonces, al aplicar una técnica reconocida podemos deducir fácilmente que sin esta evaluación previa nos entregaría resultados marginales, mientras que otra técnica mejor seleccionada podría generar un margen de rentabilidad superior para el mismo esfuerzo.
Estas capacidades de alinear el criterio técnico con el resultado financiero son, en buena medida, lo que diferencia a las organizaciones líderes de sus competidores dentro de un mismo sector.
El mantenimiento y la mantenibilidad como un par de conceptos centrales
La mantenibilidad se define como la capacidad de conservar o restaurar un activo a un estado de rendimiento requerido bajo condiciones dadas de uso. Involucra factores externos al diseño original, como la accesibilidad de los componentes, el espacio disponible para maniobras y la disponibilidad de recursos y procedimientos técnicos para realizar la intervención.
El mantenimiento, por su parte, es la combinación de todas las acciones técnicas y administrativas, incluidas las de supervisión, destinadas a conservar un activo en estado funcional.
Mientras la mantenibilidad describe una característica del diseño y del entorno, el mantenimiento es la ejecución de la estrategia que preserva la función a lo largo del tiempo.
La normativa ISO 14224, considera que las actividades o trabajos del mantenimiento se clasifican con un enfoque de manera proactiva o reactiva como preventivos o correctivos, tomando en cuenta los derivados de cada uno, según la siguiente imagen:
Categorías del Mantenimiento según ISO 14224
De manera general;
Los mantenimientos preventivos se ejecuta antes de la pérdida de función, incluyendo tareas basadas en condición y tareas predeterminadas por tiempo o uso.
El correctivo se realiza después de detectar la avería, y puede ser programado, cuando se difiere es de forma estructurada para una fecha conveniente, el no programado, cuando la gravedad exige una intervención inmediata.
Las mejores prácticas de la SMRP plantean una distribución ideal de referencia donde el mantenimiento preventivo y el basado en condición representen, cada uno, alrededor del quince por ciento del esfuerzo total, mientras que el correctivo planificado debería alcanzar cerca del cincuenta y cinco por ciento, dejando un margen reducido para lo verdaderamente no programado. (Esto es, lo propuesto como un ideal, pero la realidad debe ir anclada a los riesgos que pueda tolerar la organización no es lo mismo una central nuclear donde esta muy claro que el riesgo por seguridad es altísimo, a una planta de alimentos u otros procesos en donde la criticidad de los equipos no sea mayoritaria)
Para la trazabilidad de todas ellas y ajustar esas estrategias de mantenimiento, es necesario encapsular aquellas tareas con una clara distinción entre los diferentes tipos de falla:
Según su naturaleza y comportamiento, pueden ser:
Por su alcance:
Fallas parciales: Afectan la capacidad del equipo, por lo que la función requerida se sigue cumpliendo, pero de manera limitada o por debajo de su estándar.
Fallas totales: Impiden por completo el funcionamiento del equipo y la ejecución de su función.
Según su rapidez de propagación:
Fallas progresivas (o por degradación): El deterioro del equipo es observable en el tiempo y se desarrolla gradualmente (debido al desgaste o degradación del equipo) y permiten la detección a través del monitoreo.
Fallas súbitas (o repentinas): Ocurren en lapsos muy cortos, sin síntomas previos que adviertan el progreso de la falla.
Según su severidad o impacto (Enfoque de Normas como ISO 14224, MIL-STD y el Manual de Oreda):
Falla crítica: Causa la pérdida inmediata de la capacidad de realizar la función y requiere una acción correctiva urgente.
Falla de degradación (o no crítica): Falla gradual o parcial que no cesa la función fundamental de inmediato, pero la compromete, pudiendo convertirse en crítica si no se atiende.
Falla incipiente: Una imperfección en el estado del ítem que, de no ser corregida, resultará eventualmente en una falla degradada o crítica.
Falla desconocida: La severidad de la falla no pudo ser deducida o registrada.
Según su evidencia o detectabilidad (Enfoque RCM):
Fallas evidentes: Sus efectos se vuelven notorios para el personal de operación y mantenimiento bajo circunstancias normales (aumento de temperatura, ruido, humo, etc.).
Fallas ocultas (o latentes): No son evidentes de inmediato bajo circunstancias normales. Generalmente están asociadas a dispositivos de protección o respaldo y se manifiestan ante una demanda (falla bajo demanda).
Por su riesgo y el impacto en el negocio
Fallas Crónicas (o Repetitivas): Se caracterizan por tener una alta frecuencia y una baja/mediana consecuencia individual. Suelen ser vistas como desviaciones aceptadas o normales (como cambios frecuentes de sellos, fugas menores, atascamientos), pero el impacto acumulado anual de estas fallas representa pérdidas económicas y de productividad enormes.
Fallas Esporádicas (o Eventuales / Catastróficas): Se caracterizan por tener una baja frecuencia, pero una consecuencia o impacto muy alto. Son eventos inaceptables como explosiones, incendios, fatalidades, o paradas totales y prolongadas de una planta
Una falla crítica puede causar el cese inmediato de la capacidad del equipo para cumplir su función requerida, resultando en una reparación no programada con impacto directo en la rentabilidad y, en algunos casos, en la seguridad. Las fallas no críticas representan degradaciones que permiten continuar operando por un tiempo limitado mientras se programa la intervención correspondiente.
Indicadores básicos y estadísticos de mantenimiento y confiabilidad
En la literatura de confiabilidad, existen diferentes fuentes y cantidades propuestas de indicadores. Aunque la SMRP, en su guía de Best Practices, propone alrededor de 70, dentro de los más básicos tenemos a los de tiempos medios, que nos ayudan a cuantificar el desempeño de los activos y a diferenciar entre componentes reparables y no reparables.
El MTTF (Mean Time to Failure), o tiempo promedio hasta la falla (TPPF), se aplica a artículos que no pueden repararse o no deben repararse, como bombillas, rodamientos sellados o ciertos componentes de un solo uso, y representa la esperanza de vida del elemento hasta su falla definitiva.
El tiempo promedio hasta la falla TPPF o MTTF
Por el contrario, el MTBF (Mean Time Between Failures), es el tiempo promedio entre fallas (TPEF), y se utiliza en activos reparables (como compresores o bombas), midiendo la longitud promedio del tiempo operativo entre averías sucesivas.
Tiempo Promedio Entre Fallas TPEF o MTBF
Unincremento sostenido en la tendencia del MTBF, es indicio directo que confirma que las estrategias de mantenimiento están mejorando la salud del activo y extendiendo su vida operativa
Complementando a estos, se debe integrar el MTTR (Mean Time to Repair or Replace), como el tiempo promedio para reparar (TPPR), el cual mide la mantenibilidad o la eficiencia con la que se restaura un activo tras una pérdida de función
Desde el punto de vista matemático y probabilístico, la confiabilidad es representada como R(t), y se define técnicamente, más allá de una capacidad, como la probabilidad de que un equipo cumpla con la función para el que fue diseñado sin presentar fallas durante un intervalo de tiempo específico, operando bajo determinadas condiciones. Mientras que su complemento, se considera como la probabilidad de falla F (t), la cualexpresa la probabilidad de que sí ocurra una avería en ese mismo intervalo.
Los Indicadores estadisticos basicos
La forma de calcular estos últimos dos indicadores varía según el comportamiento del sistema, equipo o modo de falla que se esté analizando y según la distribución estadística que mejor se ajuste a los datos disponibles, ya sean variables continuas o discretas.
No existe una única expresión matemática universal el modelo correcto depende del patrón de falla identificado, del volumen y la calidad de los datos recolectados, y de las pruebas de bondad de ajuste que se apliquen para validar qué distribución representa mejor el comportamiento real del activo.
Métodos y técnicas para el análisis de confiabilidad
Dentro de este pilar conviven varios métodos de análisis, cada uno orientado a resolver una pregunta distinta sobre el comportamiento del activo.
El Mantenimiento Centrado en la Confiabilidad (Reliability Centered Maintenance - RCM)
El Mantenimiento Centrado en la Confiabilidad (RCM), está basado en el estándar SAE JA1011 y SAE 1012, como un proceso metodológico para determinar los requerimientos de mantenimiento de un activo en su contexto operacional.
El Mantenimiento Centrado en la Confiabilidad
Su lógica responde siete preguntas que inician con la identificación de las funciones y los estándares de desempeño esperados, continúan con las fallas funcionales y los modos de falla, documentan los efectos de cada evento y evalúan su importancia para la seguridad, el ambiente y la economía. El proceso culmina con la selección de tareas proactivas técnicamente factibles, o con la definición de una acción por defecto cuando no existe una tarea adecuada.
La implementación de cualquier RCM exige un cambio de paradigma para el cual el mantenimiento no preserva el activo físico en sí,preserva sus funciones,y su objetivo no es únicamente eliminar fallas sino seleccionar tareas de mantenimiento para prevenir fallas funcionales, de manera que sean técnicamente factibles y, sobre todo, que valga la pena realizar desde el punto de vista económico o de seguridad.
A través de un algoritmo como una hoja de decisión se evalúa primero si la pérdida de función es evidente para el personal operativo en circunstancias normales. Si la falla es oculta, como suele suceder en sistemas de protección, se priorizan tareas de búsqueda de fallas para evitar incidentes múltiples con consecuencias catastróficas.
Existen cuatro categorías de consecuencias que el RCM busca gestionar:
Fallas Ocultas: Son las más peligrosas porque no son evidentes para el operador. El objetivo aquí es realizar tareas de búsqueda de fallas para reducir la probabilidad de una falla múltiple catastrófica.
Seguridad y Medio Ambiente: En estos casos, la falla es intolerable. Si no existe una tarea de mantenimiento que prevenga la falla, el rediseño es obligatorio.
Operacionales: Afectan la producción y la capacidad del negocio. Aquí se evalúa si el costo del mantenimiento es menor que el costo de la pérdida de producción.
No Operacionales: Solo implican el costo de la reparación. En estos casos, a menudo es más rentable dejar que el equipo falle (Run-to-Failure)
Cursos recomendados
Diferencias entre RCM y PMO
LaOptimización del Mantenimiento Preventivo (PMO) se define técnicamente como un proceso analítico, análogo al RCM, diseñado para desarrollar tareas y frecuencias de mantenimiento que mitiguen modos de falla probables, pero utilizando los planes preventivos vigentes y el historial del CMMS como punto de partida. Mientras que el RCM es un método riguroso que inicia desde una "hoja en blanco" recolectando funciones y efectos bajo el estándar SAE JA1011, el PMO realiza un análisis canalizado para ajustar planes ya en marcha y eliminar actividades que no agregan valor o que representan un sobre mantenimiento.
RCM vs PMO
Ambas metodologías comparten el objetivo de producir un plan óptimo orientado al negocio, utilizan el mismo árbol lógico de decisión y se fundamentan en las consecuencias de las fallas para la toma de decisiones técnicas. Lo que debemos comprender es que el RCM resulta preferible para equipos nuevos o de tecnología poco conocida para asegurar un diseño de mantenimiento robusto desde el origen; en cambio, el PMO es más eficiente cuando ya existe experiencia acumulada sobre el activo y se busca racionalizar lo que ya se ejecuta para mejorar la rentabilidad del OPEX.
Análisis de causa raíz y el registro de fallas
El Análisis de Causa Raiz (RCA)
El Análisis de Causa Raíz (RCA), es de gran utilidad para el análisis de fallas repetitivas o catastróficas, su función es identificar y ayudar a encontrar el origen de las averías para tomar las lecciones aprendidas y eliminar su recurrencia, recorriendo una serie de pasos que van desde la observación e identificación del problema hasta la verificación de la efectividad de la solución implementada y su extensión a activos similares.
Según la normativa BS/EN 62740, utiliza a diferentes de modelos del pensamiento, métodos y herramientas como el diagrama de Ishikawa o los cinco porqués y muchas otras que apoyan este recorrido. Para que el aprendizaje técnico se institucionalice, el RCA debe integrarse con un sistema FRACAS (Failure Recording and Corrective Action System), que asegura que cada modo de falla se analice, que se asignen los códigos correctos en el CMMS y que el historial resultante ajuste la estrategia de mantenimiento de forma continua.
Análisis RAM
El análisis RAM integra las tres dimensiones del pilar: Confiabilidad (Reliability), Disponibilidad (Availability) y Mantenibilidad (Maintainability). En entornos industriales de alta criticidad, este enfoque suele expandirse al concepto de RAMS, incorporando la Seguridad (Safety) como una variable no negociable para evaluar integralmente el riesgo de incidentes ambientales o lesiones derivados de la pérdida de función.
¿Qué es el Análisis RAM? Curso Predyc
Utiliza modelos de simulación, fundamentados en Diagramas de Bloques de Confiabilidad (DBC), para predecir el comportamiento de sistemas complejos, considerando la interdependencia entre equipos y las configuraciones de respaldo, ya sean en serie, paralelo o redundancias tipo "k de n". Mediante la aplicaciones como las de Método de Montecarlo, el análisis permite realizar miles de iteraciones estadísticas para cuantificar la incertidumbre y proyectar el desempeño esperado de la instalación frente a diversos escenarios de estrés operativo.
El Analisis RAM
La disponibilidad de una planta no depende solo de equipos confiables que logren extender el tiempo promedio entre fallas (MTBF), sino también de procesos de reparación ágiles y de una logística de repuestos eficiente que minimice el tiempo medio de restauración (MTTR). En este sentido, el análisis permite distinguir entre la disponibilidad inherente, limitada a las paradas por fallas, y la disponibilidad operacional, que refleja la eficiencia real del mantenimiento preventivo y los tiempos de espera logísticos dentro del ciclo de vida del activo.
El análisis RAM permite identificar cuellos de botella y jerarquizar a los "malos actores" que restringen la producción, orientando el esfuerzo técnico hacia los activos con mayor impacto en el negocio. Al cuantificar el lucro cesante y las pérdidas por indisponibilidad, el proceso facilita la creación de casos de negocio para justificar financieramente decisiones de inversión o rediseño, basándose en indicadores de rentabilidad como el Retorno de Inversión (ROI) y el Valor Presente Neto (VPN) de las mejoras propuestas.
La Inspección Basada en Riesgo (IBR; Risk Based Inspection RBI)
La Inspección Basada en Riesgo (IBR) integra las dimensiones críticas de Integridad Mecánica, Probabilidad de Falla y Consecuencia de Pérdida de Contención.
Utilizando al análisis con modelos de evaluación cualitativos, semi-cuantitativos y cuantitativos para predecir el comportamiento de activos estáticos como recipientes a presión, tanques y tuberías considerando sus mecanismos específicos de deterioro, principalmente la corrosión.
La integridad estructural de las plantas no depende solo de la frecuencia de las inspecciones, sino de la efectividad técnica de las mismas y de una gestión de datos históricos y operativos coherente.
Inspección Basada en Riesgo (RBI)
La metodología del IBR, nos permite identificar los puntos críticos donde el riesgo de falla supera los límites permisibles y simular distintos planes de inspección para mitigar posibles impactos en la seguridad, el ambiente y la producción. Al priorizar el esfuerzo en los activos con mayor potencial de daño, el proceso IBR facilita la toma de decisiones para extender los intervalos de servicio de forma segura, garantizando el cumplimiento de las regulaciones gubernamentales y optimizando la inversión en el mantenimiento de la infraestructura estática.
Otras herramientas de análisis y gestión del riesgo
El Análisis Bow-Tie (Corbatín): se consolida como una de las metodologías más potentes para identificar brechas de desempeño, ya que permite visualizar de forma integral tanto la prevención como la mitigación de eventos indeseados. En el centro del diagrama se ubica el Evento de Riesgo o evento crítico, que representa el punto donde se pierde el control de una amenaza.
Análisis de Corbatín o Bow-Tie
El lado izquierdo (Proactivo): Se documentan las causas potenciales o amenazas que podrían desencadenar el evento. Entre estas y el evento central se colocan las barreras de prevención (o controles), cuyo objetivo es evitar que la amenaza se materialice.
El lado derecho (Reactivo): Se detallan las consecuencias finales que resultarían si el evento ocurre. Aquí se sitúan las barreras de mitigación o de recuperación, diseñadas para reducir el impacto y la severidad una vez que el control se ha perdido.
Lo que debemos comprender es que estas barreras no son solo físicas; según las mejores prácticas, pueden ser naturales, de acción humana o administrativas. El análisis Bow-Tie permite evaluar la efectividad de cada una, identificando por qué fallaron o qué controles adicionales podrían instalarse para elevar la seguridad del sistema.
Niveles de Integridad de Seguridad (SIL): Fiabilidad en la Protección
Para procesos donde un fallo puede tener consecuencias catastróficas, se emplean los Niveles de Integridad de Seguridad (SIL) como parte de la modelización RAMS (Confiabilidad, Disponibilidad, Mantenibilidad y Seguridad). El SIL es una medida de la fiabilidad requerida para una función instrumentada de seguridad que debe actuar ante una demanda específica del proceso.
Confiabilidad Probabilística: El SIL cuantifica la probabilidad de que un sistema de protección (como un sistema de parada de emergencia o ESD) falle al ser requerido. Un nivel SIL más alto indica un mayor rigor en el diseño y una menor probabilidad de fallo bajo demanda.
Gestión de Fallas Ocultas: Esta herramienta es vital para gestionar componentes de respaldo que pueden presentar fallas ocultas, las cuales no son evidentes para el operador durante la marcha normal del equipo pero que comprometen la protección de la planta en una emergencia.
Integración con Estándares Internacionales
Ambas técnicas se enmarcan en la norma ISO 31000 y su guía técnica que tambien contiene el directorio general de las otras herramientas aplicacables para el análisis del riesgo IEC/ISO 31010, que definen el riesgo como el efecto de la incertidumbre sobre los objetivos.
Técnicas de soporte para la preparación de los datos
Antes de aplicar cualquiera de los métodos anteriores, es necesario filtrar y priorizar la información disponible. Para ello, una de las utilizadas es el diagrama de Pareto como una técnica de referencia para identificar a los llamados malos actores; entre estos la regla general en el uso de la herramienta indica que alrededor del ochenta por ciento de las fallas suele originarse en el veinte por ciento de los equipos, por lo que las técnicas más exigentes en recursos, como el RCFA o el análisis de Weibull, conviene concentrarlas en ese grupo prioritario. Otra también es el análisis de restricciones, orientado a identificar cuellos de botella, para complementar este filtro al señalar qué equipo o proceso limita realmente la capacidad de producción total, enfocando allí el esfuerzo de confiabilidad.
Modelado estadístico del comportamiento de falla
Una vez identificado un modo de falla y recolectados los datos de tiempo hasta el evento, el siguiente paso consiste en caracterizar su comportamiento.
El Ajuste de Datos a la Caracterización de Componentes, Equipos y Sistemas
Esa caracterización depende de si el modo de falla está relacionado con la edad del componente o si se comporta de manera aleatoria, vínculo que conecta directamente con los seis patrones de falla descritos en la metodología del RCM. Según la naturaleza de las variables disponibles, continuas o discretas, y según el tipo de proceso que origina la falla, se puede optar por un modelo determinista o por un enfoque estocástico que incorpore la incertidumbre propia del fenómeno.
Patrones de Falla
Existen distintas distribuciones estadísticas, cada una con sus propios parámetros de entrada, entre las que se incluyen la exponencial, la normal, la lognormal, la gamma y la de Weibull, además de otras menos frecuentes según el contexto del análisis.
Clasificación de las Distribuciones Continuas y Discretas para modelar los tiempos de falla
Determinar cuál se ajusta mejor a los datos disponibles requiere aplicar pruebas de bondad de ajuste que comparen la distribución empírica observada con cada modelo candidato, validando estadísticamente cuál representa con mayor fidelidad el comportamiento real del activo.
Dentro de lo más destacado en el modelado estadístico, se encuentra el análisis de Weibull que suele utilizarse como referencia inicial para interpretar el patrón de falla mediante su parámetro de forma, que permite distinguir entre mortalidad infantil, comportamiento aleatorio o degradación por desgaste, dependiendo de su valor. En una de sus versiones, el modelo de crecimiento Crow-AMSAA se aplica de una forma un poco distinta; en lugar de modelar un único modo de falla, consolida todos los eventos de un sistema reparable para evaluar si la confiabilidad global está mejorando o deteriorándose a lo largo del tiempo, sirviendo como indicador de seguimiento sobre la efectividad de los planes de mantenimiento implementados. Cuando no se cuenta con suficiente historial propio de la planta, se recurre a fuentes genéricas de confiabilidad reconocidas en la industria, ajustando esos valores referenciales al contexto operativo específico del activo analizado.
La confiabilidad desde el diseño hasta la desincorporación
Las decisiones tomadas durante la fase de inversión de capital (CAPEX) determinan gran parte del costo total de propiedad que el activo cargará durante toda su vida operativa. Diseñar para la mantenibilidad implica considerar desde el inicio el espacio para maniobras, el acceso a puntos de lubricación y la estandarización de componentes, reduciendo así el inventario de repuestos necesario y los tiempos de intervención futuros.
El Costo del Ciclo de Vida (LCC) evalúa todos los gastos desde la concepción hasta la desincorporación final del equipo, y suele revelar que una adquisición de menor costo inicial puede resultar más onerosa en el largo plazo si compromete la confiabilidad operativa.
Para que un proyecto de inversión sea aprobado, debe superar la tasa de rentabilidad mínima exigida por la organización, conocida como Hurdle Rate, que representa el retorno esperado según el riesgo y el costo de capital de la institución. Por otra parte, las pruebas de aceptación y el comisionamiento basado en criterios de confiabilidad verifican, antes de la puesta en marcha definitiva, que el equipo cumple con los parámetros de diseño esperados, previniendo que el activo arrastre defectos de mortalidad infantil desde su primer día de operación.
Del lado operativo, el OPEX abarca los costos diarios de mantener la planta en funcionamiento. Desde la gestión de la confiabilidad se busca transformar el mantenimiento reactivo en tareas planificadas que consuman menos recursos, reduciendo además el retrabajo, entendido como el trabajo correctivo repetido sobre equipos que fallaron prematuramente tras una intervención previa.
Cambios en el contexto operacional que afectan la confiabilidad
La condición de los activos no es estática en el tiempo, pues todos sufren un desgaste o deterioro de alguna u otra forma, y cualquier modificación en el entorno operativo puede alterar su comportamiento de falla.
Cuando el área comercial decide aumentar la producción sin involucrar previamente a mantenimiento, el equipo técnico queda sin posibilidad de advertir restricciones reales, como el backlog acumulado o limitaciones de capacidad. De forma similar, los cambios en la composición de las materias primas, las modificaciones de presupuesto o la rotación del personal técnico afectan directamente la condición de los activos, aunque sus efectos no siempre sean visibles de inmediato.
Mantener informado al área de confiabilidad sobre estos cambios, antes de que ocurran y no después de evidenciar el daño, es parte de la responsabilidad técnica que este pilar exige dentro de la organización.
Conclusión
El tercer pilar del Body of Knowledge reúne el conjunto de métodos, técnicas y datos que permiten a una organización conocer el estado real de sus activos y decidir, con fundamento, qué estrategia de mantenimiento aplicar a cada uno. Desde establecer una expectativa de desempeño antes de elegir cualquier metodología, hasta seleccionar la distribución estadística que mejor representa el comportamiento de un modo de falla específico, cada paso de este pilar responde a la misma lógica: medir antes de actuar y actuar con un propósito claramente definido frente al negocio.
Su influencia se extiende desde el diseño del proyecto, donde se siembran las decisiones que determinarán el costo total de propiedad, hasta la operación diaria, donde el seguimiento constante de los indicadores de confiabilidad permite ajustar la estrategia a medida que cambian las condiciones de producción, presupuesto o personal. Esa visión completa del ciclo de vida del activo es lo que convierte a este pilar en el puente entre el conocimiento técnico y el resultado financiero que la organización espera de su infraestructura.
Dinos qué te ha parecido el artículo
¡Gracias por tu valoración!
La Confiabilidad del Equipo como el Tercer Pilar de la CMRP
Técnico - Articulo 15 de junio de 2026
Autor: Román VenturaIngeniero de Mantenimiento Industrial, Especialista Jr. en Ingeniería de Confiabilidad y Gestión de Activos.
La Confiabilidad del Equipo es el tercer pilar del Cuerpo del Conocimiento (Body of Knowledge - BoK) de la SMRP, encargado de evaluar las capacidades actuales de los activos en los procesos industriales para seleccionar las prácticas de mantenimiento que mejor responden a su realidad operativa. En términos históricos, esta área se ha conocido como una parte de la aplicación de la ingeniería de mantenimiento, antes de que la confiabilidad ganara una dimensión más amplia dentro del sector industrial, y, su función específica se concentra en diseñar, medir y analizar datos para que los equipos, junto con las personas que los operan, alcancen las capacidades para las que fueron concebidos, de la manera más segura y al mejor costo posible.
El Tercer Pilar de la CMRP; la Confiabilidad del Equipo
Este pilar es relevantepara todo profesional certificado dentro de este marco, porque conecta las partes físicas directamente con los objetivos del negocioestablecidos en el primer dominio del BoK.
Debemos tener en consideración que la confiabilidadno se mide únicamente con indicadores de mantenimiento o de equipo; una clave parte clave es que como los equipos no siempre se evalúan de manera exclusiva desde los parámetros de la física del activo, pues tienen un entorno operacional,lo que hace que esta se construya con los datos de operación, producción, calidad, costo, riesgo y seguridad, todos orientados a fortalecer el negocio completo.
Buscar estos datos para construir información confiable es lo que permite tomar decisiones más acertadas y robustas sobre los activos físicos.
El cómo se logra ejecutar esta gestión parte desde un diseño, siendo entendido en el sentido más amplio del término; el diseñar implica que capturaremos la realidad de esos contextos a los que van dirigidos estos activos a través de mediciones y evaluaciones constantes para llevar un control y desempeño optimo de las operaciones.
Ahora, desde estos términos los equipos, y por detrás de esa clase de realidaden la que los diferentes contextos no se abordan con herramientas exclusivas de una sola especialidad técnica. Sino que en cambio, se toman en cuenta todos los conocimientos de la mecánica, la dinámica de esfuerzos, las temperaturas y los fundamentos de las distintas ciencias aplicadas explican parte de los comportamientos de los equipos, pero todo ese saber técnico debe estar siempre acompañado de un criterio de rentabilidad.
Una organización no puede orientarse únicamente por lo técnico, ya que, sin sostener la relación con los costos, puede terminar dejando de ser efectiva en términos de negocio. Por eso es importante saber conectar y comunicar todo el contenido del área técnica con el negocio.
El siguiente comentario expone el desarrollo desde elpara qué de este pilar, en donde se puede entender mejor si se observa su posición dentro del ciclo de vida completo del activo.
La confiabilidad de los equipos no se construye en el taller una vez que ocurre una falla; se concibe desde la fase de diseño del proyecto, incluso antes de la existencia de la infraestructura física, asegurando que el CAPEX invertido garantice la máxima disponibilidad operativa. Para ello se utilizan metodologías y técnicas especificas tales como; los análisis como los predictivos de ciclo de vida (LCC), los modelados RAMS y los análisis de modos y efectos de fallas operacionales (FMEA) desde la ingeniería básica. De tal modo que, ésta se preserva mediante el control riguroso de las variables de proceso y el cumplimiento de los estándares operativos, ejecutando técnicas de monitoreo basado en condición (CBM) y planes de mantenimiento de precisión dirigidos a mitigar el desgaste inherente. Asimismo, la confiabilidad se recupera mediante la implementación de actividades estratégicasde mantenimiento proactivo y una gestión eficaz de órdenes de trabajo (CMMS) que minimizan el impacto financiero del OPEX, y se logra optimizar a través de modificaciones y rediseños basados en un análisis técnico riguroso buscando eliminar a los malos actores del sistema para sostener de manera continua la rentabilidad del negocio a lo largo de todo su ciclo de vida útil.
Toda la organización, desde quienes diseñan los proyectos hasta quienes construyen, operan y mantienen, debe compartir ese mismo fundamento de confiabilidad desde la conceptualización inicial.
Esa es la razón por la que este pilar se conecta tan estrechamente con las decisiones de inversión de capital (CAPEX) y los gastos operativos diarios (OPEX), porque ambos dependen de cuán bien se haya diseñado y medido la confiabilidad del activo desde el origen.
Objetivo del Tercer Pilar como la Confiabilidad del Equipo
Establecer expectativas antes de aplicar metodologías
Uno de los errores más frecuentes y comprobados en la industria es querer comenzar aplicando una técnica o metodología sin haber definido primero qué se espera lograr.
La sola aplicación de un análisis de modos de falla, o de cualquier otra herramienta, no garantiza un resultado siantes no existe una declaración clara de expectativa. Esa expectativa debe descender en cascada desde los objetivos de negocio definidos en el primer pilar hasta llegar al nivel técnico, porque sin un objetivo concreto resulta difícil saber hacia dónde dirigir el esfuerzo.
Es habitual que las organizaciones sin un nivel moderado de madurez en su gestión del mantenimiento continúen hablando sobre cómo mejorar la confiabilidad, pero sin poder señalar su nivel actual en ningún indicador concreto.
Por ello, el poder definir el desempeño esperado, comparar la condición actual frente a esa referencia y reconocer la brecha resultante es un gran avance que se obtiene como beneficio de esa madurez que nos permite dimensionar el esfuerzo real que se necesita.
Esas brechas son precisamente las que nos orientan qué metodología aplicar y con qué profundidad, evitando el error de copiar prácticas exitosas en otras organizaciones sin antes evaluar si responden a la necesidad propia de la planta. Entonces, al aplicar una técnica reconocida podemos deducir fácilmente que sin esta evaluación previa nos entregaría resultados marginales, mientras que otra técnica mejor seleccionada podría generar un margen de rentabilidad superior para el mismo esfuerzo.
Estas capacidades de alinear el criterio técnico con el resultado financiero son, en buena medida, lo que diferencia a las organizaciones líderes de sus competidores dentro de un mismo sector.
El mantenimiento y la mantenibilidad como un par de conceptos centrales
La mantenibilidad se define como la capacidad de conservar o restaurar un activo a un estado de rendimiento requerido bajo condiciones dadas de uso. Involucra factores externos al diseño original, como la accesibilidad de los componentes, el espacio disponible para maniobras y la disponibilidad de recursos y procedimientos técnicos para realizar la intervención.
El mantenimiento, por su parte, es la combinación de todas las acciones técnicas y administrativas, incluidas las de supervisión, destinadas a conservar un activo en estado funcional.
Mientras la mantenibilidad describe una característica del diseño y del entorno, el mantenimiento es la ejecución de la estrategia que preserva la función a lo largo del tiempo.
La normativa ISO 14224, considera que las actividades o trabajos del mantenimiento se clasifican con un enfoque de manera proactiva o reactiva como preventivos o correctivos, tomando en cuenta los derivados de cada uno, según la siguiente imagen:
Categorías del Mantenimiento según ISO 14224
De manera general;
Los mantenimientos preventivos se ejecuta antes de la pérdida de función, incluyendo tareas basadas en condición y tareas predeterminadas por tiempo o uso.
El correctivo se realiza después de detectar la avería, y puede ser programado, cuando se difiere es de forma estructurada para una fecha conveniente, el no programado, cuando la gravedad exige una intervención inmediata.
Las mejores prácticas de la SMRP plantean una distribución ideal de referencia donde el mantenimiento preventivo y el basado en condición representen, cada uno, alrededor del quince por ciento del esfuerzo total, mientras que el correctivo planificado debería alcanzar cerca del cincuenta y cinco por ciento, dejando un margen reducido para lo verdaderamente no programado. (Esto es, lo propuesto como un ideal, pero la realidad debe ir anclada a los riesgos que pueda tolerar la organización no es lo mismo una central nuclear donde esta muy claro que el riesgo por seguridad es altísimo, a una planta de alimentos u otros procesos en donde la criticidad de los equipos no sea mayoritaria)
Para la trazabilidad de todas ellas y ajustar esas estrategias de mantenimiento, es necesario encapsular aquellas tareas con una clara distinción entre los diferentes tipos de falla:
Según su naturaleza y comportamiento, pueden ser:
Por su alcance:
Fallas parciales: Afectan la capacidad del equipo, por lo que la función requerida se sigue cumpliendo, pero de manera limitada o por debajo de su estándar.
Fallas totales: Impiden por completo el funcionamiento del equipo y la ejecución de su función.
Según su rapidez de propagación:
Fallas progresivas (o por degradación): El deterioro del equipo es observable en el tiempo y se desarrolla gradualmente (debido al desgaste o degradación del equipo) y permiten la detección a través del monitoreo.
Fallas súbitas (o repentinas): Ocurren en lapsos muy cortos, sin síntomas previos que adviertan el progreso de la falla.
Según su severidad o impacto (Enfoque de Normas como ISO 14224, MIL-STD y el Manual de Oreda):
Falla crítica: Causa la pérdida inmediata de la capacidad de realizar la función y requiere una acción correctiva urgente.
Falla de degradación (o no crítica): Falla gradual o parcial que no cesa la función fundamental de inmediato, pero la compromete, pudiendo convertirse en crítica si no se atiende.
Falla incipiente: Una imperfección en el estado del ítem que, de no ser corregida, resultará eventualmente en una falla degradada o crítica.
Falla desconocida: La severidad de la falla no pudo ser deducida o registrada.
Según su evidencia o detectabilidad (Enfoque RCM):
Fallas evidentes: Sus efectos se vuelven notorios para el personal de operación y mantenimiento bajo circunstancias normales (aumento de temperatura, ruido, humo, etc.).
Fallas ocultas (o latentes): No son evidentes de inmediato bajo circunstancias normales. Generalmente están asociadas a dispositivos de protección o respaldo y se manifiestan ante una demanda (falla bajo demanda).
Por su riesgo y el impacto en el negocio
Fallas Crónicas (o Repetitivas): Se caracterizan por tener una alta frecuencia y una baja/mediana consecuencia individual. Suelen ser vistas como desviaciones aceptadas o normales (como cambios frecuentes de sellos, fugas menores, atascamientos), pero el impacto acumulado anual de estas fallas representa pérdidas económicas y de productividad enormes.
Fallas Esporádicas (o Eventuales / Catastróficas): Se caracterizan por tener una baja frecuencia, pero una consecuencia o impacto muy alto. Son eventos inaceptables como explosiones, incendios, fatalidades, o paradas totales y prolongadas de una planta
Una falla crítica puede causar el cese inmediato de la capacidad del equipo para cumplir su función requerida, resultando en una reparación no programada con impacto directo en la rentabilidad y, en algunos casos, en la seguridad. Las fallas no críticas representan degradaciones que permiten continuar operando por un tiempo limitado mientras se programa la intervención correspondiente.
Indicadores básicos y estadísticos de mantenimiento y confiabilidad
En la literatura de confiabilidad, existen diferentes fuentes y cantidades propuestas de indicadores. Aunque la SMRP, en su guía de Best Practices, propone alrededor de 70, dentro de los más básicos tenemos a los de tiempos medios, que nos ayudan a cuantificar el desempeño de los activos y a diferenciar entre componentes reparables y no reparables.
El MTTF (Mean Time to Failure), o tiempo promedio hasta la falla (TPPF), se aplica a artículos que no pueden repararse o no deben repararse, como bombillas, rodamientos sellados o ciertos componentes de un solo uso, y representa la esperanza de vida del elemento hasta su falla definitiva.
El tiempo promedio hasta la falla TPPF o MTTF
Por el contrario, el MTBF (Mean Time Between Failures), es el tiempo promedio entre fallas (TPEF), y se utiliza en activos reparables (como compresores o bombas), midiendo la longitud promedio del tiempo operativo entre averías sucesivas.
Tiempo Promedio Entre Fallas TPEF o MTBF
Unincremento sostenido en la tendencia del MTBF, es indicio directo que confirma que las estrategias de mantenimiento están mejorando la salud del activo y extendiendo su vida operativa
Complementando a estos, se debe integrar el MTTR (Mean Time to Repair or Replace), como el tiempo promedio para reparar (TPPR), el cual mide la mantenibilidad o la eficiencia con la que se restaura un activo tras una pérdida de función
Desde el punto de vista matemático y probabilístico, la confiabilidad es representada como R(t), y se define técnicamente, más allá de una capacidad, como la probabilidad de que un equipo cumpla con la función para el que fue diseñado sin presentar fallas durante un intervalo de tiempo específico, operando bajo determinadas condiciones. Mientras que su complemento, se considera como la probabilidad de falla F (t), la cualexpresa la probabilidad de que sí ocurra una avería en ese mismo intervalo.
Los Indicadores estadisticos basicos
La forma de calcular estos últimos dos indicadores varía según el comportamiento del sistema, equipo o modo de falla que se esté analizando y según la distribución estadística que mejor se ajuste a los datos disponibles, ya sean variables continuas o discretas.
No existe una única expresión matemática universal el modelo correcto depende del patrón de falla identificado, del volumen y la calidad de los datos recolectados, y de las pruebas de bondad de ajuste que se apliquen para validar qué distribución representa mejor el comportamiento real del activo.
Métodos y técnicas para el análisis de confiabilidad
Dentro de este pilar conviven varios métodos de análisis, cada uno orientado a resolver una pregunta distinta sobre el comportamiento del activo.
El Mantenimiento Centrado en la Confiabilidad (Reliability Centered Maintenance - RCM)
El Mantenimiento Centrado en la Confiabilidad (RCM), está basado en el estándar SAE JA1011 y SAE 1012, como un proceso metodológico para determinar los requerimientos de mantenimiento de un activo en su contexto operacional.
El Mantenimiento Centrado en la Confiabilidad
Su lógica responde siete preguntas que inician con la identificación de las funciones y los estándares de desempeño esperados, continúan con las fallas funcionales y los modos de falla, documentan los efectos de cada evento y evalúan su importancia para la seguridad, el ambiente y la economía. El proceso culmina con la selección de tareas proactivas técnicamente factibles, o con la definición de una acción por defecto cuando no existe una tarea adecuada.
La implementación de cualquier RCM exige un cambio de paradigma para el cual el mantenimiento no preserva el activo físico en sí,preserva sus funciones,y su objetivo no es únicamente eliminar fallas sino seleccionar tareas de mantenimiento para prevenir fallas funcionales, de manera que sean técnicamente factibles y, sobre todo, que valga la pena realizar desde el punto de vista económico o de seguridad.
A través de un algoritmo como una hoja de decisión se evalúa primero si la pérdida de función es evidente para el personal operativo en circunstancias normales. Si la falla es oculta, como suele suceder en sistemas de protección, se priorizan tareas de búsqueda de fallas para evitar incidentes múltiples con consecuencias catastróficas.
Existen cuatro categorías de consecuencias que el RCM busca gestionar:
Fallas Ocultas: Son las más peligrosas porque no son evidentes para el operador. El objetivo aquí es realizar tareas de búsqueda de fallas para reducir la probabilidad de una falla múltiple catastrófica.
Seguridad y Medio Ambiente: En estos casos, la falla es intolerable. Si no existe una tarea de mantenimiento que prevenga la falla, el rediseño es obligatorio.
Operacionales: Afectan la producción y la capacidad del negocio. Aquí se evalúa si el costo del mantenimiento es menor que el costo de la pérdida de producción.
No Operacionales: Solo implican el costo de la reparación. En estos casos, a menudo es más rentable dejar que el equipo falle (Run-to-Failure)
Cursos recomendados
Diferencias entre RCM y PMO
LaOptimización del Mantenimiento Preventivo (PMO) se define técnicamente como un proceso analítico, análogo al RCM, diseñado para desarrollar tareas y frecuencias de mantenimiento que mitiguen modos de falla probables, pero utilizando los planes preventivos vigentes y el historial del CMMS como punto de partida. Mientras que el RCM es un método riguroso que inicia desde una "hoja en blanco" recolectando funciones y efectos bajo el estándar SAE JA1011, el PMO realiza un análisis canalizado para ajustar planes ya en marcha y eliminar actividades que no agregan valor o que representan un sobre mantenimiento.
RCM vs PMO
Ambas metodologías comparten el objetivo de producir un plan óptimo orientado al negocio, utilizan el mismo árbol lógico de decisión y se fundamentan en las consecuencias de las fallas para la toma de decisiones técnicas. Lo que debemos comprender es que el RCM resulta preferible para equipos nuevos o de tecnología poco conocida para asegurar un diseño de mantenimiento robusto desde el origen; en cambio, el PMO es más eficiente cuando ya existe experiencia acumulada sobre el activo y se busca racionalizar lo que ya se ejecuta para mejorar la rentabilidad del OPEX.
Análisis de causa raíz y el registro de fallas
El Análisis de Causa Raiz (RCA)
El Análisis de Causa Raíz (RCA), es de gran utilidad para el análisis de fallas repetitivas o catastróficas, su función es identificar y ayudar a encontrar el origen de las averías para tomar las lecciones aprendidas y eliminar su recurrencia, recorriendo una serie de pasos que van desde la observación e identificación del problema hasta la verificación de la efectividad de la solución implementada y su extensión a activos similares.
Según la normativa BS/EN 62740, utiliza a diferentes de modelos del pensamiento, métodos y herramientas como el diagrama de Ishikawa o los cinco porqués y muchas otras que apoyan este recorrido. Para que el aprendizaje técnico se institucionalice, el RCA debe integrarse con un sistema FRACAS (Failure Recording and Corrective Action System), que asegura que cada modo de falla se analice, que se asignen los códigos correctos en el CMMS y que el historial resultante ajuste la estrategia de mantenimiento de forma continua.
Análisis RAM
El análisis RAM integra las tres dimensiones del pilar: Confiabilidad (Reliability), Disponibilidad (Availability) y Mantenibilidad (Maintainability). En entornos industriales de alta criticidad, este enfoque suele expandirse al concepto de RAMS, incorporando la Seguridad (Safety) como una variable no negociable para evaluar integralmente el riesgo de incidentes ambientales o lesiones derivados de la pérdida de función.
¿Qué es el Análisis RAM? Curso Predyc
Utiliza modelos de simulación, fundamentados en Diagramas de Bloques de Confiabilidad (DBC), para predecir el comportamiento de sistemas complejos, considerando la interdependencia entre equipos y las configuraciones de respaldo, ya sean en serie, paralelo o redundancias tipo "k de n". Mediante la aplicaciones como las de Método de Montecarlo, el análisis permite realizar miles de iteraciones estadísticas para cuantificar la incertidumbre y proyectar el desempeño esperado de la instalación frente a diversos escenarios de estrés operativo.
El Analisis RAM
La disponibilidad de una planta no depende solo de equipos confiables que logren extender el tiempo promedio entre fallas (MTBF), sino también de procesos de reparación ágiles y de una logística de repuestos eficiente que minimice el tiempo medio de restauración (MTTR). En este sentido, el análisis permite distinguir entre la disponibilidad inherente, limitada a las paradas por fallas, y la disponibilidad operacional, que refleja la eficiencia real del mantenimiento preventivo y los tiempos de espera logísticos dentro del ciclo de vida del activo.
El análisis RAM permite identificar cuellos de botella y jerarquizar a los "malos actores" que restringen la producción, orientando el esfuerzo técnico hacia los activos con mayor impacto en el negocio. Al cuantificar el lucro cesante y las pérdidas por indisponibilidad, el proceso facilita la creación de casos de negocio para justificar financieramente decisiones de inversión o rediseño, basándose en indicadores de rentabilidad como el Retorno de Inversión (ROI) y el Valor Presente Neto (VPN) de las mejoras propuestas.
La Inspección Basada en Riesgo (IBR; Risk Based Inspection RBI)
La Inspección Basada en Riesgo (IBR) integra las dimensiones críticas de Integridad Mecánica, Probabilidad de Falla y Consecuencia de Pérdida de Contención.
Utilizando al análisis con modelos de evaluación cualitativos, semi-cuantitativos y cuantitativos para predecir el comportamiento de activos estáticos como recipientes a presión, tanques y tuberías considerando sus mecanismos específicos de deterioro, principalmente la corrosión.
La integridad estructural de las plantas no depende solo de la frecuencia de las inspecciones, sino de la efectividad técnica de las mismas y de una gestión de datos históricos y operativos coherente.
Inspección Basada en Riesgo (RBI)
La metodología del IBR, nos permite identificar los puntos críticos donde el riesgo de falla supera los límites permisibles y simular distintos planes de inspección para mitigar posibles impactos en la seguridad, el ambiente y la producción. Al priorizar el esfuerzo en los activos con mayor potencial de daño, el proceso IBR facilita la toma de decisiones para extender los intervalos de servicio de forma segura, garantizando el cumplimiento de las regulaciones gubernamentales y optimizando la inversión en el mantenimiento de la infraestructura estática.
Otras herramientas de análisis y gestión del riesgo
El Análisis Bow-Tie (Corbatín): se consolida como una de las metodologías más potentes para identificar brechas de desempeño, ya que permite visualizar de forma integral tanto la prevención como la mitigación de eventos indeseados. En el centro del diagrama se ubica el Evento de Riesgo o evento crítico, que representa el punto donde se pierde el control de una amenaza.
Análisis de Corbatín o Bow-Tie
El lado izquierdo (Proactivo): Se documentan las causas potenciales o amenazas que podrían desencadenar el evento. Entre estas y el evento central se colocan las barreras de prevención (o controles), cuyo objetivo es evitar que la amenaza se materialice.
El lado derecho (Reactivo): Se detallan las consecuencias finales que resultarían si el evento ocurre. Aquí se sitúan las barreras de mitigación o de recuperación, diseñadas para reducir el impacto y la severidad una vez que el control se ha perdido.
Lo que debemos comprender es que estas barreras no son solo físicas; según las mejores prácticas, pueden ser naturales, de acción humana o administrativas. El análisis Bow-Tie permite evaluar la efectividad de cada una, identificando por qué fallaron o qué controles adicionales podrían instalarse para elevar la seguridad del sistema.
Niveles de Integridad de Seguridad (SIL): Fiabilidad en la Protección
Para procesos donde un fallo puede tener consecuencias catastróficas, se emplean los Niveles de Integridad de Seguridad (SIL) como parte de la modelización RAMS (Confiabilidad, Disponibilidad, Mantenibilidad y Seguridad). El SIL es una medida de la fiabilidad requerida para una función instrumentada de seguridad que debe actuar ante una demanda específica del proceso.
Confiabilidad Probabilística: El SIL cuantifica la probabilidad de que un sistema de protección (como un sistema de parada de emergencia o ESD) falle al ser requerido. Un nivel SIL más alto indica un mayor rigor en el diseño y una menor probabilidad de fallo bajo demanda.
Gestión de Fallas Ocultas: Esta herramienta es vital para gestionar componentes de respaldo que pueden presentar fallas ocultas, las cuales no son evidentes para el operador durante la marcha normal del equipo pero que comprometen la protección de la planta en una emergencia.
Integración con Estándares Internacionales
Ambas técnicas se enmarcan en la norma ISO 31000 y su guía técnica que tambien contiene el directorio general de las otras herramientas aplicacables para el análisis del riesgo IEC/ISO 31010, que definen el riesgo como el efecto de la incertidumbre sobre los objetivos.
Técnicas de soporte para la preparación de los datos
Antes de aplicar cualquiera de los métodos anteriores, es necesario filtrar y priorizar la información disponible. Para ello, una de las utilizadas es el diagrama de Pareto como una técnica de referencia para identificar a los llamados malos actores; entre estos la regla general en el uso de la herramienta indica que alrededor del ochenta por ciento de las fallas suele originarse en el veinte por ciento de los equipos, por lo que las técnicas más exigentes en recursos, como el RCFA o el análisis de Weibull, conviene concentrarlas en ese grupo prioritario. Otra también es el análisis de restricciones, orientado a identificar cuellos de botella, para complementar este filtro al señalar qué equipo o proceso limita realmente la capacidad de producción total, enfocando allí el esfuerzo de confiabilidad.
Modelado estadístico del comportamiento de falla
Una vez identificado un modo de falla y recolectados los datos de tiempo hasta el evento, el siguiente paso consiste en caracterizar su comportamiento.
El Ajuste de Datos a la Caracterización de Componentes, Equipos y Sistemas
Esa caracterización depende de si el modo de falla está relacionado con la edad del componente o si se comporta de manera aleatoria, vínculo que conecta directamente con los seis patrones de falla descritos en la metodología del RCM. Según la naturaleza de las variables disponibles, continuas o discretas, y según el tipo de proceso que origina la falla, se puede optar por un modelo determinista o por un enfoque estocástico que incorpore la incertidumbre propia del fenómeno.
Patrones de Falla
Existen distintas distribuciones estadísticas, cada una con sus propios parámetros de entrada, entre las que se incluyen la exponencial, la normal, la lognormal, la gamma y la de Weibull, además de otras menos frecuentes según el contexto del análisis.
Clasificación de las Distribuciones Continuas y Discretas para modelar los tiempos de falla
Determinar cuál se ajusta mejor a los datos disponibles requiere aplicar pruebas de bondad de ajuste que comparen la distribución empírica observada con cada modelo candidato, validando estadísticamente cuál representa con mayor fidelidad el comportamiento real del activo.
Dentro de lo más destacado en el modelado estadístico, se encuentra el análisis de Weibull que suele utilizarse como referencia inicial para interpretar el patrón de falla mediante su parámetro de forma, que permite distinguir entre mortalidad infantil, comportamiento aleatorio o degradación por desgaste, dependiendo de su valor. En una de sus versiones, el modelo de crecimiento Crow-AMSAA se aplica de una forma un poco distinta; en lugar de modelar un único modo de falla, consolida todos los eventos de un sistema reparable para evaluar si la confiabilidad global está mejorando o deteriorándose a lo largo del tiempo, sirviendo como indicador de seguimiento sobre la efectividad de los planes de mantenimiento implementados. Cuando no se cuenta con suficiente historial propio de la planta, se recurre a fuentes genéricas de confiabilidad reconocidas en la industria, ajustando esos valores referenciales al contexto operativo específico del activo analizado.
La confiabilidad desde el diseño hasta la desincorporación
Las decisiones tomadas durante la fase de inversión de capital (CAPEX) determinan gran parte del costo total de propiedad que el activo cargará durante toda su vida operativa. Diseñar para la mantenibilidad implica considerar desde el inicio el espacio para maniobras, el acceso a puntos de lubricación y la estandarización de componentes, reduciendo así el inventario de repuestos necesario y los tiempos de intervención futuros.
El Costo del Ciclo de Vida (LCC) evalúa todos los gastos desde la concepción hasta la desincorporación final del equipo, y suele revelar que una adquisición de menor costo inicial puede resultar más onerosa en el largo plazo si compromete la confiabilidad operativa.
Para que un proyecto de inversión sea aprobado, debe superar la tasa de rentabilidad mínima exigida por la organización, conocida como Hurdle Rate, que representa el retorno esperado según el riesgo y el costo de capital de la institución. Por otra parte, las pruebas de aceptación y el comisionamiento basado en criterios de confiabilidad verifican, antes de la puesta en marcha definitiva, que el equipo cumple con los parámetros de diseño esperados, previniendo que el activo arrastre defectos de mortalidad infantil desde su primer día de operación.
Del lado operativo, el OPEX abarca los costos diarios de mantener la planta en funcionamiento. Desde la gestión de la confiabilidad se busca transformar el mantenimiento reactivo en tareas planificadas que consuman menos recursos, reduciendo además el retrabajo, entendido como el trabajo correctivo repetido sobre equipos que fallaron prematuramente tras una intervención previa.
Cambios en el contexto operacional que afectan la confiabilidad
La condición de los activos no es estática en el tiempo, pues todos sufren un desgaste o deterioro de alguna u otra forma, y cualquier modificación en el entorno operativo puede alterar su comportamiento de falla.
Cuando el área comercial decide aumentar la producción sin involucrar previamente a mantenimiento, el equipo técnico queda sin posibilidad de advertir restricciones reales, como el backlog acumulado o limitaciones de capacidad. De forma similar, los cambios en la composición de las materias primas, las modificaciones de presupuesto o la rotación del personal técnico afectan directamente la condición de los activos, aunque sus efectos no siempre sean visibles de inmediato.
Mantener informado al área de confiabilidad sobre estos cambios, antes de que ocurran y no después de evidenciar el daño, es parte de la responsabilidad técnica que este pilar exige dentro de la organización.
Conclusión
El tercer pilar del Body of Knowledge reúne el conjunto de métodos, técnicas y datos que permiten a una organización conocer el estado real de sus activos y decidir, con fundamento, qué estrategia de mantenimiento aplicar a cada uno. Desde establecer una expectativa de desempeño antes de elegir cualquier metodología, hasta seleccionar la distribución estadística que mejor representa el comportamiento de un modo de falla específico, cada paso de este pilar responde a la misma lógica: medir antes de actuar y actuar con un propósito claramente definido frente al negocio.
Su influencia se extiende desde el diseño del proyecto, donde se siembran las decisiones que determinarán el costo total de propiedad, hasta la operación diaria, donde el seguimiento constante de los indicadores de confiabilidad permite ajustar la estrategia a medida que cambian las condiciones de producción, presupuesto o personal. Esa visión completa del ciclo de vida del activo es lo que convierte a este pilar en el puente entre el conocimiento técnico y el resultado financiero que la organización espera de su infraestructura.