Logo Predyc
Predyc

Inicios del RCM con el Método Riguroso de F. Stanley Nowlan y Howard F. Heap

 Técnico - Articulo 27 de abril de 2026
Román Ventura
Autor: Román VenturaIngeniero de Mantenimiento Industrial, Especialista Jr. en Ingeniería de Confiabilidad y Gestión de Activos.
EmailLinkedIn

El Mantenimiento Centrado en Confiabilidad (RCM), en su concepción actual, tiene un origen claramente definido por el informe técnico publicado en 1978 bajo el título "Reliability-Centered Maintenance" por F. Stanley Nowlan y Howard F. Heap, ingenieros de United Airlines, financiado por el Departamento de Defensa de los Estados Unidos.

El Mantenimiento Centrado en Confiabilidad (RCM) por Nowlan y Heap
El Mantenimiento Centrado en Confiabilidad (RCM) por Nowlan y Heap

Nació como respuesta a la alta tasa de fallos que afectaba al sector aeronáutico estadounidense en ese momento. Después de una crisis en la aviación civil, se empezó a poner en duda la idea de que cada componente tenía una vida útil fija y que incrementar el mantenimiento preventivo disminuiría los accidentes, ya que los datos no lo confirmaban.

Los Accidentes Aéreos como el Motivo de Origen del RCM
Los Accidentes Aéreos como el Motivo de Origen del RCM

Por eso, lo que Nowlan y Heap demostraron cambió para siempre la forma en que la industria entiende el mantenimiento.

Su trabajo tuvo un impacto significativo tanto en el sector aeronáutico como en diversas industrias que adoptaron el método, el cual conserva su relevancia hasta la actualidad gracias a la constante evolución de sus investigaciones. A partir de este informe inicial, fundamentado en el modelado del comportamiento de los componentes, lograron desarrollar una política de gestión de fallas óptima que ha incrementado la eficiencia y la fiabilidad de innumerables sistemas, marcando un antes y un después en la forma en la que se abordan los desafíos técnicos y operativos.

⚠️¿Cómo lo lograron? Identificaron que la mayoría de los componentes en sistemas complejos no siguen el patrón clásico de desgaste lineal que culmina en una región de envejecimiento predecible, ya que solo una fracción menor exhibe ese comportamiento. Observaron que el resto de los equipos falla de maneras no relacionadas directamente con la edad operativa, lo cual invalida la aplicación masiva de reemplazos o revisiones cíclicas como estrategia de protección universal.

Con ese hallazgo como base, propusieron un método sistemático para analizar las funciones de cada activo, identificar sus modos de falla y seleccionar las tareas de mantenimiento que realmente responden a la física del deterioro de cada componente en su contexto operativo específico.

Para entenderlo mejor, debemos hablar de la confiabilidad en este marco desde dos dimensiones complementarias.

  • Como una capacidad, para representar cuánto puede rendir un activo dentro de un rango de parámetros aceptables; esa capacidad existe desde el diseño, pero disminuye con el tiempo si no se toman las acciones adecuadas.

  • Como probabilidad, expresa la posibilidad de que el activo continúe funcionando según esos parámetros durante un período determinado.

Ambas dimensiones están ligadas al tiempo, lo que hace de la confiabilidad una variable compuesta y dinámica, cuyo inverso es precisamente la probabilidad de falla.

El objetivo fundamental de este método, en última instancia, es garantizar que los esfuerzos del mantenimiento se concentren exclusivamente donde el riesgo de falla es real, funcionalmente demostrable y crítico para la operación. Al articular el proceso mediante un análisis lógico para la toma de decisiones accionables, se establece un control técnico preciso sobre los activos (como uno de los objetivos de la confiabilidad); esto nos permite optimizar la seguridad del personal y maximizar la continuidad operativa, minimizando simultáneamente los costos asociados a lo largo de todo el ciclo de vida de los sistemas, equipos y componentes que son objeto de este estudio.

Los seis patrones de comportamiento de falla

Una de las aportaciones más relevantes del trabajo de Nowlan y Heap fue identificar ese comportamiento del que hablábamos de los componentes a través del rastro de sus patrones estadísticos que muestran cómo los componentes de sistemas complejos presentan su deterioro. Para ello, se describieron seis comportamientos básicos que combinan distintas formas de evolución de la probabilidad condicional de falla con la edad de operación.

Descubrimiento de Nowlan y Heap
Descubrimiento de Nowlan y Heap

Los patrones A, B y C, exhiben una zona de incremento en la incidencia de fallas asociadas a la edad o el uso, evidenciando aproximadamente de un 11%.

  • A, es conocido como la curva de la bañera, combina una fase inicial de mortalidad infantil con una zona estable y una región de desgaste al final.

  • B, muestra una probabilidad de falla que sube de forma gradual con la edad hasta llegar a una región pronunciada de desgaste.

  • C, presenta un aumento progresivo continuo sin una zona de desgaste claramente definida, típico de ciertos equipos rotativos de la aviación. Para estos tres patrones, los datos de vida útil y desgaste tienen relevancia directa y pueden justificar tareas de sustitución o reacondicionamiento cíclico si el análisis estadístico lo confirma.

Los patrones D, E y F representan la mayoría con el 89% de los modos de falla identificados en el estudio original, y todos ellos se caracterizan por no presentar una relación predecible entre edad y probabilidad de falla.

  • D, muestra probabilidad baja cuando el componente es nuevo, seguida de un incremento rápido hasta una tasa constante.

  • E, es básicamente aleatorio a lo largo de toda la vida del componente.

  • F, el más documentado en equipos electrónicos y sistemas complejos, tiene una mortalidad infantil marcada que luego desemboca en una tasa constante o muy lentamente creciente.

Para estos tres patrones, las tareas de reemplazo programadas basadas en tiempo no solo no ayudan, sino que pueden introducir más fallas que las que evitan.

⚠️Conocer en cuál de estos comportamientos se enmarca un modo de falla es el punto de partida para cualquier proceso de selección de tareas, tanto en el enfoque basado en el diagrama lógico de decisión como en el riguroso. (La diferencia entre ambos radica en la profundidad con la que se tratan las consecuencias, no en si se consideran o no estos patrones).

Hablemos del ¿por qué existe un enfoque riguroso?

Hoy en día, sabemos que el proceso estándar del RCM utiliza el diagrama lógico de decisiones para responder de forma sistemática a las preguntas cinco, seis y siete de la metodología, que corresponden a la identificación de consecuencias, la factibilidad de tareas y la selección de la política de gestión. Esa parte del método en versiones del RCM (básicas), contiene un enfoque cualitativo en su naturaleza es lo que lo hace más ágil, rápido y económico de implementar, aunque sea un gran esfuerzo de igual manera para cualquier organización en cuestión de recursos. Para la mayoría de los activos en la mayoría de los contextos industriales, esa aproximación es suficiente y técnicamente válida.

Sin embargo, la norma SAE JA1012, en su sección 15.2, reconoce que existe una vertiente más exhaustiva: el enfoque riguroso. Este aborda el tratamiento de las consecuencias de manera cuantitativa o semi-cuantitativa al introducir formalmente el factor de riesgo en el análisis. No reemplaza el diagrama lógico; representa una profundización en la evaluación de las consecuencias que va mucho más allá de clasificarlas en categorías y preguntarse si hay o no una tarea factible.

El Enfoque riguroso desde la SAEJ1012
El Enfoque riguroso desde la SAEJ1012

El análisis riguroso, por supuesto consume mucho más tiempo y requiere más datos que el cualitativo. Por ese mismo motivo, no se puede aplicar a todo el parque de activos de una planta, sino que se reserva para modos de falla en activos que presenten una alta criticidad, donde las consecuencias de una falla pueden afectar la vida de personas, comprometer el entorno ambiental o generar impactos económicos de magnitud significativa. Tiene también particular relevancia en contextos donde los datos históricos de falla son suficientes para sustentar una modelación estadística confiable, es decir, donde los registros del CMMS han sido correctamente estructurados durante un período representativo (Según la opinión de expertos, en donde se presenten más de 14 eventos de falla, sino se consulta por la ayuda de fuentes de datas genéricas como Oreda, IEXEE, u otras especificas)

⚠️Un punto crítico que la propia norma aclara: la SAE JA1011/12 no proporciona una matriz de evaluación de riesgos ni criterios cuantitativos predefinidos.

⚠️Es decir, la evaluación y gestión del riesgo es responsabilidad de cada organización, que debe desarrollar su propia filosofía adaptada a su contexto operativo, sus capacidades y los valores que está dispuesta a proteger.

Cómo se tratan las fallas evidentes en el enfoque riguroso

Cuando un modo de falla es evidente, sus efectos se vuelven perceptibles para el personal operativo en condiciones normales si el evento ocurre de forma independiente.

En el enfoque riguroso, el análisis de estas fallas no se puede limitar a clasificar sus consecuencias en una categoría; se exige cuantificar la probabilidad de que esas consecuencias se materialicen y compararla contra lo que la organización considera tolerable.

  • El proceso comienza estableciendo la probabilidad real de que el modo de falla pueda lesionar o matar a alguien, al igual que infringir una norma o regulación ambiental (Por separado).

Ejemplo: 1 falla catastrófica de un tanque en promedio 1 vez cada 100 años.

Un modo de falla tiene consecuencias de seguridad si existe una probabilidad real de causar daño humano en el contexto operativo del activo. Dicha probabilidad no debe basarse en apreciaciones subjetivas, sino en estimaciones derivadas de datos históricos, modelos estadísticos o juicio de expertos con soporte cuantitativo.

  • A continuación, se establece la probabilidad tolerable, es decir, el umbral o nivel de riesgo que la organización, los operadores y posibles afectados están dispuestos a aceptar. (en términos de seguridad de seguridad y ambiente, igualmente por separado)

Con esas dos probabilidades definidas, se calcula la magnitud de riesgo multiplicando la probabilidad de ocurrencia por la consecuencia.

Probabilidad de ocurrencia * consecuencia = Magnitud de riesgo (es tolerable?)

El resultado responde a la pregunta de si el riesgo real supera el tolerable.

  • Si lo supera, se deben identificar todas las políticas de gestión de fallos que sean capaces de reducir esa probabilidad al umbral aceptable.

  • Si el riesgo se sitúa en el dominio puramente económico, ya sean consecuencias operacionales o no operacionales, el criterio cambia: la tarea solo se justifica si su costo a lo largo de un período razonable es menor que el impacto económico esperado del modo de falla. Eso implica evaluar las pérdidas de producción, los costos de reparación con mano de obra, materiales y administración, y compararlos contra el costo acumulado de la intervención propuesta. La selección final recae en la política de gestión más rentable que aborde de manera efectiva tanto los riesgos de seguridad o ambiente como las consecuencias económicas.

Cuando existen varias opciones técnicamente factibles, el análisis de costo-riesgo-beneficio determina cuál ofrece la mejor relación entre lo que se invierte y lo que se reduce en términos de riesgo real.

El tratamiento de las fallas ocultas y las fallas múltiples asociadas

El enfoque riguroso alcanza su mayor complejidad cuando analiza los modos de falla que no son evidentes durante la operación normal con las fallas ocultas.

Estas fallas suelen afectar con mayor frecuencia a los dispositivos de protección, sistemas de respaldo o funciones de seguridad que no están en operación continua y cuyo estado fallido solo se revela cuando otra falla demanda su actuación.

Por eso, en el contexto del análisis de riesgo, no se evalúa la probabilidad de la falla oculta por sí sola, sino la probabilidad de que ocurra una falla múltiple: la combinación de la falla oculta con la falla del sistema que ese dispositivo debía proteger.

Considerar un incendio en una plataforma offshore como referencia conceptual es útil aquí. No se trabaja simplemente con la probabilidad de que el sistema contraincendios haya fallado, sino con la probabilidad de que el incendio ocurra mientras ese sistema ya se encuentra en estado de falla, sin que nadie lo sepa. Esa combinación es la que genera el escenario intolerable, y es sobre esa probabilidad compuesta donde se construye el análisis de riesgo.

El proceso sigue la misma lógica que para las fallas evidentes, pero referido al evento combinado.

  • Primero se determina la probabilidad real de que una falla múltiple pueda causar lesiones, muertes o infringir normativas ambientales.

  • Luego se define la probabilidad tolerable para ese escenario. Con esos datos, se calcula la magnitud del riesgo y se evalúa si resulta aceptable.

  • Después, se identifican las políticas de gestión que puedan reducir esa probabilidad al nivel tolerable, eligiendo la más rentable y que también atienda de forma efectiva las consecuencias en seguridad, medio ambiente y economía de manera conjunta.

⚠️ Lo que hace diferente el análisis de las fallas ocultas respecto a las evidentes es que las consecuencias económicas a evaluar deben incluir los impactos del modo de falla oculto y los de la falla múltiple asociada. No se puede tratar cada falla de forma separada; el riesgo real emerge de la interacción entre ambas.

La evaluación del riesgo y la política de tolerabilidad

Un resultado numérico de magnitud de riesgo no tiene un valor operativo por sí solo.

Este es un número que dice cuánto pesa un riesgo en términos de probabilidad multiplicada por consecuencia, pero no dice si ese peso es aceptable o no para la organización que lo lleva. Para que el dato sea accionable, es imprescindible contar con una política de gestión del riesgo que establezca cuándo un riesgo es tolerable y cuándo no.

⚠️Esa política es propia de cada empresa y deben considerar los factores económicos, ambientales y de seguridad específicos de su contexto.

Normas para la evaluación de riesgos: ISO 31000 (Lineamientos) y ISO 31010 (Selección de técnicas para evaluar riesgos)
Normas para la evaluación de riesgos: ISO 31000 (Lineamientos) y ISO 31010 (Selección de técnicas para evaluar riesgos)

Ahora, observemos a través de un ejemplo, el análisis de distintos escenarios;

  • Consideremos que una pérdida de 500,000 dólares causada por la detención de una planta compresora de gas no es equivalente a la misma pérdida en una planta embotelladora de bebidas.

Las implicaciones operativas, regulatorias y reputacionales difieren de forma significativa en cada situación.

  • Del mismo modo, un derrame petrolero en una zona de alto valor ecológico genera consecuencias incomparables frente a la contaminación de un lote de producto en un proceso de manufactura cerrado.

Esa variación de los contextos operativos nos ayuda a explicar por qué la norma SAE JA1012 deliberadamente no proporciona matrices de evaluación de riesgos universales.

En cambio, se realiza un énfasis en que la organización responsable del activo es la única con la información necesaria para definir qué nivel de riesgo es aceptable para su industria, su entorno regulatorio y las personas que pueden verse afectadas.

⚠️ Por esta razón, la mayoría de las empresas que aplican el enfoque riguroso desarrollan sus propias matrices de riesgo, con categorías de consecuencia adaptadas a sus operaciones específicas, que pueden incluir afectaciones al público general, impactos sobre empleados y contratistas, pérdidas de producción cuantificadas en su contexto, costos de reparación, impactos (daños) ambientales y efectos (repercusiones) sobre la reputación corporativa.

Matrices de Riesgo
Matrices de Riesgo

Sobre esa matriz, los modos de falla se ubican en regiones de riesgo que determinan qué tipo de respuesta se requiere.

  • 🔴Regiones de riesgo alto indican que se necesitan acciones inmediatas, posiblemente un rediseño o cambio permanente para reducir el riesgo.

  • 🟡Regiones de riesgo moderado admiten que una o más tareas de mantenimiento (predictivo, preventivo) pueden gestionarlo a un nivel aceptable.

  • 🟢Regiones de riesgo bajo pueden ser candidatas a la política de operar hasta la falla si el análisis económico lo confirma.

Del FMEA al FMECA: la incorporación del RPN

Las primeras cuatro preguntas del proceso RCM, que documentan las funciones, las fallas funcionales, los modos de falla y sus efectos, conforman técnicamente un análisis FMEA (Análisis de Modos y Efectos de Falla).

Cuando a ese análisis se le incorpora una dimensión cuantitativa de priorización del riesgo, el proceso evoluciona hacia un FMECA, que agrega la evaluación de Criticidad.

La herramienta que hace esa transición es el Número de Prioridad de Riesgo (NPR, o RPN en inglés), que resulta de multiplicar tres escalas valoradas del 1 al 10.

NPR = S×O×D

  • Severidad (S) representa la gravedad del efecto de la falla si ocurre, donde 1 es un efecto sin consecuencias apreciables y 10 corresponde a consecuencias catastróficas o fatales.

  • Ocurrencia (O) estima la probabilidad de que ese modo de falla se manifieste en el período de análisis.

  • Detectabilidad (D) mide la capacidad de identificar el síntoma antes de que se alcance la falla funcional: un valor de 1 significa que la falla es fácilmente detectable, mientras que un 10 indica que los medios actuales no permiten advertirla.

Un NPR, si es elevado señala que ese modo de falla es crítico y requiere atención prioritaria; uno bajo indica que el riesgo residual es manejable dentro de los parámetros normales de operación.

El estándar SAE J1739. (2021) nos ayuda a formalizar tablas de calificación y hojas de trabajo para aplicar este análisis de manera consistente. Al usar estas escalas, el equipo de trabajo convierte percepciones técnicas en índices comparables, lo que facilita priorizar el esfuerzo de ingeniería en los modos de falla que realmente impactan el riesgo del negocio.

Tabla de Cálculo para RPN o NPR (Fuente: SAEJ1739)
Tabla de Cálculo para RPN o NPR (Fuente: SAEJ1739)

La optimización costo-riesgo-beneficio como herramienta de decisión

OCR - Optimización Costo Riesgo Beneficio
OCR - Optimización Costo Riesgo Beneficio

Determinar si una tarea es técnicamente factible, y también si produce el ahorro suficiente para justificar su costo, requiere de un modelo que integre ambas variables de forma explícita. El modelo de optimización costo-riesgo-beneficio responde a esa necesidad permitiendo comparar el costo de cualquier actividad de mitigación contra la reducción de riesgo que proporciona.

La pregunta práctica que busca responder es directa es:

¿cuánto se obtiene por lo que se gasta?

Para este análisis, el modelo opera con tres curvas fundamentales.

  • Como punto de partida, la primera curva representa la evolución del riesgo a lo largo del tiempo, el cual tiende a incrementarse conforme más se retrasa la intervención.

  • En cuanto a la segunda curva, el enfoque se desplaza hacia el costo asociado a la acción de mitigación, evaluado en función de distintas frecuencias de ejecución.

  • Finalmente, se obtiene la tercera curva, al sumar punto por punto las dos anteriores, consolidando así la representación del impacto total del activo bajo estudio.

El punto mínimo de esa curva de impacto total es el intervalo óptimo para una actividad especifica de mantenimiento, realizar una intervención antes de ese punto implica gastar más de lo necesario en prevención; hacerlo después significa asumir un riesgo que supera los beneficios de la demora.

  • Este análisis pueden realizarse con distribución exponencial para modos de falla de tasa constante, lo que es adecuado para los patrones D, E y F identificados por Nowlan y Heap.

  • Para modos de falla con componente de desgaste, los patrones A, B y C, se utiliza la distribución de Weibull u otras funciones que capturen el incremento de la probabilidad de falla con la edad.

Funciones comunes para ajustar tiempos de falla (TTF) y reparación (TTR)
Funciones comunes para ajustar tiempos de falla (TTF) y reparación (TTR)

⚠️ En ambos casos, el modelo requiere datos de TPF (Tiempo Para Falla) y TPR (Tiempo para la Reparación) para la caracterización de los datos y el ajuste de distribuciones. Además de los costos reales asociados a la intervención y a la falla.

Existe también evidencia sobre el desperdicio que genera el exceso de mantenimiento preventivo. Segun datos de Ramesh Gulati (2004) muestran que a medida que el porcentaje de mantenimiento preventivo y predictivo sobre el total aumenta, el porcentaje de correctivo disminuye, pero el costo total sobre el valor del activo no sigue una tendencia lineal: puesto que, hay un punto de equilibrio más allá del cual el costo preventivo supera los beneficios de la reducción del correctivo.

Las organizaciones de clase mundial operan con un costo total de mantenimiento sobre el valor de reemplazo del activo inferior al 3%, según referencias de Gulati y Mitchel. Ese umbral no se alcanza interviniendo más, sino interviniendo mejor y donde el análisis de riesgo lo justifica.

Conclusión

El trabajo de Nowlan y Heap estableció que el mantenimiento no debería organizarse alrededor del tiempo de uso de los activos, sino alrededor de las consecuencias reales de sus fallas en un contexto operativo específico. Esa reorientación, plasmada en el enfoque riguroso que reconoce la SAE JA1012, propone tratar cada modo de falla como un evento con probabilidad real, con consecuencias cuantificables y con un umbral de tolerabilidad que cada organización debe definir para sus propias circunstancias.

La diferencia entre aplicar el diagrama lógico y el enfoque riguroso no se concentra en los principios que guían la selección de tareas, sino en esa misma profundidad con la que se analizan las consecuencias. Cuando el contexto lo exige, cuando los datos existen y la criticidad del activo lo justifica, la cuantificación del riesgo transforma una clasificación general en un argumento técnico y económico defendible.

⚠️ Eso es, en esencia, lo que el método de Nowlan y Heap introdujo: la posibilidad de que cada decisión de mantenimiento tenga detrás un razonamiento basado en datos con una menor incertidumbre.

Dinos qué te ha parecido el artículo

starstarstarstarstar