Logo Predyc
Predyc

Guía completa sobre RCM [2024]

 Técnico 19 de agosto de 2024
Andrés González
Autor: Andrés GonzálezCEO at Predyc & Predictiva21
EmailLinkedIn

El Objetivo del RCM: ¡Crear un plan de Mantenimiento!

Para aplicar RCM (Reliability Centered Maintenance), es crucial primero comprender su objetivo, que es “desarrollar un plan de mantenimiento adaptado al contexto operacional” de un equipo o sistema particular que minimice el riesgo de ocurrencia de los modos de falla mas probables y de mayor criticidad.

Un análisis RCM varía significativamente según el contexto operacional. Por ejemplo, el análisis sería completamente diferente para una bomba dentro de un sistema de refrigeración de un reactor nuclear en comparación con una bomba en un sistema de transporte de crudo. En el primer caso, la seguridad es crítica, y las consecuencias de una falla pueden ser catastróficas; mientras que en el segundo, aunque importantes, las consecuencias pueden ser manejadas de manera diferente, y por lo tanto el plan de mantenimiento (PM) sería diferente en cuanto a actividades y frecuencias.

Consideremos el ejemplo de un bomba (PU-1202) que ha venido presentando múltiples fallas durante los últimos años por diferentes motivos como cavitación, desgaste, entre otros. Si quisiéramos minimizar las fallas repetitivas, el proceso natural de pensamiento a seguir sería el siguiente:

  1. Identificar el plan de mantenimiento actual
  2. Identificar y catalogar los tipos de falla que está presentando
  3. Actualizar el plan de mantenimiento para evitar que se presenten esas fallas
Plan de mantenimiento genérico para bomba centrifuga
Plan de mantenimiento genérico para bomba centrifuga

Para ello, se analiza el historial de fallas del equipo y los registros de reparación. Por ejemplo, notas que entre los registros de falla la bomba se encontraba cavitando debido a que aguas arriba de la bomba el nivel de líquido era insuficiente y, en otra oportunidad, debido a obstrucciones en la línea de succión. Entonces te aseguras de que en tu plan de mantenimiento actualizado se incluyan actividades para prevenir estas situaciones.

Plan de mantenimiento actualizado para la bomba centrifuga PU-1202
Plan de mantenimiento actualizado para la bomba centrifuga PU-1202

Y todo este proceso podría tomar un par de días de trabajo, desde la recopilación de la información, luego el análisis y finalmente documentar el plan de mantenimiento (PM) en una tabla Excel (el entregable que sirve de insumo para generar la hoja de ruta que se carga al CMMS).

La metodología RCM busca realizar esto de manera mucho más profunda, estructurada y sistemática. Consiste en responder siete preguntas y documentar las respuestas en una plantilla con formato definido, la cual desde ahora llamaremos "plantilla RCM".

  1. ¿Cuáles son las funciones y los parámetros de funcionamiento asociados al activo en su actual contexto operacional?
  2. ¿De qué manera falla en satisfacer dichas funciones?
  3. ¿Cuál es la causa de cada falla funcional?
  4. ¿Qué sucede cuando ocurre cada falla?
  5. ¿En qué sentido es importante cada falla?
  6. ¿Qué puede hacerse para prevenir cada falla?
  7. ¿Qué debe hacerse si no se encuentra una tarea proactiva?

El entregable del RCM es un plan de mantenimiento para un equipo o sistema optimizado en costos que minimiza el riesgo de consecuencias de seguridad, ambientales y operacionales.

Ejemplo de plantilla RCM y relación de cada columna con las 7 preguntas
Ejemplo de plantilla RCM y relación de cada columna con las 7 preguntas

De las últimas columnas de la plantilla del RCM (pregunta 6 y 7 en rojo) es de donde se obtiene el PM, el cual se considera parte del entregable final. Para obtener el PM, basta con extraer la columna de tareas, ordenar por frecuencia de ejecución y sintetizar aquellas que se pueden describir en conjunto como una misma “actividad” dentro de la hoja de ruta.

Ejemplo Plan de Mantenimiento obtenido de plantilla del RCM (pregunta 6 y 7)
Ejemplo Plan de Mantenimiento obtenido de plantilla del RCM (pregunta 6 y 7)

El origen del RCM

Origen del RCM
Origen del RCM

En su evolución destacan, de manera particular, tres hitos:

  • La publicación de S. Nowlan y H. Heap titulada “Reliability Centered Maintenance”, en el año 1978, que por primera vez introduce el término RCM en la literatura abierta.
  • La publicación de J. Moubray titulada “Reliability Centered Maintenance II”, en el año 1991, que simplifica y pone al alcance de todos los conceptos del RCM, y permite su aplicación masiva en el mundo industrial.
  • La publicación de los estándares SAE JA1011 “Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes”, en 1999, y SAE JA1012 “A Guide to the Reliability-Centered Maintenance (RCM)”, en 2002, otorgó un carácter formal y estandarizado a la metodología.

El origen del RCM se remonta a la década de los 60 dentro de la industria de la aviación. La necesidad de implementar el Mantenimiento Centrado en la Confiabilidad (RCM) surgió de una urgente necesidad de mejorar la seguridad y confiabilidad de los vuelos.

En 1950, la tasa de accidentes era extremadamente alta, con más de 60 accidentes por millón de despegues. Este nivel de incidentes representaba un riesgo significativo para la seguridad de los pasajeros y tripulaciones. Comparado con los estándares actuales, esta tasa de accidentes equivaldría a dos accidentes aéreos diarios en algún lugar del mundo. Esto ilustra la gravedad del problema de seguridad que existía en ese momento.

Dos tercios de los accidentes ocurridos a finales de la década de 1950 se debían a fallas en los equipos. Estas fallas mecánicas y técnicas subrayaron la necesidad de una metodología que pudiera abordar y prevenir tales problemas.

En respuesta a estos desafíos, el RCM comenzó a desarrollarse a principios de la década de 1960. La metodología se centró en identificar los modos de falla críticos e implementar tareas de mantenimiento preventivo y predictivo para mejorar la confiabilidad y seguridad de los sistemas aeronáuticos.

El gráfico adjunto muestra la tendencia de accidentes aéreos y lesiones desde 1982 hasta 2019, destacando tres categorías:

Accidentes aéreos y lesiones desde 1982 hasta 2019
Accidentes aéreos y lesiones desde 1982 hasta 2019

El RCM se aplica de manera mucho más estricta en las industrias aeroespacial, militar y nuclear, donde se justifica emplear miles de horas-hombre para mitigar los riesgos y asegurar el cumplimiento de las funciones objetivo. Aun así, hoy en día es adoptado en diversas industrias.

Es importante aclarar que el RCM es una metodología estructurada para generar planes de mantenimiento (PM) para equipos críticos específicos, y no una filosofía como el TPM, que se aplica a toda la planta. Por lo tanto, el RCM por sí solo no se justifica, pero sí como complemento de otros esfuerzos para mejorar la gestión de mantenimiento. Si no se han realizado actividades preliminares ni se pretende combinar el RCM con otras metodologías, no se recomienda su uso. De igual manera, tampoco debe aplicarse si no se cuenta con los recursos necesarios (horas-hombre de personal con conocimientos y competencias) ya que, en ese caso, se considera una pérdida de esfuerzo y dinero.

El estándar SAE JA1011 y JA 1011

Con la publicación de los estándares SAE JA1011 “Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes”, en 1999, y SAE JA1012 “A Guide to the Reliability-Centered Maintenance (RCM)”, en 2002, se otorgó el carácter formal y estandarizado a la metodología.

El estándar SAE JA 1011 establece los criterios necesarios para evaluar si un proceso de Mantenimiento Centrado en la Confiabilidad (RCM) cumple con las prácticas aceptadas internacionalmente. Su propósito principal es proporcionar una lista de características que cualquier proceso de RCM debe tener para ser considerado auténtico y efectivo.

Este estándar define el RCM y especifica los criterios mínimos que un proceso debe cumplir. Estos incluyen la identificación de las funciones del sistema, los modos de falla, los efectos de las fallas, las consecuencias de las fallas y las tareas de mantenimiento adecuadas. En resumen, sirve como una guía fundamental para evaluar la autenticidad y la conformidad de los procesos de RCM.

El estándar SAE JA 1012 complementa al JA 1011 proporcionando una guía detallada sobre cómo implementar los criterios establecidos en el JA 1011. Su objetivo es ayudar a los usuarios a entender y aplicar los principios del RCM en la práctica.

Este estándar detalla los pasos necesarios para implementar un proceso de RCM conforme a los criterios del JA 1011. Incluye ejemplos prácticos y casos de estudio que ilustran cómo aplicar el RCM en diferentes contextos. Además, ofrece mejores prácticas y recomendaciones para una implementación efectiva y eficiente del RCM.

También proporciona interpretaciones y clarificaciones de los criterios del JA 1011, ayudando a los usuarios a entender los requisitos y cómo cumplirlos. En esencia, el JA 1012 es una guía práctica que facilita la implementación y comprensión de los principios del RCM.

En la realidad cuando se implementa RCM se trata de cumplir con lo que establece la normativa. Aun asi, debemos recordar que estas normas debemos tomarlas como guías para que desarrollemos el RCM de manera correcta, pero no significa que no podamos tomarnos “libertades artisticas”, o simplemente en algunos escenarios entender que seguir el pie de la letra sería imposible debido a la falta de información, tiempo disponible, entre otros factores.

Hoy en día se han desarrollado múltiples metodologías de RCM, como RCM-R de Conscious Asset, RCM-III por Aladon, RCM-S por Predictiva21, y muchas más. La mayoría cumplen en gran parte con la norma SAE JA1011/1012.

Cuando SI y cuando NO aplicar un RCM

Cuando decidimos hacer un RCM, casi siempre es porque vamos a analizar un equipo o sistema crítico. Este puede ser crítico porque no debemos permitir que falle, ya que podría resultar en lesiones o fatalidades, impactos ambientales graves, o porque si falla el equipo, las pérdidas por lucro cesante serían excesivas, entre otras razones.

La razón por la que generalmente se aplica a equipos críticos es porque llevar a cabo un RCM correctamente requiere esfuerzos significativos de tiempo y dinero. El tiempo requerido para aplicar correctamente la metodología varía dependiendo de lo que se esté analizando. Sin embargo, para dar una idea al lector:

  • Para un equipo de baja complejidad, se necesita 1 semana con 2 a 3 personas en el equipo.
  • Para un equipo / sistema medianamente complejo, como un sistema de bombeo, se necesitan de 2 a 4 semanas, asumiendo un equipo mínimo de trabajo de 2 a 4 personas (líder del RCM, mecánico, instrumentista y operaciones).

Para un equipo / sistema de alta complejidad, se necesitan de 6 a 12 semanas con un equipo de 5 a 8 personas (líder del RCM, especialistas por cada disciplina y operaciones).

  • Estos tiempos se proporcionan considerando que el equipo ya tiene experiencia (conoce y ha aplicado la metodología previamente). Adicionalmente, si el equipo no conoce las buenas prácticas, el 40-50% del tiempo puede considerarse perdido, ya que se orienta el análisis de manera incorrecta.

En general, un proyecto de RCM para una planta puede considerar su aplicación a unos 4-5 sistemas críticos (20-30 equipos) y podría tomar cerca de un año de trabajo. Luego de haber generado el primer entregable y poner a prueba los planes de mantenimiento desarrollados, es recomendable hacer una actualización cada 24-48 meses para “limpiar y actualizar”. Es aconsejable que el proceso de actualización se realice después de un evento de parada de planta que involucre reparaciones mayores.

Los resultados del RCM se miden mediante el aumento de la disponibilidad de los sistemas y también mediante el costo de mantenimiento de los equipos específicos, usando un indicador como el costo de mantenimiento versus el valor de reemplazo del activo (CostoMant / RAV).

Image

Costos elevados de mantenimiento en relación al valor de reemplazo del activo (CostoMant/RAV) podrían estar cercanos al 4-5%, según autores como Mitchell. Aun así, esto varía significativamente entre industrias y contextos particulares. De cualquier forma, si el costo de Mant/RAV es 4-5%, una meta podría ser disminuirlo a 2-3%.

En cuanto a la disponibilidad, los valores de clase mundial para la producción de una planta se consideran cercanos al 98%. Valores de empresas con buenas prácticas de mantenimiento están entre 93-95%. Es decir, cualquier valor por debajo del 90% es mejorable.

Pasar de 80% a 85% de disponibilidad es mucho más fácil que pasar de 85% a 90%, y sucesivamente.

Es imposible eliminar completamente las fallas o los mantenimientos correctivos programados y los mantenimientos preventivos para la restauración de la condición de las máquinas.

Es importante entender cómo afecta la confiabilidad de un equipo a un sistema. Por ejemplo, dentro de un sistema podrían haber 1 a 4 equipos que estén "modulando" la confiabilidad de todo el sistema, y podríamos llamarlos nuestros cuellos de botella. La parte clave está en identificar cuáles son los equipos que modulan la confiabilidad. Las simulaciones de confiabilidad (Reliability Block Diagrams) ayudan a identificar cuáles son estos equipos. Por lo tanto, un buen paso antes de hacer un RCM es considerar una simulación de bloques de confiabilidad de la planta para identificar cuáles son los equipos y sistemas críticos, y luego decidir a cuáles aplicar RCM.

Simulación de confiabilidad (Reliability Block Diagram)
Simulación de confiabilidad (Reliability Block Diagram)

Atacar el 5-20% de los sistemas críticos nos permitirá aumentar la confiabilidad y disponibilidad de manera significativa. Para mejorar la confiabilidad del 20% de estos sistemas, solo debemos mejorar la confiabilidad de los equipos críticos de tales sistemas. Es precisamente ahí donde debemos enfocar el esfuerzo del RCM.

Distribución del 80% de la indisponibilidad en relación al porcentaje de equipos
Distribución del 80% de la indisponibilidad en relación al porcentaje de equipos

Cabe destacar que en el RCM no solo se aplica para aumentar la disponibildad, sino tambien para garantizar la seguridad. Por lo tanto, los estudios de análisis de riesgo / criticidad que se hayan efectuado en la instalación son primordiales.

Tabla de ejemplo de resultados del análisis de criticidad
Tabla de ejemplo de resultados del análisis de criticidad

Entre el 80% y 90% de los equipos dentro de la planta se consideran de criticidad baja o media y, por lo tanto, la buena práctica es asignar un plan de mantenimiento “genérico” previamente aprobado o simplemente dejar correr hasta la falla. Sin embargo, habrá algunos equipos puntuales que son realmente críticos, en los que nos interesará aumentar la confiabilidad (minimizar la probabilidad de falla) para que impacten menos en la producción o para evitar riesgos y accidentes laborales o ambientales.

Tabla de asiganción de tipo de planes de mantenimiento
Tabla de asiganción de tipo de planes de mantenimiento

La diferencia entre simplemente desarrollar un plan de mantenimiento y desarrollar un plan de mantenimiento utilizando RCM es que, con RCM, debemos ser mucho más descriptivos al evaluar los efectos operacionales, ambientales, de seguridad, costos, etc., de las potenciales fallas con el fin de reducir el riesgo y/o optimizar costos.

Tabla comparativa del enfoque de elaboración de PMs con y sin RCM
Tabla comparativa del enfoque de elaboración de PMs con y sin RCM

Entendiendo el proceso del RCM

Como se menciono anteriomente, la metodología plantea siete (7) preguntas que deben ser respondidas de manera secuencial:

  1. ¿Cuáles son las funciones y estándares de funcionamiento asociados al activo dentro de su contexto operativo actual? (Funciones)
  2. ¿De qué forma el activo deja de cumplir su función? (Fallas funcionales)
  3. ¿Cuál es la causa o como se manifiesta la falla funcional? (Modo/causa de falla)
  4. ¿Qué pasa cuando la falla funcional se produce? (Efecto de la falla)
  5. ¿De qué forma afecta cada falla funcional? (Consecuencias)
  6. ¿Qué puede hacerse para predecir o prevenir cada falla? (Tareas proactivas)
  7. ¿Qué hacer si no se encuentra una tarea proactiva adecuada para la falla y sus consecuencias? (Tareas a falla o por omisión).

Las primeras cuatro (4) preguntas corresponden a un AMEF (Análisis de Modos y Efectos de Falla), mientras que las dos (3) últimas se centran en la identificación de las tareas de mantenimiento.

Los resultados que se obtienen al responder las siete (7) preguntas se registran, de manera sistemática, en formularios especialmente diseñados para tal fin (plantilla RCM).

De acuerdo con la metodología, uno de los pasos más críticos se encuentra en la correcta identificación del “tipo de tarea” que debe aplicarse (Predictiva, Preventiva, búsqueda de fallos ocultos, rediseño o dejar fallar), el cual está relacionado con el “tipo de consecuencia” (oculta, seguridad, ambiente, producción, costos de reparación o ninguna) y la factibilidad de detección oportuna del modo o mecanismo de falla.

La Figura siguiente muestra, de manera simplificada, el flujograma básico de las etapas involucradas a un estudio RCM.

Flujograma básico de las etapas involucradas a un estudio RCM
Flujograma básico de las etapas involucradas a un estudio RCM

Conformación del Equipo Natural de Trabajo (ENT)

El grupo de trabajo ENT debe estar integrado por personal de operaciones y/o procesos, mantenimiento, seguridad y especialista(s), con conocimientos en los equipos o sistemas a analizar.

El facilitador (lider del RCM): Orienta de manera adecuada la aplicación adecuada de la metodología MCC en cada uno de los análisis y/o problemas definidos, considerando su impacto en la seguridad, la producción, el ambiente y la calidad de los productos según aplique. Registra, documenta los resultados de las sesiones de trabajo, visitas de campo y reuniones de seguimiento y preparará los entregables.

El Personal de operaciones: debe conocer la filosofía de operación, el contexto operacional de los sistemas y equipo, y el impacto de una falla en la producción de la planta.

El personal de mantenimiento (mecánico, electricista, I&C y automatización): deben conocer la información técnica de los equipos, sus estadísticas de fallas y reparación, costos de reparación, consecuencias de dichas fallas, además de estar familiarizados con las actividades, prácticas y planes de mantenimiento típicos para las diferentes familias de equipos involucrados.

El personal de instrumentación, control y automatización: debe conocer la filosofía de control, protecciones, paros, etc.

El personal de seguridad y protección ambiental: Deben tener los conocimientos para validar los criterios y las consecuencias asociados a la seguridad industrial y protección ambiental.

Para que el análisis se haga con un enfoque pragmático, lo ideal es que:

  • Se inicie el análisis con una plantilla RCM genérica (esto se discutira en la sección III de este libro).
  • Los integrantes del ENT deben estar familiarizados con la metodología RCM.
  • Se hagan sesiones de trabajo de no más de de 2 a 4 horas de trabajo.
  • En caso de no disponer de toda la información requerida para el análisis MCC, se considerará la conveniencia de utilizar la opinión de expertos (internos y/o externos) o bases de datos genéricas.

Fuentes de información requeridas para el RCM

Para hacer un RCM debes considerar que si no tienes la información disponible a la mano para el análisis, entonces el proceso probablemente sea bastante inproductivo y los resultados de baja calidad.

El ENT deberá tener acceso a la información relacionada con:

  • Datos de diseño e ingeniería, tales como: planos P&IDs, diagramas de flujo de proceso PFDs, planos de distribución de equipos, planos de circuitos eléctricos, hidráulico y neumáticos, filosofía de operación, filosofía de control, contexto operacional de los equipos, listado de señales/alarmas/paros, hojas de datos técnicos (data sheets) de los equipos principales, curvas de operación de los equipos (donde aplique), manuales de operación y mantenimiento, etc.
  • Histórico de fallas, mantenimientos y otros KPIs: histórico de fallas y reparaciones, mantenimientos programados, informes de investigación de fallas (ACR), así como indicadores claves KPIs (TPPF, TPPR, Disponibilidad, etc.) de los equipos, de existir.
  • Información sobre el impacto causado por las fallas y paros programados: el impacto que tienen las paradas de los equipos en la seguridad, el ambiente, la producción y los costos asociados a la restitución del servicio.
  • Otros análisis previos (de existir): criticidad, hazop, riesgo, IBR, etc.

Se recomienda utilizar un checklist previo al inicio del análisis de cada equipo / sistema a fin de que las sesiones no deban detenerse por falta de información.

Definición del contexto operacional y límites del análisis

El paso previo para dar inicio al RCM es la “determinación del contexto operacional” que consiste en entender como funciona el sistema, cual es el impacto de las diferentes desviaciones sobre el sistema (fallas), la filosofía de operación, los parámetros operacionales, los permisivos, las protecciones instaladas, etc.

El ENT decidirá que límites tendrá el análisis. Por ejemplo: podrá considerar que el RCM se delimita a análizar un equipo específico, un conjunto de equipos, o incluso podría abarcar un sistema completo.

La ventaja de analizar un conjunto de equipos en una misma hoja RCM al mismo tiempo es que permite realizar un plan de mantenimiento “optimizado en frecuencias” para el conjunto de equipos. Lo mismo si analizamos un sistema completo. La desventaja esta en que la hoja o plantilla se vuelve más extensa.

Entonces la decision del límite del análisis se toma basado en:

  • Cómo queremos que salga el plan de mantenimiento
  • La complejidad del o los equipos.

Ejemplo 1: Si estamos analizando un equipo complejo como un Motor de 30,000 Hp, entonces el análisis probablemente se centre en analizar dentro de una misma hoja de RCM lo siguiente:

  • El motor persé + El sistema de lubricación + El sistema de refrigeración + El sistema de arranque + El sistema de monitoreo y protección + Miscelaneos (válvulas, filtros, etc).

Ejemplo 2: Analizamos un conjunto de equipos responsables de una función compartida:

  • Bomba (incluyendo el motor e instrumentos asociados) + Válvula de succión y descarga + Filtro

Ejemplo 3: Analizamos un sistema completo como un sistema de lubricación

  • Tanque o reservorio + Bomba(s) + Filtros + Enfriadore + Válvula(s) + Instrumentos(s)

Ejemplo 4: Analizamos un equipo a la vez en cada plantilla RCM

  • La bomba unicamente (incluyendo el motor e instrumentos asociados)

Todas las opciones son validas y será decisión del ENT como quiere proceder.

Buenas prácticas para llevar el RCM

La siguiente sección aborda como responder las 7 preguntas del RCM de manera “pragmática”.

Pregunta 1: ¿Cuáles son las funciones y los parámetros de funcionamiento asociados al activo en su actual contexto operacional?

Respondiendo la pregunta 1 del RCM según SAE JA1011
Respondiendo la pregunta 1 del RCM según SAE JA1011

La primera pregunta nos ayuda a identificar Identificar las funciones primarias y secundarias. Esto es lo primero que llenaremos en la plantilla RCM. La funciones primarias son las críticas para la operación, y las secundarias, son aquellas que contribuyen al rendimiento. En muchos casos es suficiente con registrar la función primaria.

Como menciona la SAE JA1011, lo importante es que cuando describimos una función primaria o secundaria, lo hagamos asegurando que incluye un verbo, objeto y un estandar de desempeño. El ejemplo clásico sería:

Flujograma de funcionamiento del tanque TK-1202 al tanque TK-1203
Flujograma de funcionamiento del tanque TK-1202 al tanque TK-1203

Función: Transferir agua desde el tanque TK-1202 al tanque TK-1203 a no menos de 800 litros por minuto.

El verbo: “transferir”, El objeto: “agua” y El estándar de rendimiento: “no menos de 800 litros por minuto”

El error inicial más común es no determinar el estándar de desempeño, colocando algo como: “bombear agua” o “bombear agua para que el nivel del tanque 2 se mantenga constante”.

Lo más importante es recordar es que el propietario / usuario del activo es quien determina cual es el “estándar de desempeño”. En muchos casos este dato viene del DTI o la filosofía de operación cuando están disponibles y actualizados. Cuando no se tiene ninguna fuente de información, el operador es nuestra segunda fuente más confiable.

Ejemplos de funciones primarias
Ejemplos de funciones primarias

Adicional a las funciones primarias, tambien se identificar las funciones secundarias, las cuales ayudan a preservar la función primaria. La tabla siguiente muestra ejemplos de funciones secundarias.

Ejemplos de funciones secundarias
Ejemplos de funciones secundarias

No es obligatorio colocar funciones secundarias en la plantilla. Solo se colocan si se cree que es de importancia para mantener la función principal y asegurar estándares de calidad / seguridad. Si estamos analizando la bomba, agregar la función secundaria “mantener la apariencia del equipo y evitar la corrosión” sería ir demasiado al detalle sin agregar valor.

Se pueden colocar tantas funciones se crean necesarias para describir el análisis, pero por lo general, las funciones son contadas. Más no significa mejor. El detalle de las funciones y la cantidad depende del nivel al que se analiza y del contexto operacional. La definición de los “límites de batería” del equipo, así como la “descomposición jerárquica” del equipo en sus unidades e items mantenibles permitirán saber hasta donde definir las funciones primarias y secundarias.

Ejemplo de límites de batería
Ejemplo de límites de batería

Si estamos analizando la bomba persé, entonces las funciones son:

  • De la bomba: Transferir + Contener el agua.

Si estamos analizando una motobomba con variación de velocidad:

  • De la bomba: Transferir + Contener el agua.
  • Del motor: Proveer la fuerza mecánica (potencia) para que gire a XX RPM.
  • Del switch de vibración: proteger la motobomba cuando alcanza XX.
  • Del VFD: controlar la velocidad para que el flujo sea XX l/min.
  • Otras funciones asociadas a los componentes o subunidades importantes dentro del límite de batería definido.

Cada función primaria y secundaria tendra luego un conjunto de fallas funcionales asociadas, y esas fallas funcionales asociadas modos de falla a su vez, y a cada uno de esos modos de falla tendrá un efecto en términos de consecuencia.

El conjunto “Función, Falla funcional, Modo de falla y Efecto de falla conforman lo que llamamos un FMEA que es base de nuestro RCM (Primeras 4 de las 7 preguntas).

Ejemplo de FMEA
Ejemplo de FMEA

Pregunta 2: ¿De qué manera falla en satisfacer dichas funciones?

Respondiendo la pregunta 2 del RCM según SAE JA1011
Respondiendo la pregunta 2 del RCM según SAE JA1011

Es más preciso definir el fallo en términos de la pérdida de funciones específicas, en lugar de la falla de un activo en su totalidad.

Casi siempre se identifican 2 fallas funcionales para cualquier función: La pérdida total y la pérdida parcial. En el caso ejemplo de la bomba:

  • Puede que presente una falla progresiva que le permita seguir bombeando pero no puede mantener los 800 l/m que se considera el estándar de desempeño.

La bomba podría fallar súbitamente y perder la capacidad de bombear.

  • El deterioro solo se convierte en fallo funcional (parcial o total) cuando el desempeño (rendimiento) cae por debajo del nivel mínimo requerido por el usuario.
Ejemplo de pérdida total y pérdida parcial de la función
Ejemplo de pérdida total y pérdida parcial de la función

En el caso de la función secundaria,

  • Es posible que dicha bomba sea capaz de bombear la cantidad requerida de agua, pero mientras fugas excesivamente.
  • Es posible que la bomba se deteriore hasta el punto en que no pueda bombear la cantidad requerida, mientras aún contenga el agua.

Pregunta 3: ¿Cuál es la causa de cada falla funcional?

Respondiendo la pregunta 3 del RCM según SAE JA1011
Respondiendo la pregunta 3 del RCM según SAE JA1011

Seguido al paso previo, debemos desglosar todas las causas de falla (“modos de falla”) que llevan a la perdida funcional. Este paso es sumamente importante ya que en las fases siguientes para cada modo de falla habrá que describirle su efecto de falla, categorizar el tipo de consecuencia de falla y analizar que tarea de mantenimiento le aplica. Es decir, habrá que responder a las preguntas 4,5,6 y 7 para cada modo de falla.

Un RCM que analiza una bomba en una fábrica de alimentos no listaría "casi golpeado por un objeto que cae del cielo". Sin embargo, si volvemos al ejemplo de la bomba en un reactor nuclear la misma bomba fuera una bomba de enfriamiento primaria en un reactor nuclear, este modo de falla sería tomado más en serio a pesar de su baja probabilidad.

Describir demasiados Modos de Falla o Modos de falla demasiado detallados, puede hacer que el proceso de RCM sea “infinito”. Y por el contrario listar pocos modos de falla llevará a un análisis deficiente / pobre.

Una guía para listar los modos de falla de manera organizada es pensar en en los que se manifiestan igual.

Ejemplo: ¿Modos de falla asociados al aumento de vibración?

  • Modo de falla 1: Problemas en rodamiento
  • Modo de falla 2: Problemas de lubricación
  • Modo de falla 3: Pata coja / Grouting deteriorado
  • Modo de falla 4: Desbalance
  • Modo de falla 5: Rotor del motor desbalanceado
  • Modo de falla 6: Cavitación

Nota: un error es colocar como modo de falla alta vibración ya que es una manifestación de una causa, no la causa.

Preguntas que nos ayudan durante el proceso de listar modos de falla son:

  • ¿Es razonablemente probable?
  • Si es razonablemente probable ¿No se parece ya a otro modo de falla listado?
  • ¿No es ir demasiado al detalle?
  • ¿Listar este modo de falla va a agregar valor al plan del mantenimiento que queremos generar?

Justificaciones para agrega un modo de falla:

  • Es razonablemente probable
  • Crees que tiene una consecuencia de falla que no hayas considerado previamente.
  • Requiere una tarea de mantenimiento que no estuvieses considerando anteriormente.

Cuando se lleva un RCM con un ENT es normal que se empiecen a listar modos de falla similares unos con otros, improbables y hasta algunos que ni siquiera son inherentes al equipo mismo.

Si estamos analizando una bomba y hemos definido dentro del límite de batería el motor, el switch de vibración, el VFD, entonces debemos listar modos de falla asociados a tales componentes. Y es precisamente por esta razón que en la primera pregunta habiamos definido las funciones primarias y secundarias más importantes.

Durante el proceso de listar los modos la SAE JA 1011, recomienda considerar el histórico del equipo, el plan de mantenimiento actual y realizar una lluvia de ideas con el ENT.

 Elluvia de ideas con el ENT
Elluvia de ideas con el ENT

Algo que menciona la SAE JA 1011 (5.3.3), es que: "Los modos de falla deben ser identificados en un nivel de causalidad que permita identificar una política de gestión de fallas apropiada.". Esto significa que los modos de falla pueden ser descritos en diferentes niveles de detalle, es decir ir agregando “capas de identificación del origen de la causa”.

Pregunta 4: ¿Qué sucede cuando ocurre cada falla? Lo que ocurriría si se produjera un modo falla.

Respondiendo la pregunta 4 del RCM según SAE JA1011
Respondiendo la pregunta 4 del RCM según SAE JA1011

El objetivo de esta pregunta es simplemente describir lo que ocurre para cada modo de falla. Y es justo aquí donde el RCM realmente empieza a tomar peso, ya que esta descripción servirá como base fundamental para, posteriormente, proponer una tarea de mantenimiento acorde y determinar la frecuencia que se considera mejor para prevenir o mitigar el impacto de ese modo de falla específico. Si esta etapa no se realiza bien fundamentada, es mejor no haber optado por realizar un RCM en absoluto.

Falla del rodamiento por mala lubricación
Falla del rodamiento por mala lubricación

Se sugiere que al describir el efecto se analice:

Evidencia de la falla (cómo se manifiesta):

  • Describir si el modo de falla está acompañado (o precedido) por efectos físicos obvios como ruidos fuertes, fuego, humo, escape de vapor, olores inusuales o charcos de líquido en el suelo. Tambien indicar si se presentan alarmas.

El impacto en seguridad:

  • Qué hace (si es que hace algo) para matar o herir a alguien: Incendio, Explosión, Fuga / escape producto peligroso, Electrocutación, Accidente, Explosión.
  • Cuál es el daño: lesión medica, provoca discapacidad o fatalidad.
  • A cuantas personas: 1 persona, 10 personas, 100 personas., o para tener un efecto adverso en el medio ambiente. Cuantas personas podrían resultar heridas. Cual es la gravedad del daño causado a las personas.

El impacto en el ambiente:

  • De que manera puede afectar el medio ambiente: Derrame, fuga, emisión de algún producto X.
  • Las medidas de control requeridas.
  • Si afecta únicamente dentro o fuera de la instalación.
  • Si ocasiona el incumplimiento de una norma.
  • Si genera pérdidas económicas por pérdida de imagen.

El impacto en las operaciones:

  • Si la producción es continua o discreta.
  • Si se tiene respaldo.
  • Si es un equipo en standby.
  • Si afecta o no la producción y/o calidad el producto.
  • El tiempo de paro.

Qué debe hacerse para restaurar la función del sistema:

  • Que actividades de mantenimiento deben realizarse: desarmar, revisar y reacondicionar/reemplazar.
  • El personal requerido: Cantidad de personas por disciplina.
  • El tiempo de ejecución.
  • El costo de los materiales y horas hombre necesarias.

La frecuencia de ocurrencia:

  • Si se puede estimar una frecuencia de falla: 1 año, 5 años, 10 años, etc.
  • El tipo de patrón de falla asociado a modo de falla (mortalidad infantil, aleatorio, envejecimiento).
  • En muchas ocasiones, el equipo de personas que hace el RCM no puede o no desea cuantificar los efectos con tanta precisión, y decide trabajar con bandas. Esto ademas de evitar la parálisis por análisis, tambien ayuda a “homogeneizar” la información y ser consistentes con los criterios.
Bandas por categoría para la descripción semi-cuantitativa de consecuencias
Bandas por categoría para la descripción semi-cuantitativa de consecuencias

Si luego de analizar un modo de falla, te das cuenta que la falla no tiene ningún riesgo, impacto económico considerable, y que probablemente la mejor estrategia de mantenimiento sea RTF, comenzaras a cuestionarte si realmente valia la pena incluir ese modo de falla en el análisis, aunque nuevamente, esta decisión depende de los participantes que se encuentren haciendo el RCM.

El diagrama de decisión (Las preguntas 5, 6 y 7)

En la parte anterior (pregunta 4) describimos lo que ocurriria si se presentaba un modo de falla. Ahora en las preguntas 5, 6 y 7 el objetivo es clasificar el tipo de consecuencia principal del modo de falla para luego seleccionar una tarea de mantenimiento acorde.

P5: ¿En qué sentido es importante cada falla? (Tipo de consecuencia)

P6: ¿Qué puede hacerse para prevenir o predecir cada falla? (Selección de tarea proactiva)

P7: ¿Qué debe hacerse si no se encuentra una tarea proactiva adecuada? (Acción a falta de)

La SAE JA1011, John Moubray, Aladon LTD, y otros autores han presentan diagramas de decisión para una selección “rápida” de tareas de mantenimiento. En ellos, luego de identificar el tipo de consecuencia: si es o no falla oculta, si impacta S&A y si impacta las Operaciones (SAE JA 1011 5.5.1), las actividades de mantenimiento se deben considerar empezando por lo “económico y facil” que es el Predictivo, luego el Preventivo y finalmente las acciones a falta de tareas proactivas (Búsqueda de falla, Rediseño y RTF).

La evaluación de las consecuencias de las fallas deberá realizarse como si no se estuviera llevando a cabo ninguna tarea específica para anticipar, prevenir o detectar la falla (SAE JA 1011 5.5.2). Tambien es importante aclarar que dependiendo del tipo de consecuencia, el objetivo de las tareas será diferente.

En el caso de un modo de fallo evidente que tiene consecuencias S&A, la tarea debe reducir la probabilidad del modo de fallo a un nivel que sea aceptable para el propietario o usuarios del activo (SAE JA 1011 5.7.1.1).

En el caso de un modo de fallo oculto donde el fallo múltiple asociado tiene consecuencias S&A, la tarea debe reducir la probabilidad del modo de fallo oculto hasta el punto de que la probabilidad del fallo múltiple asociado se reduzca a un nivel que sea aceptable para el propietario o usuarios del activo (SAE JA 1011 5.7.1.2).

En el caso de un modo de fallo evidente que no tiene consecuencias de S&A, los costos directos e indirectos de realizar la tarea deben ser menores que los costos directos e indirectos del modo de fallo cuando se miden en periodos comparables de tiempo (SAE JA 1011 5.7.1.3).

En el caso de un modo de fallo oculto donde el fallo múltiple asociado no tiene consecuencias S&A, los costos directos e indirectos de realizar la tarea deben ser menores que los costos directos e indirectos del fallo múltiple más el costo de reparar el modo de fallo oculto cuando se miden en periodos comparables de tiempo. (SAE JA 1011 5.7.1.4).

Nota: Una función oculta es aquella cuyo fallo no es detectable por los operadores bajo circunstancias normales. La única consecuencia de un fallo oculto es un riesgo mayor a que ocurra un fallo múltiple.

Determinar el tipo de consecuencia determina por cuál columna debemos empezar a bajar desde nuestro diagrama de decisiones.

Las 7 preguntas y el diagrama de decisión del RCM
Las 7 preguntas y el diagrama de decisión del RCM

Ejemplo:

Ejemplo de las preguntas 5, 6 y 7 del RCM
Ejemplo de las preguntas 5, 6 y 7 del RCM

Consideraciones para la selección del tipo de tarea

Después de haber categorizado el tipo de consecuencia, se procede seleccionar el tipo de tarea, la frecuencia de ejecución y el ejecturo. Siempre debemos realizarnos la pregunta ¿es técnicamente factible y merece la pena?

Cuando evaluamos fallas ocultas, el criterio es evaluar si reduce la probabilidad de una falla múltiple a un nivel tolerable.

Para fallas con consecuencias de S&A, evaluamos si reduce las probabilidades de ocurrencia del evento a niveles tolerables.

Y para fallas con consecuencias operacionales evaluamos si hacer la tarea cuesta menos que la producción perdida.

Y para aquellas que no tienen impacto operacional simplemente evaluamos si realizar una actividad de mantenimiento cuesta menos que simplemente reparar.

Como dijimos ya, dependiendo del tipo de impacto definido decidimos por cual columna bajar en el diagrama de decisiones.

Las tareas predictivas siempre son las primeras en ser consideradas. Se pueden realizar sin mover el activo ni interrumpir su funcionamiento. Estas tareas identifican condiciones de falla, permitiendo definir acciones correctivas de antemano. Esto reduce el trabajo de reparación y permite aprovechar casi toda la vida útil del equipo. Por ejemplo, el monitoreo de vibraciones en motores eléctricos puede detectar desbalances o desgastes en los rodamientos antes de que ocurran fallas catastróficas. Otro ejemplo es el análisis de aceite para identificar contaminantes o desgaste excesivo de componentes internos.

Las tareas preventivas se enfocan en restaurar la capacidad de un ítem antes de su límite de edad o en reemplazar un componente o ítem antes de su límite de edad por uno nuevo. La desventaja es que algunas requieren un paro programado y se llevan a cabo en taller. Un ejemplo de actividad preventiva sería el reemplazo de filtros en sitio, la recalibración, el cambio de un rodamiento o la alineación y balanceo.

Se considera la combinación de tareas si una única actividad no consigue reducir la probabilidad de ocurrencia ni manejar el modo de falla, entonces se puede considerar una combinación de tareas, aunque sean más costosas, siempre que se justifique. Por ejemplo, se podría realizar un análisis de aceite en sitio cada 3 meses, y combinarlo con un análisis de laboratorio cada año. Una combinación de tareas innecesaria sería monitorear vibraciones o hacer análisis de ultrasonido y adicionalmente reengrasar de manera periodica indiferentemente de la condición.

Las tareas de búsqueda de falla Involucran pruebas funcionales para detectar fallas ocultas al activar funciones previstas y comparar la respuesta con estándares predefinidos. Esta estrategia permite que el equipo falle brevemente y solo debe usarse cuando no hay una tarea proactiva adecuada. Un ejemplo es la prueba de arranque de generadores de respaldo para asegurar que funcionen correctamente en caso de un corte de energía. Otro ejemplo es la prueba de sistemas de alarma contra incendios para verificar que todos los sensores y actuadores respondan adecuadamente.

Dejar fallar o RTF (Run to Failure) se utiliza cuando no se justifica económicamente realizar ninguna actividad porque el costo de reparación es menor o cuando ninguna actividad es técnicamente factible. Se puede utilizar siempre que no afecte la seguridad o el medio ambiente. Un ejemplo es el uso de ciertos tipos de válvulas en sistemas no críticos, donde la falla puede ser fácilmente gestionada sin afectar la operación general del sistema.

Por ultimo, consideramos el rediseño debido a que implementar cambios de este tipo lleva de seis meses a tres años, es costoso y puede no resolver el problema original o incluso generar nuevos problemas. Por lo tanto, es crucial abordar las realidades actuales antes de considerar futuros cambios de diseño. Un ejemplo de rediseño es la actualización de un sistema de control obsoleto a uno más moderno y eficiente, lo cual puede mejorar la confiabilidad y funcionalidad del equipo. Otro ejemplo es el rediseño del impulsor de un cmpresor centrífugo para evitar que entre en surge.

Selección de frecuencias para tareas de Mantenimiento Predictivo

Selección de frecuencias para tareas de mantenimiento predictivo según SAE JA1011
Selección de frecuencias para tareas de mantenimiento predictivo según SAE JA1011

El mantenimiento predictivo siempre es la primera opción a considerar por lo siguiente:

  1. Casi siempre se pueden realizar sin mover el activo de su posición instalada y, generalmente, mientras está en funcionamiento, por lo que rara vez interfieren con las operaciones.
  2. Usualmente son más fáciles de organizar.
  3. Identifican condiciones de falla potencial específicas, por lo que se puede definir claramente la acción correctiva antes de comenzar el trabajo. Esto reduce la cantidad de trabajo de reparación por hacer y permite que se realice más rápidamente.
  4. Al identificar el equipo en el punto de falla potencial, permiten que se aproveche casi toda su vida útil.

El intervalo P-F se refiere al tiempo entre el punto en el cual una falla potencial (P) es detectable y el punto en el cual se convierte en una falla funcional (F). Para calcular el intervalo recomendado de inspección, generalmente se recomienda realizar inspecciones periódicas con una frecuencia que permita detectar la falla potencial antes de que se convierta en una falla funcional.

Intervalo P-F
Intervalo P-F

Para un intervalo P-F de 2 años, una regla comúnmente utilizada es realizar las inspecciones en un tercio del intervalo P-F. Ejemplo, el intervalo P-F es 2 años entonces esto significa que las inspecciones se deben programar cada:

Fórmula de intervalo de inspección
Fórmula de intervalo de inspección

Si el impacto implica consecuencias de seguridad o ambiente graves y se quiere reducir la probabilidad de ocurrencia, se puede utilizar la siguiente formula:

Fórmula de intervalo de inspección
Fórmula de intervalo de inspección

Donde:

Pacc (Probabilidad aceptable de falla): Este valor se define según la tolerancia al riesgo de la organización y representa la frecuencia aceptable con la que se puede tolerar una falla funcional, considerando que se lleva a cabo la tarea de predictivo propuesta. Por ejemplo, si se puede tolerar que exista una probabilidad de que el modo de falla ocurra una vez cada 1000 años haciendo la actividad, entonces Pacc = 1/1000 = 0.001.

θ (Probabilidad de detección): Este valor se define según la efectividad del mantenimiento predictivo para detectar una falla potencial. Por ejemplo, si la actividad de monitoreo de condición tiene una efectividad del 90%, entonces θ = 0.9. Esto significa que, durante una inspección, hay un 90% de probabilidad de detectar la falla potencial. Si fuese una falla compleja, no necesariamente haciendo el monitoreo de condición se pueda llegar a un 95% probabilidad de detección sino un 80 o 90% de probabilidad de éxito por error humano, u otra razon.

Ejemplo específico:

  • Situación: Una estructura sostenida por 12 pernos. Si 4 pernos se sueltan, la estructura colapsa, con riesgo de muerte o lesiones graves.
  • Intervalo P-F: 2 años.
  • Probabilidad aceptable de falla (Pacc): 0.00001 por año.
  • Probabilidad de detección (θ): 0.90.

Con los valores dados, el intervalo de inspección (I) resulta ser 0.4 años, aproximadamente 5 meses.

La base para el uso de este método está contenida en el Apéndice B del documento NAVAIR 00-25-403 Sección 1.2.1, que trata sobre la metodología para la determinación del intervalo de la tarea según la condición.

El estándar SAE JA1011 afirma: “Cualesquiera que sean las fórmulas matemáticas y estadísticas utilizadas en la aplicación del proceso (especialmente aquellas utilizadas para calcular los intervalos de las tareas), deberán ser lógicamente soportables y estarán a disposición de y serán aprobadas por el propietario o usuario del activo”.

Aumentar la probabilidad de detección (θ) o cambiar la probabilidad aceptable de falla (Pacc) determina el intervalo de inspección.

Gary West. (2016). Reliability Web Magazine “Determinación de intervalo de tareas según condición”
Gary West. (2016). Reliability Web Magazine “Determinación de intervalo de tareas según condición”

Selección de frecuencias para tareas de Mantenimiento Preventivo (Sustitución y Reacondicionamiento)

Selección de frecuencias para tareas de mantenimiento preventivo según SAE JA1011
Selección de frecuencias para tareas de mantenimiento preventivo según SAE JA1011

El mantenimiento preventivo debe realizarse a intervalos justificados ya que de lo contrario estamos cortando la vida de los componentes o estamos gastando más de la cuenta. Adicionalmente, cómo muchas de estas actividades requieren paro programado y en algunas ocasiones el traslado al taller, se invierte una gran cantidad de recursos y a menos que exista un equipo de respaldo, estamos afectando la disponibilidad.

Una regla de pulgar es que si queremos correr demasiado riesgo, podemos programar estas actividades a la mitad del tiempo promedio entre fallas (MTBF).

Consideremos un rodamiento con un MTBF de 4 años. Nos interesa saber cual es la confiabilidad en un intervalo de 2 años (la mitad del MTBF). Entonces para calcular la probabilidad de que el equipo opere los 2 años sin fallar, podemos utilizar la distribución exponencial, que es comúnmente asumida para tiempos entre fallos cuando los fallos son independientes y ocurren a una tasa constante.

Fórmula de distribución exponencial
Fórmula de distribución exponencial

Donde:

T: es el tiempo en el que deseamos calcular la confiabilidad

MTBF: es el tiempo medio entre fallas.

Sustituyendo:

Fórmula de distribución exponencial
Fórmula de distribución exponencial

Entonces si decidimos hacer nuestra tarea de sustitución del rodamiento cada 2 años, tendriamos una confiabilidad del 60.6%, y eso quiere decir que existe una probabilidad del 60.6% de que no se presente ninguna falla en el rodamiento.

Si decidimos hacer la tarea de reemplazo cada año por ejemplo, entonces la confiabilidad aumentaria a 77.8%, y sucesivamente.

Hay que dejar claro que nunca vamos a lograr que la confiabilidad sea 100%, siempre va a existir el riesgo de falla. Ademas hay que considerar que cada incremento en la confiabilidad es más dificil, por ejemplo pasar de 60% a 70% es más facil que de 70 a 80%.

Si hacemos la actividad a intervalos muy cortos, vamos a gastar mucho. Entonces el intervalo seleccionado tiene que brindarnos una probabilidad de éxito aceptable de que no falle manteniendo al mismo tiempo los costos de mantenimiento “controlados”.

Intervalos de mantenimiento
Intervalos de mantenimiento

No todas las fallas se presentan de manera aleatoria, algunas aumentan su probabilidad de falla con la edad y otras disminuyen su probabilidad de falla con la edad. Para evaluar la confiabilidad de modos de falla con patrones de mortalidad infantil o por envejecimiento, debemos usar otro tipo de distribución diferente a la exponencial, como por ejemplo: weibull u otra.

Frecuencia para tareas de búsqueda de falla

Frecuencia para tareas de búsqueda de falla según SAE JA1011
Frecuencia para tareas de búsqueda de falla según SAE JA1011

El mantenimiento proactivo previene fallas, mientras que la búsqueda de fallas permite que el equipo falle brevemente. La búsqueda de fallas solo debe usarse si no hay una tarea proactiva adecuada. Esta actividad consiste en revisar periódicamente si la falla ya se ha presentado.

Una falla oculta es un modo de falla cuyos efectos no se vuelven aparentes para el personal operativo bajo circunstancias normales si el modo de falla ocurre por sí solo. Ocurren de tal manera que nadie sabe que el elemento está en un estado de falla a menos que, o hasta que, ocurra alguna otra falla, lo que sería una falla múltiple.

Las tareas de búsqueda de falla aplican aplican a dispositivos y equipos que tienen funciones de protección y seguridad. Por ejemplo:

  • Un switch de alta temperatura tiene la función (función de protección) de proteger a un equipo como un motor eléctrico que a su vez tiene una función (función protegida).
  • Una bomba contra incendio (función de protección) que actua bajo demanda cuando ocurre un evento de incendio.

Cuando la función de protección no es capaz de ejecutarse bajo la demanda de un evento de falla (como cuando se presenta el incendio, o cuando el motor eléctrico eleva la temperatura de sus devanados y requiere paro), entonces estamos en presencia de una falla múltiple. La probabilidad de que ocurra la falla múltiple siempre existe, sin emabrgo si logramos hacer que la probabilidad sea muy baja como 1 vez cada 1000 o 10000 años, entonces podemos “tolerarla”.

 Tareas de búsqueda de falla
Tareas de búsqueda de falla

La probabilidad de que ocurra una falla múltiple aumenta si dejamos que el dispositivo de protección se encuentre fuera de servicio (indisponible) por ventanas de tiempo considerables. Los factores que determinan la probabilidad de falla múltiple son:

  • La probabilidad de que ocurra el evento que requiere protección (cada cuanto se estima que ocurre). Ejemplo:1 vez cada 1000 años es una probabilidad de 0.001.
  • La probabilidad de falla del dispositivo de protección (que es el inverso del tiempo promedio para falla). Ejemplo: 1 falla cada 8 años es una probabilidad de 0.125.
  • La indisponibilidad del dispositivo de protección (cuanto tiempo permitimos que el dispositivo de protección se encuentre en estado de falla). Ejemplo 6 meses de tiempo fuera de servicio, considerando 8 años de servicio es una indisponibilidad de 5.88%.
Fórmula de indisponibilidad
Fórmula de indisponibilidad

Consideremos un ejemplo donde la probabilidad individual de que el dispositivo de protección falle es de 8 años, y que cuando falla el tiempo máximo que podría permanecer indisponible es de 6 meses ya que esta es la frecuencia de búsqueda de falla que hemos establecido.

Ejemplo de probabilidad individual de falla
Ejemplo de probabilidad individual de falla

Para cálcular la probabilidad de falla múltiple entonces se puede utilizar la siguiente fórmula:

Cálculo de probabilidad de falla múltiple
Cálculo de probabilidad de falla múltiple

Es decir que se espera que ocurra 1 falla cada 170 años (1 / 0.00588). Si esta probabilidad no es tolerable, las opciones que tenemos son: incrementar la frecuencia de busqueda de falla o incrementar el número de dispositivos de protección como respaldo. Por lo general, la mayoría de los dispositivos de protección tienen un TPPF similar, entonces sustituir uno por otro módelo de fabricante no siempre es una alternativa viable.

Muchos dispositivos de protección desde la ingeniería vienen para operar en redundancia:

1 = 1oo2 (One out of Two): Significa que de 2 dispositivos de protección, solo se necesita 1 para asegurar la operación.

1 = 1oo3 (One out of Three): Significa que de 3 dispositivos de protección, solo se necesita 1 para asegurar la operación.

2oo3 (Two out of Three): Significa que de 3 dispositivos de protección, se necesitan 2 para asegurar la operación.

Si se agregan más dispositivos de protección como redundancia la indisponibilidad de la función de protección disminuye. Por ejemplo:

Se tienen 2 dispositivos de protección que tienen una disponibilidad individual del 90% y se requiere solo 1 (1oo2), entonces la disponibilidad del sistema de protección es:

Image

Si tienen 3 dispositivos de protección que tienen una disponibilidad individual del 90% y se requiere solo 1 (1oo3), entonces la disponibilidad del sistema de protección es:

Image

De esta manera la probabilidad de que ocurra una falla múltiple debido a la falta de protección se disminuye en gran medida. Esto tambien permitiria hacer actividades de búsqueda de falla a intervalos mayores.

Consideraciones para justificar un rediseño

Si no se justifica económicamente realizar ninguna actividad y los costos de dejar fallar son demasiado altos, o las consecuencias del fallo son ambientales y/o de seguridad, entonces si se debe considerar el resideño.

La confiabilidad, el diseño y el mantenimiento están inextricablemente vinculados. Esto puede llevar a la tentación de hacer cambios únicos en los sistemas existentes (especialmente modificaciones en el equipo) antes de considerar sus requisitos de mantenimiento. Sin embargo, todos los diagramas de decisión de RCM (Reliability-Centered Maintenance) consideran el mantenimiento antes de los cambios únicos por cuatro razones:

Tiempo de Implementación: La mayoría de las modificaciones tardan de seis meses a tres años desde la concepción hasta la puesta en marcha, dependiendo del costo y la complejidad del nuevo diseño.

Enfoque en el Presente: El personal de mantenimiento que está de servicio hoy tiene que mantener el equipo tal como existe hoy, no lo que debería estar allí o lo que podría estar allí en algún momento en el futuro. Por lo tanto, las realidades de hoy deben abordarse antes de los cambios de diseño del mañana.

Limitaciones Físicas y Económicas: La mayoría de las organizaciones se enfrentan a muchas más oportunidades de mejora de diseño aparentemente deseables de las que son físicamente o económicamente factibles.

Desarrollo y Ejecución: Los cambios únicos son caros. Involucran el costo de desarrollar la nueva idea (diseñar una nueva máquina, elaborar un nuevo procedimiento operativo), el costo de convertir la idea en realidad (fabricar una nueva pieza, comprar una nueva máquina, compilar un nuevo programa de capacitación) y el costo de implementar el cambio (instalar la pieza, llevar a cabo el programa de capacitación).

Costos Indirectos: Se incurren en costos indirectos adicionales si el equipo o las personas tienen que ser retirados del servicio mientras se implementa el cambio.

Incertidumbre en los Resultados: Existe el riesgo de que el cambio no elimine o incluso alivie el problema que se pretende resolver. En algunos casos, puede incluso crear más problemas.

Por todas estas razones, los enfoques de los diagramas de decisión del RCM buscan extraer el rendimiento deseado de cualquier sistema tal como está configurado actualmente antes de intentar cambiar la configuración del sistema.

El enfoque riguroso para el RCM

En una sección previa vimos que para la selección de tareas apropiadas se puede utilizar “diagrama de decisiones del RCM” para dar respuesta a las preguntas 5,6 y 7 de manera sistemática. Esté último sería el método más frecuentemente utilizado debido a su sencillez y carácter “cualitativo”, lo que se traduce en más rápido y económico.

La SAE JA1011 (sección 15.2) también recomienda utilizar un “enfoque riguroso”, que a pesar de ser más exhaustivo, aborda más profundamente el tratamiento de las consecuencias de manera “cuantitativa” o “semi-cuantitativa” al introducir el factor de riesgo.

Para hacerlo, el estandar indica lo siguiente: Se debe separar los fallos evidentes de los fallos ocultos y luego,

Para cada fallo evidente:

  1. Establecer la probabilidad real de que el modo de fallo pueda lesionar o matar a alguien.
  2. Establecer la probabilidad tolerable de que el modo de fallo pueda lesionar o matar a alguien.
  3. Establecer la probabilidad real de que el modo de fallo pueda infringir una norma o regulación ambiental.
  4. Establecer la probabilidad tolerable de que el modo de fallo pueda infringir esa norma o regulación.
  5. Evaluar las consecuencias totales operativas y no operativas del modo de fallo.
  6. Identificar todas las políticas de gestión de fallos que puedan reducir la probabilidad de consecuencias de seguridad o ambientales a un nivel tolerable, en caso de que la probabilidad real supere el nivel tolerable.
  7. Identificar todas las políticas de gestión de fallos que costarían menos que las consecuencias económicas del modo de fallo en un período adecuado.
  8. Seleccionar la política de gestión de fallos más rentable que aborde de manera más efectiva las consecuencias de seguridad/ambientales y económicas del modo de fallo.

Para cada fallo oculto:

  1. Establecer la probabilidad real de que los fallos múltiples asociados puedan lesionar o matar a alguien.
  2. Establecer la probabilidad tolerable de que los fallos múltiples puedan lesionar o matar a alguien.
  3. Establecer la probabilidad real de que los fallos múltiples puedan infringir una norma o regulación ambiental.
  4. Establecer la probabilidad tolerable de que los fallos múltiples puedan infringir esa norma o regulación.
  5. Evaluar las consecuencias totales operativas y no operativas del modo de fallo y de los fallos múltiples asociados.
  6. Identificar todas las políticas de gestión de fallos que puedan reducir la probabilidad de consecuencias de seguridad o ambientales a un nivel tolerable, en caso de que la probabilidad real supere el nivel tolerable.
  7. Identificar todas las políticas de gestión de fallos que costarían menos que las consecuencias económicas combinadas del modo de fallo y los fallos múltiples asociados en un período adecuado.
  8. Seleccionar la política de gestión de fallos más rentable que aborde de manera más efectiva las consecuencias de seguridad/ambientales y económicas del modo de fallo y los fallos múltiples asociados.

La razón por la que se hace énfasis en determinar la probabilidad real (considerando que no se hace hace ninguna actividad para evitar que el modo de falla ocurra) y la probabilidad tolerable, es debido a que incluso si la consecuencia potencial se mantiene constante, el riesgo general asociado disminuye.

La evaluación del riesgo y definiendo la tolerabilidad

Evaluar el riesgo implica considerar que tan probable es que ocurra el evento versus la gravedad de las consecuencias. La combinación de los dos proporciona una medida del riesgo.

Un ejemplo simple sería considerar que un modo de fallo tiene una probabilidad de ocurrencia de 1 vez cada 1000 años, y que de ocurrir podría resultar en la muerte o lesión de hasta 10 lesiones. Entonces el riesgo asociado con este modo de fallo es:

10 personas x (1 en 1000 años) = 10 x 0.001 = 0.1 víctimas cada 1000 años

o lo que es igual: 1 victima cada 100 años

Y nota que estamos expresando el riesgo como cantidad de victimas por tiempo. Sin embargo, si lo que queremos considerar es la gravedad de las consecuencias (impacto ambiental, seguridad y pérdidas conómica), la opción más conveniente sería trabajar con “bandas semi-cuantitativas” y a expresar el riesgo como una “mágnitud”.

Un modo de falla tiene un costo de reparacion de 200.000 USD, no impacta la seguridad ni el ambiente y su frecuencia de ocurrencia es 1 vez cada 10 años. Entonces la magnitud de riesgo se sería:

Mag. del riesgo (MR) = Frec x (Daño personal + Daño ambiental + Pérdida económica)

Magnitud del riesgo (MR) = 3 x (1 + 1 + 3) = 15

Ejemplo de tablas de mágnitud de las consecuencias
Ejemplo de tablas de mágnitud de las consecuencias

El valor de la magnitud de riesgo no tiene sentido si no se cuenta con una política de gestión de riesgo que defina cuándo un riesgo es tolerable o no. Cada empresa debe desarrollar su propia filosofía de gestión de riesgos, adaptada a su contexto específico. Esta filosofía debe considerar factores económicos, ambientales y de seguridad propios de la empresa. Por ejemplo, la pérdida de $500,000 por la parada de una planta compresora de gas no es equivalente a la misma pérdida en una embotelladora. Asimismo, un derrame petrolero tiene implicaciones diferentes a la contaminación del producto en una fábrica de cervezas.

Tabla de jerarquización de riesgos
Tabla de jerarquización de riesgos

Las tablas de jerarquización de riesgos que hemos utilizado tienen fines educativos y no pertenecen a ningún estándar específico. Es importante aclarar que la norma SAE JA 1011 / 12 no proporciona una matriz de evaluación de riesgos ni ofrece criterios cuantitativos para hacerlo. La evaluación y gestión del riesgo dependen de cada empresa y su capacidad para desarrollar una filosofía propia adaptada a su contexto.

Incorporación del RPN en el Análisis RCM para la Priorización de Modos de Falla

Las primeras cuatro preguntas del RCM están diseñadas para identificar y evaluar los modos de falla:

  1. ¿Qué está diseñado para hacer el sistema en su contexto operacional?
  2. ¿De qué maneras puede fallar para cumplir con sus funciones?
  3. ¿Qué causa cada falla funcional?
  4. ¿Qué sucede cuando ocurre cada falla?

Estas preguntas constituyen, en esencia, un análisis FMEA, ya que identifican los modos de falla, sus causas y efectos. Al incorporar el RPN en este proceso, transformamos el análisis en un Análisis de Modos de Falla, Efectos y Criticidad (FMECA), añadiendo una dimensión cuantitativa para priorizar los riesgos que sería el “RPN”. Un valor alto de RPN indica que el modo de falla es crítico, y uno bajo que no es crítico.

El RPN se calcula multiplicando tres factores fundamentales:

Fórmula de RPN
Fórmula de RPN

Severidad (S): Representa la gravedad del efecto de un fallo si ocurre. Se evalúa en una escala del 1 al 10, donde 1 indica un efecto insignificante y 10 un efecto catastrófico.

Probabilidad (P): Indica la probabilidad de que ocurra el fallo. También se evalúa en una escala del 1 al 10, donde 1 representa una probabilidad muy baja y 10 una probabilidad muy alta.

Detectabilidad (D): Mide la capacidad de detectar el fallo antes de que ocurra el efecto. Se evalúa en una escala del 1 al 10, donde 1 significa que el fallo es muy fácilmente detectable y 10 que es muy difícil de detectar.

Tabla de RPN
Tabla de RPN

En conclusión, priorizar los modos de falla permite identificar y enfocar los esfuerzos en los modos de falla más críticos mediante la inclusión de un criterio cuantitativo para la toma de decisiones sobre acciones correctivas. Cabe destacar que incluir el RPN no es obligatorio y dependera del tipo de análisis que desee realizar el ENT.

Dinos qué te ha parecido el artículo

starstarstarstarstar