sábado, 31 de enero de 2015

¿Porqué los soportes de hardware 24x7 con atención en 4 horas ya no son requeridos?




Artículo original en inglés: http://bit.ly/1E8zszR
Publicado por: Josh Odgers


Disclaimer: Lo siguiente es mi interpretación personal, no es una traducción exhaustiva del texto original. Algunas palabras o frases pueden no ser exactas, pero el mensaje final se ha pretendido mantener intacto.

En semanas recientes, he visto numeros RFQ/TDR que tienen requerimientos de soporte 24x7x2 o 24x7x4 con reemplazo de partes en sitio, y aunque esto no es raro, he estado pensando ¿porqué se hace esto?


A lo largo de mi carrera de TI, que abarca mas de 15 años, en la mayoría de los casos yo mismo he recomendado en mis diseños, que el cliente adquiera contratos de soporte de tipo 7x24 con atención de 4 horas en sitio, para equipos de cómputo, almacenamiento, SAN y dispositivos de red en general.


Nunca he encontrado dificultad para justificar esta recomendación, porque tradicionalmente si un componente en el Centro de Datos falla, como por ejemplo una controladora del almacenamiento, esto generalmente tiene un alto impacto en el negocio del cliente, y cuesta decenas o centenas de miles de dólares o incluso millones, dependiendo del tamaño del cliente.


La avería de una controladora de arreglos no solo genera un alto impacto, sino también un alto riesgo para el entorno, ya que no tendrá redundancia y una falla posterior podría (con mucha posibilidad) resultar en una caída completa


Así en este ejemplo, en donde una típica solución de almacenamiento que tiene una falla en una de sus controladoras, resulta en una degradación del rendimiento (pierde el 50% de su capacidad de procesamiento) y un alto impacto/riesgo en el cliente, el poseer el soporte 24x7x4 o 24x7x2 tiene sentido!


La pregunta es, porqué elegir una solución de HW en donde la falla de uno de sus componentes lo pone en alto riesgo?


Con lo rápido que cambia la tecnología cada año, he estado envuelto en muchas reuniones con clientes qué me han preguntado qué recomiendo en términos de soporte para el HW (para clientes Nutanix).


Normalmente estas preguntas/conversaciones ocurren después de la discusión sobre la tecnología, en donde explico varios escenarios de falla y cuán resielente es un cluster de Nutanix.


Mi recomendación será algo como esto:

Si usted arquitecta su solución para el nivel de disponibilidad deseado (p.e. N+2) no hay necesidad de contratar un contrato de soporte de hardware 24x7x4h, la opción de soporte tipo Siguiente Día Hábil (8x5xNBD) aplica perfectamente bien.

Justificación:


1. En el evento de incluso la falla de un nodo completo, el cluster Nutanix va automáticamente a "auto-repararse" con el factor de resiliencia (2 o 3) configurado, incluso antes de que un contrato con atención de 2 horas pueda proveer un técnico en sitio, diagnosticar y reemplazar el componente.


2. Asumiendo que el componente de HW se reemplaza en el plazo de 2 horas (lo cual no es usual en mi experiencia), Y ADEMÁS asumiendo que Nutanix no se "auto curó" automáticamente previo al reemplazo del disco/nodo, el disco/nodo reemplazado empezará en ese momento el proceso de "auto-curado". Es así que el tiempo de recuperación o regeneración va a ser superior a 2 horas. En el caso de Nutanix, el "auto-curado" inicia casi inmediatamente.


3. Si un cluster está dimensionado con el nivel de disponibilidad requerido en función de la necesidad del negocio, p.e. N+2, un nodo puede fallar, Nutanix automáticamente va al auto-curarse y entonces tolerar una falla subsecuente con la habilidad de nuevamente "auto- curarse" con el factor de resiliencia configurado nuevamente (2 o 3).


4. Si un cluster está dimensionado para un cliente solo con N+1, un Nodo puede fallar, y Nutanix automáticamente a auto-curarse; Entonces si, en el poco probable (pero no imposible) evento de una fallo subsecuente (p.e. el fallo del 2do nodo antes del reemplazo del HW con problemas), el Cluster Nutanix se va a mantener operando.


5. El impacto en el rendimiento de la falla de un nodo, en un entorno Nutanix N+1, es en el peor de los casos (cluster de 3 nodos), sería del 33%, que comparado con un entorno SAN/NAS de 2 contraladoras, en donde el impacto de la falla de una de ellas representa el 50%; en un cluser de 4 nodos, el impacto es solo del 25%, y en clientes con 8 nodos es del 12,5%. Mientras mas grande el cluster es menor el impacto.


Nutanix recomienda N+1 con hasta 16 nodos, y N+2 con hasta 32 nodos.Mas allá de 32 nodos mayores niveles de disponibilidad pueden se requeridos, basado en las necesidades del cliente.


El riesgo e impacto de los escenarios de fallas es clave, el caso de Nutanix, por su capacidad de auto-reparado, y el hecho de que todas las controladoras y SSDs/HDDs en el cluster participan en este proceso, y hace que pueda ser realizado rápidamente y con bajo impacto. Es así que el impacto de una falla es bajo (N-1) y la recuperación es hecha rápidamente y el riesgo para el negocio es bajo, por tanto se reduce drásticamente (e incluso es prescindible, en mi opinión) la necesidad de un soporte tipo 24x7x2hr para los clientes Nutanix.


En resumen:

1. La decisión de qué tipo de contrato de soporte de HW es el más apropiado es una decisión que depende del negocio, y debe estar basada en parte en un sesudo análisis de riesgos realizado por un experimentado arquitecto, que debe estar muy familiarizado con toda la tecnología que se va a utilizar.


2. Si la recomendación del arquitecto es que el riesgo de una falla en el HW puede causar un alto impacto o incluso una pérdida de operación para el negocio, tal que se requiera un contrato 24x7x2hr, entonces mi consejo es que se re-considere si la "solución" propuesta cumple con los requerimiento del negocio. Solo si no tiene otra opción, compre el soporte 24x7x4hr ó 24x7x2hr.


3. Tener una alta dependencia de que el HW sea reemplazado para restaurar la resiliencia y/o rendimiento de una solución, es por si mismo un alto riesgo para el negocio.


Y además,

4. En mi experiencia, no es poco común tener problemas obteniendo el soporte de HW en sitio dentro del término del contrato o SLA. A veces esto escapa del control del fabricante, pero la mayoría de fabricantes experimentan uno o mas de estos problemas que personalmente he experimentado en numerosas ocasiones en otros roles, como:

a) Vendor falla en complir el SLA por soporte en sitio

b) Vendor falla el tener la parte requerida disponible dentro del SLA

c) El reemplazo de HW es con parte re-acondicionadas (práctica común) y que han fallado antes


Nota: los contratos de soporte no prometen una resolución dentro del período de 2 o 4 horas, simplemente prometen que alguien va a ir al sitio, y en algunos casos será después de haber llevado un proceso telefónico de detección de problemas con el fabricante, envío de logs para análisis, etc. Por eso es que, las 2 o 4 horas de atención no agregan mucho valor.


Así que en su próxima compra de infraestructura (o cuando hagan recomendaciones, si usted es un arquitecto), considere cuidadosamente qué tipo de solución elije (o propone), y su siente que es mandatorio un contrato de soporte en HW tipo 2hr/4hr, le recomiendo re-evaluar el requerimiento de lo que usted esta adquiriendo (o recomendando), porque puede que no sea lo suficientemente confiable para cumplir la exigencia requerida.


Food for thought