Cómo evitar que se dañen los datos ante un corte - APC Media

Cómo evitar que se
dañen los datos ante
un corte prolongado
en el suministro
eléctrico
Por Ted Ives
Informe interno N° 10
Revisión 1
Resumen ejecutivo
A pesar de los avances en la tecnología informática, las interrupciones en el suministro
eléctrico siguen siendo una de las principales causas del tiempo de inactividad de
computadoras personales y servidores. La protección de los sistemas informáticos con
hardware para sistema de energía ininterrumpible (UPS) es solo parte de la solución total.
También se necesita contar con software de administración de energía para evitar que se
dañen los datos tras cortes prolongados del suministro. Analizaremos diversas
configuraciones de software y presentaremos las mejores prácticas para garantizar el tiempo
productivo.
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
2
Información de referencia
Un corte prolongado en el suministro de energía puede ocurrir en cualquier momento y puede evitar que
las computadoras que no están protegidas inicien el proceso de cierre necesario. Los sistemas operativos
de computadoras personales y servidores no están diseñados para tolerar cortes abruptos en el
suministro de energía, es decir la “desconexión total” del sistema, sino que se basan en una serie de
procesos integrados que preparan la computadora para el cierre, como guardar la información de la
memoria, detener las aplicaciones y servicios, etcétera. Es común referirse a este tipo de cierre del
sistema como “cierre sin inconvenientes”. La desconexión total, por su parte, puede causar la pérdida o
alteración de los datos y un mayor tiempo de recuperación una vez que se reanuda el suministro.
Un sistema de energía ininterrumpible (UPS) puede proteger al sistema de los daños causados por
problemas en la alimentación y aumentar la disponibilidad de los servidores al permitir que los usuarios
sigan trabajando sin interrupciones durante cortes breves en el suministro. Si el sistema está equipado
con software de comunicación con la UPS, el software puede cerrar el sistema operativo en forma
automática y sin inconvenientes antes de que se agote la batería de la UPS durante un corte prolongado en
el suministro, es decir, cualquier corte que dure más que la autonomía de la UPS.
Introducción
Existen muchos motivos por los cuales puede haber interrupciones prolongadas en el suministro eléctrico,
desde una falla en un transformador local causada por un rayo hasta la caída de una red de distribución en
la zona. Deben tomarse recaudos para proteger los sistemas informáticos y los datos que e stos
almacenan de los efectos dañinos de la desconexión total del sistema. Una de las causas de la posible
alteración de datos en caso de una interrupción prolongada en el suministro eléctrico es el cierre irregular
de aplicaciones o del sistema operativo mientras se manipulan datos. Esto puede afectar documentos,
estructuras de sistemas de archivos clave (como las tablas FAT) o datos dinámicos de aplicaciones. En
muchos casos, también puede significar un mayor tiempo de recuperación cuando se reanuda el
suministro, durante el cual el sistem a operativo o la aplicación intentan reconstruir las tablas dañadas,
etcétera.
Otro elemento que debe tenerse en cuenta es el disco duro de las computadoras. Aunque durante la última
década la industria progresó en lo que se refiere a la tecnología de los discos duros a la hora de evitar los
“contactos de cabezal” (en los cuales los cabeza les de lectura/escritura del disco duro podían dañar la
superficie del disco si no se lo "detenía" correctamente), otro avance en esta tecnología en realidad
contribuyó a que se incrementaran las probabilidades de daños en los datos. Para lograr niveles elevados
de rendimiento, los controladores de discos duros suelen diseñarse de forma tal que se aprovechen las
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
3
técnicas de memoria cache, mediante las cuales se guarda información en la memoria temporalmente
para luego guardar los datos en el disco. En caso de un corte en el suministro eléctrico, la información de
la memoria cache se pierde, y esto puede conducir a que se dañen archivos o datos.
No es necesario hacer una búsqueda exhaustiva en las publicaciones corporativas y oficiales para ver que,
a pesar de los avances tecnológicos, el daño de datos debido a interrupciones en el suministro e léctrico
sigue siendo un problema de conocimiento generalizado en la industria informática. Las siguientes citas
de la industria hacen hincapié en ese punto:
“Incluso una interrupción de un instante puede tener efectos devastadores para los clientes que
dependen del suministro de energía, como los proveedores de servicios de Internet, los centros de
datos, las redes de telecomunicaciones inalámbricas, las empresas de comercio online, los
fabricantes de chips para computadoras y los centros de investigación médica. Para esos clientes, las
interrupciones en el suministro de energía pueden dar como resultado datos dañados, tableros de
circuitos quemados, componentes y archivos dañados, y la pérdida de clientes”.
- Electrical Power Interruption Cost Estimates for Individual Industries, Sectors, and U.S. Economy.
Secretaría de Energía de los EE.UU., Oficina de Tecnologías Energéticas, febrero de 2002
“Por lo general, las fallas en el arranque tras una interrupción en el suministro eléctrico se deben a
que se dañaron archivos o el disco duro, y la Última configuración válida conocida no puede hacer
nada al respecto".
- MCSE Microsoft® Windows® XP Professional Readiness Review
Examen 70-270, Sección 70-270.04.03.002, 28/11/2001
“Los cortes generales, o apagones, implican la pérdida total del suminis tro eléctrico que alimenta los
equipos integrados en red o informáticos (...) Estos cortes pueden ocasionar la caída del sistema o de
la red, bloqueos de computadoras y el daño o pérdida de datos valiosos en los servidores o las
estaciones de trabajo”.
- “Power Protection Basics”, revista Contingency Planning Management, marzo de 2002
"Una interrupción en el suministro de energía puede dañar el sistema y los datos que este maneja...
Una UPS puede proteger el sistema si se interrumpe el suministro. Una UPS suele brindar (...) un
suministro de energía temporal que puede ser suficiente para cerrar los sistemas sin inconvenientes”.
- Publicación Especial 800-34, Contingency Planning Guide for Information Technology Systems.
Instituto Nacional de Estándares y Tecnología, junio de 2002
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
4
Configuraciones recomendadas para software de UPS
Configuración 1: Protección de una computadora con una UPS
En esta configuración, cada computadora tiene el respaldo de su propia UPS. La UPS se comunica con la
computadora por medio de un cable serial o USB. Se instala el software para UPS en la computadora, lo
que permite cerrar el sistema e n forma automática y sin inconvenientes ante un corte prolongado en el
suministro de energía. En este caso, se administra la UPS en forma local por medio de la computadora a
la cual se conecta. Esta es la configuración más sencilla y se la implementa mucho en servidores y
estaciones de trabajo.
Figura 1 – Protección de una computadora con una UPS
Servidor con
software para UPS
Consola de
administración
UPS
Energía
Comunicación serial o USB
Configuración 2: Protección de dos o tres computadoras con una UPS
En esta configuración se conectan varias computadoras a una UPS más grande (por lo general, de 1500
VA o más). Una computadora se conecta directamente al puerto serial de la UPS y las otras dos se
conectan a una tarjeta de expansión, que se instala en la UPS para brindarle dos puertos seriales
adicionales. En este caso, las tres computadoras podrán hacer un cierre sin inconvenientes, pero se
administrará la UPS desde la computadora a la cual esta está conectada en forma directa. Tenga en
cuenta que, dado que el estándar USB solamente permite la comunicación con un único sistema, no se
pueden utilizar conexiones USB en esta configuración. Aunque este esquema se puede ampliar para
contemplar hasta 24 computadoras (por medio de encadenamiento), APC no recomienda este enfoque
porque requiere de cableado adicional.
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
5
Figura 2 – Protección de dos o tres computadoras con una UPS
Servidores con software
para UPS
Tarjeta de
expansión
Consola
de administración
UPS con bahía de expansión
integrada
Energía
Comunicación serial o USB
Configuración 3: Protección de tres computadoras o más con una UPS
Un enfoque cada vez más popular consiste en administrar la UPS directamente a través de una red
Ethernet. Si se instala una tarjeta de gestión de redes (con sistema operativo en tiempo real y un chip de
vigilancia [watchdog] de hardware) en la UPS, ya no se necesita la administración desde el servidor. Un
ejemplo de este tipo de configuración es la arquitectura InfraStruXure de APC, que aplica ese enfoque. El
software instalado en las computadoras que se utilizan en esta configuración solo debe incluir la
funcionalidad de cierre, ya que las capacidades de administración están integradas en la propia UPS.
Figura 3 – Protección de tres computadoras o más con una UPS
Servidores con software UPS
para
Consola de
administración
tarjeta de gestión
de redes
UPS con bahía de expansión
integrada
Energía
Red
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
6
Diferentes tipos de cierre de sistemas operativos
Los sistemas operativos modernos, como Microsoft Windows®, cada vez incluyen enfoques más
avanzados en lo que se refiere a administración de energía, entre los que se cuentan nuevos métodos de
cierre. Aunque estos avances se deben, en gran medida, a los requerimientos de los usuarios de
computadoras portátiles, seleccionar el método de cierre adecuado para utilizar con el software para UPS
puede disminuir el tiempo de recuperación tras un corte prolongado en el suministro de energía.
Cierre
Este es el método tradicional en el cual el sistema operativo de la computadora recibe una instrucción de
cierre del software de cierre de la UPS y comienza a suprimir los procesos activos para luego cerrarse. En
un sistema Windows®, p or ejemplo, este proceso hace que, en cierto momento, la computadora muestre
un mensaje que dice “Ahora puede apagar el equipo".
Cierre y “apagado”
Este método es similar al que recién mencionamos, pero en este caso, al final del proceso el sistema
operativo le ordena a la computadora que se apague y esta pasa a un estado en el que deja de tomar
energía. Este puede ser un buen enfoque para la Configuración 2; una computadora puede cerrarse y
apagarse para aumentar la autonomía de las computadoras restantes (este enfoque se conoce como
“desconexión de cargas”). La capacidad de cierre y “apagado” a veces requiere de un cambio en la
configuración de la BIOS para permitir que la función de “apagado” se lleve a cabo.
Hibernación
El proceso de hibernación (como el que se encuentra, por ejemplo, en los últimos sistemas operativos
Windows® de Microsoft) es similar a los procesos descritos anteriormente, pero con el agregado de
algunos valiosos pasos adicionales.
1.
Primero se guarda el estado del escritorio de la computadora, con todos los archivos y
documentos abiertos. Esto se logra al guardar toda la RAM en un archivo grande del disco duro.
2.
Luego se cierra y apaga el sistema.
3.
Cuando se reanuda el suministro de energía y el sistema se reinicia, la RAM vuelve a cargarse
desde el disco duro.
4.
El escritorio y todos los archivos y aplicaciones abiertos aparecen tal como estaban antes de que
ocurriera el proceso de hibernación.
Esto presenta importantes ventajas respecto de los otros métodos, ya que preserva el trabajo que se
estaba realizando y el estado del equipo antes del cierre. Por estos motivos, APC les recomienda
enfáticamente a sus clientes que seleccionen este método de cierre para el software de sus sistemas
UPS.
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
7
Modo standby
Cuando una computadora entra en modo "standby", no se apaga por completo, sino que queda en un
estado de bajo consumo en el que ciertos componentes (monitor, circuitos integrados de E/S, etcétera) se
apagan. La memoria DRAM se sigue actualizando, etcétera, y cuando la computadora sale del modo
"standby", por lo general, vuelve al estado anterior muy rápidamente. Si se elige una configuración standby
para la computadora, es importante asegurarse de que la UPS que se utilice pueda "despertar" al sistema
en caso de una interrupción prolongada en el suministro, para así poder iniciar un cierre sin
inconvenientes. De lo contrario, el sistema puede permanecer en el modo standby hasta que la UPS se
haya agotado por completo y el suministro al sistema se interrumpa (desconexión total).
Mejores prácticas
√ Comprar una UPS que admita la incorporación de autonomía extendida y/o un generador
La cantidad de datos estandarizados sobre la confiabilidad de la alimentación de CA es limitada. Sin
embargo, existen dos encuestas significativas en lo que se refiere a la confiabilidad de la alimentación de
CA en los Estados Unidos, una realizada por AT&T Bell Labs y otra, por IBM. Además, American Power
Conversion tiene experiencia en el tema, ya que instaló cerca de 8 millones de sistemas UPS, muchos de
los cuales pueden guardar registros de los inconvenientes en el suministro. Los datos obtenidos en las
encuestas realizadas en los Estados Unidos concuerdan con la experiencia de APC y revelan los
siguientes aspectos esenciales:
En promedio, 15 cortes en el suministro de energía por año son suficientes para que falle el sistema
informático en una instalación típica:
•
El 90% de los cortes dura menos de 5 minutos (a la inversa, el 10% dura más d e 5 minutos)
•
El 99% de los cortes dura menos de 1 hora (a la inversa, el 1% dura más de 1 hora)
•
La duración total acumulada de los cortes es de aproximadamente 100 minutos por año
Esta información es sumamente variable de instalación a instalación. En algunas regiones geográficas de
los Estados Unidos, como Florida, la tasa de cortes en el suministro es diez veces mayor. Los problemas
relacionados con la construcción de cada establecimiento pueden hacer que esta tasa sea incluso hasta 3
órdenes de magnitud (1000 veces) mayor. Se considera que estos datos también son representativos de
Japón y Europa occidental.
Dado que el 10% de los cortes en el suministro dura más de 5 minutos y que el 1% dura más de una hora,
se debe considerar seriamente la com pra de una UPS que admita la incorporación de autonomía
extendida y/o un generador cuando el costo del tiempo de inactividad es elevado.
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
8
√ Proteger los equipos de la red con sistemas UPS
Las aplicaciones están disponibles cuando la red por la que se accede a ellas también lo está. La
protección de energía para hubs, routers y switches es un aspecto esencial, pero a veces se lo pasa por
alto al implementar métodos para garantizar la disponibilidad de las aplicaciones . Además, si las
computadoras tienen el software de cierre de la UPS, como en la Configuración 3, este requiere que la red
esté en funcionamiento durante la interrupción en el suministro de energía para que pueda establecerse
correctamente la comunicación. Si la red está desprotegida, no se puede realizar el cierre sin
inconvenientes de la computadora.
√ Contemplar el tiempo que cada servidor necesita para realizar el cierre
El tiempo que se necesita para el cierre adecuado del sistema operativo varía de acuerdo con el sistema;
se sabe que, por ejemplo, algunos servidores de correo electrónico con muchas cuentas tardan hasta 20
minutos en cerrarse. Asegúrese de que las configuraciones del software de la UPS contemplen los
requisitos específicos de cada computadora y sean adecuadas.
Conclusión
Si no se instaló el software de cierre en la computadora que se quiere proteger, la UPS solo demorará lo
inevitable. Independientemente de la configuración, las mejores prácticas y el software para UPS que se
utilicen, APC recomienda enfáticamente que los clientes no pasen por alto este requisito, ya que el
pequeño esfuerzo que requiera la instalación y configuración de ese software puede valer la pena en caso
de una interrupción prolongada en el suministro que supere el tiempo de autonomía de la UPS.
Referencias
“Monitoring of Computer Installations for power line disturbances”, Allen y Segall, IBM, Conferencia de
Invierno de IEEE PES, 1974
Estudio llevado a cabo entre 1969 y 1970 por medio de 38 monitoreos de datos de un mes de
duración
“The Quality of US Commercial AC Power”, Goldstein y Speranza, ATT Bell Labs, Conferencia
Intellec, 1982
Estudio llevado a cabo entre 1977 y 1979 en 24 instalaciones de los Estados Unidos
“Power Quality Site Surveys: Facts, Fiction, and Fallacies”, Martzloff, IEEE Transactions on Industry
Applications, volumen 24, Nº 6
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
9
Acerca del autor:
Ted Ives es el Gerente de la Línea de Productos para la Administración de Dispositivos de APC en West
Kingston y está a cargo de las tarjetas de gestión de redes y el software PowerChute de APC.
2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado,
transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-1
10