Blanco Portillo, Marianela
Mblanco@ITTACA.com
Universidad Rafael Belloso Chacín. Venezuela.
El propósito de esta investigación fue elaborar una propuesta para el diseño de Sistemas de Alta Disponibilidad para Petróleos de Venezuela, S.A. El estudio ameritó diagnosticar la plataforma tecnológica con la que actualmente cuenta la organización. El estudio realizado permitió determinar las debilidades y fortalezas de la empresa, utilizándose estos resultados como base para la propuesta. Este estudio se guió por una metodología de trabajo donde se definieron y analizaron las dimensiones e indicadores de la variable objeto de estudio, Alta Disponibilidad. Se utilizó una población de seis (6) expertos del área de Servidores. Se aplicó una encuesta que le permitió al investigador establecer el diagnóstico de las cuatro dimensiones consideradas en este estudio, Operabilidad Continua, Fiabilidad, Capacidad de Recuperación y Negocios. La propuesta consistió principalmente en la adecuación de la infraestructura actual para mantener operables las aplicaciones críticas de la organización. Se logró definir claramente las actividades a realizar por el personal de la empresa que presta sus servicios a PDVSA y las adquisiciones de hardware y software indispensables para iniciar con un proyecto de este tipo.
Palabras clave: Inoperabilidad, Operabilidad, Fiabilidad, Capacidad de Recuperación, SAN.
The purpose of this investigation was to establish a proposal for the
design of High Availability Programs for Petróleos de Venezuela S.A. The
study required a diagnostic of the actual technological platform of the
organization. The study allowed determinated of the weaknesses and
strengths of the company and the results obtained were used as the base of
the outlined proposal. This study was guided by a work methodology in which
the dimensions and variable indicators studied, High Availability, were defined
and analyzed. If used a population of six (6) experts was used in the Servers
area. A survey was applied which allowed the researcher to establish a
diagnostic for the four dimensions considered in this study: Continuous
Operation, Trustworthiness, Recuperation Capability and Business. The
proposal consisted mainly in the accommodation of the present infrastructure
to maintain in operation the critical applications of the organization. The
activities that were to be carried out by the company personnel, which
renders its service to PDVSA were clearly defined, as was the acquisition of
the indispensable hardware and software needed to initiate such a project.
Keywords: Inoperative, Operative, Trustworthiness, Recuperation Capability, SAN.
En la actualidad un factor clave para el éxito de las empresas es el
contar siempre con las aplicaciones que apoyan sus operaciones principales,
pues la falta de disponibilidad de las mismas puede repercutir en costos,
tiempos, esfuerzos y por supuestos en la confianza e insatisfacción de sus
clientes.
En este sentido se ofrece una propuesta de diseño para sistemas de
alta disponibilidad para la empresa petrolera, en base al estudio de las
diferentes y principales alternativas tecnológicas existentes en el mercado.
Martin (1999, p.107) define la disponibilidad como “la cantidad o
porcentaje de tiempo que un sistema se encuentra disponible para la
realización de una determinada misión” . Sin embargo algunos autores
consideran que no es solo un problema de aplicación sino del entorno que se
afecta al no contar con el mismo, por ejemplo para Farley, Stearns y Hsu
(1999, p.215) Los sistemas de Alta disponibilidad se deben entender como
”sistemas que permiten a las aplicaciones seguir operando a pesar que el
hardware o software falle. Estos sistemas deben proteger a los usuarios de
fallos de software así como de fallas presentes en las unidades de
procesamiento, disco o en los componentes de red”. Por lo que es razonable
pensar que de ser posible eliminar los principales puntos o causas de falla en
cualquiera de estos aspectos (software, hardware, red) mayores serán las
probabilidades de contar con la disponibilidad de los sistemas críticos de la
organización, más aun si se implantan componentes redundantes o
tolerantes a fallos quienes junto a una alternativa de software puedan entrar
en funcionamiento y asumir la responsabilidad en el caso que un
componente falle.
Ahora bien, si bien es cierto que la redundancia asegura un alto grado
de la disponibilidad de los sistemas, también es cierto que debido a los altos
costos en los que se incurriría por la duplicación de cada una de las partes
sería conveniente primeramente definir los requerimientos de disponibilidad,
el tiempo tolerante a fallos ó los períodos de inoperabilidad aceptados.
Una vez identificadas realmente la criticidad de las aplicaciones y
conocidos los niveles de tolerancia permitido, ya entonces se puede pensar
en la corrección de puntos de fallo y en la redundancia de componentes.
En este sentido, es necesario mencionar todos aquellos puntos de
fallos en los cuales se debe centrar la atención.
Falla de las Unidades de sistemas de Procesamiento (SPU): El SPU
consiste en un grupo de elementos, cada uno de los cuales es propenso a
fallar provocando la perdida del servicio. Entre los más importantes de este
grupo cabe la pena mencionar:
La unidad central de procesamiento, Los controladores de entrada y
salida y la Tarjeta Principal.
Para eliminar los downtime asociados a la falla de estos componentes,
se puede optar por el uso de una tecnología cluster, la cual permite reparar
o reemplazar los mismos sin tener perdida en el sistema. En lo que respecta
particularmente a los fallos en la unidad central de procesamiento se podría
quizás pensar en un esquema de multiprocesamiento simétrico,
Como otro punto de falla sobre el cual hay que centrar la atención es la
falla en la red de área local (LAN). Las fallas en la red pueden ocurrir ya sea
por el tipo de conexión utilizada, por las tarjetas de interfaz, por los routers,
concentradores o incluso por las velocidades de transferencias utilizadas en
la misma. Este tipo de problemas puede eliminarse bien sea proporcionando
una redundancia total en las conexiones o configurando el switching de las
tarjetas de interfaz.
Otro punto de fallo de interés radica en los subsistemas de
almacenamiento, en este caso podría pensarse en la técnica de espejos,
donde hay dos unidades independientes para cada disco de datos, siendo la
unidad principal la encargada de manejar las peticiones de los usuarios y
utilizándose la segunda unidad como un disco imagen de la primera, es
decir, en este esquema los dos componentes realizan exactamente el mismo
trabajo de forma entrelazada, teniéndose de esta manera dos sistemas
equivalentes, de forma tal que si uno de ellos falla el otro continua
trabajando.
Como otra alternativa podría ser la duplexación de discos o
duplicación como también se le conoce, quien virtualmente opera de la
misma manera que la técnica de espejo, excepto que añade un nuevo
controlador, de allí que el rendimiento se incremente debido a la menor
contención que ocurre en el bus de entrada y salida.
En lo que respecta a fallos por los subsistemas de almacenamiento,
hoy día se cuenta con una serie de sistemas o metodologías de
combinación de discos, conocidas como Arreglos de Discos Redundantes
(RAID) que son mas que ”un grupo de discos en los cuales se almacenan
además de la información normal una serie de información redundante que
permite, que en el caso que alguno de los discos falle, la información pueda
regenerarse de forma automática”. Palmer (2000, p. 289)
Este esquema puede ser implementado en diferentes formas
dependiendo de la distribución que se haga en el disco, del tipo de
rendimiento y del coste.
El método RAID nivel 0 fue el primero que apareció. En realidad este
nivel RAID no incorpora tolerancia a fallos, por lo que un fallo en alguno de
sus dispositivos provoca la perdida de la información almacenada en todas
las unidades. Este esquema a pesar de no ofrecer tolerancia es considerado,
por ser el primer método que apareció para la conjunción de varios discos
en una única partición.
Un RAID de nivel 1 son discos en espejos, de esta forma se tiene
duplicada la información en dos discos distintos, de manera que si uno de
ellos falla, se continúa trabajando con el otro, sin por ello perder ni eficiencia
en el servidor ni por supuesto la información. Este esquema consigue una
fiabilidad en el sistema muy mejorada ya que aunque fallaran ambos discos
simultáneamente (situación poco probable) se ahorraría tiempo de
recuperación, adicionalmente las operaciones de lectura de un disco que
forma parte de un espejo son más rápidas, ya que la lectura puede realizarse
de forma simultanea en ambos discos. Sin embargo, en términos de
almacenamiento solo se cuenta con el 50% de la capacidad total del disco,
en operaciones de escritura se afecta el rendimiento ya que la información
debe guardarse en dos sitios y en términos monetarios los costos de este
esquema son sumamente elevados.
El RAID 5, método de tolerancia a fallos más utilizado en la actualidad,
tiene la capacidad de acceder a tantos discos como necesite al mismo
tiempo pero en peticiones independientes, por lo que su tasa de entrada y
salida es mucho mayor si se compara con los esquemas predecesores. En
este esquema la información se reparte a nivel de bloque e incluso de
registro. Aquí desaparece la necesidad de un disco de paridad, sin embargo
su implementación requiere el manejo de un mínimo de 3 discos. En este
esquema uno de los discos conocido como Spare es usado como backup de
todos los volúmenes raid que han sido configurados en el arreglo, de forma
que si cualquiera de los volúmenes falla, el spare es utilizado para
restablecer la información.
Entre las principales ventajas que este esquema ofrece se pueden
mencionar: Mejor utilización del disco, buena velocidad de lectura y
disminución significativa de los costos. Sin embargo y a pesar de ser un muy
buen esquema para el manejo de tolerancia a fallos, este esquema tiene
como punto en contra, el bajo rendimiento que presenta para las operaciones
de escritura.
Adicional a todos los esquemas raid ya mencionados, también se
cuenta con los arreglos de discos EMC o arreglos simétricos que permiten
conexiones desde el mismo disco de datos a múltiples nodos del clusters a
través de diferentes buses.
El RAID, originó una nueva técnica conocida como intercambio en
caliente, que no es mas que la capacidad de sacar o introducir discos,
mientras este continua funcionando y suministrando entradas y salidas al
sistema al que está conectado. Por supuesto, esto requiere un diseño que
permita manejar las sobrecargas de energía y las interrupciones que se
producen en el bus interno de entrada y salida como resultado de las
extracciones o inserciones realizadas. En este ámbito se cuenta con una
técnica en particular conocida como Disk Storage Enclosure, quien permite
realizar un intercambio en caliente de los discos espejos, sin perder el
servicio, mientras el sistema operativo continua corriendo y el dispositivo
funcionando.
Como se ve existe una extensa variedad de alternativas de hardware
para ofrecer alta disponibilidad de las aplicaciones, cada una de las cuales
se adapta a un escenario en particular. Sin embargo como un esquema
general, que actualmente asegura la alta disponibilidad, donde actualmente
se enmarcan la mayoría de las soluciones y que quizás es el esquema mas
implementado es la tecnología clusters, definida por Weygant (2000 p.73)
como un “grupo de servidores que poseen suficiente redundancia de
software y hardware de forma que la falla de alguno de sus componentes no
impida la disponibilidad del servicio “.Consiguiéndose así potenciar las
principales características de las aplicaciones de misión critica.
Esta tecnología puede ser implementada de tres (3) maneras
básicamente.
• Configuración Activa/Standby
• Configuración Activa/Activa
• Configuración de Base de Datos Paralela
Como última opción no puede dejar de mencionarse la tecnología de
Red de Area de Almacenamiento (Storage Area Network o SAN) pues es allí
donde se dirigen las tendencias del mercado y donde se están invirtiendo
grandes esfuerzos.
SAN es una red dedicada en exclusiva a funciones de almacenamiento,
la cual se construye sobre una red de fibra óptica o Fibre Channel a la que se
conectan todos los servidores que utilizan el almacenamiento, ofreciendo un
ancho de banda potente. SAN es una tecnología fiable, económica y que ha
desarrollado una potencia hasta hace años desconocida. Básicamente
presenta dos opciones de implantación: Bucle Arbitrado y Fabric Switched.
En ambos casos se pueden integrar soluciones que eviten utilizar el
ancho de banda de la red de área local para la realización de Backups, estas
soluciones se integran en la SAN a través de controladoras específicas
permitiendo así un altísimo rendimiento así como una operación desatendida.
Entre las ventajas más importantes que puede ofrecer la red de área de
almacenamiento están:
• Superior ancho de banda.
• Administración centralizada de todo el almacenamiento.
• Estandarización en recursos de almacenamiento y configuración de
servidores.
• Mayor flexibilidad en la utilización del espacio disponible.
• Mayor tolerancia de fallas en el sistema.
• Al tratarse de dispositivos de ámbito corporativo, el rendimiento de
los sistemas de almacenamiento puede llegar a ofrecer decenas de miles de
I/O (operaciones de lectura/esritura) por segundo.
• Fácil integración de soluciones de backup de ámbito corporativo de
simple administración, alto rendimiento y fiabilidad.
• Simplificación del proceso de adquisición de ampliaciones al sistema
de almacenamiento, pues no estará basado en modelos ni marcas de
servidores.
• Mejora de la facilidad de planificación de las necesidades globales.
Ahora bien, la alta disponibilidad puede conseguirse tanto con
alternativas de hardware como de software, En el mercado tecnológico
actual, son muchas las empresas que se han dedicado, al desarrollo de
herramientas de software orientadas a la alta disponibilidad.
En primer punto se puede mencionar un esquema propuesto por la
empresa HP, conocido como Journaled File System (JFS). Esta alternativa
orientada al sistema operativo Unix, utiliza una conexión especial que le
permite registrar información acerca de los cambios hechos en el file system
de metadatos. Dicha conexión permite mejorar la disponibilidad reduciendo a
solo unos segundos el tiempo necesario para reiniciar un file system luego
que el mismo ha fallado.
Como una alternativa opcional para expandir las funciones de JFS se
puede considerar OnlineJFS, quien elimina los downtime planificados
asociados con las actividades de mantenimiento de los file system pues
actividades como desfragmentación, reorganización y expansión de los file
system pueden ser ejecutadas mientras las aplicaciones acceden la data de
los mismos. En lo que respecta a las actividades de backup las mismas se
ejecutan utilizando la filosofía snapshot, lo que permite que las aplicaciones
accedan la data mas reciente mientras que el proceso de backup accede la
copia.
Otro esquema de software que igualmente apoya la disponibilidad de
los sistemas es la herramienta Transaction Processing Monitors (TPM). Este
esquema asegura la disponibilidad en segundos cuando es usado en
conjunto con la tecnología clusters, pues se reenvían las transacciones a otro
nodo cuando el nodo original presenta alguna falla.
Adicionalmente existen otras alternativas de software, quizás vistas
como herramientas para el manejo de sistemas y redes que permiten
manejar automatizadamente una red compuesta por diversos tipos de
servidores y estaciones trabajo, pero que igualmente están orientadas a la
alta disponibilidad.
La definición de la propuesta comienza con el diagnóstico de la
situación actual de la empresa objeto de estudio, donde se evalúan entre
otros aspectos, las arquitecturas tecnológicas existentes que brindan
soluciones de alta disponibilidad, así como los esquemas de implementación
de las mismas.
Las debilidades detectadas en el proceso investigativo sirven de base
para la propuesta de diseño para sistemas de alta disponibilidad, el cual
persigue ofrecer alternativas que aseguren la continuidad operacional de las
aplicaciones criticas, o en su defecto minimizar los períodos de
inoperabilidad de las mismas.
En particular para este estudio, la organización está equipada con una
excelente tecnología, sin embargo existen ciertos problemas en cuanto a la
disponibilidad de las aplicaciones críticas, lo cual conlleva a definir
reestructuraciones que permitan ofrecer a cabalidad la alta disponibilidad
esperada.
En este sentido se presenta la propuesta de solución tecnológica
sugerida para el logro de tal fin.
La propuesta planteada es una solución genérica que permite al
personal de tecnología de la organización objeto de estudio, la selección de
las alternativas en función del costo/beneficio que este a su alcance, sin
limitarle a una solución particular de un proveedor determinado.
Para poder ofrecer un esquema alternativo que contemplara estos
aspectos, era necesario optar por una tecnología que además permita
aprovechar los recursos actuales y por supuesto asegurar la escalabilidad de
la nueva arquitectura.
En tal sentido, la propuesta se basa en la implementación de una
aplicación de tecnología de Fibre Channel para crear una red propia
dedicada exclusivamente a dispositivos de almacenamiento, denominada
SAN. (Storage .Area Network).
La arquitectura SAN es una infraestructura dedicada que permite
conectar diferentes unidades al sistema de almacenamiento donde se
pueden compartir datos, archivos, clips, y otros formatos de información sin
necesidad de duplicarlos o moverlos a otros puntos de la red. Creando una
unidad autosuficiente que no depende del funcionamiento del servidor.
SAN está orienta específicamente a funciones de almacenamiento, y
control del volumen de acceso.
Para tal fin se requiere la adecuación de la infraestructura actual de la
empresa objeto de estudio, de la siguiente manera:
• Conectar ambos servidores HPCLUST1 y HPCLUST2 a 1 Gbits a
la red de la empresa.
• Conectar ambos servidores E10000 y Sun6500 a 1 Gbits a la red
de la empresa.
• Establecer un enlace doble de fibra óptica entre los servidores que
pertenecen al mismo cluster a la velocidad de 100 Mbits.
• Adquirir un Switch de Fibre Channel de 32 puertos como parte de
esquema de redundancia planteado en la investigación.
• Establecer enlaces dobles entre el Switch de Fibre Channel con el
subsistema de almacenamiento centralizado a la velocidad de 100 Mbits.
• Establecer enlaces dobles de 100 Mbits entre el Switch de Fibre
Channel con cada uno de los servidores pertenecientes a los cluster
evaluados.
• Adquirir una licencia de Parallel Server de Oracle e implementar el
esquema de paralelismo para la base de datos de las aplicaciones críticas.
• Migrar todas las bases de datos Oracle que pertenecen a las
aplicaciones críticas del negocio de Oracle versión 7.3 a Oracle 8i o Oracle
9i así como el sistema operativo de HP UX 10.20 a HP UX 11i y el sistema
operativo Solaris 2.5 a 2.8. La selección del manejador dependerá del tiempo
que transcurra entre esta propuesta y el tiempo considerado en la
implementación de la misma o también de las mismas necesidades de las
aplicaciones críticas.
• Adquirir e implementar la alternativa de solución del proveedor o
proveedores que mejor se adapta a los criterios económicos y tecnológicos
del personal de tecnología de la organización objeto de estudio,
considerando las pautas establecidas para tal fin.
Compaq. “Compaq anuncia soluciones empresariales de
almacenamiento y SAN con capacidad de actualización con tecnología líder
en la industria y tolerancia de desastre” .[En línea].
http://www.clac.compaq.com/news/040699b.html [30-Mayo-2000]
Computer Associates. “Computer Associates anuncia una solución que
confiere una alta disponibilidad a los servidores Windows NT para
aplicaciones de misión crítica”.[En línea]
http://www.cwordl.cl/archivos/ed179/reportaje.html [18-Mayo-2000]
IBM. “Soluciones SAN”.[En línea]
http://www.ibm.com./ar/news/almacenamiento.html [19-Mayo-2001]
SMDATA. “Que es SAN”. .[En línea].
http://www.smdata.com.definiciones.html [07-Mayo-2001]
Farley, M., &Stearns, T., & Hsu, J., Seguridad e Integridad de datos.
España. Osborne/McGraw-Hill.
Hernandez R, Fernandez C, Baptista P, Metodología de la
investigación. Mexico. Mc Graw Hill.
HP, Oracle, Cisco (1999). High Availability & Load Balancing Testing
using Oracle Application, Cisco Local Director and HPWebQos.
Huidobro, José Manuel. Todo sobre comunicaciones. España.
Paraninfo.
Martin, L (1999) Tolerancia a fallos en Windows NT. Windows NT
Actual , 1, 70-73
Martin, L (1999). Servidores Nonstop Himalaya para alta disponibilidad.
Windows NT Actual, 6, 46-49
Palmer, Michael. Redes informáticas. Seguridad e Integridad de datos.
España. Paraninfo.
Weygant, Peter. Clusters for High Availability. Estados Unidos. Prentice
Hall.