Escoger una configuración de alto rendimiento de sistema de archivos y de almacenamiento para igualar las capacidades que brinda Amazon Web Services (AWS), no es muy diferente de seleccionar la adecuada para las cargas de trabajo de cluster on-site. Con una buena idea de cuáles son sus necesidades, decidirse por una opción de AWS no es difícil – de hecho puede ser liberador dado el número de opciones configurables.
En otras palabras, usted no se encuentra atado a elecciones de almacenamiento o sistemas de archivos con AWS. Sin embargo, hay algunas preguntas que deberían ser respondidas antes de seleccionar a la indicada para sus aplicaciones. Eso incluye tanto si está trabajando con sistemas de archivos basados en instancias o si planea dar el salto hacia sistemas de archivos distribuidos o replicados.
En resumidas cuentas, necesita ver hacia el propósito final antes de dar el paso. Afortunadamente, AWS ofrece varios bloques de construcción que le permitirán enfrentar los retos de sus aplicaciones. Una pregunta inicial perfecta es si la carga de trabajo objetivo requiere almacenamiento temporal o a largo plazo.
Para algunos, la respuesta es simple. Los datos sólo necesitan residir en almacenamiento temporal o efímero para la simulación o trabajo actual. Para otros, ya sea por razones de regulación o accesibilidad, el almacenamiento a largo plazo, escalable y de bajo costo utilizando Amazon S3 es crítico. Para resaltar las principales diferencias, S3 como una opción a largo plazo hace posible extraer de los conjuntos de datos cuando sea necesario, así como construir rápidamente y bajo demanda clusters y sistemas de archivos tomando los datos de S3 o con APIs.
Por otro lado, aunque el almacenamiento efímero es disuelto con la instancia, es una opción útil para aquellos que buscan un sistema de archivos scratch de alto rendimiento, escalable y compartido que haga uso de OrangeFS, Lustre, Ceph y otros sistemas de archivos comunes para cargas de trabajo complejas de HPC y Big Data. Tomando en cuenta las opciones, recuerde que con S3, sólo pagará por lo que use durante el tiempo y volumen que elija. Esto significa que no necesita pensar tanto acerca de qué tan frecuentemente son accesados o qué tan grandes serán sus datos.
Para ajustes más finos, sin embargo, hay otro bloque que vale la pena tomar en cuenta. Con volúmenes de Amazon Elastic Block Store (Amazon EBS), usted paga por lo que ha aprovisionado, lo cual significa que si tiene una buena idea de cuáles son sus necesidades, puede asignar estos volúmenes y aprovechar esta opción de gran confiabilidad y alta disponibilidad. Esto le asegura que sus datos se encuentren en una zona de disponibilidad, puedan ser respaldados con capturas, y estén siempre accesibles para movimientos de alto rendimiento.
Para muchos usuarios finales de HPC y Big Data, al final se trata de rendimiento. Mientras que el almacenamiento efímero le dará un alto volumen de salida dado que está directamente conectado a las instancias (alrededor de 2.2GB/seg), aquellos que estén buscando opciones más rápidas pueden hacer uso de Amazon EBS para obtener más IOPS. Estos volúmenes pueden soportar hasta 4,000 IOPS, lo cual, de nuevo, apunta hacia algunas de las aplicaciones más exigentes en AWS.
Con estos requerimientos de almacenamiento y sistemas de archivos en mente, recuerde otra característica que hace más simple la decisión acerca de qué sistema de archivos o arquitectura desea implementar. Utilizando el lenguaje de modelaje de AWS ClowdFormation, puede construir una arquitectura de sistema de archivos que se encuentre parametrizada (número de servidores de almacenamiento, volúmenes, etc.) y ajustar esos parámetros sobre la marcha para continuar implementando una y otra vez la misma arquitectura.
En resumen, esto significa que es posible implementar sistemas de archivos sobre demanda –y luego dar seguimiento a los cambios realizados a esos modelos para monitorear versiones y su uso a través de varios equipos e individuos. Con un amplio rango de opciones de almacenamiento y sistemas de archivos, de la mano con tipos de instancias que se encuentran optimizados para computación, memoria, y latencia, las aplicaciones computacionales de alto rendimiento y uso intensivo de datos tienen un cada vez más amplio camino para lograr un rendimiento escalable extremo. Almacenamiento AWS