Carga de trabajo HPC
¿Qué es una carga de trabajo HPC?

Una carga de trabajo HPC es una tarea sumamente compleja y con uso intensivo de datos que se distribuye entre recursos de computación, cada uno de los cuales ejecuta partes de la tarea en paralelo. Un sistema de HPC puede ejecutar millones de escenarios a la vez, utilizando terabytes (TB) de datos al mismo tiempo, lo que ayuda a las organizaciones a obtener información más rápidamente.

Índice

    ¿Cuáles son los diferentes componentes de una carga de trabajo HPC?

    Cada carga de trabajo HPC es diferente y requiere distintos niveles de CPU y memoria reservada para completar sus tareas, que dependen del esfuerzo involucrado: su duración, intervalos y magnitud. En el nivel más básico, una carga de trabajo, o consulta, recopila una entrada (I) y produce una salida (O). Se puede dividir en los siguientes componentes:

    · Solicitud: el «trabajo» en la carga de trabajo se refiere a lo que se solicita de una aplicación. Implica una serie de operaciones de lectura y escritura (comandos de E/S) y la carga útil asociada hacia y desde un sistema de almacenamiento.

    · Aplicaciones y máquinas virtuales: cada carga de trabajo está vinculada a lo que se utiliza para lograr el trabajo o al esfuerzo continuo de una aplicación. La forma en que la aplicación procesa los datos y los límites inherentes del software determinarán las características de la carga de trabajo en sí.

    · Conjunto de trabajo: el volumen de datos creados/consumidos durante una carga de trabajo se denomina conjunto de trabajo. Una carga de trabajo HPC típica consume cantidades masivas de datos, principalmente en formatos desestructurados. Los datos utilizados por los modelos HPC están aumentando exponencialmente a medida que los científicos e ingenieros trabajan para ajustar la precisión de sus cargas de trabajo.

    · Ciclo de trabajo: cuando un conjunto de procesos ocurre y luego se repite se denomina ciclo de trabajo. El tiempo de repetibilidad aproximada de ese esfuerzo depende en gran medida de quién consume los datos y del propósito de la aplicación, así como del rendimiento del almacenamiento.

    ¿Cómo se gestionan las cargas de trabajo HPC?

    Un sistema HPC tradicional utiliza una interfaz de línea de comandos (CLI) para administrar el envío y la gestión de trabajos. El proceso de gestión de una carga de trabajo HPC comienza de forma muy similar a cualquier carga de trabajo de datos: con la identificación y preparación de los datos relevantes, seguidas del envío de la solicitud, la ejecución de la aplicación y la recopilación y el almacenamiento de los hallazgos generados.

    Preparar los datos

    La precisión de cualquier carga de trabajo HPC depende de la higiene de los datos. Las organizaciones necesitan realizar una depuración de datos en los conjuntos de datos que se van a analizar para actualizar o eliminar datos que sean inexactos, incompletos, tengan un formato incorrecto o estén duplicados.

    Configurar el acceso a los datos

    Si bien las cargas de trabajo HPC requieren un acceso fácil y rápido a los datos, las organizaciones necesitan implementar políticas para entregar datos de manera segura y eficiente. Los mismos controles de acceso y cifrado se ejecutan en todos los recursos utilizados, ya sean lagos de datos, estructuras de datos, arquitecturas de lagos de datos o redes neuronales.

    Elegir los algoritmos

    La selección de los algoritmos a utilizar y luego la construcción, el entrenamiento y la implementación de modelos analíticos requieren una amplia experiencia y deben ser definidos por los científicos de datos que envían las solicitudes.

    Ejecutar las consultas

    Con frecuencia se recurre a muchas aplicaciones para generar hallazgos en HPC. Se utilizan plataformas de software de computación distribuida, como Apache Hadoop, Databricks y Cloudera, para dividir y organizar estos análisis complejos.

    ¿Cuáles son los diferentes tipos de cargas de trabajo HPC?

    Hay varias categorías de cargas de trabajo HPC que analizan enormes cantidades de datos, buscan tendencias, hacen predicciones y generan ajustes recomendados para las operaciones o relaciones.

    Inteligencia artificial

    En su forma más simple, la inteligencia artificial (IA) es donde las máquinas simulan la inteligencia humana al procesar información. Se centra en las habilidades cognitivas que los seres humanos utilizan todos los días para tomar miles de millones de decisiones al día, incluido el aprendizaje, el razonamiento y la autocorrección. El aprendizaje en sí mismo implica tomar datos de entrada y crear reglas para convertirlos en información procesable. El razonamiento implica determinar el algoritmo correcto a utilizar para lograr el resultado deseado. La autocorrección es la parte más valiosa del proceso de IA, donde cada decisión ayuda a afinar los algoritmos de forma constante.

    Aprendizaje automático

    El aprendizaje automático, un tipo de inteligencia artificial, utiliza algoritmos para ser cada vez más preciso al predecir resultados. El uso más común del aprendizaje automático es el motor de recomendaciones que impulsa a las organizaciones multimedia, como Netflix, Spotify, Facebook, etc. Otros usos incluyen sistemas de gestión de relaciones con clientes, inteligencia empresarial, asistentes virtuales, sistemas de información de recursos humanos y automóviles autónomos.

    Aprendizaje profundo 

    Este es un subconjunto del aprendizaje automático y se refiere a la automatización del análisis predictivo en el aprendizaje automático. Utiliza capas de procesamiento de información para construir una comprensión más sofisticada con cada capa y aprender gradualmente información más compleja sobre un conjunto de datos. Los casos de uso típicos incluyen los automóviles autónomos, en los que el supercomputer que hay bajo el capó desarrolla habilidades automatizadas para conducir el vehículo.

    ¿Cómo funcionan las cargas de trabajo HPC en entornos de nube?

    La nube es una plataforma ideal para HPC, porque al mover cargas de trabajo HPC a la nube, una organización puede aprovechar capacidades de computación y servicios bajo demanda casi ilimitados. Esto significa que puedes utilizar tantos recursos como necesites para una sola carga de trabajo y luego liberarlos cuando se haya completado.

    Además, puedes ensamblar una infraestructura de instancias de computación y recursos de almacenamiento basados en la nube y gestionar cientos de miles de servidores distribuidos en una flota de centros de datos globales. Esto permite que la actividad de datos y procesamiento se realice cerca de donde se ubica la tarea de big data o en una región determinada de un proveedor de nube. La infraestructura y los servicios de software están en la nube, y los usuarios pueden montar la infraestructura para un proyecto de big data de casi cualquier tamaño.

    La ventaja principal de ejecutar un sistema HPC en la nube es que se pueden agregar o quitar recursos según sea necesario de forma dinámica y en tiempo real. Poder escalar tan rápidamente elimina el problema de los cuellos de botella de capacidad y permite a los clientes ajustar el tamaño de su infraestructura para que coincida con las cargas de trabajo con mayor precisión. Y con la infraestructura subyacente servida a través de la nube, los usuarios pueden procesar más cargas de trabajo con menos personal, lo que genera ahorros de costes y más tiempo del personal liberado para tareas de mayor valor empresarial.

    HPE y las cargas de trabajo HPC

    HPE ofrece el portfolio de software más completo para HPC y flujos de trabajo convergentes del mercado. Y nuestra amplia gama de hardware incluye soluciones con mayor flexibilidad para abrirse a la IA, el aprendizaje automático y a otras técnicas de HPC, así como a tecnologías de interconexión y almacenamiento escalables y de alto rendimiento sin igual en el sector. Estos sistemas incluyen HPE Apollo, Slingshot y nuestro almacenamiento en paralelo, que ofrecen mejoras de GPU y rendimiento sin precedentes.

    HPE Pointnext Services ofrecen y respaldan una gama completa de soluciones y modelos de consumo para HPC y flujos de trabajo convergentes. También gestionamos y optimizamos toda la solución, alineada con la mejor tecnología de HPE, para cumplir los requisitos de HPC de tu organización.

    HPE GreenLake for HPC es una solución local, integral, para aplicaciones de HPC, que ha sido diseñada para ofrecer un rendimiento increíble líder el sector, sin necesidad de que tus equipos dediquen tiempo a integrar y ajustar componentes. Te permite implementar cargas de trabajo de HPC e IA de manera más fácil y rápida, y permite a los usuarios finales, desarrolladores y científicos de datos ejecutar flujos de trabajo de HPC pura, IA pura y de HPC/IA convergentes en clústeres de alto rendimiento, aprovechando la experiencia completa del cliente de HPE GreenLake.

    Soluciones, productos o servicios relacionados de HPE

    HPE GreenLake

    HPE GreenLake para HPC

    HPE Pointnext

    Temas relacionados