읽는 시간: 4분 | 게시일: 2025년 3월 3일

AI 슈퍼컴퓨팅
AI 슈퍼컴퓨팅이란?

AI 슈퍼컴퓨팅은 조직이 수십만 개의 강력한 시스템으로 구성된 초고속 프로세서를 사용하여 AI(인공 지능) 모델을 통해 방대한 양의 데이터를 관리하고 해석하는 것을 의미합니다.

서버실에서 컴퓨터를 사용하는 기술자들.
  • AI 슈퍼컴퓨터의 작동 원리
  • AI 슈퍼컴퓨팅 및 분석 워크로드
  • AI 슈퍼컴퓨터의 예시
  • HPE와 AI 슈퍼컴퓨팅
AI 슈퍼컴퓨터의 작동 원리

AI 슈퍼컴퓨터의 작동 원리

AI 슈퍼컴퓨터는 일반적으로 수십만 개의 프로세서, 전문 네트워크, 엄청난 양의 스토리지로 구성되어 정교하게 튜닝된 하드웨어로 이루어집니다.

슈퍼컴퓨터는 워크로드를 여러 프로세서로 나누어 각 프로세서가 작업의 작은 부분을 담당하게 합니다. 개별 프로세서는 해당 업무 부분을 수행하면서 서로 통신을 하며 매우 빈번하게 통신하는 경우도 많습니다. 각 프로세서는 통신 그리드를 통해 메시지를 전송하여 문제에 따라 위, 아래, 왼쪽, 오른쪽, 앞뒤로 정보가 여러 차원으로 교환됩니다. 이 다차원적 프로세스는 워크로드를 서로 더 효과적으로 튜닝하여 더 향상된 처리 속도를 지원합니다.

놀랍게도 AI 슈퍼컴퓨터는 Linux 소프트웨어를 사용하여 애플리케이션, 네트워크, 일정 예약을 실행하는 매우 일반적인 운영 체제를 실행합니다. 실행되는 분석 프로그램은 일반적으로 C 또는 Fortran으로 작성되며 MPI라는 통신 라이브러리를 통해 메시지를 전달합니다. 이 라이브러리는 여러 시스템에서 사용할 수 있습니다.

더 작은 회로를 회로 기판에 밀집해서 집적시키면 AI 슈퍼컴퓨터가 더 빨리 작동할 수 있지만 온도가 더 높아집니다. 그 이유는 칩에 충분한 전력을 공급하는 것이 아직은 효율적이지 않아 칩이 매우 뜨거워지기 때문입니다. 하지만 이러한 멀티 코어 노드가 수십만 개나 있기 때문에 슈퍼컴퓨터는 엄청난 냉각이 필요합니다. 이를 완화하기 위해 회로는 구리선으로 만들어졌는데, 구리선은 매우 높은 전력 밀도로 에너지를 전달할 수 있기 때문입니다. 또한 슈퍼컴퓨터는 강제 공기를 사용하여 열을 발산하고 냉매를 전체 시스템에 순환시킵니다.

AI 슈퍼컴퓨팅 및 분석 워크로드

AI 슈퍼컴퓨팅이 분석 워크로드를 관리하는 방법

AI 슈퍼컴퓨터가 복잡한 분석 워크로드를 관리할 수 있는 데에는 여러 가지 이유가 있습니다.

노드
AI 슈퍼컴퓨터는 여러 개의 CPU를 탑재해 매우 빠른 계산 속도를 구현합니다. 해당 CPU 또는 노드 내에는 작업을 수행하는 코어가 10~12개 있습니다. 슈퍼컴퓨터는 종종 아키텍처 내에 수천 개의 노드를 클러스터링하므로 1천 개당 12,000개의 코어가 작동한다는 의미입니다. 따라서 단일 슈퍼컴퓨터에 노드가 1,000개만 있어도 작업 성능은 초당 사이클이 수조 회에 달합니다.

회로
또한 이러한 컴퓨터의 회로 기판에는 기존 컴퓨터의 회로 기판보다 더 많은 전력을 실장할 수 있도록 매우 작은 전선 연결부가 있습니다. 이 두 가지 발전으로 복잡한 산술 및 논리 연산을 순차적으로 해석하고 실행할 수 있게 되었습니다.

처리
슈퍼컴퓨터는 다중 워크로드를 동시에 실행할 수 있도록 병렬 처리를 사용합니다. 구체적으로 수천 개의 작업이 동시에 처리되기 때문에 작업은 밀리초 단위로 완료됩니다. AI 슈퍼컴퓨터를 사용하면 더욱 크고 뛰어나면서 정확한 모델을 교육시킬 수 있습니다. 또한 정밀도가 강화되어 팀에서 더 빠르게 정보를 분석하고, 학습한 주요 내용을 처리하고, 더 많은 소스를 활용하고, 더 많은 시나리오를 테스트할 수 있어 산업의 발전을 촉진합니다.

AI 슈퍼컴퓨터의 예시

AI 슈퍼컴퓨터의 예시

NVIDIA DGX SuperPOD: NVIDIA가 설계한 고성능 AI 슈퍼컴퓨터입니다. AI 연구 개발에 필요한 뛰어난 처리 능력을 제공하기 위해 상호 연결된 여러 개의 NVIDIA DGX 시스템으로 구성됩니다. DGX SuperPOD는 대규모 AI 모델을 교육하고, 복잡한 시뮬레이션을 실시하고, 다양한 딥 러닝 작업을 가속화하는 데 사용됩니다.

Summit: IBM과 HPE가 개발한 Summit은 미국 오크 리지 국립 연구소에 있는 세계에서 가장 빠른 슈퍼컴퓨터 중 하나입니다. AI 기능을 HPC(고성능 컴퓨팅)와 통합하여 과학 연구의 속도를 높입니다. Summit은 IBM POWER9 CPU와 NVIDIA Tesla V100 GPU를 사용하여 딥 러닝 및 데이터 분석과 같은 AI 워크로드에 매우 효율적입니다.

Fugaku: Fugaku는 RIKEN과 Fujitsu가 개발한 일본의 슈퍼컴퓨터입니다. 이 슈퍼컴퓨터는 RIKEN 계산 과학 센터에 있으며, 전 세계에서 가장 빠른 슈퍼컴퓨터 중 하나로 인정받고 있습니다. Fugaku는 AI 및 기계 학습을 포함한 광범위한 분야를 처리하도록 설계되었습니다. 이 아키텍처를 사용하면 이미지 인식, 자연어 처리 및 기타 AI 기반 시뮬레이션과 같은 작업을 고속으로 실시할 수 있습니다.

이러한 AI 슈퍼컴퓨터는 엄청난 계산 능력 덕분에 과학 연구부터 산업 분야에 이르기까지 다양한 분야의 발전에 핵심적인 역할을 합니다.

HPE와 AI 슈퍼컴퓨팅

HPE와 AI 슈퍼컴퓨팅

HPE는 광범위한 워크로드와 규모 요건을 관리하는 데 도움이 되는 HPC/AI 솔루션을 제공합니다. HPE의 솔루션은 HPC/AI 워크로드를 위한 포괄적인 모듈식 소프트웨어 포트폴리오의 일부로, 고성능 CPU 및 GPU 지원에 필요한 집적도와 안정성을 갖추고 있으며 HPC/AI 애플리케이션과 대규모 성능에 최적화되어 있습니다.

또한 HPE는 모든 규모의 배포에 완벽하게 통합되고 고집적 플랫폼을 위한 고급 냉각 옵션이 내장된 대규모 배포를 위해 설계된 HPC 하드웨어를 제공합니다.

HPE Cray 슈퍼컴퓨터는 슈퍼컴퓨팅에 대한 완전히 새로운 접근 방식으로, 혁신적인 역량을 지원합니다. 이 슈퍼컴퓨터는 수만 개에서 수십만 개의 노드에 최적의 솔루션을 제공하기 위해 다양한 인프라를 기반으로 설계되었습니다. 고집적 8방향 GPU 서버는 일관적이고 예측 가능하며 안정적인 성능을 제공하여 대규모 워크플로에서 높은 생산성을 보장합니다. Slingshot 상호 연결과 Cray Software는 포괄적인 시스템 관리를 위한 HPE Performance Cluster Manager와 함께 클라우드와 같은 사용자 경험을 제공합니다.

관련 제품, 솔루션 또는 서비스

슈퍼컴퓨팅

엑사스케일 시대를 넘어 판도를 바꿀 혁신과 발견 지원

관련 주제

AI(인공 지능)

슈퍼컴퓨팅

기계 학습