Hadoop

Apache Hadoop이란?

Apache Hadoop은 컴퓨팅 리소스 클러스터 간에 대규모 데이터 세트를 분산 처리할 수 있는 오픈 소스 프레임워크를 제공합니다. 설계를 단일 서버에서 수천 대의 서버로 확장할 수 있으며 각각 로컬 컴퓨팅 및 스토리지 기능을 제공합니다.

Hadoop이 유용한 이유

비즈니스 운영 전반에 걸쳐 폭발적으로 증가하는 빅 데이터와 데이터 수집 장치를 통해 기업은 혁신하고 성공할 수 있는 중대한 기회를 잡게 됩니다. Hadoop은 하드웨어 계층이 아닌 애플리케이션 계층에서 장애를 감지하고 처리하기 때문에 개별 서버에 장애가 발생하기 쉽다 하더라도 컴퓨터 클러스터 위에서 고가용성을 제공할 수 있습니다.

Hadoop 개발 방식

Hadoop은 점점 더 많아지는 빅 데이터를 처리하기 위해 탄생했으며, 애플리케이션을 다른 서버 노드에서 실행할 수 있도록 더 작은 구성요소로 나누는 프로그래밍 모델인 Google의 MapReduce에서 영감을 받았습니다. Hadoop은 도입 당시 널리 사용되던 독점적인 데이터 보관 창고 솔루션과 달리 조직이 프리 및 오픈 소스 소프트웨어와 기성 하드웨어를 사용하여 대규모 데이터 세트를 확장 가능한 방식으로 분석하고 쿼리할 수 있도록 합니다. 기업은 빅 데이터를 저렴한 비용에 뛰어난 확장성과 처리 능력은 물론 내결함성과 유연성을 통해 저장하고 처리할 수 있습니다. 또한 Hadoop은 Apache Spark 등 빅 데이터 분석에 사용되는 추가 플랫폼을 개발할 수 있는 기반을 마련했습니다.

Hadoop의 이점

Hadoop은 빅 데이터 프로젝트에 특히 유용한 5가지 주요 이점을 제공합니다. Hadoop에는 다음과 같은 이점이 있습니다.

1. 확장성

Hadoop은 병렬로 작동하는 수백 대의 저렴한 서버에 대규모 데이터 세트를 저장하고 분산할 수 있어 확장성이 뛰어납니다. 기존의 RDBMS(관계형 데이터베이스 관리 시스템)와 달리 Hadoop은 수천 테라바이트의 데이터가 포함된 수천 개의 노드에서 애플리케이션을 실행할 수 있도록 확장됩니다.

2. 유연성

Hadoop은 구조화된 데이터와 구조화되지 않은 데이터를 모두 활용하여 가치를 창출할 수 있습니다. 이를 통해 기업은 소셜 미디어 채널, 웹사이트 데이터, 이메일 대화 등 다양한 데이터 소스에서 비즈니스 인사이트를 얻을 수 있습니다. 또한 Hadoop은 추천 시스템, 로그 처리, 데이터 웨어하우징에서 마케팅 캠페인 분석과 부정행위 탐지에 이르기까지 다양한 용도로 사용할 수 있습니다.

3. 비용 효율성

기존의 RBDMS는 빅 데이터를 처리할 수 있을 만큼 확장하기에는 비용이 매우 많이 듭니다. 이러한 시스템을 사용하는 회사들은 이전에 자신들이 가진 모든 데이터를 저장하는 데는 비용이 너무 많이 들어 많은 양의 원시 데이터를 삭제해야 했습니다. 이와 반대로 Hadoop의 스케일아웃 아키텍처는 훨씬 더 경제적이기 때문에 회사가 나중에 사용하기 위해 모든 데이터를 저장할 수 있습니다.

4. 신속성

Hadoop은 분산된 파일 시스템을 기반으로 하는 고유한 스토리지 방식을 채택하여 클러스터의 어떤 위치에서든 데이터를 매핑합니다. 또한 보통 데이터 처리 툴이 데이터와 같은 서버에 위치해 있기 때문에 훨씬 더 빨리 데이터를 처리할 수 있습니다. 이러한 기능 덕분에 Hadoop은 구조화되지 않은 데이터가 테라바이트 규모인 경우 몇 분 만에, 페타바이트 규모인 경우 몇 시간 만에 효율적으로 처리할 수 있습니다.

5. 내결함성

Hadoop 클러스터의 노드에 저장된 데이터는 클러스터의 다른 노드에 복제되어 하드웨어 또는 소프트웨어에 장애가 발생했을 때를 대비합니다. 이러한 의도적인 이중화 설계는 내결함성을 보장합니다. 노드가 하나 중단되어도 클러스터에서 사용할 수 있는 데이터의 백업이 항상 존재합니다.

Hadoop을 사용하면 관계형 데이터베이스 관리 시스템에 비해 대용량 데이터 세트를 더 안전하고 비용 효율적며 손쉽게 처리할 수 있습니다. 조직이 보유한 구조화되지 않은 데이터의 양이 증가하면 비즈니스에 대한 데이터의 가치도 증가합니다. Hadoop은 검색 기능, 로그 처리 데이터 웨어하우징, 동영상 및 이미지 분석에 매우 적합합니다.

Hadoop의 작동 방식

HDFS

Hadoop HDFS(분산 파일 시스템)를 사용하면 대량의 데이터를 다양한 형식으로 저장하고 Hadoop 클러스터 전반에 걸쳐 분산할 수 있습니다. 애플리케이션 데이터에 대한 여러 액세스를 처리하며 데이터 세트가 큰 애플리케이션에 적합합니다. 다른 분산형 시스템과 달리 HDFS는 내결함성이 뛰어나고 저렴한 하드웨어를 사용하여 설계되었으며 범용 하드웨어에서 실행됩니다.

MapReduce

MapReduce 모듈은 대용량 데이터 세트의 병렬 처리에 사용되는 프로그래밍 모델이자 빅 데이터 처리 엔진입니다. MapReduce를 사용하면 처리 논리가 다양한 슬레이브 노드로 전송되고, 데이터는 서로 다른 노드 간에 병렬로 처리됩니다. 그런 다음 처리된 결과가 병합된 마스터 노드로 전송되고 이 응답은 다시 클라이언트로 전송됩니다. 원래 MapReduce는 Hadoop에서 사용할 수 있는 유일한 실행 엔진이었지만, 나중에 Apache Tez와 Apache Spark와 같은 다른 엔진을 추가적으로 지원하였습니다.

YARN

Hadoop의 YARN(Yet Another Resource Negotiator)은 Hadoop 프레임워크의 또 다른 핵심 구성요소로, Hadoop에서 실행되는 클러스터 리소스 관리, 태스크 계획 및 작업 예약에 사용됩니다. 또한 HDFS에 저장된 데이터를 병렬 처리할 수 있습니다. YARN을 사용하면 Hadoop 시스템에서 가용 리소스를 효율적으로 사용할 수 있으며, 이는 대량의 데이터를 처리하는 데 있어 매우 중요합니다.

Hadoop이 사용되는 방식

다양한 산업의 기업들이 빅 데이터 분석용 Hadoop을 사용하여 많은 이점을 얻고 있습니다.

금융 서비스 회사

금융 기관들은 Hadoop을 활용하여 중요한 투자 결정을 내리고 리스크를 줄이고 있습니다. 금융 회사 및 은행에서는 빅데이터 분석을 이용하여 더 정확한 정보를 통해 대출과 신용카드 신청을 승인하고 거절합니다. 또한 이 분석을 통해 과거의 구매 행위를 기반으로 잠재적으로 의심스러운 계정 활동을 식별합니다. 보험회사들 또한 Hadoop을 사용하여 사기성 보험금 청구를 탐지하고 예방하고 있습니다. 의료 보험사는 빅 데이터를 활용하여 특정 환자 인구 통계에 맞춰 정책을 수립할 수 있습니다. 또한 Hadoop은 고객과의 온라인 채팅에서 인사이트를 얻어 서비스 제공 품질을 개선하고 더 맞춤화된 고객 경험을 제공하는 데도 사용되고 있습니다.

이동 통신

이동 통신 사업자는 정기적으로 엄청난 속도로 대량의 데이터를 생성하고 수십억 건의 통화 기록을 유지합니다. 빅 데이터는 수백만 명의 고객에게 제공할 정확한 청구 요금 정보를 생성하고 향후 대역폭 수요 및 고객의 커뮤니케이션 트렌드를 예측하는 데 사용됩니다. 이 정보는 또한 향후 인프라 계획 수립 및 고객을 위한 새로운 제품과 서비스를 만드는 데 사용됩니다.

의료

의료 산업은 환자 기록, 연구 및 임상 데이터, 전자 의료 기기 등을 통해 이용할 수 있는 방대한 양의 데이터를 보유하고 있습니다. Hadoop은 수십억 개의 의료 기록을 활용하기 위한 제약 없는 병렬 데이터 처리, 내결함성 및 스토리지를 제공합니다. 또한 이 플랫폼은 의료 데이터를 분석하는 데 사용됩니다. 이는 수십억 인구에 대한 공공 보건 트렌드를 평가하고 개별 환자의 필요성에 맞춰 개인화된 치료 옵션을 만드는 데 모두 사용될 수 있습니다.

소매

오늘날 소매업체가 생성하는 엄청난 양의 데이터는 고도화된 기능으로 처리해야 합니다. 과거의 트랜잭션 데이터를 Hadoop 클러스터에 로드하여 수요와 재고를 예측하고 대상 프로모션을 생성하며 소비자 선호도를 예측하는 분석 애플리케이션을 구축할 수 있습니다.

 

Hadoop용 HPE 솔루션

HPE EPA(Elastic Platform for Big Data Analytics)는 확장 가능한 멀티 테넌트 플랫폼의 요구를 충족하기 위한 모듈식 인프라 기반으로 설계되었습니다. 이는 집적도와 워크로드에 최적화된 인프라 빌딩 블록을 통해 컴퓨팅과 스토리지를 독립적으로 확장할 수 있도록 함으로써 실현됩니다. 다음과 같은 두 가지 배포 모델을 사용할 수 있습니다.

  • HPE BDO(Balanced and Density Optimized) 시스템: 메모리, 프로세서, 스토리지 용량을 유연하게 선택할 수 있으며 컴퓨팅과 스토리지를 함께 조정하는 기존의 Hadoop 배포를 지원합니다.
  • HPE WDO(Workload and Density Optimized) 시스템: 고속 이더넷 네트워크의 성능을 활용하고 컴퓨팅 및 스토리지를 독립적으로 조정할 수 있는 빌딩 블록 접근 방식을 통해 서로 다른 속도로 증가하는 데이터와 워크로드를 통합할 수 있습니다.

HPE는 또한 Hadoop 구현을 간소화할 수 있는 확장 가능한 솔루션을 제공합니다. 이 솔루션을 사용하면 Hadoop 환경의 복잡성과 비용을 크게 줄일 수 있어 Hadoop 클러스터에서 최대한의 정보와 인사이트를 이끌어내는 작업에만 집중할 수 있습니다. 대칭 환경과 비대칭 환경을 모두 지원하는 HPE GreenLake는 하드웨어와 소프트웨어, 서비스를 포함하여 빅 데이터를 위한 완전한 엔드 투 엔드 솔루션을 제공합니다. HPE 전문가는 설치와 운영은 물론 클러스터 관리와 유지도 지원하며, 비즈니스 KPI에 맞춰 청구를 간소화하는 데에도 도움을 줍니다. HPE만의 가격 책정과 청구 방법을 사용하면 기존 Hadoop 비용을 쉽게 이해하고 솔루션에 들어갈 향후 비용을 쉽게 예측할 수 있습니다.