데이터 레이크하우스

데이터 레이크하우스란?

데이터 레이크하우스는 데이터 레이크의 유연성 및 확장성과 데이터 웨어하우스의 데이터 구조 및 데이터 관리 기능을 결합한 하이브리드 데이터 관리 아키텍처입니다.

지난 수십 년간 데이터 웨어하우스의 변화

조직은 수십 년간 EDW(엔터프라이즈 데이터 웨어하우스)라고도 알려진 데이터 웨어하우스를 사용하여 비즈니스 인사이트 촉진에 필요한 데이터를 저장하고 관리해 왔습니다. 생성되는 데이터의 유형, 소스, 양이 지난 몇 년간 몇 배로 증가함에 따라 기존의 데이터 웨어하우스 아키텍처는 엔터프라이즈에서 매일 생성되는 비즈니스 데이터의 속도, 종류, 볼륨을 완전히 지원하기에 부족했습니다. AI(인공 지능)ML(기계 학습) 기술을 도입하는 조직이 증가하면서 이러한 툴을 사용하는 알고리즘에서 데이터에 대한 직접적인 액세스가 필요하게 되었습니다.

데이터 레이크란?

데이터 레이크는 엔터프라이즈의 다양한 비즈니스 애플리케이션, 시스템, 장치에서 수집되는 방대한 양의 구조화되지 않은 데이터와 반구조화된 데이터를 저장하는 데 사용되는 아키텍처입니다. 보통 데이터 레이크는 일반적인 개방형 파일 형식의 데이터를 보유하는 파일 API(애플리케이션 프로그래밍 인터페이스)를 갖춘 저비용 스토리지 인프라를 사용합니다. 따라서 데이터 레이크는 대규모 데이터를 저장하고 AI 및 ML 알고리즘에서 이용 가능하게 하는 데 유용하지만 데이터 품질이나 거버넌스 요건은 다루지 않습니다. 부실한 정리 또는 관리로 중복 데이터, 관련이 없는 데이터, 정리되지 않은 데이터가 데이터 레이크에 추가되면 이른바 데이터 늪이라는 것이 되어 확보한 데이터에서 의미 있는 인사이트를 확보하기가 어렵습니다.

데이터 레이크하우스, 데이터 웨어하우스, 데이터 레이크의 차이

데이터 웨어하우스

데이터 웨어하우스는 다양한 소스의 데이터를 하나의 일관된 데이터 저장소로 어그리게이션한 대규모 비즈니스 데이터 집합입니다. 이러한 플랫폼은 특별히 많은 양의 구조화된 데이터에 대한 분석을 수행하도록 설계되었습니다. 데이터 웨어하우스 시스템은 정기적으로 다양한 BI(비즈니스 인텔리전스) 시스템에서 데이터를 유입한 다음 이미 데이터 웨어하우스에 있는 데이터의 형식과 표준에 맞춰 데이터를 포맷하고 가져옵니다. 이를 통해 데이터를 정리된 파일이나 폴더에 저장하고 보고 및 데이터 분석에 바로 사용할 수 있습니다. 

 

데이터 레이크

데이터 레이크는 엔터프라이즈의 모든 데이터 소스에서 얻은 모든 유형의 원시 데이터, 구조화된 데이터, 구조화되지 않은 데이터를 적절한 규모의 기본 형식으로 저장합니다. 데이터는 원래 상태로 데이터 레이크에 추가되므로 이미 시스템에 있는 다른 데이터에 맞추기 위해 새로운 데이터 형식으로 변경되지 않습니다. 데이터 레이크는 AI 및 ML 시스템과 빅 데이터 분석에 데이터를 이용하는 데 중요한 역할을 합니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 레이크의 유연성 및 확장성과 데이터 웨어하우스의 유사한 데이터 구조 및 데이터 관리 기능을 결합한 새로운 개방형 아키텍처입니다. 이러한 기능의 조합 덕분에 데이터 과학 팀에서 여러 시스템에 액세스할 필요 없이 민첩하게 데이터를 사용할 수 있습니다. 또한 데이터 레이크하우스는 데이터 과학자가 완벽한 최신 상태의 데이터를 이용하도록 보장합니다.

데이터 레이크하우스가 데이터 늪이 되는 것을 방지하는 방법

데이터 레이크하우스의 유연성과 민첩성이 구조 및 관리 기능과 결합되어 있기에 데이터 과학 팀에서 여러 시스템에 액세스할 필요 없이 민첩하게 데이터를 사용할 수 있습니다. 또한 데이터 레이크하우스는 데이터 과학자가 비즈니스 분석, AI 및 ML 프로젝트 등에 완벽한 최신 상태의 데이터를 이용하도록 보장합니다.

데이터 레이크하우스의 장점

데이터 레이크 아키텍처는 다음과 같은 방식으로 유연성이 향상됩니다.

1.       쿼리 엔진이 데이터 레이크에 직접 연결되기 때문에 단순한 ETL(추출, 전송, 로드) 작업이 제거됩니다.

2.       다중 툴을 사용하여 다중 플랫폼에서 데이터를 관리하는 대신 단일 툴로 데이터를 처리하여 데이터 중복성을 줄여줍니다.

3.       다중 BI 및 분석 툴에 대한 직접 연결을 지원합니다.

4.       민감 데이터를 한 데이터 풀에서 다른 풀로 이동할 필요 없이 한 지점에서 관리할 수 있어 데이터 거버넌스가 간소화됩니다.

5.       개체 스토리지를 사용하면 한 위치에서 데이터 저장이 가능하여 비용 절감 효과가 있습니다.

데이터 레이크하우스의 요소

기본적으로 데이터 레이크하우스 아키텍처에는 두 가지 기본 계층이 있습니다. 레이크하우스 플랫폼은 스토리지 계층(데이터 레이크)으로의 데이터 처리를 관리합니다. 처리 계층은 이제 데이터를 데이터 웨어하우스에 로드하거나 독점 형식으로 전환할 필요 없이 다양한 툴을 사용하여 스토리지 계층에서 데이터를 직접 쿼리할 수 있습니다. 그리고 데이터는 BI 애플리케이션뿐만 아니라 AI 및 ML 툴에서 사용 가능합니다.

이러한 아키텍처는 데이터 레이크의 경제성을 제공하지만, 모든 유형의 처리 엔진이 이 데이터를 읽을 수 있기 때문에 조직은 다양한 시스템에서 준비된 데이터를 분석에 이용할 수 있는 유연성을 가집니다. 따라서 더 높은 성능과 더 낮은 비용으로 처리와 분석이 가능합니다.

또한 아키텍처를 통해 여러 당사자가 해당 시스템에서 동시에 데이터를 읽고 쓸 수 있는데, 아래에서 자세히 설명한 ACID(원자성, 일관성, 분리, 내구성) 원칙을 준수하는 데이터베이스 트랜잭션이 지원되기 때문입니다.

원자성은 트랜잭션을 처리할 때 트랜잭션 전체가 성공하거나 아무것도 성공하지 못하는 것을 의미합니다. 이로써 프로세스가 중단될 경우 데이터 손실이나 손상을 방지할 수 있습니다.

일관성은 트랜잭션이 예측 가능하게 일관된 방식으로 일어나도록 합니다. 사전 정의된 규칙에 따라 모든 데이터가 유효한 상태가 되도록 보장하여 데이터의 무결성을 유지합니다.

분리는 트랜잭션이 완료될 때까지 시스템의 다른 트랜잭션으로 인한 영향을 받지 않도록 보장합니다. 이로써 여러 당사자가 서로 영향을 주지 않으면서 동일한 시스템에서 동시에 읽기 및 쓰기가 가능합니다.

내구성은 트랜잭션이 완료되면 시스템 장애가 발생하더라도 시스템의 데이터에 적용한 변경 사항이 지속되도록 보장합니다. 트랜잭션에 따른 모든 변경 사항은 영구적으로 저장됩니다.

HPE 데이터 레이크하우스 솔루션

HPE Ezmeral Unified Analytics는 Kubernetes 기반 Apache Spark 분석과 온프레미스에서 Delta Lake를 사용하는 통합 데이터 레이크하우스의 단순성을 지원하는 최초의 클라우드 네이티브 솔루션입니다. 이 서비스는 레거시 데이터와 애플리케이션을 고도화하고 엣지 투 클라우드에서 데이터 집약적인 워크로드를 최적화하여 고급 분석에 필요한 확장성과 탄력성을 제공합니다. 처음부터 개방형과 하이브리드로 구축된 100% 오픈 소스 스택으로 조직은 데이터 플랫폼에서 공급업체 고정을 방지할 수 있습니다.

HPE Ezmeral Unified Analytics는 퍼블릭 클라우드에 조직의 모든 데이터를 저장하는 대신 온프레미스 및 하이브리드 배포를 최적화하고, 오픈 소스 소프트웨어를 사용하여 필요에 따른 데이터 이동을 보장합니다. 유연성과 확장성으로 엔터프라이즈의 대규모 데이터 세트 또는 레이크하우스 수용이 가능하여 고객은 어디서나 고급 분석에 필요한 유연성을 확보할 수 있습니다.

HPE GreenLake 엣지 투 클라우드 플랫폼에서 이용 가능한 통합 데이터 경험으로 팀은 기존의 데이터 액세스 패턴을 유지하면서 데이터에 안전하게 연결할 수 있습니다. 또한 온프레미스에서 배포되는 Apache Spark에 최적화된 데이터 레이크하우스 플랫폼의 스케일업도 가능합니다. 데이터 과학자는 온프레미스, 엣지와 퍼블릭 클라우드 전체에서 데이터 및 애플리케이션을 위한 탄력적인 통합 분석 플랫폼을 활용하여 AI 및 ML 워크플로를 가속화할 수 있습니다.