데이터 레이크

데이터 레이크란?

데이터 레이크는 클라우드 아키텍처에서 많은 양의 데이터를 기본적인 원시 형태로 보관하는 중앙 집중화된 위치입니다. 데이터 레이크는 데이터 보관 창고나 사일로와 달리 개체 스토리지가 있는 플랫 아키텍처를 사용하여 파일 메타 데이터를 유지합니다. 

데이터 레이크의 개발 방식

“데이터 레이크”라는 용어는 2015년에 사용되기 시작했지만, 개념 자체는 10년 이상 실제로 사용되고 있었습니다. 데이터 레이크는 분석할 수 있는 수많은 파일 형식과 소스를 저장할 수 있는 확장형 데이터 리포지토리의 필요성을 해결합니다.

데이터 레이크는 페타바이트 규모의 데이터를 원시 형식으로 저장할 수 있는 중앙 집중화된 위치라고 생각할 수 있습니다. 데이터 레이크는 파일 및 폴더에 저장된 데이터를 보관하는 계층적 데이터 보관 창고에 비해 개체 기반 스토리지를 갖춘 플랫 아키텍처를 활용합니다. 빅 데이터 운영은 메타 데이터 태그와 식별자를 사용하여 향상된 성능으로 여러 영역에 걸쳐 데이터를 더욱 쉽게 찾고 검색할 수 있는 동시에 여러 애플리케이션이 해당 포맷을 활용할 수 있도록 지원합니다.

조직에서 데이터 레이크를 선택해야 하는 이유

엔터프라이즈는 데이터 레이크를 통해 원시 데이터를 SQL 기반 분석, 데이터 과학, 기계 학습에 적합한 구조화된 데이터로 변환할 수 있으면서도 대기 시간은 더욱 짧습니다. 스트리밍 이미지, 동영상, 바이너리 파일 등을 포함하여 모든 유형의 데이터를 더 쉽게 수집하고 무기한 보존할 수 있습니다. 데이터 레이크는 여러 파일 형식에 반응하고 새로운 데이터를 위한 “안전한 항구”를 제공하기 때문에 더 쉽게 최신 상태를 유지할 수 있습니다.

데이터 레이크를 사용하면 이러한 유연성을 기반으로 기량, 로케일, 언어가 모두 다른 사용자가 필요한 작업을 수행할 수 있습니다. 데이터 레이크가 효과적으로 대체한 데이터 웨어하우스 및 사일로와는 대조적으로 빅 데이터 및 기계 학습 애플리케이션에 제공하는 데이터 레이크의 유연성은 점점 더 명확해지고 있습니다.

데이터 레이크 대 데이터 보관 창고

데이터 레이크와 보관 창고 모두 대량의 데이터를 저장하는 데 사용할 수 있지만, 데이터에 액세스하거나 사용할 수 있는 방법에는 몇 가지 주요 차이점이 있습니다. 데이터 레이크는 문자 그대로 모든 파일 유형의 원시 데이터를 저장합니다. 그와 달리 데이터 보관 창고는 특정 목적에 맞게 이미 구조화되고 필터링된 데이터를 저장합니다.

데이터 레이크는 오픈 포맷으로 특정 파일 형식이 필요하지 않으며 사용자는 독점 공급업체 고정의 영향을 받지 않습니다. 사일로나 보관 창고와 다른 데이터 레이크의 한 가지 이점은 더 구조화된 환경에 비해 모든 유형의 데이터나 파일을 저장할 수 있다는 것입니다. 다른 하나는 데이터 레이크의 설정 의도를 그때 정의할 필요가 없는 반면 데이터 보관 창고는 이미 특정 의도로 처리된 필터링된 데이터를 위한 리포지토리로 생성됩니다.

중앙 집중화된 데이터 레이크는 데이터 중복, 중복 보안 정책 및 여러 사용자가 협업 시 겪는 어려움과 같은 문제를 제거하기 때문에 사일로 및 보관 창고에 비해 원활하게 사용할 수 있습니다. 다운스트림 사용자에게는 데이터 레이크가 여러 데이터 소스를 찾거나 보간할 수 있는 단일 장소로 표시됩니다.

또한 데이터 레이크는 확장성과 개체 스토리지를 활용할 수 있기 때문에 내구성과 경제성이 매우 우수합니다. 또한 오늘날 많은 기업에서 구조화되지 않은 데이터를 이용한 고급 분석과 기계 학습이 점차 중요해지고 있기 때문에, 원시 데이터를 구조화된 형식, 반구조화된 형식 및 구조화되지 않은 형식으로 “수집”할 수 있는 역량을 통해 데이터 레이크는 데이터 스토리지에서 점점 더 보편화되고 있습니다.

데이터 레이크 아키텍처의 이해

데이터 레이크와의 초기 접촉 지점은 수집 계층입니다. 간단히 말해, 이 지점은 원시 데이터가 데이터 레이크에 추가되는 곳입니다. 온프레미스 환경에서는 Apache HDFS(Hadoop File System)를 사용하여 파일 및 데이터를 데이터 분석을 위해 관련 정보를 캐시하는, 흔히 말하는 “수집 계층”으로 마이그레이션합니다. 사용자가 쿼리를 위해 SQL을 사용하든 NoSQL을 사용하든 원시 데이터에 대한 인사이트는 이제 데이터 관리자와 관리자가 사용할 구조화된 데이터로 변환되는 정제(또는 처리) 계층으로 이동됩니다.

통합 운영 계층에서 시스템 관리 및 모니터링은 광범위한 감사를 수행하여 숙련도 관리, 데이터 관리, 워크플로 관리를 보장합니다. 또한 잠재적인 보안 및 컴플라이언스 문제를 지속적으로 확인하는 것이 중요합니다. 데이터 중심 기업 고객은 데이터 레이크가 제공하는 트렌드와 인사이트를 제대로 파악할 수 있는 실시간 업데이트가 필요합니다.

데이터 레이크의 목적은 데이터 액세스와 사용입니다. 카탈로그가 없으면 데이터 세트의 무결성을 위해 사용자를 프로파일링해야 하는 비효율성으로 인해 작업이 느려집니다. 마찬가지로 거버넌스는 컴플라이언스 및 보안 문제를 문제가 아닌 것으로 규정하여 파일에서 개인 식별 정보를 제거하고 데이터 레이크는 사용을 방해하지 않고 특정 데이터를 삭제할 수 있는 기능을 지원합니다.

데이터 레이크 플랫폼이란?

거의 모든 주요 클라우드 서비스 공급자는 최신 데이터 레이크 솔루션을 제공합니다. 온프레미스 데이터 센터에서는 HDFS(Hadoop File System)를 거의 표준으로 계속해서 사용하고 있습니다. 그러나 엔터프라이즈가 클라우드 환경을 지속적으로 도입함에 따라 데이터 스토리지를 클라우드 기반 데이터 레이크 환경으로 이동할 수 있는 개선된 기회를 활용하려는 데이터 과학자, 엔지니어, IT 전문가에게 다양한 옵션을 제공합니다.

데이터 레이크는 JSON과 같은 스트리밍 데이터로 작업할 때 특히 유용합니다. 일반적인 비즈니스 사용 사례 3가지는 비즈니스 분석 또는 지능형, 기계 학습에 초점을 맞춘 데이터 과학, 실시간 데이터에 의존하는 고성능 애플리케이션인 데이터 서비스입니다.

AWS(Amazon Web Services), Microsoft Azure, Google BigQuery 등 모든 주요 클라우드 서비스 공급자는 클라우드 기반 데이터 레이크에 필요한 스토리지와 서비스를 제공합니다. 단순한 백업에서 완전한 통합에 이르기까지 조직이 필요로 하는 통합 수준에 따라 선택할 수 있는 다양한 옵션이 있습니다.

데이터 레이크가 사용되는 방식

20~30년 전과 달리 대부분의 비즈니스 의사 결정은 더 이상 보관 창고에 저장된 트랜잭션 데이터를 기반으로 하지 않습니다. 구조화된 데이터 보관 창고에서 고도화된 데이터 레이크 구조의 급격한 변화는 현대적인 빅 데이터 및 데이터 과학 애플리케이션의 요구와 기능의 변화에 따른 것입니다.

거의 매일 새로운 애플리케이션이 계속해서 등장하고 있는 가운데 최신 데이터 레이크의 일반적인 애플리케이션 중 일부는 새로운 데이터의 빠른 수집과 분석에 초점을 맞추고 있습니다. 예를 들어, 데이터 레이크는 CRM 플랫폼의 고객 데이터를 소셜 미디어 분석 또는 고객의 구매 이력을 통합할 수 있는 마케팅 플랫폼과 결합할 수 있습니다. 기업은 이를 결합하여 잠재적인 수익 영역이나 고객 이탈의 원인을 더 잘 이해할 수 있습니다.

마찬가지로 연구 개발 팀은 데이터 레이크를 통해 가설을 테스트하고 결과를 평가할 수 있습니다. 데이터 레이크는 데이터를 실시간으로 수집할 수 있는 방법이 점점 더 많아짐에 따라 스토리지 또는 분석 방법을 더 빠르고 직관적이며 더 많은 엔지니어가 액세스할 수 있도록 지원합니다.

HPE와 데이터 레이크

빅 데이터는 오늘날 기업이 가장 큰 과제를 해결하는 방법입니다. Hadoop이 구조화되지 않은 데이터의 가치를 정제하는 데 성공한 가운데 기업은 이를 단순화할 수 있는 새롭고 더 나은 방법을 찾고 있습니다.

오늘날의 기업은 시스템, 데이터 과학자, IT 인력에 이르기까지 온프레미스 Hadoop 기반 데이터 관리를 구현하고 운영하며 유지하기 위해 분석에 막대한 비용을 지출하고 있습니다. 모든 데이터 환경과 마찬가지로 필요한 용량도 기하급수적으로 변할 수 있습니다.

HPE GreenLake는 Hadoop 경험을 근본적으로 단순화하여 복잡성과 비용을 없애고 대신 데이터가 제공하는 인사이트를 얻는 데 집중할 수 있는 확장 가능한 진정한 클라우드 기반 솔루션을 조직에 제공합니다. HPE GreenLake는 하드웨어, 소프트웨어 및 HPE 서비스를 갖춘 완벽한 엔드 투 엔드 솔루션을 제공합니다.

HPE GreenLake는 데이터의 잠재력을 극대화하여 온프레미스 환경에 이미 포함되어 있는 HDFS 데이터 레이크를 최대한 활용하는 동시에 클라우드에 제공되는 장점과 인사이트를 활용합니다.