728x90

데이터 레이크(Data Lake)는 구조화/반구조화/구조화되지 않은 대량의 원시 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 원본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리 할 수 있습니다.

 

데이터 레이크는 확장 가능하고 안전한 플랫폼을 제공하며, 기업에서는 이를 통해 온프레미스, 클라우드, 에지 컴퓨팅 시스템 등을 가리지 않고 모든 시스템의 데이터를 속도 제한 없이 수집할 수 있을 뿐 아니라, 유형이나 양에 상관없이 모든 데이터를 고품질로 저장하고, 실시간 모드나 일괄 처리 모드로 데이터를 처리하며, SQL, Python, R 등의 언어와 타사 데이터 또는 분석 애플리케이션을 사용하여 데이터를 분석할 수 있습니다.

 

데이터레이크 VS. 데이터웨어하우스

비교항목 데이터 레이크 데이터웨어 하우스
데이터 데이터레이크는 모든 원시 데이터를 보관합니다.

구조화, 비 구조화 또는 반 구조화 될 수 있습니다. 데이터 레이크의 일부 데이터는 절대 사용되지 않을 수 있습니다.
데이터웨어 하우스는 처리 및 정제 된 데이터, 즉 특정 비즈니스 문제를보고하고 해결하는 데 필요한 구조화 된 데이터 만 통합합니다.
사용자 일반적으로 데이터 레이크의 사용자는 데이터 과학자 및 데이터 개발자입니다. 일반적으로 데이터웨어 하우스의 사용자는 비즈니스 전문가, 운영 사용자 및 비즈니스 분석가입니다.
접근성 데이터 레이크는 구조가 없기 때문에 접근성이 높고 쉽고 빠르게 업데이트 할 수 있습니다. 데이터웨어 하우스에서 데이터웨어 하우스는 설계에 따라 구조화되기 때문에 데이터 업데이트 작업이 더 복잡하고 비용이 많이 듭니다.
개요 쓰기시 스키마. DW 구현 전에 설계되었습니다. 읽기 스키마. 분석시 작성.
건축물 플랫 아키텍처 계층 구조
목적 데이터 레이크에 저장된 원시 데이터의 목적은 고정되어 있지 않거나 결정되지 않았습니다.

때때로 데이터는 특정 향후 사용을 염두에두고 데이터 레이크로 유입되거나 데이터를 편리하게 사용할 수 있습니다.

데이터 레이크는 덜 체계적이고 필터링 된 데이터가 적습니다.
데이터웨어 하우스에 저장된 처리 된 데이터는 구체적이고 명확한 목적을 가지고 있습니다.

DW는 데이터를 구성하고 필터링했습니다.

따라서 데이터 레이크보다 적은 저장 공간이 필요합니다.
해석학 머신 러닝, 데이터 검색 데이터 프로파일 링 및 예측 분석에 데이터 레이크를 사용할 수 있습니다. 데이터웨어 하우스는 비즈니스 인텔리전스, 시각화 및 배치보고에 사용할 수 있습니다.
저장 저렴한 스토리지 용으로 설계되었습니다.

데이터 레이크의 하드웨어는 데이터웨어 하우스의 하드웨어와 매우 다릅니다.

저렴한 스토리지와 결합 된 기성 서버를 사용합니다. 따라서 데이터 레이크는 상당히 경제적이며 테라 바이트와 페타 바이트까지 확장 성이 뛰어납니다.

이는 모든 데이터를 데이터 레이크에 보관하기 위해 수행되므로 언제든지 분석을 수행 할 때로 돌아갈 수 있습니다.
대용량 데이터에 비쌉니다.

데이터웨어 하우스에는 고성능을 제공하기 위해 값 비싼 디스크 스토리지가 있습니다.

따라서 공간을 절약하기 위해 데이터 모델이 단순화되고 비즈니스 결정을 내리는 데 실제로 필요한 데이터 만 데이터웨어 하우스에 보관됩니다.
데이터 유형 지원 Data Lake는 서버 로그, 센서 데이터, 소셜 네트워크 활동, 텍스트, 이미지, 멀티미디어 등과 같은 비 전통적인 데이터 유형을 매우 잘 지원합니다.

모든 데이터는 소스와 구조에 관계없이 유지됩니다.
일반적으로 데이터웨어 하우스는 트랜잭션 시스템에서 가져온 데이터로 구성됩니다.

비 전통적인 데이터 유형은 잘 지원하지 않습니다. 일반적이지 않은 데이터를 저장하고 사용하는 것은 데이터웨어 하우스를 사용하는 경우 비용이 많이 들고 어려울 수 있습니다.
보안 데이터 레이크의 보안은 데이터웨어 하우스보다 상대적으로 새로운 개념이므로 '성숙한'단계에 있습니다. 데이터웨어 하우스의 보안은 '성숙한'단계에 있습니다.
민첩 매우 민첩합니다. 필요에 따라 구성 및 재구성하십시오. 덜 민첩합니다. 고정 구성.

데이터 레이크 아키텍처

Data Lake의 주요 특징

Data Lake로 분류 되려면 빅 데이터 저장소에 다음 세 가지 속성이 있어야합니다.

1) 일반적으로 DFS (분산 파일 시스템) 내에 보관되는 단일 공통 데이터 저장소.

Hadoop 데이터 레이크는 데이터를 기본 형식으로 유지하고 데이터 수명주기 동안 데이터 및 상대적 의미에 대한 변경 사항을 캡처합니다. 이 접근 방식은 특히 컴플라이언스 확인 및 내부 감사에 유용합니다.

이는 데이터가 변환, 집계 및 수정을 거치면서 필요할 때 전체 데이터를 저장하기 어렵고 기업이 데이터 소스 / 원산지를 찾으려고 노력하는 기존의 엔터프라이즈 데이터웨어 하우스보다 향상된 기능입니다.

 

2) 계획 및 작업 스케줄링 기능을 통합합니다 (예 : YARN 등과 같은 스케줄러 도구를 통해).

워크로드 실행은 엔터프라이즈 Hadoop의 필수 요구 사항이며 YARN은 지속적인 프로세스를 제공하는 리소스 관리 및 중앙 플랫폼을 제공합니다. 보안 , Hadoop 클러스터 전반에 걸친 데이터 거버넌스 도구를 통해 분석 워크 플로가 필요한 수준의 데이터 액세스 및 컴퓨팅 성능을 보유하도록 합니다.

 

3) 데이터를 소비, 처리 또는 작업하는 데 필요한 유틸리티 및 기능 세트로 구성됩니다.

사용자를위한 쉽고 빠른 접근성은 조직이 데이터를 기본 또는 순수한 형태로 저장하기 때문에 데이터 레이크의 주요 특징 중 하나입니다.

데이터가 구조화, 비 구조화, 반 구조화 등 어떤 형태로든 데이터 레이크에있는 그대로 삽입됩니다. 이를 통해 데이터 소유자는 데이터 공유에 대한 기술적 또는 정치적 장벽을 제거하여 고객, 공급 업체 및 운영 데이터를 결합 할 수 있습니다.

728x90
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기
반응형