데이터 레이크(Data Lake)는 구조화/반구조화/구조화되지 않은 대량의 원시 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 원본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리 할 수 있습니다.
데이터 레이크는 확장 가능하고 안전한 플랫폼을 제공하며, 기업에서는 이를 통해 온프레미스, 클라우드, 에지 컴퓨팅 시스템 등을 가리지 않고 모든 시스템의 데이터를 속도 제한 없이 수집할 수 있을 뿐 아니라, 유형이나 양에 상관없이 모든 데이터를 고품질로 저장하고, 실시간 모드나 일괄 처리 모드로 데이터를 처리하며, SQL, Python, R 등의 언어와 타사 데이터 또는 분석 애플리케이션을 사용하여 데이터를 분석할 수 있습니다.
데이터레이크 VS. 데이터웨어하우스
비교항목 | 데이터 레이크 | 데이터웨어 하우스 |
데이터 | 데이터레이크는 모든 원시 데이터를 보관합니다. 구조화, 비 구조화 또는 반 구조화 될 수 있습니다. 데이터 레이크의 일부 데이터는 절대 사용되지 않을 수 있습니다. |
데이터웨어 하우스는 처리 및 정제 된 데이터, 즉 특정 비즈니스 문제를보고하고 해결하는 데 필요한 구조화 된 데이터 만 통합합니다. |
사용자 | 일반적으로 데이터 레이크의 사용자는 데이터 과학자 및 데이터 개발자입니다. | 일반적으로 데이터웨어 하우스의 사용자는 비즈니스 전문가, 운영 사용자 및 비즈니스 분석가입니다. |
접근성 | 데이터 레이크는 구조가 없기 때문에 접근성이 높고 쉽고 빠르게 업데이트 할 수 있습니다. | 데이터웨어 하우스에서 데이터웨어 하우스는 설계에 따라 구조화되기 때문에 데이터 업데이트 작업이 더 복잡하고 비용이 많이 듭니다. |
개요 | 쓰기시 스키마. DW 구현 전에 설계되었습니다. | 읽기 스키마. 분석시 작성. |
건축물 | 플랫 아키텍처 | 계층 구조 |
목적 | 데이터 레이크에 저장된 원시 데이터의 목적은 고정되어 있지 않거나 결정되지 않았습니다. 때때로 데이터는 특정 향후 사용을 염두에두고 데이터 레이크로 유입되거나 데이터를 편리하게 사용할 수 있습니다. 데이터 레이크는 덜 체계적이고 필터링 된 데이터가 적습니다. |
데이터웨어 하우스에 저장된 처리 된 데이터는 구체적이고 명확한 목적을 가지고 있습니다. DW는 데이터를 구성하고 필터링했습니다. 따라서 데이터 레이크보다 적은 저장 공간이 필요합니다. |
해석학 | 머신 러닝, 데이터 검색 데이터 프로파일 링 및 예측 분석에 데이터 레이크를 사용할 수 있습니다. | 데이터웨어 하우스는 비즈니스 인텔리전스, 시각화 및 배치보고에 사용할 수 있습니다. |
저장 | 저렴한 스토리지 용으로 설계되었습니다. 데이터 레이크의 하드웨어는 데이터웨어 하우스의 하드웨어와 매우 다릅니다. 저렴한 스토리지와 결합 된 기성 서버를 사용합니다. 따라서 데이터 레이크는 상당히 경제적이며 테라 바이트와 페타 바이트까지 확장 성이 뛰어납니다. 이는 모든 데이터를 데이터 레이크에 보관하기 위해 수행되므로 언제든지 분석을 수행 할 때로 돌아갈 수 있습니다. |
대용량 데이터에 비쌉니다. 데이터웨어 하우스에는 고성능을 제공하기 위해 값 비싼 디스크 스토리지가 있습니다. 따라서 공간을 절약하기 위해 데이터 모델이 단순화되고 비즈니스 결정을 내리는 데 실제로 필요한 데이터 만 데이터웨어 하우스에 보관됩니다. |
데이터 유형 지원 | Data Lake는 서버 로그, 센서 데이터, 소셜 네트워크 활동, 텍스트, 이미지, 멀티미디어 등과 같은 비 전통적인 데이터 유형을 매우 잘 지원합니다. 모든 데이터는 소스와 구조에 관계없이 유지됩니다. |
일반적으로 데이터웨어 하우스는 트랜잭션 시스템에서 가져온 데이터로 구성됩니다. 비 전통적인 데이터 유형은 잘 지원하지 않습니다. 일반적이지 않은 데이터를 저장하고 사용하는 것은 데이터웨어 하우스를 사용하는 경우 비용이 많이 들고 어려울 수 있습니다. |
보안 | 데이터 레이크의 보안은 데이터웨어 하우스보다 상대적으로 새로운 개념이므로 '성숙한'단계에 있습니다. | 데이터웨어 하우스의 보안은 '성숙한'단계에 있습니다. |
민첩 | 매우 민첩합니다. 필요에 따라 구성 및 재구성하십시오. | 덜 민첩합니다. 고정 구성. |
데이터 레이크 아키텍처
Data Lake의 주요 특징
Data Lake로 분류 되려면 빅 데이터 저장소에 다음 세 가지 속성이 있어야합니다.
1) 일반적으로 DFS (분산 파일 시스템) 내에 보관되는 단일 공통 데이터 저장소.
Hadoop 데이터 레이크는 데이터를 기본 형식으로 유지하고 데이터 수명주기 동안 데이터 및 상대적 의미에 대한 변경 사항을 캡처합니다. 이 접근 방식은 특히 컴플라이언스 확인 및 내부 감사에 유용합니다.
이는 데이터가 변환, 집계 및 수정을 거치면서 필요할 때 전체 데이터를 저장하기 어렵고 기업이 데이터 소스 / 원산지를 찾으려고 노력하는 기존의 엔터프라이즈 데이터웨어 하우스보다 향상된 기능입니다.
2) 계획 및 작업 스케줄링 기능을 통합합니다 (예 : YARN 등과 같은 스케줄러 도구를 통해).
워크로드 실행은 엔터프라이즈 Hadoop의 필수 요구 사항이며 YARN은 지속적인 프로세스를 제공하는 리소스 관리 및 중앙 플랫폼을 제공합니다. 보안 , Hadoop 클러스터 전반에 걸친 데이터 거버넌스 도구를 통해 분석 워크 플로가 필요한 수준의 데이터 액세스 및 컴퓨팅 성능을 보유하도록 합니다.
3) 데이터를 소비, 처리 또는 작업하는 데 필요한 유틸리티 및 기능 세트로 구성됩니다.
사용자를위한 쉽고 빠른 접근성은 조직이 데이터를 기본 또는 순수한 형태로 저장하기 때문에 데이터 레이크의 주요 특징 중 하나입니다.
데이터가 구조화, 비 구조화, 반 구조화 등 어떤 형태로든 데이터 레이크에있는 그대로 삽입됩니다. 이를 통해 데이터 소유자는 데이터 공유에 대한 기술적 또는 정치적 장벽을 제거하여 고객, 공급 업체 및 운영 데이터를 결합 할 수 있습니다.
'Data Science' 카테고리의 다른 글
분석기법연재#1-퍼널 분석(Funnel Analysis) (0) | 2022.11.11 |
---|---|
[스크랩]How To Crack Spotify Data Science Technical Screen Interview (0) | 2022.04.02 |
[스크랩] 데이터 과학자 및 분석가를 위한 데이터 경연 대회 (0) | 2021.09.17 |
데이터 과학자에게 요구되는 10가지 기술 (0) | 2021.09.17 |
Excel로 여러 페이지로 구성된 웹 데이터 불러오기 (0) | 2021.01.09 |
최근댓글