ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터브릭스(databricks) 레이크하우스(Lakehouse)
    Data 2022. 11. 24. 19:41
    반응형

    데이터브릭스(databricks)는 아파치 스파크 기반의 빅데이터 분석 플랫폼이다. 데이터 엔지니어, 데이터 사이언스, 데이터 분석가가 하나의 플랫폼에서 협업할수 있는 통합분석 플랫폼이다. Databricks 는 빅테크(Azure,AWS,GCP) 클라우드 서비스 플랫폼과 통합되어 서비스 된다.

     

    Lakehouse 가 나오게된 배경

    데이터브릭스가 내세우는 데이터분석 패러다임이 바로 lakehouse 플랫폼이다. lakehouse 플랫폼이 나오게된 배경은 무엇일까? 무엇이기에 이전에 있던 데이터레이크(data lake)와 다른 것일까?

     

    전통적으로 데이터웨어하우스(data warehouse)에 분석을 위한 데이터를 저장하였는데 이것은 정형데이터 저장에 최적화 되어 있다. 그리고, 데이터 사이언스들이 머신러닝을 학습하기 위한 데이터 적재를 위해 data lake 라는 저장소가 나왔었다. 데이터 레이크는 웨어하우스와는 달리 비정형 데이터 즉, 오디오,비디오,이미지와 같은 데이터를 저장하기 위함 이었다. 이러한 비정형데이터도 머신러닝에서는 중요한 데이터가 되기 때문이다.

    Challenges with data lake (데이터레이크의 문제들)

    • 작게 분산된 파일을 처리하는데 최적화 되어 있지 않다.
    • 데이터를 추가하는것이 어렵다.
    • 데이터를 변경하는것이 어렵다.
    • 트랜잭션처리 안됨.
    • 리얼타임 프로세스의 어려움.
    • 버전관리가 어렵다.
    • 대용량의 메타데이터 처리가 힘들다.
    • 데이터가 분산되어 성능향상이 쉽지 않다.
    • 데이터 정합성유지가 어렵다.

    Lakehouse 플랫폼

    레이크하우스는 특정기술을 말하는 것이 아니다. 데이터 분석을 위한 새로운 패러다임이다.

    데이터웨어하우스와 데이터레이크의 단점을 모두 해결하기 위하여 새롭게 나온 패러다임이고, 이것을 실현하기 이하여 내부에 핵심 기술로 델타레이크(Delta Engine) 이 존재한다.

    Lakehouse 레이크하우스

    델타레이크를 이용한 레이크하우스는 데이터 분석을위한 정형데이터와 머신러닝을 위한 비정형데이터의 저장소가 동일하다. 데이터웨어하우스의 데이터를 머신러닝에서 사용하기위하여 데이터를 이동할 필요가 없다.

    모든 데이터는 하나의 레이크하우스에 존재하게 된다.

    Lakehouse 의 특징

    • 다양한 타입의 데이터 포맷을 지원한다.
    • 신뢰성있고 일관성 있는 데이터 보장
    • BI, 데이터사이언스,머신러닝,분석에 대한 다양한 워크로드 제공
    • 여러 BI 툴에서 다이렉트 연결을 지원한다.
    • 2 티어 데이터 아키텍쳐인 data lake + warehouse 가 업계의 주류인 상태
    • (데이터 레이크와 웨어하우스 저장을 위한 중복 비용을 지불하지 않아도 됨)

     

    반응형

    댓글

Designed by Tistory.