델타레이크
-
데이터브릭스(databricks) 레이크하우스(Lakehouse)Data 2022. 11. 24. 19:41
데이터브릭스(databricks)는 아파치 스파크 기반의 빅데이터 분석 플랫폼이다. 데이터 엔지니어, 데이터 사이언스, 데이터 분석가가 하나의 플랫폼에서 협업할수 있는 통합분석 플랫폼이다. Databricks 는 빅테크(Azure,AWS,GCP) 클라우드 서비스 플랫폼과 통합되어 서비스 된다. Lakehouse 가 나오게된 배경 데이터브릭스가 내세우는 데이터분석 패러다임이 바로 lakehouse 플랫폼이다. lakehouse 플랫폼이 나오게된 배경은 무엇일까? 무엇이기에 이전에 있던 데이터레이크(data lake)와 다른 것일까? 전통적으로 데이터웨어하우스(data warehouse)에 분석을 위한 데이터를 저장하였는데 이것은 정형데이터 저장에 최적화 되어 있다. 그리고, 데이터 사이언스들이 머신러닝을 ..
-
Delta Lake 란 무엇일까요?Data 2022. 8. 28. 21:35
최근에 엄청난 데이터들이 범람하고 있고, 이러한 데이터들은 기업환경에서 중요한 의사결정을 하기위해서 크리티컬한 백데이터로 사용되고있다. 이러한 데이터들은 비디오,오디오,이미지 그리고 텍스트들로 이루어져 있다. 델타레이크의 장점은 이러한 여러포맷의 데이터들을 적은 비용으로 저장할수 있다는 것이다. 또하나는 특정 벤더에 Lock-in 되지 않는다는 것이다. 델타레이크는 배치와 스트리밍 데이터를 처리하는데 좋은 성능을 발휘한다. 데이터 엔지니어링을 위한 최적의 성능을 발휘하여 데이터분석, 데이터사이언스, ML을 하나의 데이터 레이크에서 처리할수 있게 해준다. 참조영상입니다.