Delta
-
Databricks 주요기능/Control&Data Planes/Driver ExcutorsData 2023. 4. 17. 12:28
데이터브릭스는 데이터 과학 및 머신러닝 작업을 위한 클라우드 기반 플랫폼으로, 다양한 기능을 제공합니다. Workspace: 데이터브릭스에서는 공유 작업환경을 제공하는 Workspace 기능을 제공합니다. 이를 통해 여러 사용자가 하나의 작업환경에서 공동 작업을 할 수 있습니다. Repo: 데이터브릭스에서는 코드 버전 관리 및 협업을 위한 Repo 기능을 제공합니다. 이를 통해 코드의 변경 사항을 추적하고, 이전 버전으로 롤백할 수 있습니다. Data: 데이터브릭스에서는 다양한 데이터소스를 지원하며, 이를 쉽게 로드하고 가공할 수 있는 Data 기능을 제공합니다. 이를 통해 데이터 과학 및 머신러닝 작업을 위한 데이터를 쉽게 수집, 가공 및 저장할 수 있습니다. Compute: 데이터브릭스에서는 다양한 ..
-
Delta는 왜 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가?Azure 2023. 1. 26. 22:09
데이터브릭스에서 Delta 는 무엇인가? Databricks의 Delta는 분산 컴퓨팅 환경에서 대량의 데이터를 효율적으로 저장하고 처리할 수 있는 구성 요소를 말한다. ACID 트랜잭션, 데이터 버전 관리, 최적화된 데이터 관리 등의 기능을 포함하고 있어 데이터브릭스에 데이터 레이크 및 데이터 파이프라인을 구축하는 데 강력한 도구이다. 델타 테이블은 클라우드 스토리지에 저장되며 일반 RDB의 테이블처럼 읽고 쓸 수 있다. 또한 데이터의 효율적인 증분 처리를 가능하게 하여 스트리밍 데이터 및 데이터 레이크와 같은 시나리오에 이상적이다. 왜 델타(delta)는 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가? 성능: 델타는 빅데이터 처리 작업의 성능을 크게 향상시킬 수 있는 여러 최적화를 제공한다. ..
-
데이터브릭스(databricks) 레이크하우스(Lakehouse)Data 2022. 11. 24. 19:41
데이터브릭스(databricks)는 아파치 스파크 기반의 빅데이터 분석 플랫폼이다. 데이터 엔지니어, 데이터 사이언스, 데이터 분석가가 하나의 플랫폼에서 협업할수 있는 통합분석 플랫폼이다. Databricks 는 빅테크(Azure,AWS,GCP) 클라우드 서비스 플랫폼과 통합되어 서비스 된다. Lakehouse 가 나오게된 배경 데이터브릭스가 내세우는 데이터분석 패러다임이 바로 lakehouse 플랫폼이다. lakehouse 플랫폼이 나오게된 배경은 무엇일까? 무엇이기에 이전에 있던 데이터레이크(data lake)와 다른 것일까? 전통적으로 데이터웨어하우스(data warehouse)에 분석을 위한 데이터를 저장하였는데 이것은 정형데이터 저장에 최적화 되어 있다. 그리고, 데이터 사이언스들이 머신러닝을 ..