Databricks 주요기능/Control&Data Planes/Driver Excutors

Data 2023. 4. 17. 12:28

데이터브릭스는 데이터 과학 및 머신러닝 작업을 위한 클라우드 기반 플랫폼으로, 다양한 기능을 제공합니다.

Workspace: 데이터브릭스에서는 공유 작업환경을 제공하는 Workspace 기능을 제공합니다. 이를 통해 여러 사용자가 하나의 작업환경에서 공동 작업을 할 수 있습니다.
Repo: 데이터브릭스에서는 코드 버전 관리 및 협업을 위한 Repo 기능을 제공합니다. 이를 통해 코드의 변경 사항을 추적하고, 이전 버전으로 롤백할 수 있습니다.
Data: 데이터브릭스에서는 다양한 데이터소스를 지원하며, 이를 쉽게 로드하고 가공할 수 있는 Data 기능을 제공합니다. 이를 통해 데이터 과학 및 머신러닝 작업을 위한 데이터를 쉽게 수집, 가공 및 저장할 수 있습니다.
Compute: 데이터브릭스에서는 다양한 컴퓨팅 리소스를 제공하며, 이를 활용하여 데이터 분석 및 머신러닝 모델 학습 등의 작업을 수행할 수 있습니다.
Workflows: 데이터브릭스에서는 여러 작업을 논리적으로 연결하여 자동화할 수 있는 Workflows 기능을 제공합니다. 이를 통해 데이터 처리 및 분석 작업을 효율적으로 수행할 수 있습니다.

데이터브릭스는 아래와 같이 Control Panel과 Data Plane으로 구성된 아키텍처를 가지고 있습니다.

Control Panel: 데이터브릭스에서는 사용자들이 다양한 작업을 수행할 수 있는 Control Panel을 제공합니다. 이를 통해 사용자들은 워크스페이스, 레포지토리, 노트북 등을 관리하고, 작업환경을 설정할 수 있습니다. 또한, Control Panel에서는 다양한 보안 기능을 제공하여 사용자 데이터의 안전을 보장합니다.
Data Plane: 데이터브릭스에서는 다양한 데이터 처리 기능을 제공하는 Data Plane을 가지고 있습니다. Data Plane은 다양한 데이터 소스와 연결이 가능하며, 데이터를 로드하고 가공하여 저장할 수 있습니다. 이를 통해 사용자는 데이터 분석 및 머신러닝 작업을 수행할 수 있습니다.

데이터브릭스는 이러한 Control Panel과 Data Plane을 연결하는 다양한 인터페이스와 API를 제공하여 사용자들이 효율적으로 작업을 수행할 수 있도록 지원합니다. 또한, 데이터브릭스는 클라우드 기반 서비스로 제공되며, 클라우드의 장점인 높은 가용성, 확장성 및 보안성을 제공합니다.

데이터브릭스에서 클러스터는 여러 대의 컴퓨터(노드)들이 함께 작업하는 분산 시스템입니다. 클러스터는 크게 driver와 executors로 구성됩니다.

Driver: Driver는 클러스터에서 작업을 조율하는 역할을 합니다. Spark, PySpark, SQL 등의 코드를 작성한 후, 이를 실행하는 역할을 합니다. Driver는 클러스터 내의 한 대의 노드에서 실행되며, 작업을 처리하기 위해 Executor들을 생성하고 관리합니다.
Executors: Executors는 실제로 데이터 처리 작업을 수행하는 역할을 합니다. Executor는 여러 대의 노드에서 분산되어 실행되며, 데이터 처리 작업을 수행하고 결과를 Driver에게 전달합니다. Executor의 수는 클러스터 환경에 따라 자동으로 조절되며, Executor의 수가 많을수록 빠른 처리 속도와 높은 확장성을 제공합니다.

데이터브릭스 클러스터는 여러 대의 노드들이 함께 작업하므로, 분산 환경에서 데이터 처리 작업을 빠르게 수행할 수 있습니다. 또한, 클러스터의 크기를 조정하여 처리 속도를 높일 수 있으며, 고가용성과 장애 대응 기능 등의 다양한 기능을 제공합니다.

데이터브릭스 Compute는 클러스터를 생성하고 관리하는 기능을 말합니다. Compute는 데이터 처리 작업을 수행하기 위해 노드를 프로비저닝하고 실행하는 역할을 합니다. 데이터브릭스에서는 다음과 같은 Compute 기능을 제공합니다.

All-purpose Compute: 이 Compute 기능은 Spark 클러스터를 생성하고 관리하는 일반적인 방법입니다. 데이터브릭스에서는 자동으로 노드를 프로비저닝하고 필요에 따라 확장할 수 있습니다. 이 Compute 기능은 대규모 데이터 처리 작업을 수행하기에 적합합니다.
Job Compute: 이 Compute 기능은 데이터 처리 작업에 적합한 크기의 Spark 클러스터를 생성하고 관리하는 기능입니다. 이 Compute 기능은 주로 단일 작업에 대한 크기가 적절한 클러스터를 만들고 싶을 때 사용됩니다.
Pools: 이 Compute 기능은 지속적으로 데이터 처리 작업을 수행하는 데 필요한 고정 크기의 클러스터를 생성하고 관리하는 기능입니다. 데이터브릭스에서는 이러한 Pools를 사용하여 데이터 처리 작업을 수행할 때 높은 성능을 유지할 수 있습니다.스타트 타임을 줄이고 빨리 job을 실행하고자 할때 유용합니다.

데이터브릭스 Compute 기능을 사용하면 필요한 크기의 클러스터를 생성하고 관리할 수 있으며, 필요에 따라 클러스터 크기를 조절할 수 있습니다. 이를 통해 데이터 처리 작업을 더욱 효율적으로 수행할 수 있습니다.

저작자표시

'Data' 카테고리의 다른 글

데이터브릭스의 데이터 객체 계층 구조 (0)	2024.07.01
Azure Cosmos DB for MongoDB: NoSQL의 힘을 끌어올리다 (1)	2023.11.05
파이썬 Class,self,Class추가 (0)	2023.01.30
데이터브릭스(databricks)에 쓰이는 매직 명령어(magic command) (0)	2023.01.27
데이터브릭스(databricks) 레이크하우스(Lakehouse) (2)	2022.11.24

ABOUT ME

제이아보가 생각하는 AI & Beyond 제이아보가 생각하는 AI & Beyond

'Data' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Data' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바