데이터브릭스
-
데이터브릭스(databricks)에 쓰이는 매직 명령어(magic command)Data 2023. 1. 27. 06:52
데이터브릭에서 매직 명령어(magic command)는 다른 언어로 코드를 실행하거나 특정 작업을 실행하는 데 사용된다. 매직 명령어(magic command)의 구문은 %[command](예: %python 또는 %sql)이다. Datbricks의 일반적인 매직 명령어(magic command)는 다음과 같다: %sh: 셸 명령을 실행하는 데 사용됨 %python: Python 코드를 실행하는 데 사용됨 %sql: SQL 쿼리를 실행하는 데 사용됨 %fs: Datbricks 파일 시스템과 관련된 명령을 실행하는 데 사용 %sva, %r: 해당 언어로 코드를 실행하는 데 사용 %run: 노트북 또는 스크립트를 실행하는 데 사용 %md: 마크다운 셀을 만드는 데 사용 %run 명령을 사용하여 사용자 지정 ..
-
Delta는 왜 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가?Azure 2023. 1. 26. 22:09
데이터브릭스에서 Delta 는 무엇인가? Databricks의 Delta는 분산 컴퓨팅 환경에서 대량의 데이터를 효율적으로 저장하고 처리할 수 있는 구성 요소를 말한다. ACID 트랜잭션, 데이터 버전 관리, 최적화된 데이터 관리 등의 기능을 포함하고 있어 데이터브릭스에 데이터 레이크 및 데이터 파이프라인을 구축하는 데 강력한 도구이다. 델타 테이블은 클라우드 스토리지에 저장되며 일반 RDB의 테이블처럼 읽고 쓸 수 있다. 또한 데이터의 효율적인 증분 처리를 가능하게 하여 스트리밍 데이터 및 데이터 레이크와 같은 시나리오에 이상적이다. 왜 델타(delta)는 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가? 성능: 델타는 빅데이터 처리 작업의 성능을 크게 향상시킬 수 있는 여러 최적화를 제공한다. ..
-
데이터브릭스 Unity Catalog 란?Azure 2023. 1. 26. 21:05
Unity Catalog는 데이터 Lakehouse의 모든 데이터 및 자산에 대한 통합 거버넌스를 제공합니다. Azure Managed ID를 사용하여 Unity 카탈로그 사용자를 대신하여 스토리지 컨테이너에 액세스하도록 Unity 카탈로그를 구성할 수 있습니다. Managed ID는 애플리케이션이 Azure AD(Active Directory) 인증을 지원하는 리소스에 연결할 때 사용할 ID를 제공합니다. Azure Managed ID란? Azure Managed ID 를 사용하여 Unity Catalog 사용자 대신 스토리지 컨테이너에 액세스 하도록 Unity Catalog 를 구성할 수 있습니다 . Unity Catalog에서 Mnaged ID를 사용하여 두 가지를 지원할 수 있습니다. metast..
-
데이터브릭스(databricks) 레이크하우스(Lakehouse)Data 2022. 11. 24. 19:41
데이터브릭스(databricks)는 아파치 스파크 기반의 빅데이터 분석 플랫폼이다. 데이터 엔지니어, 데이터 사이언스, 데이터 분석가가 하나의 플랫폼에서 협업할수 있는 통합분석 플랫폼이다. Databricks 는 빅테크(Azure,AWS,GCP) 클라우드 서비스 플랫폼과 통합되어 서비스 된다. Lakehouse 가 나오게된 배경 데이터브릭스가 내세우는 데이터분석 패러다임이 바로 lakehouse 플랫폼이다. lakehouse 플랫폼이 나오게된 배경은 무엇일까? 무엇이기에 이전에 있던 데이터레이크(data lake)와 다른 것일까? 전통적으로 데이터웨어하우스(data warehouse)에 분석을 위한 데이터를 저장하였는데 이것은 정형데이터 저장에 최적화 되어 있다. 그리고, 데이터 사이언스들이 머신러닝을 ..
-
Databricks에서 Azure DataLake Storage Gen2 액세스하기Data 2022. 9. 2. 14:25
다음 3단계 스텝으로 진행하는 방법을 보여준다. Secret 스콥과 Secret을 생성한다. account 키를 사용하여 스파크 세션을 위한 설정을 한다. ADLS Gen3를 액세스한다. 먼저 keyr값을 이용하여 직접액세스하는 것을 보여준다. 먼저 애저의 storage account를 생성하고, 컨테이너를 하나 생성한다. 그리고 아래에서 account key를 이용하여 databricks에서 액세스 할것이기 때문에 키를 복사한다. 데이터브릭스에서 demoCluster 생성 : 14일 무료버전 사용중이고, 데모클러스터는 적당히 생성하였음. 노트북 생성 spark 세션을 구성한다. spark.conf.set("fs.azure.account.key.스토리지어카운트.dfs.core.windows.net","위..