Data
-
데이터브릭스의 데이터 객체 계층 구조Data 2024. 7. 1. 17:42
데이터 레이크하우스 플랫폼에서의 데이터 구조 및 접근 방식데이터브릭스 레이크하우스 플랫폼에서 데이터 객체 계층 구조는 데이터가 어떻게 구성되있고 접근되는지를 나타냅니다. 데이터브릭스 레이크하우스는 Delta Lake를 사용하여 데이터베이스, 테이블, 뷰와 같은 전통적인 RDB와 같이 친숙한 관계를 통해 데이터를 구성하며, 이것은 DW와 Data Lake의 장점을 합쳐 놓은것이라고 보면 됩니다.주요 데이터 객체는 다음과 같습니다:메타스토어(HMS)카탈로그데이터베이스/스키마테이블뷰함수볼륨메타스토어(HMS)메타스토어는 레이크하우스에서 데이터 객체에 대한 메타데이터를 저장하는 중앙 저장소입니다. Azure Databricks에는 Unity 카탈로그 메타스토어와 기본 제공 하이브 메타스토어의 두 가지 유형이 있습..
-
Azure Cosmos DB for MongoDB: NoSQL의 힘을 끌어올리다Data 2023. 11. 5. 16:37
현대 앱 개발의 끊임없는 발전 속에서 Azure Cosmos DB for MongoDB는 게임 체인저로 등장합니다. 이 완전히 관리되는 NoSQL 및 관계형 데이터베이스는 MongoDB의 능력을 손쉽게 활용할 수 있는 완벽한 경험을 제공합니다. Azure Cosmos DB for MongoDB의 이점과 작동 방식에 대해 알아보고 다음 프로젝트를 어떻게 강화할 수 있는지 살펴봅시다. Cosmos DB for MongoDB - 게임 체인저 Azure Cosmos DB for MongoDB는 MongoDB Atlas과 같은 다른 MongoDB 서비스와 비교해 다양한 이점을 제공합니다. 이 서비스는 클라우드 네이티브 애플리케이션을 염두에 두고 설계되었으며 Request Units (RU) 아키텍처를 갖춘 유연하..
-
Databricks 주요기능/Control&Data Planes/Driver ExcutorsData 2023. 4. 17. 12:28
데이터브릭스는 데이터 과학 및 머신러닝 작업을 위한 클라우드 기반 플랫폼으로, 다양한 기능을 제공합니다. Workspace: 데이터브릭스에서는 공유 작업환경을 제공하는 Workspace 기능을 제공합니다. 이를 통해 여러 사용자가 하나의 작업환경에서 공동 작업을 할 수 있습니다. Repo: 데이터브릭스에서는 코드 버전 관리 및 협업을 위한 Repo 기능을 제공합니다. 이를 통해 코드의 변경 사항을 추적하고, 이전 버전으로 롤백할 수 있습니다. Data: 데이터브릭스에서는 다양한 데이터소스를 지원하며, 이를 쉽게 로드하고 가공할 수 있는 Data 기능을 제공합니다. 이를 통해 데이터 과학 및 머신러닝 작업을 위한 데이터를 쉽게 수집, 가공 및 저장할 수 있습니다. Compute: 데이터브릭스에서는 다양한 ..
-
파이썬 Class,self,Class추가Data 2023. 1. 30. 14:06
파이썬에서 클래스는 객체(특정 데이터 구조)를 만들고, 상태(구성원 변수 또는 속성)에 대한 초기 값을 제공하며, 동작(구성원 함수 또는 메서드)을 구현하는 구조를 만듭니다. 아래는 간단한 예제입니다. class Dog: def __init__(self, name, breed): self.name = name self.breed = breed def bark(self): print("name:"+self.name) print("name:"+self.breed) __init__는 OOP 프로그래밍에서 생성자와 유사합니다. 객체를 생성하면서, 파라미터값으로 class scop 에서 사용할수 있는 변수들을 선언할수 있다. self 라는 것은 클래스 자신을 의미한다고 보면됩니다.. C#같은 프로그래밍에서 thi..
-
데이터브릭스(databricks)에 쓰이는 매직 명령어(magic command)Data 2023. 1. 27. 06:52
데이터브릭에서 매직 명령어(magic command)는 다른 언어로 코드를 실행하거나 특정 작업을 실행하는 데 사용된다. 매직 명령어(magic command)의 구문은 %[command](예: %python 또는 %sql)이다. Datbricks의 일반적인 매직 명령어(magic command)는 다음과 같다: %sh: 셸 명령을 실행하는 데 사용됨 %python: Python 코드를 실행하는 데 사용됨 %sql: SQL 쿼리를 실행하는 데 사용됨 %fs: Datbricks 파일 시스템과 관련된 명령을 실행하는 데 사용 %sva, %r: 해당 언어로 코드를 실행하는 데 사용 %run: 노트북 또는 스크립트를 실행하는 데 사용 %md: 마크다운 셀을 만드는 데 사용 %run 명령을 사용하여 사용자 지정 ..
-
데이터브릭스(databricks) 레이크하우스(Lakehouse)Data 2022. 11. 24. 19:41
데이터브릭스(databricks)는 아파치 스파크 기반의 빅데이터 분석 플랫폼이다. 데이터 엔지니어, 데이터 사이언스, 데이터 분석가가 하나의 플랫폼에서 협업할수 있는 통합분석 플랫폼이다. Databricks 는 빅테크(Azure,AWS,GCP) 클라우드 서비스 플랫폼과 통합되어 서비스 된다. Lakehouse 가 나오게된 배경 데이터브릭스가 내세우는 데이터분석 패러다임이 바로 lakehouse 플랫폼이다. lakehouse 플랫폼이 나오게된 배경은 무엇일까? 무엇이기에 이전에 있던 데이터레이크(data lake)와 다른 것일까? 전통적으로 데이터웨어하우스(data warehouse)에 분석을 위한 데이터를 저장하였는데 이것은 정형데이터 저장에 최적화 되어 있다. 그리고, 데이터 사이언스들이 머신러닝을 ..
-
Databricks에서 Azure DataLake Storage Gen2 액세스하기Data 2022. 9. 2. 14:25
다음 3단계 스텝으로 진행하는 방법을 보여준다. Secret 스콥과 Secret을 생성한다. account 키를 사용하여 스파크 세션을 위한 설정을 한다. ADLS Gen3를 액세스한다. 먼저 keyr값을 이용하여 직접액세스하는 것을 보여준다. 먼저 애저의 storage account를 생성하고, 컨테이너를 하나 생성한다. 그리고 아래에서 account key를 이용하여 databricks에서 액세스 할것이기 때문에 키를 복사한다. 데이터브릭스에서 demoCluster 생성 : 14일 무료버전 사용중이고, 데모클러스터는 적당히 생성하였음. 노트북 생성 spark 세션을 구성한다. spark.conf.set("fs.azure.account.key.스토리지어카운트.dfs.core.windows.net","위..
-
Azure Synapse에 있는 Spark 클러스터로 NYC Taxi 데이터 분석Data 2022. 8. 30. 17:42
NYC Taxi 데이터 다운로드 및 Spark 에 데이터 로드 샘플데이터 다운로드 • Download this file to your computer: https://azuresynapsestorage.blob.core.windows.net/sampledata/NYCTaxiSmall/NYCTripSmall.parquet Synapse Studio에서 개발 허브로 이동합니다. 시냅스에 있는 spark notebook 으로 데이터 분석하는 방법 노트북을 오픈하고 spark cluster 를 선택한다. spark cluster 를 활성화 시킨다. 기본 저장소 계정에 샘플 데이터를 배치 했는지 확인 합니다 . 새 노트북을 만듭니다. 새 코드 셀을 만들고 해당 셀에 다음 코드를 붙여넣습니다. %%pyspark d..