데이터분석
-
Databricks에서 Azure DataLake Storage Gen2 액세스하기Data 2022. 9. 2. 14:25
다음 3단계 스텝으로 진행하는 방법을 보여준다. Secret 스콥과 Secret을 생성한다. account 키를 사용하여 스파크 세션을 위한 설정을 한다. ADLS Gen3를 액세스한다. 먼저 keyr값을 이용하여 직접액세스하는 것을 보여준다. 먼저 애저의 storage account를 생성하고, 컨테이너를 하나 생성한다. 그리고 아래에서 account key를 이용하여 databricks에서 액세스 할것이기 때문에 키를 복사한다. 데이터브릭스에서 demoCluster 생성 : 14일 무료버전 사용중이고, 데모클러스터는 적당히 생성하였음. 노트북 생성 spark 세션을 구성한다. spark.conf.set("fs.azure.account.key.스토리지어카운트.dfs.core.windows.net","위..
-
Azure Synapse에 있는 Spark 클러스터로 NYC Taxi 데이터 분석Data 2022. 8. 30. 17:42
NYC Taxi 데이터 다운로드 및 Spark 에 데이터 로드 샘플데이터 다운로드 • Download this file to your computer: https://azuresynapsestorage.blob.core.windows.net/sampledata/NYCTaxiSmall/NYCTripSmall.parquet Synapse Studio에서 개발 허브로 이동합니다. 시냅스에 있는 spark notebook 으로 데이터 분석하는 방법 노트북을 오픈하고 spark cluster 를 선택한다. spark cluster 를 활성화 시킨다. 기본 저장소 계정에 샘플 데이터를 배치 했는지 확인 합니다 . 새 노트북을 만듭니다. 새 코드 셀을 만들고 해당 셀에 다음 코드를 붙여넣습니다. %%pyspark d..