분류 전체보기
-
Databricks에서 Azure DataLake Storage Gen2 액세스하기Data 2022. 9. 2. 14:25
다음 3단계 스텝으로 진행하는 방법을 보여준다. Secret 스콥과 Secret을 생성한다. account 키를 사용하여 스파크 세션을 위한 설정을 한다. ADLS Gen3를 액세스한다. 먼저 keyr값을 이용하여 직접액세스하는 것을 보여준다. 먼저 애저의 storage account를 생성하고, 컨테이너를 하나 생성한다. 그리고 아래에서 account key를 이용하여 databricks에서 액세스 할것이기 때문에 키를 복사한다. 데이터브릭스에서 demoCluster 생성 : 14일 무료버전 사용중이고, 데모클러스터는 적당히 생성하였음. 노트북 생성 spark 세션을 구성한다. spark.conf.set("fs.azure.account.key.스토리지어카운트.dfs.core.windows.net","위..
-
나만의 홈페이지 만들기-03 [부트스트랩]React 2022. 8. 31. 16:11
부트스트랩 공식사이트 React-Bootstrap 설치 The best way to consume React-Bootstrap is via the npm package which you can install with npm (or yarn if you prefer). 아래 처럼 터미널에서 설치를 한다. npm install react-bootstrap bootstrap Navbar 넣기 index.js 부트스트랩 css import 하기 // Importing the Bootstrap CSS import 'bootstrap/dist/css/bootstrap.min.css'; app.js 에 container 와 navbar 컴포넌트 임포트 import React from 'react'; import Co..
-
Azure Synapse에 있는 Spark 클러스터로 NYC Taxi 데이터 분석Data 2022. 8. 30. 17:42
NYC Taxi 데이터 다운로드 및 Spark 에 데이터 로드 샘플데이터 다운로드 • Download this file to your computer: https://azuresynapsestorage.blob.core.windows.net/sampledata/NYCTaxiSmall/NYCTripSmall.parquet Synapse Studio에서 개발 허브로 이동합니다. 시냅스에 있는 spark notebook 으로 데이터 분석하는 방법 노트북을 오픈하고 spark cluster 를 선택한다. spark cluster 를 활성화 시킨다. 기본 저장소 계정에 샘플 데이터를 배치 했는지 확인 합니다 . 새 노트북을 만듭니다. 새 코드 셀을 만들고 해당 셀에 다음 코드를 붙여넣습니다. %%pyspark d..
-
나만의 홈페이지 만들기-02 [프로젝트 생성]React 2022. 8. 29. 15:34
웹페이지는 요즘 핫한 React로 생성한다. 원하는 임의의 폴더를 생성한다. VS Code 를 실행해서 폴더열기- 위에서 만든 폴더를 선택한다. 새터미널을 클릭한다. 터미널에서 아래 명령을 실행한다. npx create-react-app . 실행이 끝나면 아래처럼 템플릿 소스 코드가 생성된다. 다시 터미널에서 아래 코드 실행. 템플릿 웹사이트가 오픈된다. app.js 파일을 아래와 같이 정리하고 저장하면, 아래와 같이 Hello World 가 보인다. 참고링크 https://create-react-app.dev/docs/getting-started Getting Started | Create React App Create React App is an officially supported way to cr..
-
Delta Lake 란 무엇일까요?Data 2022. 8. 28. 21:35
최근에 엄청난 데이터들이 범람하고 있고, 이러한 데이터들은 기업환경에서 중요한 의사결정을 하기위해서 크리티컬한 백데이터로 사용되고있다. 이러한 데이터들은 비디오,오디오,이미지 그리고 텍스트들로 이루어져 있다. 델타레이크의 장점은 이러한 여러포맷의 데이터들을 적은 비용으로 저장할수 있다는 것이다. 또하나는 특정 벤더에 Lock-in 되지 않는다는 것이다. 델타레이크는 배치와 스트리밍 데이터를 처리하는데 좋은 성능을 발휘한다. 데이터 엔지니어링을 위한 최적의 성능을 발휘하여 데이터분석, 데이터사이언스, ML을 하나의 데이터 레이크에서 처리할수 있게 해준다. 참조영상입니다.
-
Azure AI Engineer Associate(AI-102)합격!Data 2022. 8. 20. 11:24
Azure AI Engineer Associate 인증을 획득하면 Azure Cognitive Services, Azure Cognitive Search 및 Microsoft Bot Framework를 활용하는 AI 솔루션을 구축, 관리 및 배포하는 데 필요한 기술과 지식이 검증된다고 한다. 코딩 예제들이 많이 나와서 기본적이 api에 대한 이해가 있으면 좀더 이해가 쉬울것 같다. 실생활에서 적용해볼수 있는 많은 케이스들이 있어서 공부하면서, 이런걸 해보면 좋겠다는 생각이 들었다. 이론은 쌓았으니, 실제 구현을 해보면서 공부들 더 해봐야겠다. 오늘도 화이팅!!
-
Spark 3.2 & 3.3 Released[스파크 3.2]Data 2022. 8. 9. 16:58
스파크 3.2가 출시 되면서 스파크기반의 판다스를 사용할수 있게 되었다. 실로 파이썬 개발자에게는 터닝포인트다. 이전에 데이터처리를 판다스로 하면 싱글노드를 사용할수 밖에 없었다. 이제는 판다스를 사용하면서 분산처리가 가능하게 되었다. 이제 더이상 스파크 API를 사용하지 않아도 되는것인가? 1G이상의 빅데이터를 로딩하기위하여 아래와 같이 사용한다. spdf = spark.read.load('*.csv', format='csv', header=True) 로딩한 데이터를 스파크 기반의 판다스 데이터프레임으로 변경한다. df = spdf.to_pandas_on_spark() 이제 80%이상의 호환성으로 판다스 API를 사용하면된다. 대단한일인듯하다. https://spark.apache.org/docs/la..
-
Amazon Redshift 아마존 레드시프트AWS 2022. 8. 1. 13:11
엑사바이트 규모의 데이터를 분석하고 복잡한 분석 쿼리를 실행하여 가장 널리 사용되는 클라우드 데이터 웨어하우스가 되었습니다. 데이터 웨어하우스 인프라를 관리할 필요 없이 모든 데이터에 대해 몇 초 만에 분석을 실행하고 확장할 수 있습니다. https://aws.amazon.com/ko/redshift/ 데이터 웨어하우스 | Redshift | Amazon Web Services 연동된 쿼리, 데이터 레이크 분석, Redshift 기계 학습, 지원되는 노드, 인스턴스 유형 등에 대해 자세히 알아보세요. aws.amazon.com