빅데이터
-
Delta는 왜 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가?Azure 2023. 1. 26. 22:09
데이터브릭스에서 Delta 는 무엇인가? Databricks의 Delta는 분산 컴퓨팅 환경에서 대량의 데이터를 효율적으로 저장하고 처리할 수 있는 구성 요소를 말한다. ACID 트랜잭션, 데이터 버전 관리, 최적화된 데이터 관리 등의 기능을 포함하고 있어 데이터브릭스에 데이터 레이크 및 데이터 파이프라인을 구축하는 데 강력한 도구이다. 델타 테이블은 클라우드 스토리지에 저장되며 일반 RDB의 테이블처럼 읽고 쓸 수 있다. 또한 데이터의 효율적인 증분 처리를 가능하게 하여 스트리밍 데이터 및 데이터 레이크와 같은 시나리오에 이상적이다. 왜 델타(delta)는 빅 데이터 처리 분야에서 점점 더 인기를 끌고 있는가? 성능: 델타는 빅데이터 처리 작업의 성능을 크게 향상시킬 수 있는 여러 최적화를 제공한다. ..
-
Delta Lake 란 무엇일까요?Data 2022. 8. 28. 21:35
최근에 엄청난 데이터들이 범람하고 있고, 이러한 데이터들은 기업환경에서 중요한 의사결정을 하기위해서 크리티컬한 백데이터로 사용되고있다. 이러한 데이터들은 비디오,오디오,이미지 그리고 텍스트들로 이루어져 있다. 델타레이크의 장점은 이러한 여러포맷의 데이터들을 적은 비용으로 저장할수 있다는 것이다. 또하나는 특정 벤더에 Lock-in 되지 않는다는 것이다. 델타레이크는 배치와 스트리밍 데이터를 처리하는데 좋은 성능을 발휘한다. 데이터 엔지니어링을 위한 최적의 성능을 발휘하여 데이터분석, 데이터사이언스, ML을 하나의 데이터 레이크에서 처리할수 있게 해준다. 참조영상입니다.
-
Spark 3.2 & 3.3 Released[스파크 3.2]Data 2022. 8. 9. 16:58
스파크 3.2가 출시 되면서 스파크기반의 판다스를 사용할수 있게 되었다. 실로 파이썬 개발자에게는 터닝포인트다. 이전에 데이터처리를 판다스로 하면 싱글노드를 사용할수 밖에 없었다. 이제는 판다스를 사용하면서 분산처리가 가능하게 되었다. 이제 더이상 스파크 API를 사용하지 않아도 되는것인가? 1G이상의 빅데이터를 로딩하기위하여 아래와 같이 사용한다. spdf = spark.read.load('*.csv', format='csv', header=True) 로딩한 데이터를 스파크 기반의 판다스 데이터프레임으로 변경한다. df = spdf.to_pandas_on_spark() 이제 80%이상의 호환성으로 판다스 API를 사용하면된다. 대단한일인듯하다. https://spark.apache.org/docs/la..
-
머신러닝이란?AI&ML 2022. 4. 12. 23:59
사전적의미는 "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"라고한다. https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5#%EC%A0%95%EC%9D%98 기계 학습 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 일단 머신러닝은 AI의 연구범위안에 포함되고, 딥러님은 머신러닝에 포함되는 영역이라고 이해하자. AI > 머신러닝 > 딥러닝 이런순으로 범위가 정해진다고 보면된다. 그럼...머신러닝이 일반 프로그램이랑 뭐가 다를까? 우리는 프로그램을 개발할때 Input 이 있으면 Output 있고, 이러한 결과물을 내기위해서 로직을 프로그래밍하고 그것..
-
DP-900 Azure Data Fundamentals 인증시험 합격!!Data 2022. 4. 3. 11:11
오늘 아침에 예약한 인증시험을 보았고 드디어 합격을 했습니다.ㅋㅋ 위 배지는 합격하면 메일로 정식으로 다운받을수 있는 링크가 옵니다. 시험시간은 오전 8시였고, 반드시 30분전에 체크인 하셔서 여러가지 사전준비를 하셔야합니다. 신분증확인부터 내 책상주의 앞뒤좌우 4장의 사진찍기 등등 30분일찍 들어가셔서 준비하시는것이 좋습니다. 꼭 여권같은 영문이름이 있는 신분증을 준비하시는것이 나을듯합니다. 그런다음 인도분 억양으로 어쩌고 저쩌고 How are you? 라는 익숙한 말이 들립니다. 반사적으로 중학교때 배운 fine thank you and you? ㅋㅋ 몇십년이 지났지만, 반사적으로 대답했죠..ㅎㅎ 그런다음 카메라로 테이블 주위를 보여달라고 하고 이때 중요한것 4모서리를 정확하게 다보여줘야 합니다. 그..
-
DP-900 인증시험준비Data 2022. 3. 30. 10:19
데이터분석쪽 일을 시작한지 얼마되지 않는 데린이 입니다. 기본개념을 익히기 위해 MS 인증시험 DP-900을 준비합니다. 시험준비를 위한 공식자료는 아래 링크에 있습니다. https://docs.microsoft.com/ko-kr/learn/certifications/azure-data-fundamentals/ Microsoft Certified: Azure Data Fundamentals - Learn Azure Data Fundamentals은 핵심 데이터 개념에 대한 기초 지식과 Microsoft Azure 데이터 서비스를 사용하여 이를 구현하는 방법을 검증합니다. docs.microsoft.com 그리고, 기본시험이라 웨비나를 들으면 무료로 시험신청이 가능합니다. 그리고 중요한 덤프사이트 http..