JahvoTrust

Delta Lake 란 무엇일까요?

Data 2022. 8. 28. 21:35

최근에 엄청난 데이터들이 범람하고 있고, 이러한 데이터들은 기업환경에서 중요한 의사결정을 하기위해서 크리티컬한 백데이터로 사용되고있다. 이러한 데이터들은 비디오,오디오,이미지 그리고 텍스트들로 이루어져 있다. 델타레이크의 장점은 이러한 여러포맷의 데이터들을 적은 비용으로 저장할수 있다는 것이다. 또하나는 특정 벤더에 Lock-in 되지 않는다는 것이다. 델타레이크는 배치와 스트리밍 데이터를 처리하는데 좋은 성능을 발휘한다. 데이터 엔지니어링을 위한 최적의 성능을 발휘하여 데이터분석, 데이터사이언스, ML을 하나의 데이터 레이크에서 처리할수 있게 해준다. 참조영상입니다.

Azure AI Engineer Associate(AI-102)합격!

Data 2022. 8. 20. 11:24

Azure AI Engineer Associate 인증을 획득하면 Azure Cognitive Services, Azure Cognitive Search 및 Microsoft Bot Framework를 활용하는 AI 솔루션을 구축, 관리 및 배포하는 데 필요한 기술과 지식이 검증된다고 한다. 코딩 예제들이 많이 나와서 기본적이 api에 대한 이해가 있으면 좀더 이해가 쉬울것 같다. 실생활에서 적용해볼수 있는 많은 케이스들이 있어서 공부하면서, 이런걸 해보면 좋겠다는 생각이 들었다. 이론은 쌓았으니, 실제 구현을 해보면서 공부들 더 해봐야겠다. 오늘도 화이팅!!

Spark 3.2 & 3.3 Released[스파크 3.2]

Data 2022. 8. 9. 16:58

스파크 3.2가 출시 되면서 스파크기반의 판다스를 사용할수 있게 되었다. 실로 파이썬 개발자에게는 터닝포인트다. 이전에 데이터처리를 판다스로 하면 싱글노드를 사용할수 밖에 없었다. 이제는 판다스를 사용하면서 분산처리가 가능하게 되었다. 이제 더이상 스파크 API를 사용하지 않아도 되는것인가? 1G이상의 빅데이터를 로딩하기위하여 아래와 같이 사용한다. spdf = spark.read.load('*.csv', format='csv', header=True) 로딩한 데이터를 스파크 기반의 판다스 데이터프레임으로 변경한다. df = spdf.to_pandas_on_spark() 이제 80%이상의 호환성으로 판다스 API를 사용하면된다. 대단한일인듯하다. https://spark.apache.org/docs/la..

Amazon Redshift 아마존 레드시프트

AWS 2022. 8. 1. 13:11

엑사바이트 규모의 데이터를 분석하고 복잡한 분석 쿼리를 실행하여 가장 널리 사용되는 클라우드 데이터 웨어하우스가 되었습니다. 데이터 웨어하우스 인프라를 관리할 필요 없이 모든 데이터에 대해 몇 초 만에 분석을 실행하고 확장할 수 있습니다. https://aws.amazon.com/ko/redshift/ 데이터 웨어하우스 | Redshift | Amazon Web Services 연동된 쿼리, 데이터 레이크 분석, Redshift 기계 학습, 지원되는 노드, 인스턴스 유형 등에 대해 자세히 알아보세요. aws.amazon.com

구글 빅데이타 플랫폼 빅쿼리 Big Query

GCP 2022. 8. 1. 13:07

BigQuery는 Google Cloud의 페타바이트급 규모의 경제적인 완전 관리형 분석 데이터 웨어하우스로, 거의 실시간으로 방대한 양의 데이터를 분석할 수 있습니다. BigQuery를 사용하면 설정하거나 관리할 인프라가 없으므로 표준 SQL을 사용하여 유용한 정보를 찾는 데 집중하고 주문형 옵션과 정액제 옵션에서 유연하게 가격 책정 모델을 활용할 수 있습니다. 참고:https://cloud.google.com/bigquery/docs?hl=ko 기존의 RDBMS에서 사용되는 SQL언어를 그대로 사용하기 때문에, SQL 사용자라면 접근하기 용이하다. 과금도 SQL을 실행한 데이터량을 기준으로 책정된다. MS의 클라우드 애저를 사용한다면 비슷한것이 애저 시냅스 어낼러틱스의 Serverless SQL이다...

[REACT] .env 환경설정 파일 사용하기

React 2022. 7. 21. 14:12

.env 파일은 중요한 설정파일이나 Key 값같은 보안이 필요한 부분을 "키=값"의 형태로 환경설정파일에시 보관하고 관리하기 위한 파일이다. 아래와 같은 형태로 설정값저장. *여기서 중요한사실은 변수들은 반드시 REACT_APP_ 로 시작해야 인식을 한다는 점이다. (이거 찾느라 엄청나게 삽질함.^^) js 파일에서 사용할때는 아래처럼 사용하면 됩니다. 그리고, github를 사용한다면 .gitignore 파일에 아래처럼 추가해서 버전관리에서 빠지게 해야겠죠. 이상입니다.

나만의 홈페이지 만들기-01 [VS CODE 설치]

React 2022. 7. 16. 12:11

웹 3.0의 시대 디지털이 일상이 된지 오래다. 모든것이 가상의 세계(메타버스)에서 이루어질 정도로 이제는 스스로 이질감을 느끼지 못하는 시대가 됬다. 사실 이것이 디지털세상인지 리얼 실생활인지 가끔은 구분이 안가기도 한다. 항상 느끼는 것이지만, 장자의 나비의 꿈...이것이 진정 이모든것을 설명하는 것일지도 모른다. 꿈속에 내가 진짜인지...실제 지금의 내가 진짜인지 이제는 어느 것이 중요한지 알기 힘든 시대가 됬다. 하루 24시간에서 8시간을자고 16시간을 깨어 있다고 가정하자. 주말아침 7시에 눈을뜨면, 제일먼저 가상화폐의 시세를 확인한다. 그리고, 간밤에 무슨일이 있었는지 습관적으로 인터넷 포털의 뉴스를 검색하고.. 한참을 그렇게 뒤적이다가.. 배가 고프면 슬며시 일어나서 먹을 것을 찾는다. 그리..

머신러닝이란?

AI&ML 2022. 4. 12. 23:59

사전적의미는 "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"라고한다. https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5#%EC%A0%95%EC%9D%98 기계 학습 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 일단 머신러닝은 AI의 연구범위안에 포함되고, 딥러님은 머신러닝에 포함되는 영역이라고 이해하자. AI > 머신러닝 > 딥러닝 이런순으로 범위가 정해진다고 보면된다. 그럼...머신러닝이 일반 프로그램이랑 뭐가 다를까? 우리는 프로그램을 개발할때 Input 이 있으면 Output 있고, 이러한 결과물을 내기위해서 로직을 프로그래밍하고 그것..

ABOUT ME

JahvoTrust JahvoTrust

티스토리툴바

ABOUT ME

전체 글

티스토리툴바