Spark 3.2 & 3.3 Released[스파크 3.2]

Data 2022. 8. 9. 16:58

스파크 3.2가 출시 되면서 스파크기반의 판다스를 사용할수 있게 되었다.

실로 파이썬 개발자에게는 터닝포인트다.

이전에 데이터처리를 판다스로 하면 싱글노드를 사용할수 밖에 없었다.

이제는 판다스를 사용하면서 분산처리가 가능하게 되었다.

이제 더이상 스파크 API를 사용하지 않아도 되는것인가?

1G이상의 빅데이터를 로딩하기위하여 아래와 같이 사용한다.

spdf = spark.read.load('*.csv', format='csv', header=True)

로딩한 데이터를 스파크 기반의 판다스 데이터프레임으로 변경한다.

df = spdf.to_pandas_on_spark()

이제 80%이상의 호환성으로 판다스 API를 사용하면된다.

대단한일인듯하다.

https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_ps.html

Quickstart: Pandas API on Spark — PySpark 3.3.0 documentation

Quickstart: Pandas API on Spark This is a short introduction to pandas API on Spark, geared mainly for new users. This notebook shows you some key differences between pandas and pandas API on Spark. You can run this examples by yourself in ‘Live Notebook

spark.apache.org

'Data' 카테고리의 다른 글

Azure Synapse에 있는 Spark 클러스터로 NYC Taxi 데이터 분석 (1)	2022.08.30
Delta Lake 란 무엇일까요? (0)	2022.08.28
Azure AI Engineer Associate(AI-102)합격! (0)	2022.08.20
DP-900 Azure Data Fundamentals 인증시험 합격!! (1)	2022.04.03
DP-900 인증시험준비 (0)	2022.03.30

ABOUT ME

JahvoTrust JahvoTrust

'Data' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Data' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바