ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터브릭스의 데이터 객체 계층 구조
    Data 2024. 7. 1. 17:42
    반응형

    데이터 레이크하우스 플랫폼에서의 데이터 구조 및 접근 방식

    데이터브릭스 레이크하우스 플랫폼에서 데이터 객체 계층 구조는 데이터가 어떻게 구성되있고 접근되는지를 나타냅니다. 데이터브릭스 레이크하우스는 Delta Lake를 사용하여 데이터베이스, 테이블, 뷰와 같은 전통적인 RDB와 같이 친숙한 관계를 통해 데이터를 구성하며, 이것은 DW와 Data Lake의 장점을 합쳐 놓은것이라고 보면 됩니다.

    주요 데이터 객체는 다음과 같습니다:

    • 메타스토어(HMS)
    • 카탈로그
    • 데이터베이스/스키마
    • 테이블
    • 함수
    • 볼륨

    메타스토어(HMS)

    메타스토어는 레이크하우스에서 데이터 객체에 대한 메타데이터를 저장하는 중앙 저장소입니다. Azure Databricks에는 Unity 카탈로그 메타스토어와 기본 제공 하이브 메타스토어의 두 가지 유형이 있습니다.

    Unity 카탈로그 메타스토어 vs 기본 제공 하이브 메타스토어

    • 기본 제공 하이브 메타스토어는 hive_metastore라는 단일 카탈로그만 지원합니다.
    • Unity 카탈로그 메타스토어는 더 많은 기능을 제공하며, 데이터베이스와 테이블을 카탈로그로 그룹화할 수 있습니다.

    카탈로그

    카탈로그는 메타스토어 내의 객체로 존재하며, 각 데이터베이스는 카탈로그와 연관됩니다. Azure Databricks에는 Unity 카탈로그와 기본 제공 하이브 메타스토어의 두 가지 유형의 카탈로그가 있습니다. Unity 카탈로그 도입 이전에는 Azure Databricks는 2계층 네임스페이스를 사용했습니다.하지만, Unity 카탈로그가 도입되면서, 3레벨의 네임스페이스를 사용합니다.

    • 기본 제공 하이브 메타스토어: database_name.table_name
    • Unity 카탈로그 네임스페이스 모델: catalog_name.database_name.table_name

    데이터베이스/스키마

    데이터베이스는 카탈로그 내의 데이터 객체를 그룹화하는 단위로, 테이블, 뷰, 함수 등을 포함합니다.

    테이블

    데이터브릭스 테이블은 구조화된 데이터의 컬렉션입니다. 테이블은 managed 테이블(내부 테이블)과 External 테이블 두 가지로 나뉩니다.

    - Managed Table 

    • 데이터브릭스가 메타데이터와 데이터를 모두 관리합니다.
    • 드롭 명령을 실행하면 데이터와 메타데이터가 모두 삭제됩니다.
    • 기본적으로 생성되는 테이블 유형입니다.
    • 데이터는 데이터베이스의 등록된 LOCATION에 저장됩니다.

    - External Table(외부 테이블)

    • 데이터브릭스가 메타데이터만 관리합니다.
    • 드롭 명령을 실행하면 메타데이터만 삭제됩니다.
    • 데이터는 테이블 생성 시 지정된 LOCATION에 저장됩니다.
    • 데이터와 메타데이터는 독립적으로 관리됩니다.

    뷰는 하나 이상의 기본 테이블에서 저장된 쿼리로, 쿼리 텍스트만 메타스토어에 등록됩니다.

    함수

    함수는 스칼라 값이나 행 집합을 반환하는 저장된 로직입니다.

    볼륨

    Unity 카탈로그 객체로, 클라우드 객체 저장소 위치에 있는 논리적 저장 볼륨입니다. 볼륨은 파일을 접근, 저장, 관리, 조직할 수 있는 기능을 제공하며, 테이블이 표 형식 데이터세트를 관리하는 반면 볼륨은 비표 형식 데이터세트를 관리합니다.

    - 관리 볼륨

    • Unity 카탈로그가 관리하는 저장 볼륨으로, 포함된 스키마의 기본 저장 위치에 생성됩니다.
    • 볼륨 생성 시 특정 위치를 지정할 필요가 없으며, 모든 파일 접근 경로는 Unity 카탈로그에 의해 관리됩니다.

    - 외부 볼륨

    • 외부 위치에 생성된 Unity 카탈로그가 관리하는 저장 볼륨입니다.

    간략하게 Azure Databricks 에서 데이터가 저장되는 구조에 대해서 살펴보았습니다.

     

    원문:https://nidhig631.medium.com/data-management-in-databricks-data-object-hierarchy-73d89fe571f2

     

    Data Management in Databricks: Data Object Hierarchy

    Data object hierarchy in data bricks refers to the way data is organized and accessed in the Lakehouse platform.

    nidhig631.medium.com

     

    반응형

    댓글

Designed by Tistory.