본문 바로가기

Coursera 강의 정리/Modern Big Data Analysis with SQL

S3 Managing Big Data in Clusters and Cloud Storage - W4 Managing Datasets in Clusters and Cloud Storage

Modern Big Data Analysis with SQL 특화 과정 중 세 번째 강의 Managing Big Data in Clusters and Cloud Storage

번째 주차 Managing Datasets in Clusters and Cloud Storage 내용 정리입니다.

 

메타데이터(Metastore)와 데이터의 느슨한 결합으로 인해 테이블에 데이터를 import 하는 방법이 다양해졌다.

FROM 파일 TO 테이블

테이블을 생성할 때 레코드를 파일에서 가져올 수 있다. CSV, TSV와 같은 파일에 저장된 데이터를 읽어 들여서 테이블을 구성한다.

 

RDBMS에서는 테이블의 레코드가 캡슐화되어서 보호받았다. 이는 DBMS 이외에는 테이블 내부의 데이터를 접근할 수 있는 방법이 없음을 의미한다. 따라서 RDBMS 환경에서는 SQL 명령(LOAD, INSERT INTO)을 통해 테이블에 데이터를 추가하였다.

 

하지만, Hive와 Impala는 Metastore와 데이터를 구분한다. 데이터는 어디에나 저장될 수 있다. 로컬 파일 시스템 또는 HDFS에 데이터를 저장하고 Metastore로 테이블의 구조만 정의한다. 이러한 방식으로 인해 테이블에 데이터를 추가하는 방법이 훨씬 다양해졌다. Hadoop Shell Command를 사용하거나 Hue Interface를 통해서 손쉽게 데이터를 import 하고 테이블에 추가할 수 있다.