본문 바로가기

Coursera 강의 정리/Modern Big Data Analysis with SQL

S3 Managing Big Data in Clusters and Cloud Storage - W1 Orientation to Data in Clusters and Cloud Storage

Modern Big Data Analysis with SQL 특화 과정 중 세 번째 강의 Managing Big Data in Clusters and Cloud Storage

 번째 주차 Orientation to Data in Clusters and Cloud Storage 내용 정리입니다.

 

데이터베이스를 탐색하는 방법 (SHOW, USE, DESCRIBE)

Distributed SQL 엔진은 Metastore를 통해 데이터에 테이블 구조를 부여한다

데이터는 HDFS에 저장되며, HDFS는 클라우드(AWS S3)에 설계할 수 있다.

데이터베이스 탐색하기

Hue Interface 또는 CLI로 데이터베이스를 탐색할 수 있다. CLI로 탐색할 경우 다음과 같은 SQL 명령을 사용한다.

 

1)     SHOW DATABASES;      데이터베이스 확인하기

2)     USE databasename;      Active Database 설정하기

3)     SHOW TABLES;              Active Database의 테이블 확인하기

4)     DESCRIBE tablename;   테이블의 열(Column) 확인하기

Distributed SQL 엔진에서 데이터 관리 방법

Hive, SQL과 같은 Distributed SQL 엔진에서 데이터에 테이블 구조를 부여하는 것은 Metastore이다. Metastore에서 테이블 구조를 확인하고 이에 맞게 HDFS나 S3 Bucket에 있는 데이터를 읽어 들인다.

출처 : https://www.simplilearn.com/working-with-hive-and-impala-tutorial

HDFS는 Hadoop에서 사용하는 File System이다. HDFS에서 파일을 처리하는 주요 명령은 hdfs dfs 키워드를 통해 이루어진다.

 

1)     파일 확인        $ hdf dfs -ls path

2)     파일 출력        $ hdfs dfs -cat path

3)     파일 저장        $ hdfs dfs -get hdfspath localpath

 

AWS와 같은 클라우드 환경에 HDFS를 설계할 수 있다. 이러한 경우 Path가 S3 URL로 변경된다. 또한 AWS CLI를 통해 데이터를 접근하는 것도 가능하다.