S3 Managing Big Data in Clusters and Cloud Storage - W1 Orientation to Data in Clusters and Cloud Storage

Modern Big Data Analysis with SQL 특화 과정 중 세 번째 강의 Managing Big Data in Clusters and Cloud Storage의

첫 번째 주차 Orientation to Data in Clusters and Cloud Storage 내용 정리입니다.

데이터베이스를 탐색하는 방법 (SHOW, USE, DESCRIBE)

Distributed SQL 엔진은 Metastore를 통해 데이터에 테이블 구조를 부여한다

데이터는 HDFS에 저장되며, HDFS는 클라우드(AWS S3)에 설계할 수 있다.

데이터베이스 탐색하기

Hue Interface 또는 CLI로 데이터베이스를 탐색할 수 있다. CLI로 탐색할 경우 다음과 같은 SQL 명령을 사용한다.

1) SHOW DATABASES; 데이터베이스 확인하기

2) USE databasename; Active Database 설정하기

3) SHOW TABLES; Active Database의 테이블 확인하기

4) DESCRIBE tablename; 테이블의 열(Column) 확인하기

Distributed SQL 엔진에서 데이터 관리 방법

Hive, SQL과 같은 Distributed SQL 엔진에서 데이터에 테이블 구조를 부여하는 것은 Metastore이다. Metastore에서 테이블 구조를 확인하고 이에 맞게 HDFS나 S3 Bucket에 있는 데이터를 읽어 들인다.

출처 : https://www.simplilearn.com/working-with-hive-and-impala-tutorial

HDFS는 Hadoop에서 사용하는 File System이다. HDFS에서 파일을 처리하는 주요 명령은 hdfs dfs 키워드를 통해 이루어진다.

1) 파일 확인 $ hdf dfs -ls path

2) 파일 출력 $ hdfs dfs -cat path

3) 파일 저장 $ hdfs dfs -get hdfspath localpath

AWS와 같은 클라우드 환경에 HDFS를 설계할 수 있다. 이러한 경우 Path가 S3 URL로 변경된다. 또한 AWS CLI를 통해 데이터를 접근하는 것도 가능하다.

저작자표시 비영리 변경금지

'Coursera 강의 정리 > Modern Big Data Analysis with SQL' 카테고리의 다른 글

S3 Managing Big Data in Clusters and Cloud Storage - W3 Data Types and File Types (0)	2020.09.29
S3 Managing Big Data in Clusters and Cloud Storage - W2 Defining Databases Tables and Columns (0)	2020.09.28
S2 Analyzing Big Data with SQL - W6 Combining Data (0)	2020.09.23
S2 Analyzing Big Data with SQL - W5 Sorting and Limiting Data (0)	2020.09.22
S2 Analyzing Big Data with SQL - W4 Grouping and Aggregating Data (0)	2020.09.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

열린 서랍장

S3 Managing Big Data in Clusters and Cloud Storage - W1 Orientation to Data in Clusters and Cloud Storage

데이터베이스 탐색하기

Distributed SQL 엔진에서 데이터 관리 방법

'Coursera 강의 정리 > Modern Big Data Analysis with SQL' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

S3 Managing Big Data in Clusters and Cloud Storage - W1 Orientation to Data in Clusters and Cloud Storage

데이터베이스 탐색하기

Distributed SQL 엔진에서 데이터 관리 방법

'Coursera 강의 정리 > Modern Big Data Analysis with SQL' 카테고리의 다른 글

'Coursera 강의 정리/Modern Big Data Analysis with SQL' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역