본문 바로가기

Coursera 강의 정리/Modern Big Data Analysis with SQL

S2 Analyzing Big Data with SQL - W1 Welcome to the Course

Modern Big Data Analysis with SQL 특화 과정 중 두 번째 강의 Analyzing Big Data with SQL

첫 번째 주차 Welcome to the Course 내용 정리입니다.

 

주요 SQL 명령: SHOW DATABASES, USE databasename, SHOW TABLES, DESCRIBE tablename, SELECT


SELECT
에서는 행의 순서는 랜덤이지만 열의 순서는 테이블 구조와 질의에 따라서 결정된다


다양한
SQL 인터페이스가 있지만 근본적으로 ODBC, JDBC를 사용해서 데이터베이스와 연결한다.


Hive
Impala는 자체 CLI 도구인 BeelineImpala Shell을 지원한다.

SQL Utility 명령

데이터베이스와 테이블에 대한 정보를 확인하는 기본적인 명령

 

 

1)      SHOW DATABASES;      어떠한 데이터베이스가 있는지 확인하는 명령

 

2)     USE databasename;      Active 데이터베이스를 설정하는 명령. 기본적으로 default 데이터베이스가 초기 Active 데이터베이스이다.

 

3)     SHOW TABLES;            데이터베이스가 가지고 있는 테이블을 확인하는 명령

 

4)     DESCRIBE tablename;   테이블의 열 정보를 확인하는 명령

SQL SELECT 명령

테이블에서 원하는 정보를 추출하는 명령으로 가장 많이 사용한다. 기본적인 형식으로는

SELECT columnnames FROM tablename;

이며 모든 열을 추출하고 싶은 경우 columnnames를 *로 지정한다.

 

SELECT의 결과에서 행의 순서는 랜덤이지만 열의 순서는 랜덤이 아니다. 열의 순서는 테이블이 정의된 구조를 따르거나 SELECT 질의를 입력에 따라서 결정된다. 하지만 행의 순서는 분산된 디스크에서 가져오는 것이므로 질의가 실행될 때마다 다를 수 있다.

 

SQL Interfaces

SQL을 지원하는 도구로는 간단한 쿼리 작성 도구(Query Utility)에서부터 복잡한 BI 분석 도구까지 다양하다. 하지만 본질적으로는 ODBC, JDBC를 인터페이스 표준에 근거하여서 Hive, Impala와 같은 데이터베이스에 연결한다.

 

Hive와 Impala는 자체적으로 CLI 도구까지 가지고 있으며 각각 Beeline, Impala Shell이라고 한다. Beeline은 JDBC를 사용해서 Hive와 연결하고 Impala Shell은 ODBC, JDBC가 아닌 연결 방식을 사용한다. 다음 명령을 사용해서 터미널에서 CLI를 시작한다.

 

1)      Beeline을 사용하기 위한 명령: beeline -u jdbcurl

 

 

2)     Impala Shell을 사용하기 위한 명령: impala-shell