본문 바로가기

Coursera 강의 정리/Modern Big Data Analysis with SQL

Foundations for Big Data Analysis with SQL - 01 데이터 개요(Organizing Data)

객체 데이터. 데이터는 객체가 가진 정보의 표현(Representation)

데이터는 디지털 데이터와 아날로그 데이터로 구분한다.

데이터를 조직화하는 이유는 데이터를 편리하게 사용하기 위해서이다.

Data StoreDatabase는 데이터를 저장하는 것. 다만, Database는 데이터를 조직화한다.

Database System = DBMS + Database

데이터는 객체가 아니다. (Data is NOT a Thing)

데이터는 객체가 아니다. 다만, 객체는 데이터를 포함할 수 있다. 예를 들어 영화 포스터가 있다고 가정하자. 영화 포스터 자체는 객체이다. 하지만 영화 포스터(객체)는 영화에 출연하는 배우 및 상영 시간과 같은 데이터를 가지고 있다. 이러한 의미에서 데이터는 객체가 가진 정보의 표현(Representation)이다.

 

데이터는 디지털 데이터와 아날로그 데이터로 구분한다. 디지털 데이터는 아날로그 데이터와 다르게 IT 기술을 통해 가공 및 처리된다. 예를 들어 같은 사진이라도, 화학적 처리를 통해 생성된 인화된 사진은 아날로그 데이터에 속하지만, 스마트폰에 저장된 사진은 픽셀로 구성된 디지털 데이터이다.

 

데이터를 조직화하는 이유

데이터를 조직화하는 이유는 데이터를 사용하기 위해서이다. 잘 조직된 데이터는 쉽게 사용될 수 있다. 영화에 대한 정보를 제목, 출연 배우, 상영 시간으로 정리한다면 향후 필요한 정보를 파악하기 쉽다. 예를 들어, 특정 배우가 출연한 영화를 알고 싶은 경우 출연 배우별로 영화를 그룹화하여서 정보를 얻을 수 있다. 궁극적으로 데이터베이스를 통해 데이터를 조직화하고 관리하는 이유는 질의(query)를 통해 필요한 정보를 추출하기 위해서이다.

 

용어 정리(Data Store, Database, DBMS, Database System)

Data Store와 Database 모두 데이터를 모아둔 것을 의미한다. 다만, Database는 Data Store와 다르게 데이터를 조직화하여서 관리한다. 특히 Relational Database는 데이터를 테이블의 형태로 정리한다.

 

DBMS는 Database를 관리하는 시스템을 의미한다. DBMS는 데이터베이스에서 정보를 입력하거나 필요한 질의(query)를 처리하는 것을 전담하여 관리한다. 대표적인 DBMS로는 MySQL, Oracle, PostgreSQL이 있으며 DBMS와 데이터베이스를 묶어서 Database System이라고 부른다.