본문 바로가기

카테고리 없음

Foundations for Big Data Analysis with SQL - 09 빅 데이터 환경에서 RDBMS의 장단점

RDBMS의 장점: 1) Business Rule을 강제하고 2) 데이터를 테이블 형태로 구조화한다. 3) RDBMS를 지원하는 소프트웨어가 많으며 4) DDL을 통한 보안이 용이하다. 5) 종합적으로 소규모 데이터에 적합한 시스템이다.

RDBMS의 단점: 1) Schema-on-Write 방식으로 스키마에 맞지 않는 데이터가 버려진다. 2) 자체적인 저장 및 처리 기능으로 인해 효율성이 떨어질 수 있으며, 3) Unstructured Data 처리가 부족한다. 4) 또한 Distributed Transaction에 대한 기술적 고려도 필요하다.

빅 데이터 환경에서 RDBMS가 가지는 장점

빅 데이터 환경에서 RDBMS의 장점은 다음과 같다.

 

1)      Business Rule을 강제할 수 있다. Transaction과 Trigger를 통해서 Business Rule을 강제하여 데이터를 관리할 수 있다.

 

2)     구조화된 데이터를 처리한다. RDBMS는 데이터를 테이블로 저장하며 스키마를 가진다. 구조화된 데이터는 분석을 위해서도 필수적이다. 데이터가 테이블 형태로 구조화되어 있는 것을 전제로 진행하는 분석이 많다.

 

3)     RDBMS를 지원하는 소프트웨어가 많다. MySQL, Oracle, PostgreSQL과 같이 선택할 수 있는 RDBMS가 많다. 또한 RDBMS를 기반으로 동작하는 프로젝트가 많으므로, 다양한 기능을 RDBMS에서 수행할 수 있다.

 

4)     DDL 명령을 통해 데이터 보안 관리가 용이하다.

 

5)     일반적으로 소규모와 중규모의 데이터에 대해서 RDBMS는 좋은 데이터베이스 시스템이다.

빅 데이터 환경에서 RDBMS가 가지는 단점

빅 데이터 환경에서 RDBMS의 단점은 다음과 같다.

 

1)      Schema-on-Write는 빅 데이터 환경에 맞지 않다. RDBMS는 Schema-on-Write를 통해서 스키마를 데이터가 저장되기 전에 정의하여 Business Rule을 강제하고 유효한 데이터만 관리한다. 하지만 빅 데이터 환경에서는 유효하지 않은 데이터가 생성되며, 이러한 데이터는 스키마에 맞지 않다는 이유로 버려진다.

 

2)     RDBMS는 많은 기능을 자체적으로 지원하는 무거운 시스템이다. RDMBS의 장점 중 하나는 내부적인 저장 및 관리를 관리자가 직접 하지 않고 시스템이 알아서 처리한다는 것이다. 하지만, 이러한 방식으로 동작으로 인해 저장과 처리에 비용을 관리자가 임의로 줄일 수 없다.

 

3)     Unstructured Data를 처리하지 못한다. BLOB, CLOB과 같은 데이터 타입이 있지만 해당 데이터 타입으로 저장된 데이터는 검색되지도 분석되지도 못한다.

 

4)     Distributed Transaction에 대한 처리가 어렵다. 빅 데이터 환경에서 데이터는 일반적으로 분산 저장된다. 분산 저장된 데이터를 Transaction을 통해 관리하여서 ACID를 만족시키는 것은 기존의 RDBMS에서는 상당히 어려운 과제이다.