빅데이터 기술의 정착 배경 - jodnddus/data-engineering-knowledge-base GitHub Wiki

인터넷의 보급과 다양한 디바이스들의 등장으로 인해 전통적인 RDB로는 취급할 수 없을만큼 많은 데이터가 쌓이게 되었다. 그렇게 많은 데이터를 처리하기 위해 새로운 기술들이 나왔고, 그런 기술들을 이용해서 개인이 비즈니스나 분석을 할 수 있게 되었다.

분산 시스템을 이용한 데이터 처리 고속화

Hadoop

다수의 컴퓨터에서 대량의 데이터를 처리

방대한 데이터를 저장해둘 스토리지와 방대한 데이터를 처리하기 위한 수백, 천 대 단위의 컴퓨터를 관리하는 프레임워크. MapReduce를 참고해서 제작되었다고 한다.

NoSQL

빈번한 읽기/쓰기 및 분산 처리

RDB의 제한을 제거하는 것을 목표로 개발된 데이터베이스들의 총칭. RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어남!

분산 시스템을 이용해서 비스니스에 사용하기

Hadoop이 세상에 나오기 전부터 일부 기업에서는 비즈니스적인 데이터 분석을 하기 위해서 엔터프라이즈 데이터 웨어하우스(EDW)를 도입했었다. EDW는 안정적인 성능을 실현하기 위해서 소프트웨어와 하드웨어가 통합된 장비로 제공되었는데, 가속도적으로 늘어나는 데이터의 저장을 위해 용량을 늘리려면 하드웨어를 교체해야하기 때문에 확장성이 좋지 않았다.

그렇게, 가속도적으로 늘어나는 데이터의 처리는 Hadoop에 맡기고 작은 데이터나 중요한 데이터를 데이터 웨어하우스에 넣는 식으로 구분하게 되었다.

직접 할 수 있게 된 데이터 분석

여러 컴퓨터에 분산해서 처리한다는 것이 빅데이터 기술의 특징이다. 이를 위해 하드웨어를 준비하는 일을 쉽지 않은 일인데, 클라우드 서비스가 보급되면서 이런 장벽이 무너지게 되었다. 자연스럽게 개인이 데이터 분산 처리를 위한 환경을 만드는 것이 쉬워졌다.

더군다나 비슷한 시기에 데이터를 시각화하려는 방법으로 데이터 디스커버리 기술이 인기를 끌게 되어서, 방법만 안다면 누구나 데이터 분석을 할 수 있게 되었다.