Amazon Redshift
Amazon Redshift는 빅 데이터 분석에 사용할 수 있는 데이터 웨어하우징 서비스
이다. 이 서비스는 여러 원본에서 데이터를 수집하여, 데이터 간의 관계 및 추세를 파악하는데 도움이 되는 기능을 제공한다.
때로는 비즈니스 요구 사항은 현재 진행중인 일이 아닌, 과거에 일어난 일과 연결되기도 한다. 물론 모든 곳에 단일 데이터베이스를 사용하는 만능 모델을 사용할 수도 있지만, 빠른 속도와 실시간 수집 및 쿼리를 고려해 설계된 현대적인 데이터베이스가 적절하지 않은 경우도 있다.
기록/분석의 문제점은 쿼리를 요청한 시점에 데이터가 수집을 멈추지 않고 지속한다는 것이다. 그리고 최신 원격 분석과 IoT의 폭발적 증가 때문에 데이터는 결국 최고 용량의 기존 관계형 데이터베이스도 감당할 수 없는 양이 될 것이다.
더 나아가 데이터의 다양성도 문제가 될 수 있는데, 재고,금융 및 소매 영업 시스템과 같은 다양한 데이터 장소에서 오는 데이터를 상대로 BI(Business Intelligence) 프로젝트를 실행하는 경우, 여러 데이터 베이스에 단일 쿼리를 사용하는 것은 기존 데이터베이스에서는 쉽게 처리하지 못한다.
데이터가 너무 복잡해서 기존 관계형 데이터베이스로 처리하기 어려워지면, DW로 처리하게 되는데, DW는 이러한 유형의 빅데이터용으로 특별히 제작되었고, 사용자는 운영 분석이 아닌 기록 분석을 살펴보게 된다.
기록이란, “지난 1시간동안 모든 점포에서 기록한 매출정보를 출력”과 같이 지난 1시간은 이제 과거이므로 현재 판매하는 건은 포함되지 않는다는 것을 의미한다.
“지금 모든 점포에서의 매출은 어떻게 되지?”라는 질문과 비교해보면, 말하는 이 순간에도 결과는 바뀔 수 있으며, 비즈니스 질문이 과거를 향하다면 해당 BI에는 DW가 올바른 솔루션이 될 수 있다.
DW팀이 엔진관리 대신에 데이터에만 집중할 수 있도록 나온 서비스가 바로 Amazon Redshift이다.서비스로서의 데이터 웨어하우징 제품
이다. 확장성이 매우 뛰어나며, 수 Petabyte 크기의 Redshift 노드도 흔하다. 실제로 Redshift Spectrum을 통해 데이터 레이크에서 실행되는 수 Exabyte 바이트의 비정형 데이터를 대상으로 단일 SQL 쿼리를 실행할 수 있다.여기서 핵심읁 빅데이터 BI 솔루션이 필요할 때 Redshift를 이용하면 단일 API 호출로 작업을 시작할 수 있다는 것이다.