2021. 8. 27. 00:57ㆍ카공리스트/AWS Cloud Practitioner Essentials
비즈니스 요구 사항이 현재 진행 중인 일이 아닌 과거에 일어난 일과 연결되기도 한다.
이러한 데이터 분석은 완전히 다른 클래스이 데이터베이스 영역에 속한다.
물론 모든 곳에 단일 데이터베이스를 사용하는 만능 모델을 사용할 수도 있지만 빠른 속도와 실시간 수집 및 쿼리를 고려해 설계된 현대적인 데이터베이스가 적절하지 않은 경우도 있다.
자세히 설명하면 다음과 같다.
실시간 읽기/쓰기 기능의 속도 관리를 위해 대부분의 관계형 데이터베이스는 특정 용량에서 과도하게 기능하는 경향이 있다.
기록 분석의 문제점은 '시작한 이후 생산이 얼마나 개선되었는지 보여줘' 같은 질문에 대답하는 데이터가 수집을 멈추지 않는다는 것이다.
사실 최신 원격 분석과 IoT의 폭발적 증가 때문에 데이터는 결국 최고 용량의 기존 관계형 데이터베이스도 감당할 수 없는 양이 될 것이다.
볼륨 뿐만 아니라 데이터의 다양성도 문제가 될 수 있다.
재고, 금융 및 소매 영업 시스템 같은 다양한 데이터 저장소에서 오는 데이터를 상대로 비즈니스 인텔리전스, 즉 BI 프로젝트를 실행하고 싶다면 이는 무리이다.
여러 데이터베이스에 단일 쿼리를 사용하는 일을 기존 데이터베이스는 쉽게 처리하지 못하기 때문이다.
데이터가 너무 복잡해 기존 관계형 데이터베이스로 처리하기 어려워지면 데이터 웨어하우스의 세계에 들어가게 된다.
데이터 웨어하우스는 이러한 유형의 빅데이터용으로 특별히 제작되었고, 사용자는 운영 분석이 아닌 기록 분석을 살펴본다.
여기서 '기록'이란 다음과 같다.
'지난 1시간 동안 모든 점포에서 기록한 매출을 보여줘.'
중요한 건 데이터가 설정되었다는 점이다.
지난 1시간은 이제 과거이므로 현재 판매하는 건은 포함되지 않는다.
이 질문을 '지금 커피 백 재고가 얼마나 있지?'라는 질문과 비교해보자.
말하는 이 순간에도 결과가 바뀔 수 있다.
비즈니스 질문이 과거를 향한다면 해당 비즈니스 인텔리전스에는 데이터 웨어하우스가 올바른 솔루션이다.
현재 수많은 데이터 웨어하우스 솔루션이 판매되고 있다.
AWS에서 자주 사용하는 솔루션을 이미 실행 중이라면 데이터를 가져오기만 하면 된다.
하지만 이를 떠나서 데이터 웨어하우스가 조율되고 복원력을 가지며 지속적으로 규모를 조정하도록 하는데 아직도 엄청나게 많은 획일적인 작업부담이 있을 수 있다.
데이터 웨어하우스 팀이 불가피한 관리와 엔진 관리 대신 데이터에만 집중할 수 있다면 좋을 것이다.
Amazon Redshift
서비스로서의 데이터 웨어하우징 제품이다.
빅데이터 분석에 사용할 수 있는 데이터 웨어하우징 서비스이다.
확장성이 대단히 뛰어나다.
수 페타바이트 크기의 Redshift 노드도 흔할 정도이다.
실제로 Amazon Redshift Spectrum을 통해 데이터 레이크에서 실행되는 수 엑사바이트의 비정형 데이터를 대상으로 단일 SQL 쿼리를 실행할 수 있다.
이 점은 데이터 세트 처리에만 국한되지 않는다.
Redshift는 다양한 혁신적 기능으로 이러한 유형의 비즈니스 인텔리전스 워크로드에 대해 기존 데이터베이스 대비 최대 10배나 높은 성능을 제공한다.
Redshift는 여러 원본에서 데이터를 수집하여 데이터 간의 관계 및 추세를 파악하는데 도움이 되는 기능을 제공한다.
여기서 핵심은 빅데이터 BI 솔루션이 필요할 때 Redshift를 이용하면 단일 API 호출로 작업을 시작할 수 있다는 것이다.
'카공리스트 > AWS Cloud Practitioner Essentials' 카테고리의 다른 글
추가 데이터베이스 서비스 및 데이터베이스 액셀러레이터 (0) | 2021.08.27 |
---|---|
AWS Database Migration Service (AWS DMS) (0) | 2021.08.27 |
Amazon DynamoDB (0) | 2021.08.26 |
Amazon Relational Database Service (Amazon RDS) (0) | 2021.08.26 |
Amazon Elastic File System (Amazon EFS) (0) | 2021.08.26 |