관리 메뉴

진취적 삶

섹션 22 데이터 & 분석 본문

AWS SAA

섹션 22 데이터 & 분석

hp0724 2023. 7. 16. 14:16

Amazon Athena

  • s3 버킷에 저장된 데이터를 분석해 사용하는 서버리스 쿼리 서비스
  • 표준 SQL 언어 사용 Presto 엔진에 빌드
  • csv ,json ,orc 등등 지원
  • 스캔되 데이터의 TB 당 고정 가격 지불하면됨
  • Quicksight 랑 같이 자주 사용되는데 Quicksight 는 보고서와 대시보드 생성

aws 서비스에서 발생하는 모든 로그를 쿼리하고 분석 가능

서버리스 s3데이터 분석이 나올경우 athena 생각하면됨

간단한 분석 작업

Amazon Athena -Performance Improvement

데이터를 적게 스캔할 유형의 데이터를 선택

데이터 스캔을 위해 데이터 압축

데이터 세트 분할

큰 파일을 사용해서 overhead를 최소화

파일이 클수록 검색이 쉽다

Redshift

데이터베이스 , 분석엔진 PostgreSQL 기반, 온라인 트랜잭션 처리 (OLTP)에 사용되지는 않는다.

OLAP -online analytical processing 유형

병렬 쿼리 엔지 있음

SQL 사용 가능

Quicksight 같이 사용할수 있음

대량의 컬럼형 데이터에 좋음

쿼리가 많고 복잡하면서 집중적인 웨어하우스의 경우 Redshift 좋다

Redshift - snapshots & DR

Redshift 는 mulit -AZ 가 없음

백업을 위해서는 Snapshots 사용

자동으로 스냅샷을 통해서 다른 aws region으로 카피 재난 방지

Redshift -spectrum

  • query data in s3 without loading it
  • mush have a Redshift cluster 사용 가능 to start the query
  • 클러스터에서 프로비저닝 한것보다 더많은 처리 능력을 활용할수 있음

Amazon OpenSearch service

부분적으로 일치하는 필드를 포함해 모든 필드를 검색할수 있음

openSerach 는 cluster of instances 가 필요로 하다 ( 서버리스 아님)

sql 지원 안함

로그를 중앙 집중식으로 저장하여 실시간으로 검색하고 분석해 오류와 악의적인 시도를 감지가능

EMR

Elastic MapReduce

빅데이터 작업을 위한 하둡 클러스터 생성에 사용됨

방대의 양의 데이터를 분석하고 처리할수 있다.

데이터 처리 , 기계학습 ,웹 인덱싱 빅데이터 작업에 사용됨

EMR - Node types & purchasing

  • master node : manage the cluster , coordiante , manage health - long running
  • core node : run tasks and store data - long running
  • task node : just to run taks - usually spot
  • 구매 옵션
    • on-demand : reliable , predictable ,종료 안함
    • reserved (min 1 year) : cost saving
    • spot instances : 가격 쌈 , 종료될수 있음, less reliable

QuickSight

서버리스 머신 러닝 기반 비즈니스 인텔리전스서비스

대화형 대시보드

유저나 그룹을 정의할수 있다. IAM과는 다름

분석 또는 대시보드를 유저 OR 그룹과 공유 할수 있음

Glue

ETL = extract ,transform , and load

분석을 위해 데이터를 준비하고 변환하는데 유용

서버리스

데이터를 Parquet format으로 변환 Parquet = 열 기반의 데이터 형식

  • glue job bookmarks : 새 ETL 작업을 실행할때 이전 데이터의 재처리를 방지
  • glue elastic views : sql 을 사용해 여러 데이터 스토어의 데이터를 결합하고 복제

lake formation

데이터 레이크 생성을 돕는다

data lake = 데이터 분석을 위해 모든 데이터를 한곳으로 모아 주는 중앙 집중식 저장소

데이터 검색 ,정제 ,변환 ,주입을 돕는다.

블루프린터를 통해서 데이터를 주입

액세스 제어 기능과 열 및 행 수준 보안이 있다.

kinesis data analytics

kinesis data streams → kinesis data analytics for sql applications → kinesis data streams → aws labda , applications

kinesis data firehose → kinesis data analytics for sql applications → kinesis data firehose

→ amazon s3 , amazon redshift , other firehose destinations

Amazon managed streaming for apache kafka (amazon MSK)

Amazon kinesis 대안

apache kafka 는 데이터를 스트리밍 하는 방식

kinesis data streams vs amazon msk

kinesis data streams amazon MSK
1 MB message size limit 1 MB default , configure for higher
data streams with shards kafka Topics with Partitions
shard spitting & merging can only add partitions to a topic
TLS in-flight encrpytion PLANTEXT or TLS in-flight encryption
KMS at-rest encrpytion KMS at-rest encrpytion

Big data ingetsion pipeline

  • 서버리스
  • 실시간으로 데이터 수집
  • 데이터를 변형하고 변형된 데이터를 sql을 통해 요청
  • 쿼리를 통해 생성한 보고서가 s3 저장
  • 데이터를 데이터 웨어하우스에 저장 대시보드 생성
  1. iot 데이터 수집
  2. 실시간 처리를 위한 amazon kinesis data streams
  3. amazon kinesis data firehouse 는 amazon kinesis data streams 통신하면서 s3 버킷에 데이터를 입력하고 오프로드
  4. amazon kinesis data firehouse 연결된 람다 함수를 통해서 데이터 변형
  5. s3 에 연결된 람다함수가 athena SQL 쿼리 실행
  6. athena SQL 통한 쿼리 출력값은 reporting bucket으로 이동
  7. quicksight 통해서 데이터 시각화 가능
  8. redshift 활용한 데이터 웨어하우스 (서버리스 아님)