진취적 삶
섹션 22 데이터 & 분석 본문
Amazon Athena
- s3 버킷에 저장된 데이터를 분석해 사용하는 서버리스 쿼리 서비스
- 표준 SQL 언어 사용 Presto 엔진에 빌드
- csv ,json ,orc 등등 지원
- 스캔되 데이터의 TB 당 고정 가격 지불하면됨
- Quicksight 랑 같이 자주 사용되는데 Quicksight 는 보고서와 대시보드 생성
aws 서비스에서 발생하는 모든 로그를 쿼리하고 분석 가능
서버리스 s3데이터 분석이 나올경우 athena 생각하면됨
간단한 분석 작업
Amazon Athena -Performance Improvement
데이터를 적게 스캔할 유형의 데이터를 선택
데이터 스캔을 위해 데이터 압축
데이터 세트 분할
큰 파일을 사용해서 overhead를 최소화
파일이 클수록 검색이 쉽다
Redshift
데이터베이스 , 분석엔진 PostgreSQL 기반, 온라인 트랜잭션 처리 (OLTP)에 사용되지는 않는다.
OLAP -online analytical processing 유형
병렬 쿼리 엔지 있음
SQL 사용 가능
Quicksight 같이 사용할수 있음
대량의 컬럼형 데이터에 좋음
쿼리가 많고 복잡하면서 집중적인 웨어하우스의 경우 Redshift 좋다
Redshift - snapshots & DR
Redshift 는 mulit -AZ 가 없음
백업을 위해서는 Snapshots 사용
자동으로 스냅샷을 통해서 다른 aws region으로 카피 재난 방지
Redshift -spectrum
- query data in s3 without loading it
- mush have a Redshift cluster 사용 가능 to start the query
- 클러스터에서 프로비저닝 한것보다 더많은 처리 능력을 활용할수 있음
Amazon OpenSearch service
부분적으로 일치하는 필드를 포함해 모든 필드를 검색할수 있음
openSerach 는 cluster of instances 가 필요로 하다 ( 서버리스 아님)
sql 지원 안함
로그를 중앙 집중식으로 저장하여 실시간으로 검색하고 분석해 오류와 악의적인 시도를 감지가능
EMR
Elastic MapReduce
빅데이터 작업을 위한 하둡 클러스터 생성에 사용됨
방대의 양의 데이터를 분석하고 처리할수 있다.
데이터 처리 , 기계학습 ,웹 인덱싱 빅데이터 작업에 사용됨
EMR - Node types & purchasing
- master node : manage the cluster , coordiante , manage health - long running
- core node : run tasks and store data - long running
- task node : just to run taks - usually spot
- 구매 옵션
- on-demand : reliable , predictable ,종료 안함
- reserved (min 1 year) : cost saving
- spot instances : 가격 쌈 , 종료될수 있음, less reliable
QuickSight
서버리스 머신 러닝 기반 비즈니스 인텔리전스서비스
대화형 대시보드
유저나 그룹을 정의할수 있다. IAM과는 다름
분석 또는 대시보드를 유저 OR 그룹과 공유 할수 있음
Glue
ETL = extract ,transform , and load
분석을 위해 데이터를 준비하고 변환하는데 유용
서버리스
데이터를 Parquet format으로 변환 Parquet = 열 기반의 데이터 형식
- glue job bookmarks : 새 ETL 작업을 실행할때 이전 데이터의 재처리를 방지
- glue elastic views : sql 을 사용해 여러 데이터 스토어의 데이터를 결합하고 복제
lake formation
데이터 레이크 생성을 돕는다
data lake = 데이터 분석을 위해 모든 데이터를 한곳으로 모아 주는 중앙 집중식 저장소
데이터 검색 ,정제 ,변환 ,주입을 돕는다.
블루프린터를 통해서 데이터를 주입
액세스 제어 기능과 열 및 행 수준 보안이 있다.
kinesis data analytics
kinesis data streams → kinesis data analytics for sql applications → kinesis data streams → aws labda , applications
kinesis data firehose → kinesis data analytics for sql applications → kinesis data firehose
→ amazon s3 , amazon redshift , other firehose destinations
Amazon managed streaming for apache kafka (amazon MSK)
Amazon kinesis 대안
apache kafka 는 데이터를 스트리밍 하는 방식
kinesis data streams vs amazon msk
kinesis data streams | amazon MSK |
---|---|
1 MB message size limit | 1 MB default , configure for higher |
data streams with shards | kafka Topics with Partitions |
shard spitting & merging | can only add partitions to a topic |
TLS in-flight encrpytion | PLANTEXT or TLS in-flight encryption |
KMS at-rest encrpytion | KMS at-rest encrpytion |
Big data ingetsion pipeline
- 서버리스
- 실시간으로 데이터 수집
- 데이터를 변형하고 변형된 데이터를 sql을 통해 요청
- 쿼리를 통해 생성한 보고서가 s3 저장
- 데이터를 데이터 웨어하우스에 저장 대시보드 생성
- iot 데이터 수집
- 실시간 처리를 위한 amazon kinesis data streams
- amazon kinesis data firehouse 는 amazon kinesis data streams 통신하면서 s3 버킷에 데이터를 입력하고 오프로드
- amazon kinesis data firehouse 연결된 람다 함수를 통해서 데이터 변형
- s3 에 연결된 람다함수가 athena SQL 쿼리 실행
- athena SQL 통한 쿼리 출력값은 reporting bucket으로 이동
- quicksight 통해서 데이터 시각화 가능
- redshift 활용한 데이터 웨어하우스 (서버리스 아님)
'AWS SAA' 카테고리의 다른 글
섹션 30 기타 서비스 (0) | 2023.07.16 |
---|---|
섹션 31 백서 및 아키텍처 (0) | 2023.07.16 |
섹션 23 머신러닝 (0) | 2023.07.16 |
섹션 24 : AWS 모니터링 및 감사 :cloudWatch , CloudTrail 및 Config (0) | 2023.07.16 |
섹션 25 identity and Access Management (IAM) - 고급 (0) | 2023.07.16 |