2017년 10월 23일 월요일

AWS EMR(Elastic MapReduce) 구성

참고 사이트


EMR(Elastic MapReduce) 란?

Amazon EMR은 AWS에서 Apache 하둡 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼입니다. 이러한 프레임워크와 함께 Apache Hive 및 Apache Pig와 같은 관련 오픈 소스 프로젝트를 사용하여 분석용 데이터와 비즈니스 인텔리전스 워크로드를 처리할 수 있습니다. 또한 Amazon EMR를 사용하여 Amazon Simple Storage Service(Amazon S3) 및 Amazon DynamoDB와 같은 기타 AWS 데이터 스토어 및 데이터베이스에서 많은 양의 데이터를 양방향으로 변환하고 이동할 수 있습니다.

하둡 클러스터를 구성해주는 상품!
EC2를 이용해서 클러스터 노드를 유동적으로 더하고 빼고 할 수 있다.

클러스터 생성


클러스터 생성 버튼을 누른다.

- 클러스터 이름원하는 이름
- 시작 모드 : 클러스터 (단계 실행은 아마도 시작 후 바로 job을 실행하도록 할 때 사용하는 것 같음)
- 릴리스 : 모르니깐 최신버전
- 애플리케이션 : Hadoop 이 외에 특별히 쓰고자 하는 것이 없으면 Core Hadoop
- 인스턴스 유형 : 현재 가장 저렴하게 사용할 수 있는 거는 m4.large (더 사양이 낮아도 될 것 같은데 지금 선택할 수 있는 옵션 중에서는 이게 가량 저렴한 것 같다.)
- 인스턴스 개수 : 2 (우선 테스트용으로 마스터 1대, 코어 1대)
나중에 제대로 돌리려면 replication을 생각한다면 5대 이상 생성해야 한다.
EMR에서 자동으로 코어 개수에 따라 replication을 지정하는데
1대~3대  : 1
4대~9대  : 2
10대 ~ : 3
- EC2 키 페어 : 사용할 키페어 지정
- 권한 : 기본값

클러스터 생성!

그러면 인스턴스 2개가 프로비저닝 중이라고 뜰거고, 그게 다 뜨면 마스터 퍼블릭 DNS를 확인하고 SSH 접속을 시도한다. 그런데 접속이 안된다......

클러스터 생성 후 SSH로 Master 노드에 접속하기

SSH 접속을 위해서는 보안 그룹 규칙을 추가해 줘야 한다.

"기본적으로 ElasticMapReduce-master 보안 그룹은 인바운드 SSH 액세스를 허용하지 않습니다. 따라서 액세스를 원하는 소스에서 SSH 액세스(TCP 포트 22)를 허용하는 인바운드 규칙을 추가해야 합니다. 보안 그룹 규칙 수정에 대한 자세한 내용은 Amazon EC2 User Guide for Linux Instances의 보안 그룹에 규칙 추가를 참조하십시오." 라고 한다.

댓글 없음:

댓글 쓰기