Amazon Elastic MapReduce(AWS EMR)を触るだけ触ったメモ
参考ページ
チュートリアル: Amazon EMR 入門 - Amazon Elastic MapReduce
EMRを使うには
- S3にbucketを作成する
net.mindtide.myemrbucket
とした。 - S3に出力ディレクトリを作成する
EMRのクラスターを作成する。
Hiveプログラムのステップを追加する 東京リージョン:ap-northeast-1
- スクリプトの場所:
s3://ap-northeast-1.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q
- S3の場所の入力:
s3://ap-northeast-1.elasticmapreduce.samples/cloudfront
- S3の場所の出力:
s3://net.mindtide.myemrbucket/output
- スクリプトの場所:
プロビジョニングが終わるまでしばらく待つ。*1
- 実行結果が
s3://net.mindtide.myemrbucket/output
配下に出力されたのを確認。 - Hue上でHiveを実行して結果が出たことを確認。
はまったところ
AWSをCLIで操作する
brew install awscli
aws configure
- AMIでユーザに権限を与える
aws ec2 list-instances
などでインスタンスの状態が出力されることを確認
chloe:Desktop usadamasa$ aws ec2 describe-instances --output table --region ap-northeast-1 ------------------- |DescribeInstances| +-----------------+
補完を効かすには、.bash_profileなどに
complete -C $(which aws_completer) aws
を追記する。あとで調べる用語
EMRFS
- EC2インスタンスタイプ
- HUE
*1:結構かかる。5分ぐらい