導入方法・チュートリアル

Clouderaのチュートリアルでビッグデータクラスタをセットアップ

ホーム >  導入方法・チュートリアル >  Clouderaのチュートリアルでビッグデータクラスタをセットアップ

導入方法・チュートリアル
2019.11.29

facebook twiter Pinterest LINE

Clouderaのチュートリアルでビッグデータクラスタをセットアップ

Clouderaのチュートリアルでビッグデータクラスタをセットアップ イメージ

Clouderaのチュートリアルでビッグデータクラスタをセットアップ

CDHは、Clouderaが提供する100%オープンソースプラットフォームのディストリビューションです。Apache Hadoopも含まれており、企業ニーズに対応できるよう特別に構築されているため、企業で必要なものがすぐに利用できるようになっています。Clouderaでは、Hadoopを他の重要なオープンソースプロジェクトと統合し、機能的に高度なシステムを構築しました。このシステムにより、エンドツーエンドのビックデータワークフローが実行できるようになっています(詳細はこちら https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html)。 今回は、CloudSigma上でCloudera CDHを利用し、3ノードクラスタを作成する方法を紹介します。まず、CloudSigmaドライブライブラリからプリインストールされたOSを使用して数分で作成できる3つのノードが必要となります。

ノードをセットアップする イメージ

ノードをセットアップする

Clouderaのチュートリアルを始めるには、CloudSigma WebAppにログインして「Compute」に進んでください。次に「Create」をクリックし、「Properties」にてマシンに名前をつけます。ここでは名前を「machine1」とします。スライドを使って必要なRAMとCPUのパラメーターを準備します。RAMは16GB、CPUは20GHzで適切な構成になると思います。ここで「Optimize for Linux VM」を選ぶと、自動的に詳細が設定されます。

 イメージ

次に「Drives」タブに移動し、「Attach Drive」のプルダウンから「Drive From Library」を選択します。今回は、Ubuntu 16.04 LTSのクローンを作成します。SSHのセットアップには、PuTTY Key Generatorソフトウェアを使って公開鍵と秘密鍵のペアを生成することが可能です。鍵を生成したらWebAppの「SSH Keys」タブに移動し、「Add」をクリックします。そこで鍵に名前をつけ、Key Generatorから公開鍵をコピー&ペーストします。最後に、上部にある「Save」をクリックすればマシンが作成されます。 次に、左側の「Storage」タブへと移動します。ここでマシンのストレージ容量を増やすことができます。今回は256GBとしておきます。

他のノードを作成するには、machine1をクローンし、そのクローンを好きな名前に変更します。これは「Compute」のセクションで行います。今回はmachine1を2回クローンし、新しいVMにmachine2、machine3という名前をつけます。 ここでマシンを起動します。各マシンの上部にある「run」ボタンをクリックすると、すべてのマシンが立ち上がり稼働します。 他のノードを作成するには、machine1をクローンし、そのクローンを好きな名前に変更します。これは「Compute」のセクションで行います。今回はmachine1を2回クローンし、新しいVMにmachine2、machine3という名前をつけます。 ここでマシンを起動します。各マシンの上部にある「run」ボタンをクリックすると、すべてのマシンが立ち上がり稼働します。

SSH Keyを追加する

次に、PuTTYを使用して各マシンにログインします。作成したSSH Keyとユーザー名「cloudsigma」でログインしましょう。各マシンで「cdh」といったようなsudoerユーザーを作成します。ここでは次のコマンドが使えます。

> sudo adduser cdh
> sudo usermod -aG sudo cdh

machine1に移動し、次のコマンドを入力します。

> sudo vi /etc/hosts

iを押して挿入モードにし、各マシンのIPをこのファイルに追加します。 ・ IP_ADDRESS_1 machine1.cloudsigma.cdh machine1 ・ IP_ADDRESS_2 machine2.cloudsigma.cdh machine2 ・ IP_ADDRESS_3 machine3.cloudsigma.cdh machine3 wq!コマンドを使ってファイルを保存します。すべてのマシンでこの手順を実施してください。 注:テキストエディタNanoを利用することも可能です。その場合、コマンドはsudo nano /etc/hostsとなります。

Cloudera Manager and Servicesをインストールする イメージ

Cloudera Manager and Servicesをインストールする

CDH Managerの入手方法 まず、https://www.cloudera.com/downloads/manager.html にアクセスし、必要なバージョンを選択します。今回は現時点での最新版となる6.3.0を選択し、「GET IT NOW」をクリックします。その後詳細を入力し、利用規約に同意します。

 イメージ

リンクが入手できたので、ホストで実行してみましょう。 > wget http://archive.cloudera.com/cm5/installer/5.14.1/cloudera-manager-installer.bin > chmod u+x cloudera-manager-installer.bin > sudo ./cloudera-manager-installer.bin これでセットアップが始まります。規約に同意するとホストにCloudera Managerがインストールされます。

Cloudera Managerでクラスタをセットアップする イメージ

Cloudera Managerでクラスタをセットアップする

Cloudera Managerがインストールされたので、マシンから次のURLにアクセスします。 http://IP_ADDRESS_1:7180 このURLでCloudera Managerが開きます。最初はユーザー名「admin」、パスワード「admin」でログインし、セキュリティ担保のため変更しておいてください。規約に同意し、次のページで必要なパッケージを選びます。今回は「Cloudera Enterprise Cloudera Enterprise Trial」を選択します。

 イメージ

「Specify hosts」のページでは、今回「machine[1-3].CloudSigma.cdh」と入力します。すると自動的にすべてのホストマシンが検索されます。マシンを選択して「Continue」をクリックし、次のリポジトリページではデフォルトのままにしておきます。 次に「Install JDK (Java Development Kit)」を選択すると、インストーラーが各マシンにJDKをインストールします。マルチユーザーモードのままにしておくと、hdfs、hbaseなど別のユーザーが作成できます。 「Login Credentials」のページでは、ユーザー名「cdh」、パスワードは自分で設定したものを入力します。するとインストールページで次のようなエラーが表示されます。

 イメージ

修復するには、全ホストマシンの/etc/hostsファイルを開き、次の1行を追加します。 IP_ADDRESS_1 rev-213.189.61.172-static.atman.pl また、/etc/hostsファイルから次の1行を削除します。 127.0.0.1 localhost 次のページで、クラスタ上にCDH 5.14.0-1.cdh5.14.0.p0.24がダウンロードされ、配布、解凍、アクティベートされます。

 イメージ

注:インストール中は大量のトラフィックが発生するため、IPがブラックホール化する可能性があります。ブラックホールは、マシンへのDDoS攻撃を回避するためのCloudSigmaの重要なポリシーです。これを回避するには、パーソナルアカウントマネージャーまたは24時間対応のCloudSigmaライブチャットサポートまでご連絡ください。このようなセットアップの際には、静的IPもお勧めです。 最後にホストを検査して間違いがないか確認します。それが終われば「Finish」をクリックします。 サービスをインストールする クラスタをセットアップしたら、いよいよサービスをインストールします。まずインストールするサービスのパッケージを選択します。今回は、HDFS、YARN(MapReduce 2を含む)、ZooKeeper、Oozie、Hive、Hueが含まれている「Core Hadoop」を選びます。次のページで各サービスをインストールするホストが提案されます。そのままにしておいてもいいですし、必要に応じて変更することも可能です。 次にデータベースをセットアップします。今回は「Embedded」を利用しますが、カスタムデータベースを追加することも可能です。「Test Connections」をクリックし、「Continue」を押してください。 次に、HDFSのブロックサイズやデータノード、ネームノードディレクトリなどの詳細を確認します。「Continue」をクリックすると、サービスが設定されます。

 イメージ

次のページで、「The services are installed, configured, and running on your cluster(クラスタ上にサービスがインストール、構成され、実行されています)」と表示されます。

 イメージ

最後に「Finish」をクリックしてクラスタを稼働させます。 追加サービスをインストールする これでクラスタが稼働しました。追加でサービスをインストールする場合は、次の手順に従ってください。 ・ クラスタの横にあるプルダウンメニューをクリックし、「Add Service」を選択します。すると、追加できるサービスのリストが表示されます。 ・ 今回はリストから「Spark」を選択してみます。「Continue」をクリックし、Sparkに履歴サーバーなどの役割を割り当てます。 ・ 変更を確認し、「Continue」をクリックします。 ・ サービスがセットアップされました。Clouderaのチュートリアルを終了するには「Continue」をクリックします。これで次のサービスの準備ができました。 注:依存関係にあるサービスは、再起動しておくことをお勧めします。 著者:アクシェイ・ナパル(Akshay Nagpal) ビッグデータ分析と機械学習のマニア

東京リージョン・最新の回線技術で運用。
IPSが導入をサポートいたします。

詳しくはこちら

powered by ips 東証マザーズ上場