[筆記] 在Ubuntu 14.04 安裝Scala與Spark
參考書:Hadoop+Spark大數據巨量分析與機器學習程式開發實戰
作者部落格網址:http://hadoopspark.blogspot.tw/2015/09/8-apache-spark.html#more
Scala安裝
Spark支援Scala、Java、Python與R語言,但Spark是以Scala語言開發,因此Scala是目前和Spark最相容的語言。
1. 到 http://www.scala-lang.org/files/archive/ 複製想安裝的版本網址
2. 下載scala-2.11.6.tgz:
wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz
3. 解壓縮Scala:
tar xvf scala-2.11.6.tgz
4. 將Scala搬到 /usr/local/scala 目錄:
sudo mv scala-2.11.6 /usr/local/scala
5. 設定環境變數:
sudo gedit ~/.bashrc
> 會開啟類似記事本的編輯器,輸入下列內容
#SCALA Variables
export SCALA_HOME=/usr/local/scala (設定SCALA_HOME)
export PATH=$PATH:$SCALA_HOME/bin (設定PATH環境變數)
6. 使環境變數生效:
source ~/.bashrc
7. 啟動Scala: scala
進入Scala互動介面: scala> :q (冒號q 離開)
SPARK安裝
1. 到 http://spark.apache.org/downloads.html 選擇想下載的Spark版本,因為Spark會與Hadoop版溝通,因此除了Spark版本還必須選取Hadoop版本。
2. 下載Spark:
wget http://apache.stu.edu.tw/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz
3. 解壓縮Spark至spark-1.4.0-bin-hadoop2.6目錄:
tar zxf spark-1.4.0-bin-hadoop2.6.tgz
4. 搬移spark-1.4.0-bin-hadoop2.6 目錄至 /usr/local/spark/:
sudo mv spark-1.4.0-bin-hadoop2.6 /usr/local/spark/
5. 設定環境變數:
sudo gedit ~/.bashrc
#SPARK Variables
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
設定SPARK_HOME:export SPARK_HOME=/usr/local/spark
設定PATH環境變數: export PATH=$PATH:$SPARK_HOME/bin
6. 使環境變數生效:
source ~/.bashrc
7. 啟動Spark: spark-shell
8. 設定spark-shell 顯示訊息:
因為 spark-shell介面預設顯示INFO,但過多訊息會影響未來閱讀,因此改成只顯示WARN。
8-1) 切換至 spark 設定檔目錄: cd /usr/local/spark/conf
8-2) 複製 log4j 樣板檔至 log4j.properties:
cp log4j.properties.template log4j.properties
8-3) 編輯 log4j.properties: sudo gedit log4j.properties
修改 log4j.rootCategory=INFO, console -> 將 INFO 改成 WARN,儲存後關閉。
8-4) 再次進入 spark-shell 確認: spark-shell
留言
張貼留言