跨領域學習大數據

發表文章

目前顯示的是 2016的文章

[筆記] 在Ubuntu 14.04 安裝Scala與Spark

5月 23, 2016

參考書： Hadoop+Spark大數據巨量分析與機器學習程式開發實戰作者部落格網址：http://hadoopspark.blogspot.tw/2015/09/8-apache-spark.html#more Scala安裝 Spark支援Scala、Java、Python與R語言，但Spark是以Scala語言開發，因此Scala是目前和Spark最相容的語言。 1. 到 http://www.scala-lang.org/files/archive/ 複製想安裝的版本網址 2. 下載scala-2.11.6.tgz：　　　　　　　　　　 wget http://www.scala-lang.org/files/archive/scala-2.11.6.tgz 3. 解壓縮Scala：　　　　　　　 tar xvf scala-2.11.6.tgz 4. 將Scala搬到 /usr/local/scala 目錄：　　　　　　　　　　　　　　　　 sudo mv scala-2.11.6 /usr/local/scala 5. 設定環境變數：　　　　　　　　 sudo gedit ~/.bashrc > 會開啟類似記事本的編輯器，輸入下列內容　　　　　　　　 #SCALA Variables export SCALA_HOME=/usr/local/scala (設定SCALA_HOME) export PATH=$PATH:$SCALA_HOME/bin (設定PATH環境變數) 6. 使環境變數生效：　　　　　　　　 source ~/.bashrc 7. 啟動Scala：　　 scala 進入Scala互動介面： scala> :q (冒號q 離開) SPARK 安裝 1. 到 http://spark.apache.org/downloads.html 選擇想下載的Spark版本，因為Spark會

閱讀完整內容

[筆記] 在VitualBox上建立虛擬機器(Ubuntu 14.04 Workstation)

5月 17, 2016

本篇文章是跟著林大貴老師所寫的『hadoop+spark大數據巨量分析與機器學習整合開發實戰』練習，加上資策會楊楨文老師的Linux課程為基礎。 (參考書傳送門: http://www.books.com.tw/products/0010695285) 1. Virtual Box 下載網址 https://www.virtualbox.org/ (一步步安裝很簡單，不多說) 2. 設定儲存資料夾：因虛擬主機檔案很大，不建議放C槽(預設)。檔案＞喜好設定＞一般＞預設機器資料夾：其他瀏覽資料夾：在D槽建新資料夾 VirtualBox＞確定＞確定 3. 建立虛擬機器： [等同於買硬體設備] 新增＞建立虛擬機器 - 名稱和作業系統：名稱:Hadoop_Ubuntu1404Desktop / 類型: Linux / 版本: Ubuntu (64 bit) 記憶體大小：依情況調整大小，書上建議4098MB，但我只能設1024MB（綠色範圍）硬碟：立即建立虛擬硬碟＞建立硬碟檔案類型：VDI(VirtualBox磁碟映像) ＞下一步實體硬碟中存放位置：動態配置＞下一步檔案位置和大小：檔案會建立在之前設定的儲存資料夾(D:\VirtualBox)內，Hadoop_Ubuntu1404Desktop (資料夾名稱)；檔案大小設定100G (上限值，實際檔案會動態增加到上限為止) ＞建立完成！到儲存資料夾中會看到有三個新產生的虛擬機器檔案。 4. 設定Ubuntu虛擬光碟檔案：下載Ubuntu的安裝光碟檔案：http://www.ubuntu-tw.org/modules/tinyd0/ (我下載14.04 LTS Desktop，約1GB) VirtualBox上，選擇剛建立的Hadoop機器＞點設定值(S) 設定：存放裝置＞點選控制器:IDE下方的光碟(圖示):空＞左側屬性:光碟機最右邊會看到一個光碟圖示＞點選後找到剛剛下載的iso檔＞看到"空"字被光碟檔名取代後，案確定完成安裝設定＞系統＞開機順序＞把軟碟取消設定＞系統＞處理器＞可調整使用的CPU個數設定＞顯示＞視訊記

閱讀完整內容