課程內容:
(一)基礎理論部分
1.數據分析基礎
(1)數據分析過程概述
(2)概率論與數據統計
(3)抽樣估計與假設檢驗
(4)方差分析與回歸分析
2.java基礎
(1)JDK的安裝配置,Java基本知識、數據類型以及基本語法
(2)Eclipse的編程入門
(3)面向對象的思想基本介紹,類、對象、接口、封裝、繼承
(4)Java的集合類——數組、Set、List、Map、Queue
(5)異常處理——Checked Exception、Unchecked Exception,如何通過異常信息捕獲錯誤
(6)Java的垃圾回收機制以及多線程簡介
(7)Java的文件操作、包的概念及如何打包
(8)數據庫基礎知識及SQL語法
(9)基于servlet技術的B/S應用開發及代碼實現案例詳解
3.linux基礎
(1)linux的介紹
(2)Linux入門:選擇合適的Linux發行版、如何安裝Linux
(3)linux操作系統命令及使用命令編輯文件
(4)Linux下SSH命令使用方法詳解
(二)hadoop理論課程
1.hadoop安裝配置及運行機制解析
本節是大數據分析的環境搭建課程,屬于操作型課程,主要講述如何在linux單機上面安裝hadoop的偽分布模式,在linux集群上面安裝hadoop集群。對于不熟悉linux的同學,課程中會簡單的講解常用的linux命令。這兩種是必須要掌握的。通過講師手把手、面對面的交流,教會學員自己搭建一個真實的hadoop環境,在此環境下運行hadoop自帶的小程序。主要內容包括:
(1)從google的三篇大數據論文說起
(2)Hadoop 概念、版本、歷史
(3)Hadoop 偽分布及集群的詳細安裝步驟
(4)三個hadoop自帶的小例子帶你進入hadoop的世界
(5)使用如何通過命令行和瀏覽器觀察hadoop的運行過程
(6)介紹hadoop的安全模式
(7)如何查看日志信息
2.Hadoop分布式文件系統深入剖析
本節將對hadoop架構的分布式文件系統HADFS進行深入的分析,hdfs是所有hadoop系統的基礎,它是hadoop的核心內容之一。主要的內容包括:
(1)深度分析google的Google GFS 文件系統,一個面向大規模數據密集型應用的、可伸縮的分布式文件系統。
(2)HDFS的概念及設計
(3)Hdfs體系結構及運行機制詳述
(4)NameNode、DataNode、SecondaryNameNode的作用及運行機制
(5)block 的劃分原理、存儲方式和配置文件
(6)hdfs的備份機制和文件管理機制
(7)HDFS文件系統的常用命令
(8)使用命令及JAVA語句操作hdfs中的文件
(9)rpc機制簡介及HADFS中的rpc通信
3.MapReduce理論及實戰
(1)深度分析google的MapReduce編程模型
(2)hadoop中的MapReduce工作原理
(3)通過演示單詞計數程序,詳細講述mapreduce運行過程中類的調用過程
(4)詳細講述如何覆蓋 Mapper 功能、如何覆蓋 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分發和task執行
(6)MapReduce中block 的調度及作業分配機制
(7)講解hadoop的計數器、排序、分組等算法
(8)通過一個小的應用,詳細介紹如何在eclipse中編寫MapReduce程序,打包成可在hadoop上運行的jar,并在集群上運行
(9)詳細講解運行結果的分析
4.hadoop生態環境介紹
(1)Hbase簡介,包括HBase的基礎概念 、數據模型、存儲模型及hbase的偽分布和集群的安裝
(2)ZooKeeper簡介,包括ZooKeeper的安裝、運行及示例
(3)Pig簡介,包括Pig的安裝、運行及示例
(4)Hive簡介,包括Hive的安裝、運行及示例
(5)sqoop簡介,包括Sqoop介紹、命令、原理及流程
(6)nosql簡介,包括nosql的概念、種類及發展趨勢
(三)大數據分析思想、工具及實戰案例
1.大數據分析思想介紹
(1)大數據分析的前世今生
(2)幾種典型的大數據架構分析
(3)大數據分析過程描述
(4)大數據時代的數據分析思想的變革
2.Mahout,大數據分析的急先鋒
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一個開源項目,它通過和hadoop配合,實現在推薦、分類等領域中的大數據分析。
(1)Mahout的下載、安裝與部署
(2)UCI經典數據集介紹
(3)使用經典數據集測試和運行Mahout實現的算法
(4)主要算法包括:kmeans算法、canopy算法、dirichlet 算法和meanshift算法
3.RHadoop,R語言從小數據分析到大數據分析的化麗轉身
(1)R語言簡介
(2)安裝并運行RHadoop
(3)RHadoop的邏輯結構
(4)Rhadoop實戰案例—word cout
(5)與hadoop word count 函數比較分析
4.大數據分析項目案例 |