課程介紹
華為大數(shù)據專家(HCIE-Big Data)證定位華為大數(shù)據分析領域中大型分布式并行處理數(shù)據倉庫平臺的架構原理、優(yōu)化設計、應用開發(fā)和大數(shù)據挖掘領域的基礎理論、常用挖掘算法、應用設計以及開發(fā)、旨在推動業(yè)界大數(shù)據行業(yè)的專家型人才培養(yǎng)。主要內容包括華為企業(yè)級的大型并行處理分布式數(shù)據倉庫平臺FusionInsight LibrA的架構、功能特性、數(shù)據庫設計開發(fā);數(shù)據挖掘理論以及使用華為企業(yè)級大數(shù)據挖掘平臺FusionInsight Miner和基于華為云的企業(yè)智能平臺EI的基礎服務- MLS機器學習服務進行數(shù)據深度分析和挖掘、通過華為HCIE-Big Data的學習、您將對大數(shù)據技術有更加深入的理解、具備運用大數(shù)據技術進行大數(shù)據分析應用、大數(shù)據挖掘應用的專家能力。
標題圖標學員基礎
學員應了解大數(shù)據技術原理和Hadoop的基礎知識,具備華為大數(shù)據HCNA水平,熟悉Linux的管理和操作、具有數(shù)據庫的基本知識,有數(shù)據庫的使用經驗,了解 SQL 語言。具備一定軟件開發(fā)能力,熟悉Java、Python, C++等至少一種開發(fā)語言。
標題圖標課程目標
理解并掌握大型并行處理數(shù)據倉庫平臺的架構原理、分布式關系型數(shù)據庫的設計和優(yōu)化及應用開發(fā);掌握大數(shù)據挖掘的基本原理,常用算法、常用挖掘方法、對華為大數(shù)據挖掘解決方案FusionInsight Miner和華為云機器學習服務MLS的熟練使用,勝任數(shù)據倉庫開發(fā)、大數(shù)據分析、大數(shù)據數(shù)據挖掘和人工智能的相關崗位。
課程大綱
第一章 數(shù)據倉庫平臺FusionInsight LibrA
理論
第一節(jié) 分布式數(shù)據庫架構
體系架構基本知識
熟悉MPP架構及優(yōu)勢
業(yè)界產品說明
第二節(jié) FusionInsight LibrA 基本組件簡介
LibrA邏輯架構
LibrA物理架構
LibrA數(shù)據庫對象
第三節(jié) FusionInsight LibrA 產品特性和關鍵技術
架構和支持的操作系統(tǒng)
面向應用開發(fā)的基本功能
數(shù)據庫安全
圖形化工具
高級特性
第四節(jié) FusionInsight LibrA 配套工具集
Database Manager概念與架構
Database Manager的安裝
Database Manager的使用
Data Studio概念與架構
Data Studio的安裝與FusionInsight LibrA服務器的配置
Data Studio工具支持的特性
Data Studio的使用
第五節(jié) FusionInsight LibrA 安全管理
訪問控制
用戶管理
權限管理模型
對象權限
安全審計
第六節(jié) FusionInsight LibrA 數(shù)據庫管理系統(tǒng)并發(fā)控制
配置負載均衡
事務與隔離
LibrA鎖機制介紹
第七節(jié) FusionInsight LibrA 數(shù)據庫性能監(jiān)控
系統(tǒng)資源監(jiān)控方式
性能相關視圖
使用命令行監(jiān)控集群性能
使用DM工具監(jiān)控集群性能
第八節(jié) FusionInsight LibrA 數(shù)據遷移
數(shù)據遷移場景劃分
GDS工具適用場景和使用方法
copy from/to適用場景和使用方法
開源ELT工具適用場景和使用方法
gs_dump/gs_restore適用場景和使用方法
gsql工具適用場景和使用方法
Roach工具適用場景和使用方法
從其他數(shù)據庫中遷移數(shù)據
第九節(jié) FusionInsight LibrA SQL介紹
SQL相關機制和原理
利用EXPLAIN進行SQL調優(yōu)
第十節(jié) FusionInsight LibrA 數(shù)據庫設計
數(shù)據庫邏輯設計
存儲模式
數(shù)據分布
表分區(qū)
索引
第十一節(jié) FusionInsight LibrA 應用程序開發(fā)指導
FusionInsight LibrA驅動介紹
ODBC應用程序開發(fā)
JDBC應用程序開發(fā)
基礎開發(fā)規(guī)范
第二章 FusionInsight LibrA實驗
FusionInsight LibrA基本操作、語法
FusionInsight LibrA性能優(yōu)化
網絡KPI數(shù)據柵格化處理
重點區(qū)域數(shù)據分析
流動人口常駐地分析
第三章 大數(shù)據挖掘理論
第一節(jié) 預備知識和數(shù)據介紹
數(shù)據挖掘的定義
數(shù)據挖掘的流程
數(shù)據挖掘的應用
數(shù)據和屬性類型
數(shù)據的統(tǒng)計描述
數(shù)據的鄰近性度量
第二節(jié) 數(shù)據預處理
為什么要預處理數(shù)據
數(shù)據清理
數(shù)據集成
數(shù)據歸約
數(shù)據變換
第三節(jié) 數(shù)據倉庫介紹
數(shù)據倉庫的概念
數(shù)據倉庫的體系結構與模型
多維數(shù)據模型
概念分層
OLAP與OLTP
方體物化
第四節(jié) 分類
分類和回歸的概念
決策樹分類
樸素貝葉斯分類
組合分類
后向傳播分類
支持向量機分類
模型評估與選擇
第五節(jié) 聚類
聚類的定義
K-均值算法
k-中心點算法
第六節(jié) 離群點檢測
離群點的概念
離群點檢測的方法
第七節(jié) 關聯(lián)規(guī)則(Association Rule)
關聯(lián)規(guī)則的定義
關聯(lián)規(guī)則挖掘步驟及相關概念
關聯(lián)規(guī)則挖掘方法分類
Apriori算法
第八節(jié) FusionInsight Miner 和華為云機器學習服務MLS
FusionInsight Miner整體介紹
關系分析
標簽管理
華為云機器學習服務
第四章 大數(shù)據挖掘實戰(zhàn)
銀行定期存款業(yè)務預測
客戶分群
鮑魚生長年齡預測