大數(shù)據(jù)建模、分析、挖掘技術(shù)

龍騰AI技術(shù)

2023年7月18日 18:09

瀏覽：2279 收藏：1

隨著《關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》發(fā)布，各類型數(shù)據(jù)呈現(xiàn)出了指數(shù)級增長，數(shù)據(jù)成了每個組織的命脈。今天所產(chǎn)生的數(shù)據(jù)比過去幾年所產(chǎn)生的數(shù)據(jù)大好幾個數(shù)量級，企業(yè)有了能夠輕松訪問和分析數(shù)據(jù)以提高性能的新機會，如何從數(shù)據(jù)中獲取價值顯得尤為重要，也是大數(shù)據(jù)相關(guān)技術(shù)急需要解決的問題。大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。數(shù)據(jù)建模不僅僅是任意組織數(shù)據(jù)結(jié)構(gòu)和關(guān)系，還必須與最終用戶的需求和問題聯(lián)系起來，并提供指導(dǎo)，幫助確保正確的數(shù)據(jù)正確使用正確的方法獲得正確的結(jié)果。

為響應(yīng)科研及工作人員需求，根據(jù)《國務(wù)院關(guān)于推行終身職業(yè)技能培訓(xùn)制度的意見》提出的“緊跟新技術(shù)、新職業(yè)發(fā)展變化，建立職業(yè)分類動態(tài)調(diào)整機制，加快職業(yè)標(biāo)準(zhǔn)開發(fā)工作”要求，中國管理科學(xué)研究院現(xiàn)代教育研究所（http://www.pdhb.org.cn）聯(lián)合北京龍騰亞太教育咨詢有限公司特舉辦“大數(shù)據(jù)建模、分析、挖掘技術(shù)應(yīng)用研修班”。本次培訓(xùn)采用實戰(zhàn)培訓(xùn)模式。

本次培訓(xùn)由北京龍騰亞太教育咨詢有限公司承辦并進行相關(guān)費用收取及發(fā)票開具。具體通知如下：

一、時間安排:

2023年8月18日 — 2023年8月22日上海（同時轉(zhuǎn)線上直播）

（18日報到發(fā)放上課材料，19日-22日上課）

二、培訓(xùn)目標(biāo)

1.掌握大數(shù)據(jù)建模分析與使用方法。

2.掌握大數(shù)據(jù)平臺技術(shù)架構(gòu)。

3.掌握國內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案。

4.掌握大數(shù)據(jù)分析在搜索引擎、廣告服務(wù)推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應(yīng)用。

5.掌握主流的基于大數(shù)據(jù)Hadoop和Spark、R的大數(shù)據(jù)分析平臺架構(gòu)和實際應(yīng)用。

6.掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫分布式系統(tǒng)平臺應(yīng)用，以及商業(yè)和開源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺形成大數(shù)據(jù)分析平臺的應(yīng)用剖析。

7.掌握常見的機器學(xué)習(xí)算法。

三、培訓(xùn)專家

來自中國科學(xué)院計算技術(shù)研究所、清華大學(xué)、北京理工大學(xué)等科研機構(gòu)和大學(xué)的高級專家，擁有豐富的科研及工程技術(shù)經(jīng)驗，長期從事機器學(xué)習(xí)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析等領(lǐng)域的教學(xué)與研究工作。

四、參會對象：

各省市、自治區(qū)從事大數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)處理、數(shù)據(jù)建模等領(lǐng)域相關(guān)的企事業(yè)單位技術(shù)骨干、科研院所研究人員和大專院校相關(guān)專業(yè)教學(xué)人員及在校研究生等相關(guān)人員，以及大數(shù)據(jù)研究廣大愛好者。

五、費用標(biāo)準(zhǔn)：

5680元/人（含報名費、培訓(xùn)費、資料費、證書費）。住宿可統(tǒng)一安排，費用自理。

1、培訓(xùn)費由組織培訓(xùn)班的施教機構(gòu)負責(zé)收取并提供培訓(xùn)發(fā)票。

2、上課前一周匯款可享受9折優(yōu)惠，或報名5人以上可享受9折優(yōu)惠，兩個優(yōu)惠不同時享用。

3、參加線上、線下培訓(xùn)學(xué)員均可享受視頻錄播回放權(quán)益，及本人再次免費參加線下同主題課程學(xué)習(xí)權(quán)益。

六、頒發(fā)證書：

參加相關(guān)培訓(xùn)并通過考核的學(xué)員，由中國管理科學(xué)研究院現(xiàn)代教育研究所頒發(fā)《大數(shù)據(jù)開發(fā)與應(yīng)用工程師》（高級）崗位認證證書，可通過官方網(wǎng)站查詢，該證書可作為有關(guān)單位專業(yè)技術(shù)人員能力評價、考核和任職的重要依據(jù)。

七、注意事項

1.指定報名郵箱：2044115758@qq.com。

2.報名成功后，會務(wù)組在報到前一周發(fā)具體報到通知及行車路線。

3.學(xué)員需自備電腦WIN10、64位系統(tǒng)，16G及以上內(nèi)存，硬盤空間預(yù)留100G。

八、具體課程安排

時間安排	課程大綱	詳細內(nèi)容	實踐訓(xùn)練
第一天 9：00-12：00 14：00-17：00	一、大數(shù)據(jù)概述	1.大數(shù)據(jù)及特點分析 2.大數(shù)據(jù)關(guān)健技術(shù) 3.大數(shù)據(jù)計算模式 4.大數(shù)據(jù)應(yīng)用實例
二、大數(shù)據(jù)處理架構(gòu)Hadoop	1.Hadoop項目結(jié)構(gòu) 2.Hadoop安裝與使用 3.Hadoop集群的部署與使用 4.Hadoop 代表性組件	1.Hadoop Single Node Cluster 2. Hadoop Multi Node Cluster
三、分布式文件系統(tǒng)HDFS	1.HDFS體系結(jié)構(gòu) 2.HDFS存儲 3.HDFS數(shù)據(jù)讀寫過程	1.創(chuàng)建與查看HDFS目錄 2.從本地計算復(fù)制文件到HDFS 3.將HDFS文件復(fù)制到本地計算機 4.復(fù)制與刪除HDFS文件 5.Hadoop HDFS Web瀏覽HDFS
四、分布式數(shù)據(jù)庫HBase	1.HBase訪問接口 2.HBase數(shù)據(jù)類型 3.HBase實現(xiàn)原理 4.HBase運行機制 5.HBase應(yīng)用
第二天 9：00-12：00 14：00-17：00	五、MapReduce	1.MapReduce體系結(jié)構(gòu) 2.MapReduce工作流程 3.資源管理調(diào)度框架YARN 4.MapReduce應(yīng)用
六、Spark	1.Spark生態(tài)與運行架構(gòu) 2.Spark SQL 3.Spark部署與應(yīng)用方式	1.Python Spark 安裝 2.本地運行pyspark程序 3.在Hadoop YARN 運行pyspark 4.Spark Web UI
七、IPython Notebook運行Python Spark程序	1.Anaconda 2.IPython Notebook使用Spark 3.使用IPython Notebook在Hadoop YARN模式運行	1.在不同模式運行IPython Notebook運行Python Spark命令 2.Python 程序開發(fā)
八、Python Spark集成開發(fā)環(huán)境	1.Python Spark集成開發(fā)環(huán)境部署配置 2.Spark數(shù)據(jù)分析庫MLlib的開發(fā)部署	Spark MLlib應(yīng)用程序示例
第三天 9：00-12：00 14：00-17：00	九、Python Spark決策樹二分類與多分類	1.決策樹原理 2.大數(shù)據(jù)問題 3.決策樹二分類 4.決策樹多分類	1.搜集數(shù)據(jù) 2.數(shù)據(jù)準(zhǔn)備：導(dǎo)入并轉(zhuǎn)換數(shù)據(jù)、提取特征字段、提取標(biāo)簽 3. Python Spark建模，訓(xùn)練模型 4.預(yù)測數(shù)據(jù) 5.評估數(shù)據(jù)，給出評價指標(biāo)并得到評估結(jié)果
十、Python Spark支持向量機	1.支持向量機SVM 原理與算法 2.Python Spark SVM程序設(shè)計	1.數(shù)據(jù)準(zhǔn)備 2.建立SVM模型，訓(xùn)練模型 3.評估參數(shù)并找出最優(yōu)參數(shù) 4.根據(jù)模型進行預(yù)測
十一、Python Spark 貝葉斯模型	1.樸素貝葉斯模型原理 2.Python Spark貝葉斯模型程序設(shè)計	1.建模貝葉斯模型，并進行對參數(shù)估計 2.訓(xùn)練模型，得到最優(yōu)參數(shù) 3.根據(jù)模型進行預(yù)測
十二、Python Spark邏輯回歸	1.邏輯回歸原理 2.Python Spark邏輯回歸程序設(shè)計	1.Python Spark邏輯回歸建模 2.根據(jù)模型進行分類
第四天 9：00-12：00 14：00-17：00	十三、Python Spark回歸分析	1.大數(shù)據(jù)分析 2.數(shù)據(jù)集介紹 3.Python Spark回歸程序設(shè)計	1.數(shù)據(jù)準(zhǔn)備 2.訓(xùn)練回歸模型 3.建立評估指標(biāo) 4.訓(xùn)練回歸模型，并找到最優(yōu)參數(shù) 5.根據(jù)模型進行預(yù)測
十四、Spark ML Pipeline 機器學(xué)習(xí)流程分類	1.機器學(xué)習(xí)流程組件：StringIndexer、OneHotEncoder、VectorAssembler等 2.使用Spark ML Pipeline 機器學(xué)習(xí)流程分類程序設(shè)計	1.數(shù)據(jù)準(zhǔn)備 2.建立機器學(xué)習(xí)Pipeline流程 3.使用Pipeline流程訓(xùn)練 4.使用PipelineModel預(yù)測 5.評估模型準(zhǔn)備率
十五、Python Spark 創(chuàng)建推薦引擎	1.推薦算法 2.推薦引擎大數(shù)據(jù)分析使用場景 3.推薦引擎設(shè)計	1.搜索數(shù)據(jù) 2.準(zhǔn)備數(shù)據(jù) 3.訓(xùn)練模型 4.使用模型進行推薦
十六、項目實踐	1.日志分析系統(tǒng)與日志挖掘項目實踐 a、Hadoop，Spark，ELK技術(shù)構(gòu)建日志數(shù)據(jù)倉庫 b、互聯(lián)網(wǎng)微博日志分析系統(tǒng)項目 1.推薦系統(tǒng)項目實踐 a、電影數(shù)據(jù)分析與個性化推薦關(guān)聯(lián)分析項目