大數(shù)據(jù)、數(shù)據(jù)科學、人工智能......這些詞近年來委火,天天聽到這些詞兒,處處看到這些字兒,無論是企業(yè)還是個人,似乎不跟這些詞搭上點關(guān)系,自己就被這個時代淘汰了一樣。海文國際作為全球知名的IT教育機構(gòu),我們開設(shè)大數(shù)據(jù)課程,上門咨詢大數(shù)據(jù)課程的人天天絡(luò)繹不絕,總會碰到一些學員問到:我很想學大數(shù)據(jù),但我不知道學習了大數(shù)據(jù)后能干嗎?如果您也有同樣的疑問,不防花幾分鐘時間,讀完此文詳細了解學習大數(shù)據(jù),你未來能干什么? 首先想詳細解釋下兩個詞兒:數(shù)據(jù)科學與大數(shù)據(jù) 數(shù)據(jù)科學(Data Science)這一概念自大數(shù)據(jù)崛起也隨之成為數(shù)據(jù)領(lǐng)域的討論熱點,從2015年開始,“數(shù)據(jù)科學家“便成為了一個工作職位出現(xiàn)在各種招聘信息上。那么究竟什么是數(shù)據(jù)科學?大數(shù)據(jù)和數(shù)據(jù)科學又是什么關(guān)系?大數(shù)據(jù)在數(shù)據(jù)科學中起到怎樣的作用?本文主要是想起到科普作用,使即將或正在從事數(shù)據(jù)工作的朋友對數(shù)據(jù)科學工作有一個全概貌了解,也使有想法進入大數(shù)據(jù)領(lǐng)域的朋友在真正從事大數(shù)據(jù)工作之前對行業(yè)的情況有所知曉。數(shù)據(jù)科學是一個混合交叉學科(如下圖所示),要完整的成為一個數(shù)據(jù)科學家,就需要具備較好的數(shù)學和計算機知識,以及某一個專業(yè)領(lǐng)域的知識。所做的工作都是圍繞數(shù)據(jù)打轉(zhuǎn)轉(zhuǎn),在數(shù)據(jù)量爆發(fā)之后,大數(shù)據(jù)被看做是數(shù)據(jù)科學中的一個分支。 大數(shù)據(jù)(Big Data)其實已經(jīng)興起好些年了,只是隨著無處不在的傳感器、無處不在的數(shù)據(jù)埋點,獲取數(shù)據(jù)變得越來越容易、量越來越大、內(nèi)容越來越多樣化,于是原來傳統(tǒng)的數(shù)據(jù)領(lǐng)域不得不思考重新?lián)Q一個平臺可以處理和使用逐漸龐大數(shù)據(jù)量的新平臺。用以下兩點進一步闡述: “吳軍博士提出的一個觀點:現(xiàn)有產(chǎn)業(yè)+新技術(shù)=新產(chǎn)業(yè),大數(shù)據(jù)也符合這個原則,只是催生出來的不僅僅是一個新產(chǎn)業(yè),而是一個完整的產(chǎn)業(yè)鏈:原有的數(shù)據(jù)領(lǐng)域+新的大數(shù)據(jù)技術(shù)=大數(shù)據(jù)產(chǎn)業(yè)鏈;數(shù)據(jù)使用的范圍,原來的數(shù)據(jù)應(yīng)用主要是從現(xiàn)有數(shù)據(jù)中的數(shù)據(jù)進行采樣,再做數(shù)據(jù)挖掘和分析,發(fā)掘出數(shù)據(jù)中的潛在規(guī)則用以預(yù)測或決策,然而采樣始終會舍棄一部分數(shù)據(jù),即會丟失一部分潛在規(guī)則和價值,隨著數(shù)據(jù)量和內(nèi)容的不斷累積,企業(yè)越來越重視在數(shù)據(jù)應(yīng)用時可以使用全量數(shù)據(jù),可以盡可能的覆蓋所有潛在規(guī)則從而發(fā)掘出可能想到或從未想到的價值。 “在我從事大數(shù)據(jù)相關(guān)工作和學習的10年時間里,我一直認為大數(shù)據(jù)是一個以數(shù)據(jù)流向為主的鏈條或管道,數(shù)據(jù)從何而來,又去往哪里,不僅是哲學上的一個問題,也可以在做數(shù)據(jù)工作的時候考慮這個問題。如下圖所示,大數(shù)據(jù)領(lǐng)域可以分為以下幾個主要方向,而這幾個方向又可以分別對應(yīng)一些工作職位: 1數(shù)據(jù)平臺 Data Platform,構(gòu)建、維護穩(wěn)定、安全的大數(shù)據(jù)平臺,按需設(shè)計大數(shù)據(jù)架構(gòu),調(diào)研選型大數(shù)據(jù)技術(shù)產(chǎn)品、方案,實施部署上線。對于大數(shù)據(jù)領(lǐng)域涉及到的大多數(shù)技術(shù)都要有所了解,并精通某一部分,具備分布式系統(tǒng)的知識背景; 對應(yīng)職位:大數(shù)據(jù)架構(gòu)師,數(shù)據(jù)平臺工程師 2數(shù)據(jù)采集 Data Collecting,從Web/Sensor/RDBMS等渠道獲取數(shù)據(jù),為大數(shù)據(jù)平臺提供數(shù)據(jù)來源,如Apache Nutch是開源的分布式數(shù)據(jù)采集組件,大家熟知的Python爬蟲框架ScraPy等。 對應(yīng)職位:爬蟲工程師,數(shù)據(jù)采集工程師 3數(shù)據(jù)倉庫 Data Warehouse,有點類似于傳統(tǒng)的數(shù)據(jù)倉庫工作內(nèi)容:設(shè)計數(shù)所倉庫層級結(jié)構(gòu)、ETL、進行數(shù)據(jù)建模,但基于的平臺不一樣,在大數(shù)據(jù)時代,數(shù)據(jù)倉庫大多基于大數(shù)據(jù)技術(shù)實現(xiàn),例如Hive就是基于Hadoop的數(shù)據(jù)倉庫。 對應(yīng)職位:ETL工程師,數(shù)據(jù)倉庫工程師 4數(shù)據(jù)處理 Data Processing,完成某些特定需求中的處理或數(shù)據(jù)清洗,在小團隊中是結(jié)合在數(shù)據(jù)倉庫中一起做的,以前做ETL或許是利用工具直接配置處理一些過濾項,寫代碼部分會比較少,如今在大數(shù)據(jù)平臺上做數(shù)據(jù)處理可以利用更多的代碼方式做更多樣化的處理,所需技術(shù)有Hive、Hadoop、Spark等。隨便說下,千萬不要小看數(shù)據(jù)處理,后續(xù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作都是基于數(shù)據(jù)處理的質(zhì)量,可以說數(shù)據(jù)處理在整個流程中有特別重要的位置。 對應(yīng)職位:Hadoop工程師,Spark工程師 5數(shù)據(jù)分析 Data Analysis,基于統(tǒng)計分析方法做數(shù)據(jù)分析:例如回歸分析、方差分析等;大數(shù)據(jù)分析例如Ad-Hoc交互式分析,SQL on Hadoop的技術(shù)有:Hive、Impala、Presto、Spark SQL,支持OLAP的技術(shù)有:Kylin; 對應(yīng)職位:數(shù)據(jù)分析師 6數(shù)據(jù)挖掘 Data Mining,是一個比較寬泛的概念,可以直接理解為從大量數(shù)據(jù)中發(fā)現(xiàn)有用的信息。大數(shù)據(jù)中的數(shù)據(jù)挖掘,主要是設(shè)計并在大數(shù)據(jù)平臺上實現(xiàn)數(shù)據(jù)挖掘算法:分類算法、聚類算法、關(guān)聯(lián)分析等。 對應(yīng)職位:數(shù)據(jù)挖掘工程師 7機器學習 Machine Learning,與數(shù)據(jù)挖掘經(jīng)常一起討論,甚至被認為是同一事物。機器學習是一個計算機與統(tǒng)計學交叉的學科,基本目標是學習一個x-“y的函數(shù)(映射),來做分類或者回歸的工作。之所以經(jīng)常和數(shù)據(jù)挖掘合在一起講是因為現(xiàn)在好多數(shù)據(jù)挖掘的工作是通過機器學習提供的算法工具實現(xiàn)的,例如個性化推薦,是通過機器學習的一些算法分析平臺上的各種購買,瀏覽和收藏日志,得到一個推薦模型,來預(yù)測你喜歡的商品。 對應(yīng)職位:算法工程師,研究員 8深度學習 Deep Learning,是機器學習里面的一個topic(非?;鸬腡opic),從深度學習的內(nèi)容來看其本身是神經(jīng)網(wǎng)絡(luò)算法的衍生,在圖像、語音、自然語言等分類和識別上取得了非常好的效果,大部分的工作是在調(diào)參。不知道大家有否發(fā)現(xiàn)現(xiàn)在的Google翻譯比以前的要準確很多,因為Google在去年底將其Google翻譯的核心從原來基于統(tǒng)計的方法換成了基于神經(jīng)網(wǎng)絡(luò)的方法; 對應(yīng)職位:算法工程師,研究員 9數(shù)據(jù)可視化 Data Visualization,將分析、挖掘后的高價值數(shù)據(jù)用比較優(yōu)美、靈活的方式展現(xiàn)在老板、客戶、用戶面前,更多的是一些前端的東西,也可能要求有一定的美學知識。結(jié)合使用者的喜好,以最恰當?shù)姆绞匠尸F(xiàn)數(shù)據(jù)價值; 對應(yīng)職位:數(shù)據(jù)工程師,BI工程師 10數(shù)據(jù)應(yīng)用 Data Application,從以上的每個部分可以衍生出的應(yīng)用,例如廣告精準投放、個性化推薦、用戶畫像等。 對應(yīng)職位:數(shù)據(jù)工程師 我建議想進入大數(shù)據(jù)領(lǐng)域的朋友可以選一個與自己現(xiàn)有技術(shù)背景相匹配的方向作為入門,如海文國際的大數(shù)據(jù)課程,這個課程適合之前做SA、DBA、JAVA開發(fā)的有一定IT基礎(chǔ)的人,同時也適合那有志于入進大數(shù)據(jù)領(lǐng)域的零基礎(chǔ)的的人員,從知識的廣度,讓學員建立一套有章可循、有據(jù)可依然的大數(shù)據(jù)思維;然后學員再將學習的魔爪延伸到其他感興趣的方向,這是最快進入這個領(lǐng)域的一個方法。當然,我們要知道上面所列的每一個方向都需要耗費大量的時間、腦力、體力,都是這個智能時代繼續(xù)發(fā)展的過程中不可或缺的一部分,海文國際大數(shù)據(jù)課程或許是最能幫助你的。
«
香港將迎來首家獨角獸公司 曾獲蔡文勝投資
|
支招:如何在網(wǎng)絡(luò)互助平臺眾托幫早起打卡中拿到紅包
»