作為 AI 民主化戰(zhàn)略的重要實踐之一,英特爾在 2016年 的最后一天,開源了基于 Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。最近,英特爾公司軟件與服務(wù)事業(yè)部副總裁、系統(tǒng)技術(shù)和優(yōu)化部門大數(shù)據(jù)技術(shù)總監(jiān)馬子雅女士接受了新智元的專訪,暢談了BigDL 的特點、應(yīng)用、未來的改進,以及英特爾開源這一深度學(xué)習(xí)框架的初衷和意義。正如馬子雅女士所說,“BigDL的目標是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,在使用深度學(xué)習(xí)進行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻“,“英特爾致力于將我們的技術(shù)提供給我們的社區(qū),為客戶和開發(fā)人員釋放 AI 在 IA(英特爾架構(gòu),Intel Architecture)上的全部潛力“。 BigDL 原生地建立于Hadoop/Spark 之上 新智元:馬女士您好。英特爾開源了基于Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。請問和其他開源框架相比,BigDL 有什么特點? 馬子雅:BigDL 的目標是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,在使用深度學(xué)習(xí)進行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻。去年12月31日我們開源了 BigDL;開源社區(qū)對BigDL 的積極采納令人印象非常深刻:在短短一個月內(nèi),GitHub 上已獲得 229 個用戶克隆 BigDL 代碼(FORK)和1421個用戶收藏(STAR)。今年2月波士頓舉行了 Spark 峰會,在大會開幕主題演講上,斯坦福大學(xué)教授、ApacheSpark 創(chuàng)建者、Databricks CTO Matei Zaharia 高度評價了 BigDL;到目前為止,包括Databricks(Apache Spark 重要貢獻者)云平臺和微軟 Azure HDInsight云服務(wù)都提供了與 BigDL 的集成,方便其用戶訪問使用。此外,眾多全球媒體包括Infoworld,HPCwire,Datanami,HPC,infoq,InsideHPC,計算機商業(yè)評論,SiliconAngle,Oreilly 等,以及德國、日本和中國等各國媒體也對 BigDL 也進行了深入的報道。 BigDL 是一個建立在大數(shù)據(jù)平臺(Hadoop/Spark)之上原生的分布式深度學(xué)習(xí)庫。它提供了在ApacheSpark上豐富的深度學(xué)習(xí)功能(和現(xiàn)有框架如 Caffe 和 Torch等功能一致),以幫助 Hadoop/Spark 成為一個統(tǒng)一的數(shù)據(jù)分析平臺,為整個數(shù)據(jù)分析和機器學(xué)習(xí)過程(包括訓(xùn)練/測試數(shù)據(jù)收集,數(shù)據(jù)的管理,轉(zhuǎn)特征換,傳統(tǒng)機器學(xué)習(xí),深度學(xué)習(xí),模型部署和服務(wù)等)提供比現(xiàn)有框架更加統(tǒng)一和集成化的體驗。BigDL 程序是作為標準的 Spark 程序編寫的,并且不需要對底層 Hadoop/Spark 集群進行更改;對于擁有(或?qū)碛?大數(shù)據(jù)基礎(chǔ)架構(gòu)的分析客戶,可以在現(xiàn)有 Hadoop/Spark 集群上直接運行深度學(xué)習(xí)應(yīng)用,不需要設(shè)置單獨的訓(xùn)練集群,也無需在兩個集群之間拷貝多版本的數(shù)據(jù)和模型,從而減少了端到端的學(xué)習(xí)延遲,并降低了總體成本。 基于大數(shù)據(jù)平臺的 BigDL 比現(xiàn)有的深度學(xué)習(xí)框架有更高效的橫向擴展、容錯性、彈性和動態(tài)資源管理;通過利用英特爾MKL 和其他多線程優(yōu)化方法,它在單節(jié)點Xeon上擁有極高的性能,并且可以輕松擴展到上百個節(jié)點。它還支持載入 Caffe / Torch 的預(yù)訓(xùn)練模型到 Spark 上,來進行特征提取、微調(diào)、預(yù)測等。 新智元:英特爾準備如何把人們吸引到 BigDL 中來呢? 馬子雅:我們始終相信,更好地滿足用戶需求的解決方案會得到更好的應(yīng)用。 近年來,隨著我們與許多大數(shù)據(jù)分析和AI客戶合作,他們的需求有幾個明顯的趨勢: -客戶體驗和易用性:客戶希望能在同一集群中、在現(xiàn)有的數(shù)據(jù)分析流水線上進行深度學(xué)習(xí),以便輕松地與數(shù)據(jù)管理、特性工程、傳統(tǒng)(非深度)機器學(xué)習(xí)集成;這樣就能幫助他們消除在不同集群之間的多版本數(shù)據(jù)/模型的拷貝,降低端到端的機器學(xué)習(xí)延遲,將深度學(xué)習(xí)集成到現(xiàn)有的大數(shù)據(jù)分析工作流中管理,并且實現(xiàn)動態(tài)、彈性的機器資源管理。 -大規(guī)模深度學(xué)習(xí):客戶希望為他們的深度學(xué)習(xí)模型提供越來越多的數(shù)據(jù),以提高訓(xùn)練的準確性。許多人選擇在大數(shù)據(jù)(Haoop/Spark)平臺之上構(gòu)建深度學(xué)習(xí)功能,以便利用其水平擴展架構(gòu),分析大規(guī)模訓(xùn)練數(shù)據(jù)。 當為客戶解決這些問題時,第一反應(yīng)是將現(xiàn)有的深度學(xué)習(xí)框架集成到客戶的大數(shù)據(jù)平臺上,希望將他們的深度學(xué)習(xí)能力和Spark / Hadoop的可擴展性結(jié)合在一起;但是這樣的整合僅僅停留在表面,而缺乏在數(shù)據(jù)處理或模型集成上的無縫集成。這是我們引入BigDL的最大驅(qū)動因素。BigDL與現(xiàn)有深度學(xué)習(xí)框架的功能一致,但是BigDL的優(yōu)點是它原生地建立在Spark上,并且天然地繼承了Spark的可擴展性,并且與現(xiàn)有大數(shù)據(jù)處理工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)無縫集成。所以BigDL特別適用于有大量數(shù)據(jù)需要管理,以及擁有(或?qū)碛?大數(shù)據(jù)平臺(Hadoop/Spark)的分析客戶。 BigDL 的應(yīng)用案例和未來改進方向 新智元:BigDL 現(xiàn)在主要應(yīng)用于哪些領(lǐng)域?您是否可以介紹一兩個應(yīng)用的案例? 馬子雅:BigDL 的目標是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,使用深度學(xué)習(xí)進行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻;所以 BigDL 可以和現(xiàn)有大數(shù)據(jù)分析的工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)進行無縫集成。BigDL 雖然是在幾個月前開源的,但實際上我們已經(jīng)與一些早期合作者,基于以上特性成功構(gòu)建了基于 BigDL 的深度學(xué)習(xí)(和人工智能)的端到端的應(yīng)用案例。 第一個客戶案例是在鋼鐵制造行業(yè)的應(yīng)用。提高鋼表面缺陷的識別精度對鋼鐵生產(chǎn)和質(zhì)量控制非常重要;我們與一個知名的鋼鐵生產(chǎn)商合作,使用 Spark 和 BigDL 實現(xiàn)了端到端的深度學(xué)習(xí)流水線,用于產(chǎn)品缺陷圖像識別。由此客戶顯著地提高了其缺陷識別的精度和能力。 對于金融服務(wù)公司來說,由于其廣泛的產(chǎn)品、服務(wù)和客戶互動渠道,他們面臨的欺詐交易風(fēng)險大大增加了。我們與一家金融服務(wù)公司合作,使用 Spark 和 BigDL 實 施了端到端的學(xué)習(xí)流水線,即時分析大量數(shù)據(jù),為此顯著地提高了欺詐交易檢測率。 新智元:BigDL 之后會在哪些方面做出改進?比如,是否會提供 Python API ?是否會允許更多的其他框架訓(xùn)練好的模型載入? 馬子雅:Jason Dai是我們大數(shù)據(jù)技術(shù)全球 CTO,他在 BigDL 的架構(gòu)構(gòu)建和工程開發(fā)方面發(fā)揮了重要的領(lǐng)導(dǎo)作用。在開源后 BigDL 項目得到了全世界許多開源社區(qū)用戶的積極參與:例如在 BigDL 開源不到兩個月后,InfoWorld 就在其對深度學(xué)習(xí)趨勢的預(yù)測中,將 BigDL 與 TensorFlow、Caffe 等一起并列為目前最流行的深度學(xué)習(xí)框架;Jason 和他在上海及硅谷的團隊,基于全世界 BigDL 社區(qū)用戶提供的反饋,以及和我們?nèi)虻目蛻?合作伙伴的密切合作,為 BigDL 項目制定了將來的路線圖(包括新功能、可用性、可擴展性等方面)。我們的下一個版本將在第一季度末左右發(fā)布,主要更新包括:增加對 PythonAPI 的支持,提供更好的可視化體驗(利用 Notebook 和 TensorBoard),增加對 macOS 的支持,提供更豐富的 RNN 支持(如對LSTM 、GRU等算法的支持)等等。 Intel-analytics 的其他開源庫及對各類深度學(xué)習(xí)任務(wù)的支持 新智元:除了 BigDL,我們知道 Intel-analytics下面還有另外的開源庫:比如 SparseML等;您是否可以比較一下,這些開源庫分別有什么特點?應(yīng)用于哪些場景? 馬子雅:BigDL 能為那些擁有大量數(shù)據(jù)、以及已建(或?qū)⒔?大數(shù)據(jù)集群的用戶,提供構(gòu)建基于深度學(xué)習(xí)(和人工智能)的大數(shù)據(jù)分析的最優(yōu)服務(wù)。BigDL 天生就可以運行在現(xiàn)有標準的大數(shù)據(jù)平臺(Hadoop/Spark)之上,利用公共的數(shù)據(jù)基礎(chǔ)架構(gòu),在數(shù)據(jù)采集、特征提取、傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)工作負載等方面,為客戶提供統(tǒng)一的和無縫集成的完整體驗。它支持大規(guī)模的深度學(xué)習(xí)和機器學(xué)習(xí),并提供自動容錯和自動動態(tài)彈性資源管理。 對于具有極高模型維度和大量非常稀疏數(shù)據(jù)(例如,百億到千億級別的訓(xùn)練樣本,十億級甚至百億級別特征)的用戶,SparseML 可以顯著地為他們提高機器學(xué)習(xí)的可擴展性。許多互聯(lián)網(wǎng)公司需要從大量的極度稀疏數(shù)據(jù)中學(xué)習(xí)模型,他們面臨的挑戰(zhàn)是現(xiàn)有的機器學(xué)習(xí)解決方案無法處理大量數(shù)據(jù)或高維度模型;通過利用數(shù)據(jù)稀疏性,對分布式機器學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)、網(wǎng)絡(luò)通信和算術(shù)運算的優(yōu)化,SparseML 可以比現(xiàn)有開源的機器學(xué)習(xí)算法(例如Spark Mllib)提供更高的可擴展性。 新智元:可以看出,Intel-analytics 在努力形成一個支撐各種應(yīng)用場景的完整生態(tài)。那么,請允許我問一個比較具體的問題:如果我希望進行深度學(xué)習(xí)的圖像分類,應(yīng)該如何從英特爾的產(chǎn)品組合中選擇呢?或者我要處理的數(shù)據(jù)里面既包括圖像又包括音頻,又該如何選擇呢? 馬子雅:我們的目標是為機器學(xué)習(xí)用戶和開發(fā)人員提供從硬件到軟件的最簡便、最完整和最高效的體驗。 為了選擇最合適的解決方案棧,您需要評估一些事情:(1)您是否已有了現(xiàn)有的基礎(chǔ)架構(gòu),并希望利用它來構(gòu)建圖像分類?(2)您最大的需求是什么:從現(xiàn)有的分布式文件系統(tǒng)/存儲中直接訪問數(shù)據(jù)存儲,以實現(xiàn)快速的機器學(xué)習(xí)實驗周期(turn-around time)?是與您現(xiàn)有的分析工作流程或平臺輕松集成?還是可擴展性(處理大量訓(xùn)練樣本或高維特征的能力),高資源利用率,低總擁有成本,訓(xùn)練性能等等?根據(jù)您對這些問題的回答,您可以選擇不同的解決方案。 在硬件層面,我們有各種產(chǎn)品可供選擇,例如:Xeon,Xeon phi,F(xiàn)PGA。將來我們還會有LakeCrest(Nervana silicon);您可以挑選最適合您的需要的產(chǎn)品。 在深度學(xué)習(xí)框架層面,我們正在推動 Neon 并將英特爾優(yōu)化的MKL應(yīng)用于深度學(xué)習(xí)框架,比如 Caffe,TensorFlow,Theano 和 Torch 等。如果您喜歡使用這些優(yōu)化的框架,您可以直接使用它們或通過英特爾深度學(xué)習(xí)SDK來使用它們。 如果您已經(jīng)有了大數(shù)據(jù)(Hadoop/Spark)集群或大數(shù)據(jù)分析工作流,那么您很可能更傾向在現(xiàn)有的大數(shù)據(jù)基礎(chǔ)架構(gòu)中來進行深度學(xué)習(xí)。我們正在推動以 Spark /Hadoop 為數(shù)據(jù)分析和人工智能的統(tǒng)一平臺,來支持端到端的學(xué)習(xí)工作流,包括從數(shù)據(jù)管理,特征管理,特征工程,模型訓(xùn)練到最后的結(jié)果評估;那么,BigDL 將會極大地適合你的需求。 從開源到 AI 民主化 新智元:英特爾在人工智能領(lǐng)域所提供的產(chǎn)品組合已經(jīng)非常豐富了,其中包括了許多我們今天提到的開源項目,那么請問馬女士,在英特爾人工智能的產(chǎn)業(yè)布局中,是如何認識“開源“這件事的意義呢?未來是否會有計劃推出更多的開源項目呢? 馬子雅:開源項目有很多原因: 1.建立一個更大的開發(fā)社區(qū),可以檢驗我們的設(shè)計和解決方案(好不好?哪里好?哪里不好?““)。好的開發(fā)人員喜歡與好的開發(fā)人員合作,與好的項目合作。如果我們的項目流行得足以吸引到外部人員來貢獻力量,那么我們就相當于創(chuàng)建了一個倍增的開發(fā)人員社區(qū),幫助我們工作得更快更好; 2.加速客戶使用:隨著我們的項目開源,它幫助更多的用戶和客戶從我們的工作中受益;他們的成功反過來會影響其他客戶和用戶使用這些解決方案。來自這些快速擴張的用戶群的反饋也可以反過來影響我們的路線圖和設(shè)計,以更好地服務(wù)用戶的需求; 3.開源項目也是我們?yōu)樾袠I(yè)和社區(qū)支持AI的承諾做出的最好的展示。 隨著我們與行業(yè)客戶和合作伙伴的繼續(xù)合作,確定新的需求領(lǐng)域,我們將繼續(xù)推動新的項目開源,就像我們這次為 BigDL 所做的。英特爾致力于開源協(xié)作,確保我們的客戶和合作伙伴在英特爾硬件上擁有最佳、最簡便、最完整的 AI 體驗。 新智元:在英特爾的人工智能戰(zhàn)略中,Democratize AI 是一個非常重要的組成部分。請問英特爾是如何定義自己在人工智能領(lǐng)域的“ democratize “的?準備采取什么舉措來服務(wù)企業(yè)級用戶和開發(fā)者?同時,又準備如何更好地服務(wù)已經(jīng)習(xí)慣使用CPU來做深度學(xué)習(xí)項目的用戶,比如高校、研究機構(gòu)中的研究人員? 馬子雅:英特爾致力于將我們的技術(shù)提供給我們的社區(qū),為客戶和開發(fā)人員釋放AI在IA上的全部潛力。 我們將與開源社區(qū)廣泛合作,以便讓更廣泛的受眾可以利用我們的工作。在DL框架級別,我們推動開源 Neon,并將英特爾優(yōu)化的 MKL 應(yīng)用于開源框架例如 Caffe,Tensorflow,Theano,Torch等(一個例子是英特爾和谷歌去年宣布戰(zhàn)略聯(lián)盟,以加速機器學(xué)習(xí)的應(yīng)用,例如加速英特爾處理器上的 TensorFlow 性能,將高性能庫如 Math Kernel Library (MKL)集成到 TensorFlow)。我們還開源基于大數(shù)據(jù)和 Spark 的深度學(xué)習(xí)框架比如 BigDL。英特爾深度學(xué)習(xí) SDK 讓客戶和開發(fā)人員易于使用和訪問這些框架,以便客戶能夠更好地專注于真正增值的機器學(xué)習(xí)工作。 英特爾也傳播AI知識。在英特爾 NervanaAI 學(xué)院,在英特爾開發(fā)區(qū) (Intel developer zone),我們提供了大量的AI知識共享、框架優(yōu)化信息、工具和庫。我們還有英特爾學(xué)生開發(fā)項目為學(xué)生提供培訓(xùn),針對不同的大學(xué)我們還有學(xué)生大使和推廣計劃。我們還提供線上和線下的研討會,開發(fā)人員和開源社區(qū)用戶的 meetup 等。英特爾還與Coursera合作制作在線AI課程。去年底英特爾,MobileODT 和 kaggle 推出數(shù)據(jù)科學(xué)競賽,關(guān)注宮頸癌的診治。我們繼續(xù)與業(yè)界合作伙伴和客戶合作,幫助他們解決業(yè)務(wù)或現(xiàn)實生活中的問題。 對于已經(jīng)使用 CPU 進行深度學(xué)習(xí)的客戶,我們一直在改進我們的新一代 CPU 以提高我們的訓(xùn)練性能和成本效益。這些客戶可以隨時利用英特爾 MKL 在英特爾硬件上實現(xiàn)最佳訓(xùn)練性能。除了這些客戶,大數(shù)據(jù)客戶今天也在 CPU 上運行他們的數(shù)據(jù)平臺。隨著大數(shù)據(jù)和 AI 的緊密、無縫集成,這些客戶不僅能享受 AI 功能,而且通過使用大數(shù)據(jù)平臺,可以在例如可擴展性、容錯性、易用性和動態(tài)彈性資源管理等方面受益。
«
微信打賞本就雞肋 付費閱讀不是乞討
|
摩拜與騰訊聯(lián)手 打造獨家智能共享單車服務(wù)
»