眾推推 - 最專業(yè)的微信任務(wù)系統(tǒng)源碼！

資訊熱點(diǎn)

當(dāng)前位置：首頁(yè) > 電商動(dòng)態(tài) > 專訪馬子雅：英特爾開源BigDL，推進(jìn)AI民主化

專訪馬子雅：英特爾開源BigDL，推進(jìn)AI民主化

發(fā)布時(shí)間：2020-6-28 分類：電商動(dòng)態(tài)

作為 AI 民主化戰(zhàn)略的重要實(shí)踐之一，英特爾在 2016年的最后一天，開源了基于 Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。最近，英特爾公司軟件與服務(wù)事業(yè)部副總裁、系統(tǒng)技術(shù)和優(yōu)化部門大數(shù)據(jù)技術(shù)總監(jiān)馬子雅女士接受了新智元的專訪，暢談了BigDL 的特點(diǎn)、應(yīng)用、未來的改進(jìn)，以及英特爾開源這一深度學(xué)習(xí)框架的初衷和意義。正如馬子雅女士所說，“BigDL的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家，在使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻“，“英特爾致力于將我們的技術(shù)提供給我們的社區(qū)，為客戶和開發(fā)人員釋放 AI 在 IA(英特爾架構(gòu)，Intel Architecture)上的全部潛力“。 BigDL 原生地建立于Hadoop/Spark 之上新智元：馬女士您好。英特爾開源了基于Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。請(qǐng)問和其他開源框架相比，BigDL 有什么特點(diǎn)? 馬子雅：BigDL 的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家，在使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻。去年12月31日我們開源了 BigDL;開源社區(qū)對(duì)BigDL 的積極采納令人印象非常深刻：在短短一個(gè)月內(nèi)，GitHub 上已獲得 229 個(gè)用戶克隆 BigDL 代碼(FORK)和1421個(gè)用戶收藏(STAR)。今年2月波士頓舉行了 Spark 峰會(huì)，在大會(huì)開幕主題演講上，斯坦福大學(xué)教授、ApacheSpark 創(chuàng)建者、Databricks CTO Matei Zaharia 高度評(píng)價(jià)了 BigDL;到目前為止，包括Databricks(Apache Spark 重要貢獻(xiàn)者)云平臺(tái)和微軟 Azure HDInsight云服務(wù)都提供了與 BigDL 的集成，方便其用戶訪問使用。此外，眾多全球媒體包括Infoworld，HPCwire，Datanami，HPC，infoq，InsideHPC，計(jì)算機(jī)商業(yè)評(píng)論，SiliconAngle，Oreilly 等，以及德國(guó)、日本和中國(guó)等各國(guó)媒體也對(duì) BigDL 也進(jìn)行了深入的報(bào)道。 BigDL 是一個(gè)建立在大數(shù)據(jù)平臺(tái)(Hadoop/Spark)之上原生的分布式深度學(xué)習(xí)庫(kù)。它提供了在ApacheSpark上豐富的深度學(xué)習(xí)功能(和現(xiàn)有框架如 Caffe 和 Torch等功能一致)，以幫助 Hadoop/Spark 成為一個(gè)統(tǒng)一的數(shù)據(jù)分析平臺(tái)，為整個(gè)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)過程(包括訓(xùn)練/測(cè)試數(shù)據(jù)收集，數(shù)據(jù)的管理，轉(zhuǎn)特征換，傳統(tǒng)機(jī)器學(xué)習(xí)，深度學(xué)習(xí)，模型部署和服務(wù)等)提供比現(xiàn)有框架更加統(tǒng)一和集成化的體驗(yàn)。BigDL 程序是作為標(biāo)準(zhǔn)的 Spark 程序編寫的，并且不需要對(duì)底層 Hadoop/Spark 集群進(jìn)行更改;對(duì)于擁有(或?qū)碛?大數(shù)據(jù)基礎(chǔ)架構(gòu)的分析客戶，可以在現(xiàn)有 Hadoop/Spark 集群上直接運(yùn)行深度學(xué)習(xí)應(yīng)用，不需要設(shè)置單獨(dú)的訓(xùn)練集群，也無(wú)需在兩個(gè)集群之間拷貝多版本的數(shù)據(jù)和模型，從而減少了端到端的學(xué)習(xí)延遲，并降低了總體成本。基于大數(shù)據(jù)平臺(tái)的 BigDL 比現(xiàn)有的深度學(xué)習(xí)框架有更高效的橫向擴(kuò)展、容錯(cuò)性、彈性和動(dòng)態(tài)資源管理;通過利用英特爾MKL 和其他多線程優(yōu)化方法，它在單節(jié)點(diǎn)Xeon上擁有極高的性能，并且可以輕松擴(kuò)展到上百個(gè)節(jié)點(diǎn)。它還支持載入 Caffe / Torch 的預(yù)訓(xùn)練模型到 Spark 上，來進(jìn)行特征提取、微調(diào)、預(yù)測(cè)等。新智元：英特爾準(zhǔn)備如何把人們吸引到 BigDL 中來呢? 馬子雅：我們始終相信，更好地滿足用戶需求的解決方案會(huì)得到更好的應(yīng)用。近年來，隨著我們與許多大數(shù)據(jù)分析和AI客戶合作，他們的需求有幾個(gè)明顯的趨勢(shì)： -客戶體驗(yàn)和易用性：客戶希望能在同一集群中、在現(xiàn)有的數(shù)據(jù)分析流水線上進(jìn)行深度學(xué)習(xí)，以便輕松地與數(shù)據(jù)管理、特性工程、傳統(tǒng)(非深度)機(jī)器學(xué)習(xí)集成;這樣就能幫助他們消除在不同集群之間的多版本數(shù)據(jù)/模型的拷貝，降低端到端的機(jī)器學(xué)習(xí)延遲，將深度學(xué)習(xí)集成到現(xiàn)有的大數(shù)據(jù)分析工作流中管理，并且實(shí)現(xiàn)動(dòng)態(tài)、彈性的機(jī)器資源管理。 -大規(guī)模深度學(xué)習(xí)：客戶希望為他們的深度學(xué)習(xí)模型提供越來越多的數(shù)據(jù)，以提高訓(xùn)練的準(zhǔn)確性。許多人選擇在大數(shù)據(jù)(Haoop/Spark)平臺(tái)之上構(gòu)建深度學(xué)習(xí)功能，以便利用其水平擴(kuò)展架構(gòu)，分析大規(guī)模訓(xùn)練數(shù)據(jù)。當(dāng)為客戶解決這些問題時(shí)，第一反應(yīng)是將現(xiàn)有的深度學(xué)習(xí)框架集成到客戶的大數(shù)據(jù)平臺(tái)上，希望將他們的深度學(xué)習(xí)能力和Spark / Hadoop的可擴(kuò)展性結(jié)合在一起;但是這樣的整合僅僅停留在表面，而缺乏在數(shù)據(jù)處理或模型集成上的無(wú)縫集成。這是我們引入BigDL的最大驅(qū)動(dòng)因素。BigDL與現(xiàn)有深度學(xué)習(xí)框架的功能一致，但是BigDL的優(yōu)點(diǎn)是它原生地建立在Spark上，并且天然地繼承了Spark的可擴(kuò)展性，并且與現(xiàn)有大數(shù)據(jù)處理工作流(例如Spark ML pipeline，SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)無(wú)縫集成。所以BigDL特別適用于有大量數(shù)據(jù)需要管理，以及擁有(或?qū)碛?大數(shù)據(jù)平臺(tái)(Hadoop/Spark)的分析客戶。 BigDL 的應(yīng)用案例和未來改進(jìn)方向新智元：BigDL 現(xiàn)在主要應(yīng)用于哪些領(lǐng)域?您是否可以介紹一兩個(gè)應(yīng)用的案例? 馬子雅：BigDL 的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家，使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻;所以 BigDL 可以和現(xiàn)有大數(shù)據(jù)分析的工作流(例如Spark ML pipeline，SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)進(jìn)行無(wú)縫集成。BigDL 雖然是在幾個(gè)月前開源的，但實(shí)際上我們已經(jīng)與一些早期合作者，基于以上特性成功構(gòu)建了基于 BigDL 的深度學(xué)習(xí)(和人工智能)的端到端的應(yīng)用案例。第一個(gè)客戶案例是在鋼鐵制造行業(yè)的應(yīng)用。提高鋼表面缺陷的識(shí)別精度對(duì)鋼鐵生產(chǎn)和質(zhì)量控制非常重要;我們與一個(gè)知名的鋼鐵生產(chǎn)商合作，使用 Spark 和 BigDL 實(shí)現(xiàn)了端到端的深度學(xué)習(xí)流水線，用于產(chǎn)品缺陷圖像識(shí)別。由此客戶顯著地提高了其缺陷識(shí)別的精度和能力。對(duì)于金融服務(wù)公司來說，由于其廣泛的產(chǎn)品、服務(wù)和客戶互動(dòng)渠道，他們面臨的欺詐交易風(fēng)險(xiǎn)大大增加了。我們與一家金融服務(wù)公司合作，使用 Spark 和 BigDL 實(shí) 施了端到端的學(xué)習(xí)流水線，即時(shí)分析大量數(shù)據(jù)，為此顯著地提高了欺詐交易檢測(cè)率。新智元：BigDL 之后會(huì)在哪些方面做出改進(jìn)?比如，是否會(huì)提供 Python API ?是否會(huì)允許更多的其他框架訓(xùn)練好的模型載入? 馬子雅：Jason Dai是我們大數(shù)據(jù)技術(shù)全球 CTO，他在 BigDL 的架構(gòu)構(gòu)建和工程開發(fā)方面發(fā)揮了重要的領(lǐng)導(dǎo)作用。在開源后 BigDL 項(xiàng)目得到了全世界許多開源社區(qū)用戶的積極參與：例如在 BigDL 開源不到兩個(gè)月后，InfoWorld 就在其對(duì)深度學(xué)習(xí)趨勢(shì)的預(yù)測(cè)中，將 BigDL 與 TensorFlow、Caffe 等一起并列為目前最流行的深度學(xué)習(xí)框架;Jason 和他在上海及硅谷的團(tuán)隊(duì)，基于全世界 BigDL 社區(qū)用戶提供的反饋，以及和我們?nèi)虻目蛻?合作伙伴的密切合作，為 BigDL 項(xiàng)目制定了將來的路線圖(包括新功能、可用性、可擴(kuò)展性等方面)。我們的下一個(gè)版本將在第一季度末左右發(fā)布，主要更新包括：增加對(duì) PythonAPI 的支持，提供更好的可視化體驗(yàn)(利用 Notebook 和 TensorBoard)，增加對(duì) macOS 的支持，提供更豐富的 RNN 支持(如對(duì)LSTM 、GRU等算法的支持)等等。 Intel-analytics 的其他開源庫(kù)及對(duì)各類深度學(xué)習(xí)任務(wù)的支持新智元：除了 BigDL，我們知道 Intel-analytics下面還有另外的開源庫(kù)：比如 SparseML等;您是否可以比較一下，這些開源庫(kù)分別有什么特點(diǎn)?應(yīng)用于哪些場(chǎng)景? 馬子雅：BigDL 能為那些擁有大量數(shù)據(jù)、以及已建(或?qū)⒔?大數(shù)據(jù)集群的用戶，提供構(gòu)建基于深度學(xué)習(xí)(和人工智能)的大數(shù)據(jù)分析的最優(yōu)服務(wù)。BigDL 天生就可以運(yùn)行在現(xiàn)有標(biāo)準(zhǔn)的大數(shù)據(jù)平臺(tái)(Hadoop/Spark)之上，利用公共的數(shù)據(jù)基礎(chǔ)架構(gòu)，在數(shù)據(jù)采集、特征提取、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)工作負(fù)載等方面，為客戶提供統(tǒng)一的和無(wú)縫集成的完整體驗(yàn)。它支持大規(guī)模的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)，并提供自動(dòng)容錯(cuò)和自動(dòng)動(dòng)態(tài)彈性資源管理。對(duì)于具有極高模型維度和大量非常稀疏數(shù)據(jù)(例如，百億到千億級(jí)別的訓(xùn)練樣本，十億級(jí)甚至百億級(jí)別特征)的用戶，SparseML 可以顯著地為他們提高機(jī)器學(xué)習(xí)的可擴(kuò)展性。許多互聯(lián)網(wǎng)公司需要從大量的極度稀疏數(shù)據(jù)中學(xué)習(xí)模型，他們面臨的挑戰(zhàn)是現(xiàn)有的機(jī)器學(xué)習(xí)解決方案無(wú)法處理大量數(shù)據(jù)或高維度模型;通過利用數(shù)據(jù)稀疏性，對(duì)分布式機(jī)器學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)、網(wǎng)絡(luò)通信和算術(shù)運(yùn)算的優(yōu)化，SparseML 可以比現(xiàn)有開源的機(jī)器學(xué)習(xí)算法(例如Spark Mllib)提供更高的可擴(kuò)展性。新智元：可以看出，Intel-analytics 在努力形成一個(gè)支撐各種應(yīng)用場(chǎng)景的完整生態(tài)。那么，請(qǐng)?jiān)试S我問一個(gè)比較具體的問題：如果我希望進(jìn)行深度學(xué)習(xí)的圖像分類，應(yīng)該如何從英特爾的產(chǎn)品組合中選擇呢?或者我要處理的數(shù)據(jù)里面既包括圖像又包括音頻，又該如何選擇呢? 馬子雅：我們的目標(biāo)是為機(jī)器學(xué)習(xí)用戶和開發(fā)人員提供從硬件到軟件的最簡(jiǎn)便、最完整和最高效的體驗(yàn)。為了選擇最合適的解決方案棧，您需要評(píng)估一些事情：(1)您是否已有了現(xiàn)有的基礎(chǔ)架構(gòu)，并希望利用它來構(gòu)建圖像分類?(2)您最大的需求是什么：從現(xiàn)有的分布式文件系統(tǒng)/存儲(chǔ)中直接訪問數(shù)據(jù)存儲(chǔ)，以實(shí)現(xiàn)快速的機(jī)器學(xué)習(xí)實(shí)驗(yàn)周期(turn-around time)?是與您現(xiàn)有的分析工作流程或平臺(tái)輕松集成?還是可擴(kuò)展性(處理大量訓(xùn)練樣本或高維特征的能力)，高資源利用率，低總擁有成本，訓(xùn)練性能等等?根據(jù)您對(duì)這些問題的回答，您可以選擇不同的解決方案。在硬件層面，我們有各種產(chǎn)品可供選擇，例如：Xeon，Xeon phi，F(xiàn)PGA。將來我們還會(huì)有LakeCrest(Nervana silicon);您可以挑選最適合您的需要的產(chǎn)品。在深度學(xué)習(xí)框架層面，我們正在推動(dòng) Neon 并將英特爾優(yōu)化的MKL應(yīng)用于深度學(xué)習(xí)框架，比如 Caffe，TensorFlow，Theano 和 Torch 等。如果您喜歡使用這些優(yōu)化的框架，您可以直接使用它們或通過英特爾深度學(xué)習(xí)SDK來使用它們。如果您已經(jīng)有了大數(shù)據(jù)(Hadoop/Spark)集群或大數(shù)據(jù)分析工作流，那么您很可能更傾向在現(xiàn)有的大數(shù)據(jù)基礎(chǔ)架構(gòu)中來進(jìn)行深度學(xué)習(xí)。我們正在推動(dòng)以 Spark /Hadoop 為數(shù)據(jù)分析和人工智能的統(tǒng)一平臺(tái)，來支持端到端的學(xué)習(xí)工作流，包括從數(shù)據(jù)管理，特征管理，特征工程，模型訓(xùn)練到最后的結(jié)果評(píng)估;那么，BigDL 將會(huì)極大地適合你的需求。從開源到 AI 民主化新智元：英特爾在人工智能領(lǐng)域所提供的產(chǎn)品組合已經(jīng)非常豐富了，其中包括了許多我們今天提到的開源項(xiàng)目，那么請(qǐng)問馬女士，在英特爾人工智能的產(chǎn)業(yè)布局中，是如何認(rèn)識(shí)“開源“這件事的意義呢?未來是否會(huì)有計(jì)劃推出更多的開源項(xiàng)目呢? 馬子雅：開源項(xiàng)目有很多原因： 1.建立一個(gè)更大的開發(fā)社區(qū)，可以檢驗(yàn)我們的設(shè)計(jì)和解決方案(好不好?哪里好?哪里不好?““)。好的開發(fā)人員喜歡與好的開發(fā)人員合作，與好的項(xiàng)目合作。如果我們的項(xiàng)目流行得足以吸引到外部人員來貢獻(xiàn)力量，那么我們就相當(dāng)于創(chuàng)建了一個(gè)倍增的開發(fā)人員社區(qū)，幫助我們工作得更快更好; 2.加速客戶使用：隨著我們的項(xiàng)目開源，它幫助更多的用戶和客戶從我們的工作中受益;他們的成功反過來會(huì)影響其他客戶和用戶使用這些解決方案。來自這些快速擴(kuò)張的用戶群的反饋也可以反過來影響我們的路線圖和設(shè)計(jì)，以更好地服務(wù)用戶的需求; 3.開源項(xiàng)目也是我們?yōu)樾袠I(yè)和社區(qū)支持AI的承諾做出的最好的展示。隨著我們與行業(yè)客戶和合作伙伴的繼續(xù)合作，確定新的需求領(lǐng)域，我們將繼續(xù)推動(dòng)新的項(xiàng)目開源，就像我們這次為 BigDL 所做的。英特爾致力于開源協(xié)作，確保我們的客戶和合作伙伴在英特爾硬件上擁有最佳、最簡(jiǎn)便、最完整的 AI 體驗(yàn)。新智元：在英特爾的人工智能戰(zhàn)略中，Democratize AI 是一個(gè)非常重要的組成部分。請(qǐng)問英特爾是如何定義自己在人工智能領(lǐng)域的“ democratize “的?準(zhǔn)備采取什么舉措來服務(wù)企業(yè)級(jí)用戶和開發(fā)者?同時(shí)，又準(zhǔn)備如何更好地服務(wù)已經(jīng)習(xí)慣使用CPU來做深度學(xué)習(xí)項(xiàng)目的用戶，比如高校、研究機(jī)構(gòu)中的研究人員? 馬子雅：英特爾致力于將我們的技術(shù)提供給我們的社區(qū)，為客戶和開發(fā)人員釋放AI在IA上的全部潛力。我們將與開源社區(qū)廣泛合作，以便讓更廣泛的受眾可以利用我們的工作。在DL框架級(jí)別，我們推動(dòng)開源 Neon，并將英特爾優(yōu)化的 MKL 應(yīng)用于開源框架例如 Caffe，Tensorflow，Theano，Torch等(一個(gè)例子是英特爾和谷歌去年宣布戰(zhàn)略聯(lián)盟，以加速機(jī)器學(xué)習(xí)的應(yīng)用，例如加速英特爾處理器上的 TensorFlow 性能，將高性能庫(kù)如 Math Kernel Library (MKL)集成到 TensorFlow)。我們還開源基于大數(shù)據(jù)和 Spark 的深度學(xué)習(xí)框架比如 BigDL。英特爾深度學(xué)習(xí) SDK 讓客戶和開發(fā)人員易于使用和訪問這些框架，以便客戶能夠更好地專注于真正增值的機(jī)器學(xué)習(xí)工作。英特爾也傳播AI知識(shí)。在英特爾 NervanaAI 學(xué)院，在英特爾開發(fā)區(qū) (Intel developer zone)，我們提供了大量的AI知識(shí)共享、框架優(yōu)化信息、工具和庫(kù)。我們還有英特爾學(xué)生開發(fā)項(xiàng)目為學(xué)生提供培訓(xùn)，針對(duì)不同的大學(xué)我們還有學(xué)生大使和推廣計(jì)劃。我們還提供線上和線下的研討會(huì)，開發(fā)人員和開源社區(qū)用戶的 meetup 等。英特爾還與Coursera合作制作在線AI課程。去年底英特爾，MobileODT 和 kaggle 推出數(shù)據(jù)科學(xué)競(jìng)賽，關(guān)注宮頸癌的診治。我們繼續(xù)與業(yè)界合作伙伴和客戶合作，幫助他們解決業(yè)務(wù)或現(xiàn)實(shí)生活中的問題。對(duì)于已經(jīng)使用 CPU 進(jìn)行深度學(xué)習(xí)的客戶，我們一直在改進(jìn)我們的新一代 CPU 以提高我們的訓(xùn)練性能和成本效益。這些客戶可以隨時(shí)利用英特爾 MKL 在英特爾硬件上實(shí)現(xiàn)最佳訓(xùn)練性能。除了這些客戶，大數(shù)據(jù)客戶今天也在 CPU 上運(yùn)行他們的數(shù)據(jù)平臺(tái)。隨著大數(shù)據(jù)和 AI 的緊密、無(wú)縫集成，這些客戶不僅能享受 AI 功能，而且通過使用大數(shù)據(jù)平臺(tái)，可以在例如可擴(kuò)展性、容錯(cuò)性、易用性和動(dòng)態(tài)彈性資源管理等方面受益。

« 微信打賞本就雞肋付費(fèi)閱讀不是乞討 | 摩拜與騰訊聯(lián)手打造獨(dú)家智能共享單車服務(wù) »

: 周一周五 8:30 - 18:00

魯ICP備14007395號(hào)-15

百度統(tǒng)計(jì)

客服QQ

国产免费看插插插视频_办公室撅着调教羞辱_国产精品一级毛片不收费_亚洲另类专区无码