国产免费看插插插视频_办公室撅着调教羞辱_国产精品一级毛片不收费_亚洲另类专区无码

眾推推 - 最專業(yè)的微信任務(wù)系統(tǒng)源碼!

資訊熱點(diǎn)
專訪馬子雅:英特爾開源BigDL,推進(jìn)AI民主化

發(fā)布時(shí)間:2020-6-28 分類: 電商動(dòng)態(tài)

作為 AI 民主化戰(zhàn)略的重要實(shí)踐之一,英特爾在 2016年 的最后一天,開源了基于 Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。最近,英特爾公司軟件與服務(wù)事業(yè)部副總裁、系統(tǒng)技術(shù)和優(yōu)化部門大數(shù)據(jù)技術(shù)總監(jiān)馬子雅女士接受了新智元的專訪,暢談了BigDL 的特點(diǎn)、應(yīng)用、未來的改進(jìn),以及英特爾開源這一深度學(xué)習(xí)框架的初衷和意義。正如馬子雅女士所說,“BigDL的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,在使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻“,“英特爾致力于將我們的技術(shù)提供給我們的社區(qū),為客戶和開發(fā)人員釋放 AI 在 IA(英特爾架構(gòu),Intel Architecture)上的全部潛力“。 BigDL 原生地建立于Hadoop/Spark 之上 新智元:馬女士您好。英特爾開源了基于Apache Spark 的分布式深度學(xué)習(xí)框架 BigDL。請(qǐng)問和其他開源框架相比,BigDL 有什么特點(diǎn)? 馬子雅:BigDL 的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,在使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻。去年12月31日我們開源了 BigDL;開源社區(qū)對(duì)BigDL 的積極采納令人印象非常深刻:在短短一個(gè)月內(nèi),GitHub 上已獲得 229 個(gè)用戶克隆 BigDL 代碼(FORK)和1421個(gè)用戶收藏(STAR)。今年2月波士頓舉行了 Spark 峰會(huì),在大會(huì)開幕主題演講上,斯坦福大學(xué)教授、ApacheSpark 創(chuàng)建者、Databricks CTO Matei Zaharia 高度評(píng)價(jià)了 BigDL;到目前為止,包括Databricks(Apache Spark 重要貢獻(xiàn)者)云平臺(tái)和微軟 Azure HDInsight云服務(wù)都提供了與 BigDL 的集成,方便其用戶訪問使用。此外,眾多全球媒體包括Infoworld,HPCwire,Datanami,HPC,infoq,InsideHPC,計(jì)算機(jī)商業(yè)評(píng)論,SiliconAngle,Oreilly 等,以及德國(guó)、日本和中國(guó)等各國(guó)媒體也對(duì) BigDL 也進(jìn)行了深入的報(bào)道。 BigDL 是一個(gè)建立在大數(shù)據(jù)平臺(tái)(Hadoop/Spark)之上原生的分布式深度學(xué)習(xí)庫(kù)。它提供了在ApacheSpark上豐富的深度學(xué)習(xí)功能(和現(xiàn)有框架如 Caffe 和 Torch等功能一致),以幫助 Hadoop/Spark 成為一個(gè)統(tǒng)一的數(shù)據(jù)分析平臺(tái),為整個(gè)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)過程(包括訓(xùn)練/測(cè)試數(shù)據(jù)收集,數(shù)據(jù)的管理,轉(zhuǎn)特征換,傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí),模型部署和服務(wù)等)提供比現(xiàn)有框架更加統(tǒng)一和集成化的體驗(yàn)。BigDL 程序是作為標(biāo)準(zhǔn)的 Spark 程序編寫的,并且不需要對(duì)底層 Hadoop/Spark 集群進(jìn)行更改;對(duì)于擁有(或?qū)碛?大數(shù)據(jù)基礎(chǔ)架構(gòu)的分析客戶,可以在現(xiàn)有 Hadoop/Spark 集群上直接運(yùn)行深度學(xué)習(xí)應(yīng)用,不需要設(shè)置單獨(dú)的訓(xùn)練集群,也無(wú)需在兩個(gè)集群之間拷貝多版本的數(shù)據(jù)和模型,從而減少了端到端的學(xué)習(xí)延遲,并降低了總體成本。 基于大數(shù)據(jù)平臺(tái)的 BigDL 比現(xiàn)有的深度學(xué)習(xí)框架有更高效的橫向擴(kuò)展、容錯(cuò)性、彈性和動(dòng)態(tài)資源管理;通過利用英特爾MKL 和其他多線程優(yōu)化方法,它在單節(jié)點(diǎn)Xeon上擁有極高的性能,并且可以輕松擴(kuò)展到上百個(gè)節(jié)點(diǎn)。它還支持載入 Caffe / Torch 的預(yù)訓(xùn)練模型到 Spark 上,來進(jìn)行特征提取、微調(diào)、預(yù)測(cè)等。 新智元:英特爾準(zhǔn)備如何把人們吸引到 BigDL 中來呢? 馬子雅:我們始終相信,更好地滿足用戶需求的解決方案會(huì)得到更好的應(yīng)用。 近年來,隨著我們與許多大數(shù)據(jù)分析和AI客戶合作,他們的需求有幾個(gè)明顯的趨勢(shì): -客戶體驗(yàn)和易用性:客戶希望能在同一集群中、在現(xiàn)有的數(shù)據(jù)分析流水線上進(jìn)行深度學(xué)習(xí),以便輕松地與數(shù)據(jù)管理、特性工程、傳統(tǒng)(非深度)機(jī)器學(xué)習(xí)集成;這樣就能幫助他們消除在不同集群之間的多版本數(shù)據(jù)/模型的拷貝,降低端到端的機(jī)器學(xué)習(xí)延遲,將深度學(xué)習(xí)集成到現(xiàn)有的大數(shù)據(jù)分析工作流中管理,并且實(shí)現(xiàn)動(dòng)態(tài)、彈性的機(jī)器資源管理。 -大規(guī)模深度學(xué)習(xí):客戶希望為他們的深度學(xué)習(xí)模型提供越來越多的數(shù)據(jù),以提高訓(xùn)練的準(zhǔn)確性。許多人選擇在大數(shù)據(jù)(Haoop/Spark)平臺(tái)之上構(gòu)建深度學(xué)習(xí)功能,以便利用其水平擴(kuò)展架構(gòu),分析大規(guī)模訓(xùn)練數(shù)據(jù)。 當(dāng)為客戶解決這些問題時(shí),第一反應(yīng)是將現(xiàn)有的深度學(xué)習(xí)框架集成到客戶的大數(shù)據(jù)平臺(tái)上,希望將他們的深度學(xué)習(xí)能力和Spark / Hadoop的可擴(kuò)展性結(jié)合在一起;但是這樣的整合僅僅停留在表面,而缺乏在數(shù)據(jù)處理或模型集成上的無(wú)縫集成。這是我們引入BigDL的最大驅(qū)動(dòng)因素。BigDL與現(xiàn)有深度學(xué)習(xí)框架的功能一致,但是BigDL的優(yōu)點(diǎn)是它原生地建立在Spark上,并且天然地繼承了Spark的可擴(kuò)展性,并且與現(xiàn)有大數(shù)據(jù)處理工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)無(wú)縫集成。所以BigDL特別適用于有大量數(shù)據(jù)需要管理,以及擁有(或?qū)碛?大數(shù)據(jù)平臺(tái)(Hadoop/Spark)的分析客戶。 BigDL 的應(yīng)用案例和未來改進(jìn)方向 新智元:BigDL 現(xiàn)在主要應(yīng)用于哪些領(lǐng)域?您是否可以介紹一兩個(gè)應(yīng)用的案例? 馬子雅:BigDL 的目標(biāo)是大大降低普通大數(shù)據(jù)用戶和數(shù)據(jù)科學(xué)家,使用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)分析和構(gòu)建人工智能應(yīng)用的門檻;所以 BigDL 可以和現(xiàn)有大數(shù)據(jù)分析的工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)進(jìn)行無(wú)縫集成。BigDL 雖然是在幾個(gè)月前開源的,但實(shí)際上我們已經(jīng)與一些早期合作者,基于以上特性成功構(gòu)建了基于 BigDL 的深度學(xué)習(xí)(和人工智能)的端到端的應(yīng)用案例。 第一個(gè)客戶案例是在鋼鐵制造行業(yè)的應(yīng)用。提高鋼表面缺陷的識(shí)別精度對(duì)鋼鐵生產(chǎn)和質(zhì)量控制非常重要;我們與一個(gè)知名的鋼鐵生產(chǎn)商合作,使用 Spark 和 BigDL 實(shí)現(xiàn)了端到端的深度學(xué)習(xí)流水線,用于產(chǎn)品缺陷圖像識(shí)別。由此客戶顯著地提高了其缺陷識(shí)別的精度和能力。 對(duì)于金融服務(wù)公司來說,由于其廣泛的產(chǎn)品、服務(wù)和客戶互動(dòng)渠道,他們面臨的欺詐交易風(fēng)險(xiǎn)大大增加了。我們與一家金融服務(wù)公司合作,使用 Spark 和 BigDL 實(shí) 施了端到端的學(xué)習(xí)流水線,即時(shí)分析大量數(shù)據(jù),為此顯著地提高了欺詐交易檢測(cè)率。 新智元:BigDL 之后會(huì)在哪些方面做出改進(jìn)?比如,是否會(huì)提供 Python API ?是否會(huì)允許更多的其他框架訓(xùn)練好的模型載入? 馬子雅:Jason Dai是我們大數(shù)據(jù)技術(shù)全球 CTO,他在 BigDL 的架構(gòu)構(gòu)建和工程開發(fā)方面發(fā)揮了重要的領(lǐng)導(dǎo)作用。在開源后 BigDL 項(xiàng)目得到了全世界許多開源社區(qū)用戶的積極參與:例如在 BigDL 開源不到兩個(gè)月后,InfoWorld 就在其對(duì)深度學(xué)習(xí)趨勢(shì)的預(yù)測(cè)中,將 BigDL 與 TensorFlow、Caffe 等一起并列為目前最流行的深度學(xué)習(xí)框架;Jason 和他在上海及硅谷的團(tuán)隊(duì),基于全世界 BigDL 社區(qū)用戶提供的反饋,以及和我們?nèi)虻目蛻?合作伙伴的密切合作,為 BigDL 項(xiàng)目制定了將來的路線圖(包括新功能、可用性、可擴(kuò)展性等方面)。我們的下一個(gè)版本將在第一季度末左右發(fā)布,主要更新包括:增加對(duì) PythonAPI 的支持,提供更好的可視化體驗(yàn)(利用 Notebook 和 TensorBoard),增加對(duì) macOS 的支持,提供更豐富的 RNN 支持(如對(duì)LSTM 、GRU等算法的支持)等等。 Intel-analytics 的其他開源庫(kù)及對(duì)各類深度學(xué)習(xí)任務(wù)的支持 新智元:除了 BigDL,我們知道 Intel-analytics下面還有另外的開源庫(kù):比如 SparseML等;您是否可以比較一下,這些開源庫(kù)分別有什么特點(diǎn)?應(yīng)用于哪些場(chǎng)景? 馬子雅:BigDL 能為那些擁有大量數(shù)據(jù)、以及已建(或?qū)⒔?大數(shù)據(jù)集群的用戶,提供構(gòu)建基于深度學(xué)習(xí)(和人工智能)的大數(shù)據(jù)分析的最優(yōu)服務(wù)。BigDL 天生就可以運(yùn)行在現(xiàn)有標(biāo)準(zhǔn)的大數(shù)據(jù)平臺(tái)(Hadoop/Spark)之上,利用公共的數(shù)據(jù)基礎(chǔ)架構(gòu),在數(shù)據(jù)采集、特征提取、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)工作負(fù)載等方面,為客戶提供統(tǒng)一的和無(wú)縫集成的完整體驗(yàn)。它支持大規(guī)模的深度學(xué)習(xí)和機(jī)器學(xué)習(xí),并提供自動(dòng)容錯(cuò)和自動(dòng)動(dòng)態(tài)彈性資源管理。 對(duì)于具有極高模型維度和大量非常稀疏數(shù)據(jù)(例如,百億到千億級(jí)別的訓(xùn)練樣本,十億級(jí)甚至百億級(jí)別特征)的用戶,SparseML 可以顯著地為他們提高機(jī)器學(xué)習(xí)的可擴(kuò)展性。許多互聯(lián)網(wǎng)公司需要從大量的極度稀疏數(shù)據(jù)中學(xué)習(xí)模型,他們面臨的挑戰(zhàn)是現(xiàn)有的機(jī)器學(xué)習(xí)解決方案無(wú)法處理大量數(shù)據(jù)或高維度模型;通過利用數(shù)據(jù)稀疏性,對(duì)分布式機(jī)器學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)、網(wǎng)絡(luò)通信和算術(shù)運(yùn)算的優(yōu)化,SparseML 可以比現(xiàn)有開源的機(jī)器學(xué)習(xí)算法(例如Spark Mllib)提供更高的可擴(kuò)展性。 新智元:可以看出,Intel-analytics 在努力形成一個(gè)支撐各種應(yīng)用場(chǎng)景的完整生態(tài)。那么,請(qǐng)?jiān)试S我問一個(gè)比較具體的問題:如果我希望進(jìn)行深度學(xué)習(xí)的圖像分類,應(yīng)該如何從英特爾的產(chǎn)品組合中選擇呢?或者我要處理的數(shù)據(jù)里面既包括圖像又包括音頻,又該如何選擇呢? 馬子雅:我們的目標(biāo)是為機(jī)器學(xué)習(xí)用戶和開發(fā)人員提供從硬件到軟件的最簡(jiǎn)便、最完整和最高效的體驗(yàn)。 為了選擇最合適的解決方案棧,您需要評(píng)估一些事情:(1)您是否已有了現(xiàn)有的基礎(chǔ)架構(gòu),并希望利用它來構(gòu)建圖像分類?(2)您最大的需求是什么:從現(xiàn)有的分布式文件系統(tǒng)/存儲(chǔ)中直接訪問數(shù)據(jù)存儲(chǔ),以實(shí)現(xiàn)快速的機(jī)器學(xué)習(xí)實(shí)驗(yàn)周期(turn-around time)?是與您現(xiàn)有的分析工作流程或平臺(tái)輕松集成?還是可擴(kuò)展性(處理大量訓(xùn)練樣本或高維特征的能力),高資源利用率,低總擁有成本,訓(xùn)練性能等等?根據(jù)您對(duì)這些問題的回答,您可以選擇不同的解決方案。 在硬件層面,我們有各種產(chǎn)品可供選擇,例如:Xeon,Xeon phi,F(xiàn)PGA。將來我們還會(huì)有LakeCrest(Nervana silicon);您可以挑選最適合您的需要的產(chǎn)品。 在深度學(xué)習(xí)框架層面,我們正在推動(dòng) Neon 并將英特爾優(yōu)化的MKL應(yīng)用于深度學(xué)習(xí)框架,比如 Caffe,TensorFlow,Theano 和 Torch 等。如果您喜歡使用這些優(yōu)化的框架,您可以直接使用它們或通過英特爾深度學(xué)習(xí)SDK來使用它們。 如果您已經(jīng)有了大數(shù)據(jù)(Hadoop/Spark)集群或大數(shù)據(jù)分析工作流,那么您很可能更傾向在現(xiàn)有的大數(shù)據(jù)基礎(chǔ)架構(gòu)中來進(jìn)行深度學(xué)習(xí)。我們正在推動(dòng)以 Spark /Hadoop 為數(shù)據(jù)分析和人工智能的統(tǒng)一平臺(tái),來支持端到端的學(xué)習(xí)工作流,包括從數(shù)據(jù)管理,特征管理,特征工程,模型訓(xùn)練到最后的結(jié)果評(píng)估;那么,BigDL 將會(huì)極大地適合你的需求。 從開源到 AI 民主化 新智元:英特爾在人工智能領(lǐng)域所提供的產(chǎn)品組合已經(jīng)非常豐富了,其中包括了許多我們今天提到的開源項(xiàng)目,那么請(qǐng)問馬女士,在英特爾人工智能的產(chǎn)業(yè)布局中,是如何認(rèn)識(shí)“開源“這件事的意義呢?未來是否會(huì)有計(jì)劃推出更多的開源項(xiàng)目呢? 馬子雅:開源項(xiàng)目有很多原因: 1.建立一個(gè)更大的開發(fā)社區(qū),可以檢驗(yàn)我們的設(shè)計(jì)和解決方案(好不好?哪里好?哪里不好?““)。好的開發(fā)人員喜歡與好的開發(fā)人員合作,與好的項(xiàng)目合作。如果我們的項(xiàng)目流行得足以吸引到外部人員來貢獻(xiàn)力量,那么我們就相當(dāng)于創(chuàng)建了一個(gè)倍增的開發(fā)人員社區(qū),幫助我們工作得更快更好; 2.加速客戶使用:隨著我們的項(xiàng)目開源,它幫助更多的用戶和客戶從我們的工作中受益;他們的成功反過來會(huì)影響其他客戶和用戶使用這些解決方案。來自這些快速擴(kuò)張的用戶群的反饋也可以反過來影響我們的路線圖和設(shè)計(jì),以更好地服務(wù)用戶的需求; 3.開源項(xiàng)目也是我們?yōu)樾袠I(yè)和社區(qū)支持AI的承諾做出的最好的展示。 隨著我們與行業(yè)客戶和合作伙伴的繼續(xù)合作,確定新的需求領(lǐng)域,我們將繼續(xù)推動(dòng)新的項(xiàng)目開源,就像我們這次為 BigDL 所做的。英特爾致力于開源協(xié)作,確保我們的客戶和合作伙伴在英特爾硬件上擁有最佳、最簡(jiǎn)便、最完整的 AI 體驗(yàn)。 新智元:在英特爾的人工智能戰(zhàn)略中,Democratize AI 是一個(gè)非常重要的組成部分。請(qǐng)問英特爾是如何定義自己在人工智能領(lǐng)域的“ democratize “的?準(zhǔn)備采取什么舉措來服務(wù)企業(yè)級(jí)用戶和開發(fā)者?同時(shí),又準(zhǔn)備如何更好地服務(wù)已經(jīng)習(xí)慣使用CPU來做深度學(xué)習(xí)項(xiàng)目的用戶,比如高校、研究機(jī)構(gòu)中的研究人員? 馬子雅:英特爾致力于將我們的技術(shù)提供給我們的社區(qū),為客戶和開發(fā)人員釋放AI在IA上的全部潛力。 我們將與開源社區(qū)廣泛合作,以便讓更廣泛的受眾可以利用我們的工作。在DL框架級(jí)別,我們推動(dòng)開源 Neon,并將英特爾優(yōu)化的 MKL 應(yīng)用于開源框架例如 Caffe,Tensorflow,Theano,Torch等(一個(gè)例子是英特爾和谷歌去年宣布戰(zhàn)略聯(lián)盟,以加速機(jī)器學(xué)習(xí)的應(yīng)用,例如加速英特爾處理器上的 TensorFlow 性能,將高性能庫(kù)如 Math Kernel Library (MKL)集成到 TensorFlow)。我們還開源基于大數(shù)據(jù)和 Spark 的深度學(xué)習(xí)框架比如 BigDL。英特爾深度學(xué)習(xí) SDK 讓客戶和開發(fā)人員易于使用和訪問這些框架,以便客戶能夠更好地專注于真正增值的機(jī)器學(xué)習(xí)工作。 英特爾也傳播AI知識(shí)。在英特爾 NervanaAI 學(xué)院,在英特爾開發(fā)區(qū) (Intel developer zone),我們提供了大量的AI知識(shí)共享、框架優(yōu)化信息、工具和庫(kù)。我們還有英特爾學(xué)生開發(fā)項(xiàng)目為學(xué)生提供培訓(xùn),針對(duì)不同的大學(xué)我們還有學(xué)生大使和推廣計(jì)劃。我們還提供線上和線下的研討會(huì),開發(fā)人員和開源社區(qū)用戶的 meetup 等。英特爾還與Coursera合作制作在線AI課程。去年底英特爾,MobileODT 和 kaggle 推出數(shù)據(jù)科學(xué)競(jìng)賽,關(guān)注宮頸癌的診治。我們繼續(xù)與業(yè)界合作伙伴和客戶合作,幫助他們解決業(yè)務(wù)或現(xiàn)實(shí)生活中的問題。 對(duì)于已經(jīng)使用 CPU 進(jìn)行深度學(xué)習(xí)的客戶,我們一直在改進(jìn)我們的新一代 CPU 以提高我們的訓(xùn)練性能和成本效益。這些客戶可以隨時(shí)利用英特爾 MKL 在英特爾硬件上實(shí)現(xiàn)最佳訓(xùn)練性能。除了這些客戶,大數(shù)據(jù)客戶今天也在 CPU 上運(yùn)行他們的數(shù)據(jù)平臺(tái)。隨著大數(shù)據(jù)和 AI 的緊密、無(wú)縫集成,這些客戶不僅能享受 AI 功能,而且通過使用大數(shù)據(jù)平臺(tái),可以在例如可擴(kuò)展性、容錯(cuò)性、易用性和動(dòng)態(tài)彈性資源管理等方面受益。

« 微信打賞本就雞肋 付費(fèi)閱讀不是乞討 | 摩拜與騰訊聯(lián)手 打造獨(dú)家智能共享單車服務(wù) »

九龙城区| 游戏| 清远市| 临沧市| 汉沽区| 元阳县| 横山县| 丹巴县| 永昌县| 丹阳市| 巴青县| 三门县| 鸡西市| 阿巴嘎旗| 蕉岭县| 无为县| 道孚县| 英山县| 安泽县| 唐海县| 清原| 东乌| 师宗县| 金坛市| 什邡市| 宜阳县| 新巴尔虎左旗| 台东县| 河池市| 吴旗县| 常州市| 高雄市| 吉首市| 钦州市| 阳西县| 杭锦旗| 颍上县| 巨野县| 上杭县| 上思县| 石家庄市|