作為 AI 民主化戰略的重要實踐之一,英特爾在 2016年 的最后一天,開源了基于 Apache Spark 的分布式深度學習框架 BigDL。最近,英特爾公司軟件與服務事業部副總裁、系統技術和優化部門大數據技術總監馬子雅女士接受了新智元的專訪,暢談了BigDL 的特點、應用、未來的改進,以及英特爾開源這一深度學習框架的初衷和意義。正如馬子雅女士所說,“BigDL的目標是大大降低普通大數據用戶和數據科學家,在使用深度學習進行數據分析和構建人工智能應用的門檻“,“英特爾致力于將我們的技術提供給我們的社區,為客戶和開發人員釋放 AI 在 IA(英特爾架構,Intel Architecture)上的全部潛力“。 BigDL 原生地建立于Hadoop/Spark 之上 新智元:馬女士您好。英特爾開源了基于Apache Spark 的分布式深度學習框架 BigDL。請問和其他開源框架相比,BigDL 有什么特點? 馬子雅:BigDL 的目標是大大降低普通大數據用戶和數據科學家,在使用深度學習進行數據分析和構建人工智能應用的門檻。去年12月31日我們開源了 BigDL;開源社區對BigDL 的積極采納令人印象非常深刻:在短短一個月內,GitHub 上已獲得 229 個用戶克隆 BigDL 代碼(FORK)和1421個用戶收藏(STAR)。今年2月波士頓舉行了 Spark 峰會,在大會開幕主題演講上,斯坦福大學教授、ApacheSpark 創建者、Databricks CTO Matei Zaharia 高度評價了 BigDL;到目前為止,包括Databricks(Apache Spark 重要貢獻者)云平臺和微軟 Azure HDInsight云服務都提供了與 BigDL 的集成,方便其用戶訪問使用。此外,眾多全球媒體包括Infoworld,HPCwire,Datanami,HPC,infoq,InsideHPC,計算機商業評論,SiliconAngle,Oreilly 等,以及德國、日本和中國等各國媒體也對 BigDL 也進行了深入的報道。 BigDL 是一個建立在大數據平臺(Hadoop/Spark)之上原生的分布式深度學習庫。它提供了在ApacheSpark上豐富的深度學習功能(和現有框架如 Caffe 和 Torch等功能一致),以幫助 Hadoop/Spark 成為一個統一的數據分析平臺,為整個數據分析和機器學習過程(包括訓練/測試數據收集,數據的管理,轉特征換,傳統機器學習,深度學習,模型部署和服務等)提供比現有框架更加統一和集成化的體驗。BigDL 程序是作為標準的 Spark 程序編寫的,并且不需要對底層 Hadoop/Spark 集群進行更改;對于擁有(或將擁有)大數據基礎架構的分析客戶,可以在現有 Hadoop/Spark 集群上直接運行深度學習應用,不需要設置單獨的訓練集群,也無需在兩個集群之間拷貝多版本的數據和模型,從而減少了端到端的學習延遲,并降低了總體成本。 基于大數據平臺的 BigDL 比現有的深度學習框架有更高效的橫向擴展、容錯性、彈性和動態資源管理;通過利用英特爾MKL 和其他多線程優化方法,它在單節點Xeon上擁有極高的性能,并且可以輕松擴展到上百個節點。它還支持載入 Caffe / Torch 的預訓練模型到 Spark 上,來進行特征提取、微調、預測等。 新智元:英特爾準備如何把人們吸引到 BigDL 中來呢? 馬子雅:我們始終相信,更好地滿足用戶需求的解決方案會得到更好的應用。 近年來,隨著我們與許多大數據分析和AI客戶合作,他們的需求有幾個明顯的趨勢: -客戶體驗和易用性:客戶希望能在同一集群中、在現有的數據分析流水線上進行深度學習,以便輕松地與數據管理、特性工程、傳統(非深度)機器學習集成;這樣就能幫助他們消除在不同集群之間的多版本數據/模型的拷貝,降低端到端的機器學習延遲,將深度學習集成到現有的大數據分析工作流中管理,并且實現動態、彈性的機器資源管理。 -大規模深度學習:客戶希望為他們的深度學習模型提供越來越多的數據,以提高訓練的準確性。許多人選擇在大數據(Haoop/Spark)平臺之上構建深度學習功能,以便利用其水平擴展架構,分析大規模訓練數據。 當為客戶解決這些問題時,第一反應是將現有的深度學習框架集成到客戶的大數據平臺上,希望將他們的深度學習能力和Spark / Hadoop的可擴展性結合在一起;但是這樣的整合僅僅停留在表面,而缺乏在數據處理或模型集成上的無縫集成。這是我們引入BigDL的最大驅動因素。BigDL與現有深度學習框架的功能一致,但是BigDL的優點是它原生地建立在Spark上,并且天然地繼承了Spark的可擴展性,并且與現有大數據處理工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)無縫集成。所以BigDL特別適用于有大量數據需要管理,以及擁有(或將擁有)大數據平臺(Hadoop/Spark)的分析客戶。 BigDL 的應用案例和未來改進方向 新智元:BigDL 現在主要應用于哪些領域?您是否可以介紹一兩個應用的案例? 馬子雅:BigDL 的目標是大大降低普通大數據用戶和數據科學家,使用深度學習進行數據分析和構建人工智能應用的門檻;所以 BigDL 可以和現有大數據分析的工作流(例如Spark ML pipeline,SparkSQL, Spark Streaming, Dataframes, Structured Streaming等)進行無縫集成。BigDL 雖然是在幾個月前開源的,但實際上我們已經與一些早期合作者,基于以上特性成功構建了基于 BigDL 的深度學習(和人工智能)的端到端的應用案例。 第一個客戶案例是在鋼鐵制造行業的應用。提高鋼表面缺陷的識別精度對鋼鐵生產和質量控制非常重要;我們與一個知名的鋼鐵生產商合作,使用 Spark 和 BigDL 實現了端到端的深度學習流水線,用于產品缺陷圖像識別。由此客戶顯著地提高了其缺陷識別的精度和能力。 對于金融服務公司來說,由于其廣泛的產品、服務和客戶互動渠道,他們面臨的欺詐交易風險大大增加了。我們與一家金融服務公司合作,使用 Spark 和 BigDL 實 施了端到端的學習流水線,即時分析大量數據,為此顯著地提高了欺詐交易檢測率。 新智元:BigDL 之后會在哪些方面做出改進?比如,是否會提供 Python API ?是否會允許更多的其他框架訓練好的模型載入? 馬子雅:Jason Dai是我們大數據技術全球 CTO,他在 BigDL 的架構構建和工程開發方面發揮了重要的領導作用。在開源后 BigDL 項目得到了全世界許多開源社區用戶的積極參與:例如在 BigDL 開源不到兩個月后,InfoWorld 就在其對深度學習趨勢的預測中,將 BigDL 與 TensorFlow、Caffe 等一起并列為目前最流行的深度學習框架;Jason 和他在上海及硅谷的團隊,基于全世界 BigDL 社區用戶提供的反饋,以及和我們全球的客戶/合作伙伴的密切合作,為 BigDL 項目制定了將來的路線圖(包括新功能、可用性、可擴展性等方面)。我們的下一個版本將在第一季度末左右發布,主要更新包括:增加對 PythonAPI 的支持,提供更好的可視化體驗(利用 Notebook 和 TensorBoard),增加對 macOS 的支持,提供更豐富的 RNN 支持(如對LSTM 、GRU等算法的支持)等等。 Intel-analytics 的其他開源庫及對各類深度學習任務的支持 新智元:除了 BigDL,我們知道 Intel-analytics下面還有另外的開源庫:比如 SparseML等;您是否可以比較一下,這些開源庫分別有什么特點?應用于哪些場景? 馬子雅:BigDL 能為那些擁有大量數據、以及已建(或將建)大數據集群的用戶,提供構建基于深度學習(和人工智能)的大數據分析的最優服務。BigDL 天生就可以運行在現有標準的大數據平臺(Hadoop/Spark)之上,利用公共的數據基礎架構,在數據采集、特征提取、傳統機器學習和深度學習工作負載等方面,為客戶提供統一的和無縫集成的完整體驗。它支持大規模的深度學習和機器學習,并提供自動容錯和自動動態彈性資源管理。 對于具有極高模型維度和大量非常稀疏數據(例如,百億到千億級別的訓練樣本,十億級甚至百億級別特征)的用戶,SparseML 可以顯著地為他們提高機器學習的可擴展性。許多互聯網公司需要從大量的極度稀疏數據中學習模型,他們面臨的挑戰是現有的機器學習解決方案無法處理大量數據或高維度模型;通過利用數據稀疏性,對分布式機器學習數據結構、網絡通信和算術運算的優化,SparseML 可以比現有開源的機器學習算法(例如Spark Mllib)提供更高的可擴展性。 新智元:可以看出,Intel-analytics 在努力形成一個支撐各種應用場景的完整生態。那么,請允許我問一個比較具體的問題:如果我希望進行深度學習的圖像分類,應該如何從英特爾的產品組合中選擇呢?或者我要處理的數據里面既包括圖像又包括音頻,又該如何選擇呢? 馬子雅:我們的目標是為機器學習用戶和開發人員提供從硬件到軟件的最簡便、最完整和最高效的體驗。 為了選擇最合適的解決方案棧,您需要評估一些事情:(1)您是否已有了現有的基礎架構,并希望利用它來構建圖像分類?(2)您最大的需求是什么:從現有的分布式文件系統/存儲中直接訪問數據存儲,以實現快速的機器學習實驗周期(turn-around time)?是與您現有的分析工作流程或平臺輕松集成?還是可擴展性(處理大量訓練樣本或高維特征的能力),高資源利用率,低總擁有成本,訓練性能等等?根據您對這些問題的回答,您可以選擇不同的解決方案。 在硬件層面,我們有各種產品可供選擇,例如:Xeon,Xeon phi,FPGA。將來我們還會有LakeCrest(Nervana silicon);您可以挑選最適合您的需要的產品。 在深度學習框架層面,我們正在推動 Neon 并將英特爾優化的MKL應用于深度學習框架,比如 Caffe,TensorFlow,Theano 和 Torch 等。如果您喜歡使用這些優化的框架,您可以直接使用它們或通過英特爾深度學習SDK來使用它們。 如果您已經有了大數據(Hadoop/Spark)集群或大數據分析工作流,那么您很可能更傾向在現有的大數據基礎架構中來進行深度學習。我們正在推動以 Spark /Hadoop 為數據分析和人工智能的統一平臺,來支持端到端的學習工作流,包括從數據管理,特征管理,特征工程,模型訓練到最后的結果評估;那么,BigDL 將會極大地適合你的需求。 從開源到 AI 民主化 新智元:英特爾在人工智能領域所提供的產品組合已經非常豐富了,其中包括了許多我們今天提到的開源項目,那么請問馬女士,在英特爾人工智能的產業布局中,是如何認識“開源“這件事的意義呢?未來是否會有計劃推出更多的開源項目呢? 馬子雅:開源項目有很多原因: 1.建立一個更大的開發社區,可以檢驗我們的設計和解決方案(好不好?哪里好?哪里不好?““)。好的開發人員喜歡與好的開發人員合作,與好的項目合作。如果我們的項目流行得足以吸引到外部人員來貢獻力量,那么我們就相當于創建了一個倍增的開發人員社區,幫助我們工作得更快更好; 2.加速客戶使用:隨著我們的項目開源,它幫助更多的用戶和客戶從我們的工作中受益;他們的成功反過來會影響其他客戶和用戶使用這些解決方案。來自這些快速擴張的用戶群的反饋也可以反過來影響我們的路線圖和設計,以更好地服務用戶的需求; 3.開源項目也是我們為行業和社區支持AI的承諾做出的最好的展示。 隨著我們與行業客戶和合作伙伴的繼續合作,確定新的需求領域,我們將繼續推動新的項目開源,就像我們這次為 BigDL 所做的。英特爾致力于開源協作,確保我們的客戶和合作伙伴在英特爾硬件上擁有最佳、最簡便、最完整的 AI 體驗。 新智元:在英特爾的人工智能戰略中,Democratize AI 是一個非常重要的組成部分。請問英特爾是如何定義自己在人工智能領域的“ democratize “的?準備采取什么舉措來服務企業級用戶和開發者?同時,又準備如何更好地服務已經習慣使用CPU來做深度學習項目的用戶,比如高校、研究機構中的研究人員? 馬子雅:英特爾致力于將我們的技術提供給我們的社區,為客戶和開發人員釋放AI在IA上的全部潛力。 我們將與開源社區廣泛合作,以便讓更廣泛的受眾可以利用我們的工作。在DL框架級別,我們推動開源 Neon,并將英特爾優化的 MKL 應用于開源框架例如 Caffe,Tensorflow,Theano,Torch等(一個例子是英特爾和谷歌去年宣布戰略聯盟,以加速機器學習的應用,例如加速英特爾處理器上的 TensorFlow 性能,將高性能庫如 Math Kernel Library (MKL)集成到 TensorFlow)。我們還開源基于大數據和 Spark 的深度學習框架比如 BigDL。英特爾深度學習 SDK 讓客戶和開發人員易于使用和訪問這些框架,以便客戶能夠更好地專注于真正增值的機器學習工作。 英特爾也傳播AI知識。在英特爾 NervanaAI 學院,在英特爾開發區 (Intel developer zone),我們提供了大量的AI知識共享、框架優化信息、工具和庫。我們還有英特爾學生開發項目為學生提供培訓,針對不同的大學我們還有學生大使和推廣計劃。我們還提供線上和線下的研討會,開發人員和開源社區用戶的 meetup 等。英特爾還與Coursera合作制作在線AI課程。去年底英特爾,MobileODT 和 kaggle 推出數據科學競賽,關注宮頸癌的診治。我們繼續與業界合作伙伴和客戶合作,幫助他們解決業務或現實生活中的問題。 對于已經使用 CPU 進行深度學習的客戶,我們一直在改進我們的新一代 CPU 以提高我們的訓練性能和成本效益。這些客戶可以隨時利用英特爾 MKL 在英特爾硬件上實現最佳訓練性能。除了這些客戶,大數據客戶今天也在 CPU 上運行他們的數據平臺。隨著大數據和 AI 的緊密、無縫集成,這些客戶不僅能享受 AI 功能,而且通過使用大數據平臺,可以在例如可擴展性、容錯性、易用性和動態彈性資源管理等方面受益。
«
微信打賞本就雞肋 付費閱讀不是乞討
|
摩拜與騰訊聯手 打造獨家智能共享單車服務
»