百度為何開源深度機器學習(xí)平台？-公司新聞-惠州市合力电(diàn)子有(yǒu)限公(gōng)司

新聞資訊

最新資訊

聯系我們

聯系電話： 0752-239 9618
電子郵箱(xiāng)： mline.cc

中國·廣東·惠州市惠城區水口大(dà)道137号源豐工(gōng)業園

公司(sī)新聞(wén)

百度為何開源深度機器學習平台？

5月20日，百(bǎi)度在github上開源了其深度機器(qì)學習平台。此番發(fā)布的深度機(jī)器學習開源平台屬于“深(shēn)盟”的開源組織(zhī)，其核心開發者來自百度深度學習研究(jiū)院（IDL），微軟亞洲研究院、華盛頓大(dà)學、紐約大學、香港科技大學，卡耐基·梅隴大學等知名公司和高校。

通過這一開源平台，世界各地的開發(fā)者們可以免費獲得更優質和更容易使用的分布式機器學習算法(fǎ)源碼，從而大幅降低開發和部署分布式機器學習系統及相關應用的門檻。包括今日頭條、汽車(chē)之家等在内的多家公司(sī)已經通過該開(kāi)放平台受益。

作(zuò)為在人工智能布局較早的玩家，百度擁有領(lǐng)先業界的實力。從(cóng)2013年(nián)百度(dù)深度學習研究院（IDL）的創建(jiàn)及2014年Andrew Ng的加盟至今，百度(dù)DMLC分布式深度機器學習開源項目(mù)（簡稱“深盟”）已在深度學習的多個應用領域做(zuò)過探索，上線了(le)如xgboost（速度快效果好的Boosting模型）、CXXNET（極緻(zhì)的C++深(shēn)度學習庫）、Minerva（高效靈活的并(bìng)行深(shēn)度學習引擎）以及(jí)Parameter Server（一小時訓練600T數據(jù)）等産品，在語音識别、OCR識别、人臉識别以及計算效率提升上發布了多個成熟産品。

而(ér)具(jù)有一系列領先優勢的百度卻選擇開(kāi)源其深度機器學(xué)習平台，為何交底自己的(de)核心技術(shù)？

深思之下，卻是在(zài)面對業界無奈時(shí)的遠(yuǎn)見之舉。

擁抱世界：開(kāi)源的魅力

開源，顧名思義(yì)，就是開放自己的源代碼(mǎ)給别人查閱和使用，盡管看起來很傻，然而諸多曆史事實卻告訴我們擁抱世界也(yě)能讓世界(jiè)擁抱你。

Android的逆襲就(jiù)是明證，在iOS侵占(zhàn)絕(jué)大多數智能手機操作系(xì)統的時代誕生，Google選(xuǎn)擇開源，讓早已在蘋果面前沒有機會的業界見到了希望，至今Android已擁(yōng)有過半(bàn)的市場份額，以至于在移動互聯網大行其道(dào)的今天，Google可以憑借它與旗(qí)下産品的整合打造(zào)屬于自己的強大生态系統。相比之下，生(shēng)而嬌(jiāo)貴的Windows mobile的故事夠令人發醒的，終于微軟(ruǎn)也不得不寄人籬下地去兼容(róng)Android和(hé)iOS平台應用。此外，作為微軟最主要(yào)的(de)應用程序(xù)框架，微軟對.net寄予厚(hòu)望，希望它的開源可以來到所有平台，進(jìn)而重現JAVA的光輝曆史。這也證明了即使強(qiáng)大如微軟也無法憑借一己之力讓其産品得到世(shì)界的擁抱。

衆人拾材(cái)火焰高：用平台籠絡世界的力量

要實現(xiàn)人工智能(néng)，機器必須(xū)具備自(zì)主學習能力，深度學習作為機器學習領域的重大突(tū)破，可以完成具(jù)有高度抽象特征的人工智能任務，如自然語(yǔ)言理解等複雜場景，因而備受(shòu)業界追捧。當(dāng)然，機器學習領域并不隻是(shì)有深(shēn)度學習這一種(zhǒng)算法的存在，然而深度學習卻有着(zhe)顯著(zhe)的優勢：在數據集足(zú)夠大的(de)情況下，深度學習擁有(yǒu)最好的預測能力。盡管在算法的選擇上仍然存在“殺雞(jī)焉用宰牛刀”的争論(lùn)，但深度學習算(suàn)法為人工智能領域注入的強大能(néng)力卻(què)是其他算法無以比(bǐ)拟的；同時，随着深度學習技術的成熟，諸多傳(chuán)統機器學習算(suàn)法的淘汰幾乎是必然的。然(rán)而正如前述(shù)，深度學習對大量數據的需(xū)求及其本身的複雜性(xìng)仍然是其發展壯大路上的最大阻礙，也是業界的無奈所在(zài)。

百度在(zài)此領域發力較早，且在諸多方向上進行了(le)深入的研究(jiū)，利用深入學習結合自身搜(sōu)索引擎(qíng)的大數據讓機器翻譯及自然語言等技(jì)術實現了新(xīn)的飛躍。然而在面向更廣大更具體的應(yīng)用場景時，任何一個(gè)公司都難(nán)以滿足所(suǒ)有需求。借鑒曆史，開(kāi)放共(gòng)赢不僅可以把事情做的，也讓業界和生态系統得到健康發展。

百度此次開(kāi)源也是完全奔着建平台去的(de)。完全采用C++語言搭建核心，為平台的(de)穩定高效運行奠定了基礎；覆蓋了三類最常(cháng)用的機器(qì)學習算法，包括用于點擊預測的(de)稀疏線性模型、用于排序的決策(cè)樹(shù)模型以及深(shēn)入學(xué)習，滿足了最廣大(dà)的需求；重點開發(fā)的“蟲洞”項目将自動構建深盟所有項目，為所有組件提供一緻的數據流支持且提供包括Amazon EC2，Microsoft Azure, Google Compute Engine在内的雲計算(suàn)平台兼容支持，降低平台的準入門檻。

開源并入駐Github也進一步強調了其開放(fàng)的心态和對(duì)平台的信心。一系(xì)列的動作都是(shì)希望讓開發者(zhě)可以(yǐ)獲得更優質更容易使用的深入學習算法源碼，降低開發和部署深入(rù)學習系統及相關應用的門檻，進而(ér)利用世界(jiè)的力量壯大自身。

面(miàn)對可預料(liào)的爆發，技術一定程度(dù)上漸發(fā)成熟，但(dàn)也因為各自的技術基因和路線差異，面臨着極大的分裂傾向。開放的心态擁抱(bào)世(shì)界，打造機器學(xué)習領域的國際(jì)标準，百度的此舉既是對前期研究投(tóu)入的回收保障，更(gèng)是攜(xié)手籠絡友商，确保自身的話語權所在。