新聞資(zī)訊
公司(sī)新聞(wén)

網(wǎng)站首頁 > 公司新聞

百度為何開源深度機器學習平台?

5月20日,百(bǎi)度在github上開源了其深度機器(qì)學習平台。此番發(fā)布的深度機(jī)器學習開源平台屬于“深(shēn)盟”的開源組織(zhī),其核心開發者來自百度深度學習研究(jiū)院(IDL),微軟亞洲研究院、華盛頓大(dà)學、紐約大學、香港科技大學,卡耐基·梅隴大學等知名公司和高校。

通過這一開源平台,世界各地的開發(fā)者們可以免費獲得更優質和更容易使用的分布式機器學習算法(fǎ)源碼,從而大幅降低開發和部署分布式機器學習系統及相關應用的門檻。包括今日頭條、汽車(chē)之家等在内的多家公司(sī)已經通過該開(kāi)放平台受益。

作(zuò)為在人工智能布局較早的玩家,百度擁有領(lǐng)先業界的實力。從(cóng)2013年(nián)百度(dù)深度學習研究院(IDL)的創建(jiàn)及2014年Andrew Ng的加盟至今,百度(dù)DMLC分布式深度機器學習開源項目(mù)(簡稱“深盟”)已在深度學習的多個應用領域做(zuò)過探索,上線了(le)如xgboost(速度快效果好的Boosting模型)、CXXNET(極緻(zhì)的C++深(shēn)度學習庫)、Minerva(高效靈活的并(bìng)行深(shēn)度學習引擎)以及(jí)Parameter Server(一小時訓練600T數據(jù))等産品,在語音識别、OCR識别、人臉識别以及計算效率提升上發布了多個成熟産品。

而(ér)具(jù)有一系列領先優勢的百度卻選擇開(kāi)源其深度機器學(xué)習平台,為何交底自己的(de)核心技術(shù)?

深思之下,卻是在(zài)面對業界無奈時(shí)的遠(yuǎn)見之舉。

擁抱世界:開(kāi)源的魅力

開源,顧名思義(yì),就是開放自己的源代碼(mǎ)給别人查閱和使用,盡管看起來很傻,然而諸多曆史事實卻告訴我們擁抱世界也(yě)能讓世界(jiè)擁抱你。

Android的逆襲就(jiù)是明證,在iOS侵占(zhàn)絕(jué)大多數智能手機操作系(xì)統的時代誕生,Google選(xuǎn)擇開源,讓早已在蘋果面前沒有機會的業界見到了希望,至今Android已擁(yōng)有過半(bàn)的市場份額,以至于在移動互聯網大行其道(dào)的今天,Google可以憑借它與旗(qí)下産品的整合打造(zào)屬于自己的強大生态系統。相比之下,生(shēng)而嬌(jiāo)貴的Windows mobile的故事夠令人發醒的,終于微軟(ruǎn)也不得不寄人籬下地去兼容(róng)Android和(hé)iOS平台應用。此外,作為微軟最主要(yào)的(de)應用程序(xù)框架,微軟對.net寄予厚(hòu)望,希望它的開源可以來到所有平台,進(jìn)而重現JAVA的光輝曆史。這也證明了即使強(qiáng)大如微軟也無法憑借一己之力讓其産品得到世(shì)界的擁抱。

衆人拾材(cái)火焰高:用平台籠絡世界的力量

要實現(xiàn)人工智能(néng),機器必須(xū)具備自(zì)主學習能力,深度學習作為機器學習領域的重大突(tū)破,可以完成具(jù)有高度抽象特征的人工智能任務,如自然語(yǔ)言理解等複雜場景,因而備受(shòu)業界追捧。當(dāng)然,機器學習領域并不隻是(shì)有深(shēn)度學習這一種(zhǒng)算法的存在,然而深度學習卻有着(zhe)顯著(zhe)的優勢:在數據集足(zú)夠大的(de)情況下,深度學習擁有(yǒu)最好的預測能力。盡管在算法的選擇上仍然存在“殺雞(jī)焉用宰牛刀”的争論(lùn),但深度學習算(suàn)法為人工智能領域注入的強大能(néng)力卻(què)是其他算法無以比(bǐ)拟的;同時,随着深度學習技術的成熟,諸多傳(chuán)統機器學習算(suàn)法的淘汰幾乎是必然的。然(rán)而正如前述(shù),深度學習對大量數據的需(xū)求及其本身的複雜性(xìng)仍然是其發展壯大路上的最大阻礙,也是業界的無奈所在(zài)。

百度在(zài)此領域發力較早,且在諸多方向上進行了(le)深入的研究(jiū),利用深入學習結合自身搜(sōu)索引擎(qíng)的大數據讓機器翻譯及自然語言等技(jì)術實現了新(xīn)的飛躍。然而在面向更廣大更具體的應(yīng)用場景時,任何一個(gè)公司都難(nán)以滿足所(suǒ)有需求。借鑒曆史,開(kāi)放共(gòng)赢不僅可以把事情做的,也讓業界和生态系統得到健康發展。

百度此次開(kāi)源也是完全奔着建平台去的(de)。完全采用C++語言搭建核心,為平台的(de)穩定高效運行奠定了基礎;覆蓋了三類最常(cháng)用的機器(qì)學習算法,包括用于點擊預測的(de)稀疏線性模型、用于排序的決策(cè)樹(shù)模型以及深(shēn)入學(xué)習,滿足了最廣大(dà)的需求;重點開發(fā)的“蟲洞”項目将自動構建深盟所有項目,為所有組件提供一緻的數據流支持且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在内的雲計算(suàn)平台兼容支持,降低平台的準入門檻。

開源并入駐Github也進一步強調了其開放(fàng)的心态和對(duì)平台的信心。一系(xì)列的動作都是(shì)希望讓開發者(zhě)可以(yǐ)獲得更優質更容易使用的深入學習算法源碼,降低開發和部署深入(rù)學習系統及相關應用的門檻,進而(ér)利用世界(jiè)的力量壯大自身。

面(miàn)對可預料(liào)的爆發,技術一定程度(dù)上漸發(fā)成熟,但(dàn)也因為各自的技術基因和路線差異,面臨着極大的分裂傾向。開放的心态擁抱(bào)世(shì)界,打造機器學(xué)習領域的國際(jì)标準,百度的此舉既是對前期研究投(tóu)入的回收保障,更(gèng)是攜(xié)手籠絡友商,确保自身的話語權所在。