新[Xīn]聞資訊
公◈司◈新聞

網站首頁 > 公司新[Xīn]聞

百度為何開源深▲度▲(Dù)機器學習平台?

5月20日,百度在github上開源了其深度[Dù]機器[Qì]學習平台。此番發布的深度機器學習開源平台屬(Shǔ)于“⋄深⋄盟”的開源組織,其核心開發者[Zhě]來自(Zì)百度深度學習研究院(IDL),微軟亞⋄洲⋄研究院、華盛頓大學、紐約大學、香(Xiāng)港科技⋄大⋄學,卡耐▽基▽·梅▲隴▲大學等知名公司和高校。

通過(Guò)這一開源平台,世▾界▾各地的開發[Fā]者們可[Kě]以免費獲得(Dé)更優∇質∇和更容易使用的分●布●式機器學習算○法○源碼,○從○而∆大∆幅降低[Dī]開發和部[Bù]署分布式機▲器▲[Qì]學(Xué)習系統及相關應用的門▽檻▽。包括今日頭條、汽車[Chē]之家等在∇内∇的多(Duō)家公◆司◆[Sī]已經通過該開放平台受益。

作●為●在人工[Gōng]智能布●局●(Jú)較早的●玩●家,百度擁有領(Lǐng)先業界的實力(Lì)。從[Cóng]2013年百度(Dù)深度學習研[Yán]究院(IDL)的[De]創建及2014年Andrew Ng的加盟至今,百度DMLC分布式深度機器學習開○源○(Yuán)項目(Mù)(簡稱“◈深◈盟”)已在深度學習的多個應∇用∇[Yòng]領域◊做◊過探索,上線了(Le)如xgboost(速度快效果好的[De]Boosting模型)、CXXNET(極緻的C++深度學(Xué)習◇庫◇(Kù))、Minerva(高效靈活的◆并◆[Bìng]行深度(Dù)學習引擎)◊以◊及Parameter Server(一小時訓練600T數據)等産品,在語音識别、OCR識别、人臉識别(Bié)以及計算效率提升上發布了多個成∆熟∆産品[Pǐn]。

而具有一系列領先優勢的百度卻選擇開源⋄其⋄深度機器學習平台,為何交底自己的核心[Xīn]技術[Shù]?

深思之下,卻是在面對業(Yè)界無奈◈時◈的遠(Yuǎn)見之舉。

擁抱世界:開[Kāi]源的魅力

開源,顧名思義,就是開放自己的源代碼給别(Bié)人查閱(Yuè)和使用,盡▽管▽看起來∆很∆(Hěn)傻,然而(ér)∆諸∆多◊曆◊史事實卻告訴我們▾擁▾抱世界也[Yě]能◈讓◈世界擁(Yōng)抱∆你∆。

Android的逆襲就是明證(Zhèng),在iOS侵占(Zhàn)絕大多數智能手機操作[Zuò]系統(Tǒng)的時代誕生,Google◆選◆(Xuǎn)擇開源,讓早已在蘋果面前沒有機會的業⋄界⋄[Jiè]見到▾了▾[Le]希(Xī)望,至今Android已(Yǐ)擁有過半(Bàn)的市(Shì)場份額(é),以至于[Yú]在移動互聯網大行其道的今天,Google可以憑借它(Tā)與旗下産品的▾整▾合打造屬于自己的強大生态∆系∆統。相比之下,生而嬌貴的Windows mobile的故事夠(Gòu)令人發(Fā)醒的,終于∇微∇軟也不得不寄人籬(Lí)下地去兼容Android和iOS平▲台▲(Tái)應用。▲此▲外,作[Zuò]○為○[Wéi]微軟最主要的應用程序框架,微[Wēi]軟對.net寄予厚望,希[Xī]望它的開源可以來到所有平[Píng]台,進而重現JAVA的光輝曆史。這也證[Zhèng]明了即使強大如(Rú)微軟也無法憑借一己之力讓其産品得到世界的擁抱。

衆人[Rén]拾材火焰高:用(Yòng)平台籠絡世界的力量

要實◆現◆人工智能,機器必◇須◇具備自(Zì)主學習能力,深度學習(Xí)作●為●◆機◆(Jī)器[Qì]學習領域的重大突破,可以完成具[Jù]有高度抽象特征的人▾工▾(Gōng)智能任務,如自然語言理▾解▾等複雜場景,因而備⋄受⋄業界追捧。當然,機器學習領域并不隻是有深[Shēn]度▾學▾習這一種算法(Fǎ)的存在,然而深度學習卻有着顯著的優勢:在數據集足夠大的情況下[Xià],深度學習擁有(Yǒu)最好的預測能力。盡管在算⋄法⋄的選擇上仍然存在“殺雞(Jī)焉用宰牛刀”的争論(Lùn),但深度學習算法為人[Rén]工智能領域注入的強(Qiáng)大能力卻是其他算◇法◇(Fǎ)無以◈比◈拟的;同時,随着◈深◈度學習技術的成熟,諸多傳⋄統⋄機器學習算法(Fǎ)的淘汰幾乎是必(Bì)然的。然而正如前述(Shù),深度[Dù]學習對大(Dà)量數(Shù)據的需求及其本身的複雜∆性∆仍然是其發展壯[Zhuàng]大路上的最大阻⋄礙⋄,也是業界的無奈所在[Zài]。

百度在[Zài]此(Cǐ)領域發力較早,且在諸多方∇向∇上進行了深入的研究,利(Lì)◊用◊深入學習結合自身搜(Sōu)索引●擎●(Qíng)的∆大∆數據讓機器(Qì)翻[Fān]譯及自然語[Yǔ]言等技術實現了新(Xīn)的飛躍。然而∆在∆面向更廣大更具體[Tǐ]的∆應∆用場景時,▾任▾何一◈個◈公司都難以滿◈足◈所有需求。借鑒曆史,開放∆共∆赢不僅可以把(Bǎ)事情◈做◈的,也讓業界和生态系(Xì)統得到健康發◈展◈。

百度此次開源也是完全●奔●着建平台去的。完全采[Cǎi]用(Yòng)C++語言搭建核心,為平(Píng)台的穩定高效運行∆奠∆定了基礎;覆蓋了三類最▲常▲用的▲機▲器(Qì)學習算法,包括用于點擊預測[Cè]的稀疏線(Xiàn)性模型、用于排序的決策樹[Shù]模型以及深入學習,滿(Mǎn)足了最廣(Guǎng)大的需[Xū]求;重點開發(Fā)的“蟲洞”項目将自動構建深盟所有項目,為所[Suǒ]有組件[Jiàn]提供一(Yī)緻的數據(Jù)流支持且提供包括[Kuò]Amazon EC2,Microsoft Azure, Google Compute Engine在内的雲[Yún]計算平台兼[Jiān]▿容▿支持(Chí),降低平◇台◇的準入門檻。

開源并入駐Github也進[Jìn]一步強調(Diào)了其開放(Fàng)的心态和對[Duì]平(Píng)台的信心。一▲系▲列◈的◈動作都◈是◈(Shì)希望讓開發者可以獲得更優質更容(Róng)易使▾用▾的深入學習算法源碼,降低[Dī]開[Kāi]發和部署深入學(Xué)習系統及相關應用的[De]門檻,進而利用世界(Jiè)的力量壯(Zhuàng)大自身。

面對可[Kě]預料的爆[Bào]發,技[Jì]術[Shù]一[Yī]定程度上漸⋄發⋄[Fā]成熟,但也因為各自的技術基(Jī)因和路線差異,面臨着極大的分裂傾向。開放[Fàng]的心态擁抱世[Shì]界,打造◇機◇(Jī)器學習領▲域▲的國際[Jì]标準,百度的此舉既[Jì]是對前期研究投入(Rù)的回收保障[Zhàng],更是攜手籠絡友商,确保自(Zì)身的話語[Yǔ]權所在。