導(dǎo)讀:
“與阿里的合作可以讓我們上升一個(gè)新的維度,我們將有機(jī)會(huì)開(kāi)拓新的領(lǐng)域,將公司成為更有價(jià)值的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)。”Data Artisan合伙人Kostas Tzoumas在新聞稿中表示。
在微軟宣布GitHub免費(fèi)開(kāi)放私有代碼庫(kù)的同一天,阿里巴巴確認(rèn)收購(gòu)德國(guó)初創(chuàng)企業(yè)Data Artisan。后者創(chuàng)建的Apache Flink是全球頂級(jí)的開(kāi)源流處理框架,它不但是雙十一大規(guī)模數(shù)據(jù)實(shí)時(shí)處理的秘密武器,更是荷蘭國(guó)際集團(tuán)、Netflix和Uber在內(nèi)的國(guó)際巨頭不可或缺的工具。
Data Artisans由開(kāi)源流處理框架Apache Flink的創(chuàng)建者Kostas Tzoumas等人于2014年創(chuàng)建。作為流處理方面為數(shù)不多的前沿技術(shù),F(xiàn)link為企業(yè)部署大規(guī)模的數(shù)據(jù)處理解決方案,以便他們能夠即時(shí)響應(yīng)數(shù)據(jù),并做出更好更快的業(yè)務(wù)決策。
遠(yuǎn)在此項(xiàng)投資公布的三年多前,阿里巴巴已經(jīng)成為Apache Flink框架的用戶。目前,阿里基于Flink開(kāi)發(fā)的內(nèi)部平臺(tái)Blink已經(jīng)廣泛服務(wù)于阿里集團(tuán)內(nèi)外、包括廣告、搜索等大量核心實(shí)時(shí)業(yè)務(wù),并多次為雙十一的極端運(yùn)算要求賦能。
當(dāng)?shù)貢r(shí)間1月8日,德國(guó)媒體率先爆料后,阿里和Data Artisan紛紛發(fā)布新聞稿確認(rèn)了雙方合作的消息。
“我們相信這一戰(zhàn)略合作將進(jìn)一步加強(qiáng)Flink社區(qū)的發(fā)展,加速數(shù)據(jù)處理技術(shù)并為全球開(kāi)發(fā)人員提供協(xié)作和建設(shè)性的開(kāi)放環(huán)境。”阿里巴巴集團(tuán)副總裁周靖人在新聞稿中表示。
從微軟收購(gòu)Github到IBM巨資334億美元收購(gòu)開(kāi)源軟件巨頭紅帽,收購(gòu)具有獨(dú)特技術(shù)和資源的開(kāi)源企業(yè),無(wú)疑是巨頭們?cè)?018年最重要的并購(gòu)趨勢(shì)之一。而本次阿里的收購(gòu),代表了全球第三大云廠商對(duì)這一前沿領(lǐng)域的技術(shù)布局。
根據(jù)德國(guó)媒體報(bào)道,該項(xiàng)收購(gòu)金額在9000萬(wàn)歐元,但雙方官方均未確認(rèn)金額。該公司曾在2016年獲得英特爾旗下投資基金及Btov、Tengelmann Ventures共650萬(wàn)歐元的A輪融資,以及一輪未公開(kāi)的B輪融資。
根據(jù)Market Insights Reports的數(shù)據(jù),預(yù)計(jì)到2025年全球流媒體分析市場(chǎng)規(guī)模將達(dá)到477.5億美元,從2017年到2025年將增長(zhǎng)34.98%。
火爆流框架
城市車流快速移動(dòng)、工廠流水線不等人、醫(yī)院在排號(hào)、叫的外賣在快跑,打車、點(diǎn)餐、網(wǎng)購(gòu)等等,人們無(wú)法忍受長(zhǎng)時(shí)間等待,等待意味著訂單流失。所以,毫秒級(jí)、亞秒級(jí)大數(shù)據(jù)分析就凸顯極大價(jià)值。
隨著大數(shù)據(jù)、人工智能的興起及5G技術(shù)發(fā)展,即時(shí)性成為了各個(gè)領(lǐng)域的剛需。上述場(chǎng)景還可以延展至高速公路監(jiān)測(cè)、ADAS高級(jí)輔助駕駛、廣告推薦、電商搜索推薦、股票交易市場(chǎng)、金融實(shí)時(shí)智能反欺詐等產(chǎn)業(yè)端。
據(jù)悉,Data Artisans所掌握的大數(shù)據(jù)流處理技術(shù)Flink可以在很大程度上解決越來(lái)越迫切的數(shù)據(jù)迅速處理問(wèn)題。Flink核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎,其針對(duì)數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布、數(shù)據(jù)通信以及容錯(cuò)機(jī)制等功能。
根據(jù)其官網(wǎng)顯示,2014年Flink作為主攻流計(jì)算的大數(shù)據(jù)引擎開(kāi)始在開(kāi)源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。經(jīng)過(guò)4年的快速發(fā)展,Apache Flink社區(qū)已經(jīng)培養(yǎng)出了42名Committer和19名PMC Member。
以核心用戶Netflix為例,大型視頻內(nèi)容服務(wù)的處理需求之大幾乎是不可想象的。每天有超過(guò)1.09億的消費(fèi)者,通過(guò)在線用戶服務(wù)享受1.25億小時(shí)的電視和電影內(nèi)容。這對(duì)公司的數(shù)據(jù)提取管道和流處理引擎提出了很高的要求,這些引擎必須處理涉及12 PB數(shù)據(jù)和3萬(wàn)億日常事件。
Netflix流處理管理員Steve Wu表示,F(xiàn)link for Netflix的關(guān)鍵元素是它能夠定位有狀態(tài)標(biāo)注的應(yīng)用程序,包括支持事件的時(shí)間戳,例如回滾和重放視頻等。
經(jīng)過(guò)幾年的發(fā)展,中國(guó)的互聯(lián)網(wǎng)巨頭也開(kāi)始了流計(jì)算的廣泛應(yīng)用,騰訊、華為、滴滴、美團(tuán)、字節(jié)跳動(dòng)等公司也將Flink作為首選的流處理引擎。
阿里Blink野心
盡管鮮有人聽(tīng)說(shuō),但Flink技術(shù)距離我們并不遙遠(yuǎn)。每年雙十一阿里總部大屏幕的實(shí)時(shí)成交數(shù)字,就是通過(guò)巨大的網(wǎng)絡(luò)流量,匯總各地方的報(bào)表、數(shù)據(jù)庫(kù),在毫秒級(jí)別時(shí)間進(jìn)行計(jì)算,并匯總為單一視圖的方式。
根據(jù)阿里巴巴Flink平臺(tái)開(kāi)發(fā)負(fù)責(zé)人之一、高級(jí)技術(shù)專家王紹翾曾在接受InfoQ采訪中表示,2015年起,阿里巴巴就開(kāi)始調(diào)研新一代流計(jì)算引擎。“我們當(dāng)時(shí)的目標(biāo)就是要設(shè)計(jì)一款低延遲、exactly once(一次就準(zhǔn)確)、流(運(yùn)算)和批(處理)統(tǒng)一的,能夠支撐足夠大體量的復(fù)雜計(jì)算的引擎。”
最終,F(xiàn)link以高吞吐、低延遲的計(jì)算引擎、同時(shí)支持批處理和流運(yùn)算等特性獲得了阿里巴巴的青睞。
阿里巴巴計(jì)算平臺(tái)事業(yè)部資深技術(shù)專家莫問(wèn)曾在2018云棲大會(huì)的演講中表示,阿里一直在尋找一種方式來(lái)開(kāi)發(fā)一套統(tǒng)一的大數(shù)據(jù)引擎。“解決通用大數(shù)據(jù)計(jì)算需求,批流融合的計(jì)算引擎,才是大數(shù)據(jù)技術(shù)的發(fā)展方向,并且最終我們選擇了Flink。”
基于Flink,阿里巴巴搭建的平臺(tái)于2016年正式上線,并從阿里巴巴的搜索和推薦這兩大場(chǎng)景開(kāi)始實(shí)現(xiàn)。
“彼時(shí)的Flink不管是規(guī)模還是穩(wěn)定性尚未經(jīng)歷實(shí)踐,成熟度有待商榷。”阿里巴巴實(shí)時(shí)計(jì)算團(tuán)隊(duì)在一篇文章中寫道。團(tuán)隊(duì)決定在阿里內(nèi)部建立一個(gè)Flink分支Blink,并對(duì)Flink進(jìn)行大量的修改和完善,讓其適應(yīng)阿里巴巴這種超大規(guī)模的業(yè)務(wù)場(chǎng)景。
在這個(gè)過(guò)程當(dāng)中,該團(tuán)隊(duì)不僅對(duì)Flink在性能和穩(wěn)定性上做出了很多改進(jìn)和優(yōu)化,同時(shí)在核心架構(gòu)和功能上也進(jìn)行了大量創(chuàng)新和改進(jìn)。
關(guān)于Flink在阿里巴巴的大規(guī)模應(yīng)用,莫問(wèn)披露,F(xiàn)link最初上線阿里巴巴只有數(shù)百臺(tái)服務(wù)器,目前規(guī)模已達(dá)上萬(wàn)臺(tái),此等規(guī)模在全球范圍內(nèi)也是屈指可數(shù)的;基于Flink,阿里內(nèi)部積累起來(lái)的狀態(tài)數(shù)據(jù)已經(jīng)是PB級(jí)別規(guī)模;如今每天在阿里Flink的計(jì)算平臺(tái)上,處理的數(shù)據(jù)已經(jīng)超過(guò)萬(wàn)億條;在峰值期間可以承擔(dān)每秒超過(guò)4.72億次的訪問(wèn),最典型的應(yīng)用場(chǎng)景是阿里巴巴雙11大屏。
2018年4月,以Blink為基礎(chǔ)的阿里云實(shí)時(shí)計(jì)算正式商業(yè)化,使用用戶已經(jīng)超過(guò)2000家。在已有的用戶中,實(shí)時(shí)計(jì)算主要應(yīng)用于實(shí)時(shí)互聯(lián)網(wǎng)數(shù)據(jù)分析、實(shí)時(shí)數(shù)據(jù)大屏、實(shí)時(shí)金融風(fēng)控、電商實(shí)時(shí)推薦等諸多領(lǐng)域。
阿里集團(tuán)內(nèi)淘寶、天貓、天弘基金、菜鳥、工業(yè)大腦等諸多業(yè)務(wù)均大量應(yīng)用了實(shí)時(shí)計(jì)算技術(shù),在集團(tuán)外,也有包括眾安保險(xiǎn)、全民TV、新華智云、貴州茅臺(tái)等諸多公司的應(yīng)用案例。
巨頭+開(kāi)源
從微軟到IBM,再到此時(shí)的阿里,對(duì)以大數(shù)據(jù)、人工智能、為核心的企業(yè)服務(wù)領(lǐng)域,開(kāi)源的價(jià)值極其顯著。與此同時(shí),開(kāi)源項(xiàng)目也需要足夠多資金、項(xiàng)目和運(yùn)營(yíng)不斷發(fā)展出更多的應(yīng)能用領(lǐng)域。
華為云高級(jí)技術(shù)專家時(shí)金魁近日撰文認(rèn)為,開(kāi)源項(xiàng)目后面的商業(yè)公司若不在,項(xiàng)目本身必然走向滅亡,純粹靠分散的發(fā)燒友的力量無(wú)法支撐一個(gè)成功的開(kāi)源項(xiàng)目。
同樣是在流計(jì)算領(lǐng)域,F(xiàn)link盡管有一定技術(shù)優(yōu)勢(shì),但仍然是競(jìng)爭(zhēng)者眾。根據(jù)Newstack.com網(wǎng)站顯示,流數(shù)據(jù)處理開(kāi)源框架很多,如Google的Beam,Intel的Gearpump,IBM的Edgent,這三家巨頭都提前對(duì)流計(jì)算做出了布局。同時(shí),Storm、LinkedIn的Samza也憑借獨(dú)特的優(yōu)勢(shì)各領(lǐng)風(fēng)騷。
業(yè)界認(rèn)為,阿里對(duì)Data Artisans的收購(gòu)無(wú)疑可以進(jìn)一步整合Flink的整個(gè)生態(tài)資源,作出更有利于Flink發(fā)展的規(guī)劃。“與阿里的合作可以讓我們上升一個(gè)新的維度,我們將有機(jī)會(huì)開(kāi)拓新的領(lǐng)域,使公司具有為更有價(jià)值的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)。”Data Artisan合伙人Kostas Tzoumas在新聞稿中表示。
根據(jù)阿里最新發(fā)布的消息,在本月之內(nèi),阿里也將把內(nèi)部軟件Blink開(kāi)源給整個(gè)社區(qū),這一凝結(jié)兩年多阿里開(kāi)發(fā)人員心血、助力阿里各項(xiàng)核心業(yè)務(wù)的軟件即將被更多的企業(yè)和開(kāi)發(fā)者使用。此外,阿里巴巴還將致力于推動(dòng)Flink在生態(tài)上得到更多語(yǔ)言的支持,不僅僅是Java、Scala語(yǔ)言,甚至是機(jī)器學(xué)習(xí)下用的Python、Go語(yǔ)言。
業(yè)內(nèi)人士分析,在云端、AI混戰(zhàn)中,全球廠商都在尋找關(guān)鍵技術(shù)來(lái)提升自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。此次收購(gòu)后,F(xiàn)link必將轉(zhuǎn)化為阿里云的核心競(jìng)爭(zhēng)力之一。但在流分析服務(wù)方面,亞馬遜和微軟早已經(jīng)實(shí)現(xiàn)托管的高速實(shí)時(shí)流分析服務(wù),阿里云還需進(jìn)一步完善。