久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<small id="lvrfh"></small>

當(dāng)前位置：站長(zhǎng)資訊網(wǎng) > IDC資訊 > 正文

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

2019-01-08 分類(lèi)：IDC資訊閱讀(985) 評(píng)論(0)

據(jù)歐洲外媒Deutsche Startups報(bào)道，阿里巴巴集團(tuán)以1.033億美元（9000萬(wàn)歐元）的價(jià)格收購(gòu)了總部位于柏林的初創(chuàng)公司Data Artisans。

Data Artisan成立于2014年，專(zhuān)門(mén)提供為公司企業(yè)部署大規(guī)模數(shù)據(jù)處理解決方案的服務(wù)。該公司的解決方案可以實(shí)時(shí)管理和部署這類(lèi)數(shù)據(jù)，以便客戶更合理更快速地做出決策。Data Artisans由開(kāi)源數(shù)據(jù)流處理技術(shù)Apache Fink的幾位開(kāi)發(fā)者創(chuàng)辦。

據(jù)Data Artisans官網(wǎng)介紹，其dA平臺(tái)由Apache Flink和dA Application Manager組成，“包括與容器編排、持續(xù)集成/持續(xù)交付（CI/CD）、日志記錄、度量指標(biāo)和狀態(tài)存儲(chǔ)整合的隨時(shí)可用的功能，為公司客戶提供了單一視圖，以便了解所有的數(shù)據(jù)流處理應(yīng)用。”其客戶包括荷蘭國(guó)際集團(tuán)（ING）、Netflix、優(yōu)步、Lyft、阿里巴巴、eBay、康卡斯特、華為和King等。

從阿里技術(shù)公眾號(hào)分享的一篇《阿里巴巴為什么選擇Apache Flink？》的文章中可看出端倪，阿里巴巴計(jì)算平臺(tái)事業(yè)部資深技術(shù)專(zhuān)家莫問(wèn)在云棲大會(huì)的演講時(shí)表示隨著人工智能時(shí)代的降臨，數(shù)據(jù)量的爆發(fā)，在典型的的業(yè)務(wù)場(chǎng)景下數(shù)據(jù)業(yè)務(wù)最通用的做法是：選用批處理的技術(shù)處理全量數(shù)據(jù)，采用流式計(jì)算處理實(shí)時(shí)增量數(shù)據(jù)。在絕大多數(shù)的業(yè)務(wù)場(chǎng)景之下，用戶的業(yè)務(wù)邏輯在批處理和流處理之中往往是相同的。但是，用戶用于批處理和流處理的兩套計(jì)算引擎是不同的。

因此，用戶通常需要寫(xiě)兩套代碼。

毫無(wú)疑問(wèn)，這帶來(lái)了一些額外的負(fù)擔(dān)和成本。阿里巴巴的商品數(shù)據(jù)處理就經(jīng)常需要面對(duì)增量和全量?jī)商撞煌臉I(yè)務(wù)流程問(wèn)題，所以阿里就在想，我們能不能有一套統(tǒng)一的大數(shù)據(jù)引擎技術(shù)，用戶只需要根據(jù)自己的業(yè)務(wù)邏輯開(kāi)發(fā)一套代碼。這樣在各種不同的場(chǎng)景下，不管是全量數(shù)據(jù)還是增量數(shù)據(jù)，亦或者實(shí)時(shí)處理，一套方案即可全部支持，這就是阿里選擇Flink的背景和初衷。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

目前開(kāi)源大數(shù)據(jù)計(jì)算引擎有很多選擇，流計(jì)算如Storm,Samza,Flink,Kafka Stream等，批處理如Spark,Hive,Pig,Flink等。而同時(shí)支持流處理和批處理的計(jì)算引擎，只有兩種選擇：一個(gè)是Apache Spark，一個(gè)是Apache Flink。

從技術(shù)，生態(tài)等各方面的綜合考慮。首先，Spark的技術(shù)理念是基于批來(lái)模擬流的計(jì)算。而Flink則完全相反，它采用的是基于流計(jì)算來(lái)模擬批計(jì)算。

從技術(shù)發(fā)展方向看，用批來(lái)模擬流有一定的技術(shù)局限性，并且這個(gè)局限性可能很難突破。而Flink基于流來(lái)模擬批，在技術(shù)上有更好的擴(kuò)展性。從長(zhǎng)遠(yuǎn)來(lái)看，阿里決定用Flink做一個(gè)統(tǒng)一的、通用的大數(shù)據(jù)引擎作為未來(lái)的選型。

Flink是一個(gè)低延遲、高吞吐、統(tǒng)一的大數(shù)據(jù)計(jì)算引擎。在阿里巴巴的生產(chǎn)環(huán)境中，F(xiàn)link的計(jì)算平臺(tái)可以實(shí)現(xiàn)毫秒級(jí)的延遲情況下，每秒鐘處理上億次的消息或者事件。同時(shí)Flink提供了一個(gè)Exactly-once的一致性語(yǔ)義。保證了數(shù)據(jù)的正確性。這樣就使得Flink大數(shù)據(jù)引擎可以提供金融級(jí)的數(shù)據(jù)處理能力。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

Flink在阿里的現(xiàn)狀

基于Apache Flink在阿里巴巴搭建的平臺(tái)于2016年正式上線，并從阿里巴巴的搜索和推薦這兩大場(chǎng)景開(kāi)始實(shí)現(xiàn)。目前阿里巴巴所有的業(yè)務(wù)，包括阿里巴巴所有子公司都采用了基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)。同時(shí)Flink計(jì)算平臺(tái)運(yùn)行在開(kāi)源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調(diào)度，以 HDFS作為數(shù)據(jù)存儲(chǔ)。因此，F(xiàn)link可以和開(kāi)源大數(shù)據(jù)軟件Hadoop無(wú)縫對(duì)接。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

目前，這套基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)不僅服務(wù)于阿里巴巴集團(tuán)內(nèi)部，而且通過(guò)阿里云的云產(chǎn)品API向整個(gè)開(kāi)發(fā)者生態(tài)提供基于Flink的云產(chǎn)品支持。

Flink在阿里巴巴的大規(guī)模應(yīng)用，表現(xiàn)如何？

規(guī)模：一個(gè)系統(tǒng)是否成熟，規(guī)模是重要指標(biāo)，F(xiàn)link最初上線阿里巴巴只有數(shù)百臺(tái)服務(wù)器，目前規(guī)模已達(dá)上萬(wàn)臺(tái)，此等規(guī)模在全球范圍內(nèi)也是屈指可數(shù)；

狀態(tài)數(shù)據(jù)：基于Flink，內(nèi)部積累起來(lái)的狀態(tài)數(shù)據(jù)已經(jīng)是PB級(jí)別規(guī)模；

Events：如今每天在Flink的計(jì)算平臺(tái)上，處理的數(shù)據(jù)已經(jīng)超過(guò)萬(wàn)億條；

PS：在峰值期間可以承擔(dān)每秒超過(guò)4.72億次的訪問(wèn)，最典型的應(yīng)用場(chǎng)景是阿里巴巴雙11大屏；

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

Flink的發(fā)展之路

接下來(lái)從開(kāi)源技術(shù)的角度，來(lái)談一談Apache Flink是如何誕生的，它是如何成長(zhǎng)的？以及在成長(zhǎng)的這個(gè)關(guān)鍵的時(shí)間點(diǎn)阿里是如何進(jìn)入的？并對(duì)它做出了那些貢獻(xiàn)和支持？

Flink誕生于歐洲的一個(gè)大數(shù)據(jù)研究項(xiàng)目StratoSphere。該項(xiàng)目是柏林工業(yè)大學(xué)的一個(gè)研究性項(xiàng)目。早期，F(xiàn)link是做Batch計(jì)算的，但是在2014年，StratoSphere里面的核心成員孵化出Flink，同年將Flink捐贈(zèng)Apache，并在后來(lái)成為Apache的頂級(jí)大數(shù)據(jù)項(xiàng)目，同時(shí)Flink計(jì)算的主流方向被定位為Streaming，即用流式計(jì)算來(lái)做所有大數(shù)據(jù)的計(jì)算，這就是Flink技術(shù)誕生的背景。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

2014年Flink作為主攻流計(jì)算的大數(shù)據(jù)引擎開(kāi)始在開(kāi)源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。區(qū)別于Storm,Spark Streaming以及其他流式計(jì)算引擎的是：它不僅是一個(gè)高吞吐、低延遲的計(jì)算引擎，同時(shí)還提供很多高級(jí)的功能。比如它提供了有狀態(tài)的計(jì)算，支持狀態(tài)管理，支持強(qiáng)一致性的數(shù)據(jù)語(yǔ)義以及支持Event Time,WaterMark對(duì)消息亂序的處理。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

Flink核心概念以及基本理念

Flink最區(qū)別于其他流計(jì)算引擎的，其實(shí)就是狀態(tài)管理。

什么是狀態(tài)？例如開(kāi)發(fā)一套流計(jì)算的系統(tǒng)或者任務(wù)做數(shù)據(jù)處理，可能經(jīng)常要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，如Sum,Count,Min,Max,這些值是需要存儲(chǔ)的。因?yàn)橐粩喔拢@些值或者變量就可以理解為一種狀態(tài)。如果數(shù)據(jù)源是在讀取Kafka,RocketMQ，可能要記錄讀取到什么位置，并記錄Offset，這些Offset變量都是要計(jì)算的狀態(tài)。

Flink提供了內(nèi)置的狀態(tài)管理，可以把這些狀態(tài)存儲(chǔ)在Flink內(nèi)部，而不需要把它存儲(chǔ)在外部系統(tǒng)。這樣做的好處是第一降低了計(jì)算引擎對(duì)外部系統(tǒng)的依賴(lài)以及部署，使運(yùn)維更加簡(jiǎn)單；第二，對(duì)性能帶來(lái)了極大的提升：如果通過(guò)外部去訪問(wèn)，如Redis,HBase它一定是通過(guò)網(wǎng)絡(luò)及RPC。如果通過(guò)Flink內(nèi)部去訪問(wèn)，它只通過(guò)自身的進(jìn)程去訪問(wèn)這些變量。同時(shí)Flink會(huì)定期將這些狀態(tài)做Checkpoint持久化，把Checkpoint存儲(chǔ)到一個(gè)分布式的持久化系統(tǒng)中，比如HDFS。這樣的話，當(dāng)Flink的任務(wù)出現(xiàn)任何故障時(shí)，它都會(huì)從最近的一次Checkpoint將整個(gè)流的狀態(tài)進(jìn)行恢復(fù)，然后繼續(xù)運(yùn)行它的流處理。對(duì)用戶沒(méi)有任何數(shù)據(jù)上的影響。

Flink是如何做到在Checkpoint恢復(fù)過(guò)程中沒(méi)有任何數(shù)據(jù)的丟失和數(shù)據(jù)的冗余？來(lái)保證精準(zhǔn)計(jì)算的？

這其中原因是Flink利用了一套非常經(jīng)典的Chandy-Lamport算法，它的核心思想是把這個(gè)流計(jì)算看成一個(gè)流式的拓?fù)?，定期從這個(gè)拓?fù)涞念^部Source點(diǎn)開(kāi)始插入特殊的Barries，從上游開(kāi)始不斷的向下游廣播這個(gè)Barries。每一個(gè)節(jié)點(diǎn)收到所有的Barries,會(huì)將State做一次Snapshot，當(dāng)每個(gè)節(jié)點(diǎn)都做完Snapshot之后，整個(gè)拓?fù)渚退阃暾淖鐾炅艘淮蜟heckpoint。接下來(lái)不管出現(xiàn)任何故障，都會(huì)從最近的Checkpoint進(jìn)行恢復(fù)。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

Flink利用這套經(jīng)典的算法，保證了強(qiáng)一致性的語(yǔ)義。這也是Flink與其他無(wú)狀態(tài)流計(jì)算引擎的核心區(qū)別。

下面介紹Flink是如何解決亂序問(wèn)題的。比如星球大戰(zhàn)的播放順序，如果按照上映的時(shí)間觀看，可能會(huì)發(fā)現(xiàn)故事在跳躍。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

在流計(jì)算中，與這個(gè)例子是非常類(lèi)似的。所有消息到來(lái)的時(shí)間，和它真正發(fā)生在源頭，在線系統(tǒng)Log當(dāng)中的時(shí)間是不一致的。在流處理當(dāng)中，希望是按消息真正發(fā)生在源頭的順序進(jìn)行處理，不希望是真正到達(dá)程序里的時(shí)間來(lái)處理。Flink提供了Event Time和WaterMark的一些先進(jìn)技術(shù)來(lái)解決亂序的問(wèn)題。使得用戶可以有序的處理這個(gè)消息。這是Flink一個(gè)很重要的特點(diǎn)。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

接下來(lái)要介紹的是Flink啟動(dòng)時(shí)的核心理念和核心概念，這是Flink發(fā)展的第一個(gè)階段；第二個(gè)階段時(shí)間是2015年和2017年，這個(gè)階段也是Flink發(fā)展以及阿里巴巴介入的時(shí)間。故事源于2015年年中，我們?cè)谒阉魇聵I(yè)部的一次調(diào)研。當(dāng)時(shí)阿里有自己的批處理技術(shù)和流計(jì)算技術(shù)，有自研的，也有開(kāi)源的。但是，為了思考下一代大數(shù)據(jù)引擎的方向以及未來(lái)趨勢(shì)，我們做了很多新技術(shù)的調(diào)研。

結(jié)合大量調(diào)研結(jié)果，我們最后得出的結(jié)論是：解決通用大數(shù)據(jù)計(jì)算需求，批流融合的計(jì)算引擎，才是大數(shù)據(jù)技術(shù)的發(fā)展方向，并且最終我們選擇了Flink。

但2015年的Flink還不夠成熟，不管是規(guī)模還是穩(wěn)定性尚未經(jīng)歷實(shí)踐。最后我們決定在阿里內(nèi)部建立一個(gè)Flink分支，對(duì)Flink做大量的修改和完善，讓其適應(yīng)阿里巴巴這種超大規(guī)模的業(yè)務(wù)場(chǎng)景。在這個(gè)過(guò)程當(dāng)中，我們團(tuán)隊(duì)不僅對(duì)Flink在性能和穩(wěn)定性上做出了很多改進(jìn)和優(yōu)化，同時(shí)在核心架構(gòu)和功能上也進(jìn)行了大量創(chuàng)新和改進(jìn)，并將其貢獻(xiàn)給社區(qū)，例如：Flink新的分布式架構(gòu)，增量Checkpoint機(jī)制,基于Credit-based的網(wǎng)絡(luò)流控機(jī)制和Streaming SQL等。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

Flink的未來(lái)方向

首先，阿里巴巴還是要立足于Flink的本質(zhì)，去做一個(gè)全能的統(tǒng)一大數(shù)據(jù)計(jì)算引擎。將它在生態(tài)和場(chǎng)景上進(jìn)行落地。目前Flink已經(jīng)是一個(gè)主流的流計(jì)算引擎，很多互聯(lián)網(wǎng)公司已經(jīng)達(dá)成了共識(shí)：Flink是大數(shù)據(jù)的未來(lái)，是最好的流計(jì)算引擎。下一步很重要的工作是讓Flink在批計(jì)算上有所突破。在更多的場(chǎng)景下落地，成為一種主流的批計(jì)算引擎。然后進(jìn)一步在流和批之間進(jìn)行無(wú)縫的切換，流和批的界限越來(lái)越模糊。用Flink,在一個(gè)計(jì)算中，既可以有流計(jì)算，又可以有批計(jì)算。

第二個(gè)方向就是Flink的生態(tài)上有更多語(yǔ)言的支持，不僅僅是Java，Scala語(yǔ)言，甚至是機(jī)器學(xué)習(xí)下用的Python，Go語(yǔ)言。未來(lái)我們希望能用更多豐富的語(yǔ)言來(lái)開(kāi)發(fā)Flink計(jì)算的任務(wù)，來(lái)描述計(jì)算邏輯，并和更多的生態(tài)進(jìn)行對(duì)接。

阿里 7 億元收購(gòu) Apache Flink 商業(yè)公司 DataArtisans

最后不得不說(shuō)AI，因?yàn)楝F(xiàn)在很多大數(shù)據(jù)計(jì)算的需求和數(shù)據(jù)量都是在支持很火爆的AI場(chǎng)景，所以在Flink流批生態(tài)完善的基礎(chǔ)上，將繼續(xù)往上走，完善上層Flink的Machine Learning算法庫(kù)，同時(shí)Flink往上層也會(huì)向成熟的機(jī)器學(xué)習(xí)，深度學(xué)習(xí)去集成。比如可以做Tensorflow On Flink, 讓大數(shù)據(jù)的ETL數(shù)據(jù)處理和機(jī)器學(xué)習(xí)的Feature計(jì)算和特征計(jì)算，訓(xùn)練的計(jì)算等進(jìn)行集成，讓開(kāi)發(fā)者能夠同時(shí)享受到多種生態(tài)給大家?guī)?lái)的好處。

贊(0)

標(biāo)簽：AI apache app i3 java python set snap sns source 互聯(lián)網(wǎng)+人工智能華為雙11 大數(shù)據(jù)服務(wù)器歐洲阿里阿里云阿里巴巴

相關(guān)推薦

?

網(wǎng)站地圖滬ICP備18035694號(hào)-2

滬公網(wǎng)安備31011702889846號(hào)