電信與媒體市場(chǎng)調(diào)研公司Informa Telecoms & Media的調(diào)查結(jié)果顯示,早在2013年,全球120家運(yùn)營(yíng)商中約有48%的運(yùn)營(yíng)商正在實(shí)施大數(shù)據(jù)業(yè)務(wù)。大數(shù)據(jù)業(yè)務(wù)成本平均占到運(yùn)營(yíng)商總IT預(yù)算的10%,并且在未來(lái)五年內(nèi)將升至23%左右。

電信運(yùn)營(yíng)商在運(yùn)營(yíng)服務(wù)中積累了大量數(shù)據(jù),既包括日志、賬單、信令等結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),也會(huì)涉及到圖片、文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。據(jù)不完全統(tǒng)計(jì),一個(gè)省一天的運(yùn)營(yíng)商數(shù)據(jù)量可達(dá)到PB級(jí)。
而通過(guò)對(duì)海量數(shù)據(jù)資源的挖掘,可支撐運(yùn)營(yíng)商快速響應(yīng)需求,實(shí)現(xiàn)敏捷運(yùn)營(yíng),以及推動(dòng)數(shù)字化轉(zhuǎn)型。例如,利用大數(shù)據(jù)對(duì)DPI(Deep Packet Inspection,基于數(shù)據(jù)包的深度檢測(cè))等數(shù)據(jù)進(jìn)行分析,可獲取客戶的行為偏好,實(shí)現(xiàn)客戶精準(zhǔn)營(yíng)銷。
01河南移動(dòng)的實(shí)踐
據(jù)媒體報(bào)道,早在2018年7月,河南移動(dòng)4G用戶數(shù)量已突破4000萬(wàn),在河南運(yùn)營(yíng)商市場(chǎng)處于領(lǐng)先地位。與此同時(shí),其家庭寬帶客戶接近900萬(wàn),建設(shè)4G基站10萬(wàn)個(gè);物聯(lián)網(wǎng)連接數(shù)接近2000萬(wàn)(新聞鏈接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移動(dòng)全面啟動(dòng)了5G建設(shè)。
為了更加精細(xì)化大數(shù)據(jù)運(yùn)營(yíng),管理和監(jiān)控網(wǎng)絡(luò)流量數(shù)據(jù),河南移動(dòng)部署了統(tǒng)一DPI系統(tǒng)實(shí)現(xiàn)海量日志數(shù)據(jù)處理,包括支撐集團(tuán)和省層面的網(wǎng)絡(luò)運(yùn)行、企業(yè)信息、市場(chǎng)營(yíng)銷、網(wǎng)信安全、特殊通信等五大類應(yīng)用,如移動(dòng)感知分析、移動(dòng)上網(wǎng)日志留存、信息推送、流量軌跡查詢、IDC/ISP信安系統(tǒng)等。

統(tǒng)一DPI系統(tǒng)
在該業(yè)務(wù)的數(shù)據(jù)處理上,客戶過(guò)去采用MR+HiveSQL+HDFS+Flum傳統(tǒng)架構(gòu)進(jìn)行支撐。這一解決方案導(dǎo)致:在應(yīng)用端,無(wú)法實(shí)現(xiàn)多種數(shù)據(jù)融合分析,多并發(fā)能力不足查詢效率不高;在存儲(chǔ)端,計(jì)算存儲(chǔ)緊耦合不夠彈性,出現(xiàn)存儲(chǔ)訪問(wèn)瓶頸,無(wú)法支持海量數(shù)據(jù)的按需擴(kuò)展;以及更復(fù)雜的運(yùn)維,更高的建設(shè)成本,逐漸難以滿足海量日志分析的需求。
為了解決上述問(wèn)題,客戶在數(shù)據(jù)共享層采用了HashData+XEOS+gdfdists新架構(gòu),為客戶提供云原生數(shù)據(jù)倉(cāng)庫(kù)解決方案,相對(duì)于原Hadoop方案,可減少60%的集群硬件和70%的運(yùn)維投入。

數(shù)據(jù)共享層解決方案
1、AAA解析模塊:接受Radius原始流量解析后發(fā)送至HashData平臺(tái);
2、Web服務(wù)器:負(fù)責(zé)策略生成、策略下發(fā)、數(shù)據(jù)結(jié)果展現(xiàn);
3、HashData:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗、數(shù)據(jù)查詢和數(shù)據(jù)分發(fā)(數(shù)據(jù)生成與Td上報(bào)程序);
4、XEOS:對(duì)接HashData平臺(tái),海量日志數(shù)據(jù)存儲(chǔ)。
在新的解決方案中,XEOS替代原先HDFS實(shí)現(xiàn)PB級(jí)數(shù)據(jù)在線管理,同時(shí)提供冷熱數(shù)據(jù)分層、索引數(shù)據(jù)多副本、日志數(shù)據(jù)采用糾刪碼(EC糾刪碼12+3,得盤率80%)等策略,保障整體方案的更優(yōu)性價(jià)比。目前,客戶已采購(gòu)1.5PB存儲(chǔ)容量…
02現(xiàn)有的數(shù)據(jù)應(yīng)用問(wèn)題
今天,企業(yè)數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),基于海量數(shù)據(jù)的分析、挖掘數(shù)據(jù)價(jià)值成為運(yùn)營(yíng)商和企業(yè)用戶的常態(tài)化選擇。然而數(shù)據(jù)環(huán)境的諸多變化,驅(qū)動(dòng)了數(shù)據(jù)應(yīng)用的新需求產(chǎn)生:
1、全量數(shù)據(jù)處理:統(tǒng)一系統(tǒng)內(nèi)處理內(nèi)外部的海量數(shù)據(jù),數(shù)據(jù)類型復(fù)雜如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);
2、高并發(fā)響應(yīng):更多部門、角色甚至機(jī)器參與到數(shù)據(jù)訪問(wèn)中,動(dòng)態(tài)的支持高并發(fā)響應(yīng);
3、多維實(shí)時(shí)分析:將各維度的數(shù)據(jù)關(guān)聯(lián)進(jìn)行數(shù)據(jù)分析挖掘,沒(méi)有大量時(shí)間做預(yù)處理,裸數(shù)據(jù)實(shí)時(shí)響應(yīng);
4、跨平臺(tái)訪問(wèn):數(shù)據(jù)訪問(wèn)環(huán)境差異,公有云、私有云以及混合云等多種場(chǎng)景下,跨平臺(tái)數(shù)據(jù)靈活訪問(wèn);
5、云技術(shù)融合:大數(shù)據(jù)和云計(jì)算技術(shù)飛速發(fā)展,如何充分利用云的優(yōu)勢(shì)讓數(shù)據(jù)發(fā)揮更大價(jià)值亟待解決。
面對(duì)數(shù)據(jù)應(yīng)用的上述新需求,現(xiàn)有的解決方案面臨著以下問(wèn)題:
1、共享存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)
▪ 擴(kuò)展性差
▪ 存儲(chǔ)訪問(wèn)瓶頸
▪ 無(wú)法支持海量數(shù)據(jù)
▪ 一體機(jī)價(jià)格昂貴
2、MPP數(shù)據(jù)倉(cāng)庫(kù)
▪ 無(wú)法支持多種數(shù)據(jù)類型
▪ 大數(shù)據(jù)量性能級(jí)穩(wěn)定性下降
▪ 擴(kuò)容數(shù)據(jù)重分布難度大過(guò)程冗長(zhǎng)
▪ 無(wú)法合理規(guī)劃以及靈活利用存儲(chǔ)和計(jì)算資源
▪ 無(wú)法支持高并發(fā)
3、Hadoop及NoSQL方案
▪ 不完全支持SQL
▪ 計(jì)算存儲(chǔ)緊耦合不夠彈性
▪ 配置、調(diào)優(yōu)、管理、維護(hù)復(fù)雜
▪ 學(xué)習(xí)成本高、學(xué)習(xí)曲線陡峭
▪ 效率低下,高并發(fā)能力有限
▪ 查詢性能不穩(wěn)定,影響因素多
03存算分離的云原生數(shù)倉(cāng)
鑒于此,HashData(酷克數(shù)據(jù))研發(fā)設(shè)計(jì)了新一代云原生數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。HashData企業(yè)級(jí)云數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)高性能、完全托管的PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)服務(wù),融合MPP高效引擎、云計(jì)算的彈性以及大數(shù)據(jù)平臺(tái)綜合數(shù)據(jù)處理能力三方特性。全面兼容PostgreSQL協(xié)議以及SQL 2008語(yǔ)法標(biāo)準(zhǔn),對(duì)外提供標(biāo)準(zhǔn)的JDBC和ODBC接口,無(wú)縫集成主流ETL和BI工具。

新一代云原生數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)具有以下特點(diǎn):
▪ 元數(shù)據(jù)、計(jì)算和存儲(chǔ)三者分離;
▪ SQL on 對(duì)象存儲(chǔ);
▪ 按需動(dòng)態(tài)水平擴(kuò)容;
▪ 支持跨數(shù)據(jù)中心和云平臺(tái)數(shù)據(jù)訪問(wèn);
▪ 毫秒級(jí)響應(yīng)海量數(shù)據(jù)交互式查詢及多維分析;
▪ 高可用架構(gòu)以及靈活數(shù)據(jù)副本策略;
▪ 無(wú)縫對(duì)接Oracle、MySQL、DB2、MongoDB等以及主流BI產(chǎn)品。
在基于云原生的計(jì)算和存儲(chǔ)分離數(shù)據(jù)倉(cāng)庫(kù)方案構(gòu)建中,獨(dú)立擴(kuò)展的計(jì)算和存儲(chǔ)更加靈活,同時(shí)可顯著降低成本。HashData與XSKY建立了合作伙伴關(guān)系,利用XSKY XEOS對(duì)象存儲(chǔ)與HashData企業(yè)級(jí)云數(shù)據(jù)倉(cāng)庫(kù)形成統(tǒng)一解決方案,并具有以下優(yōu)勢(shì):
▪ 計(jì)算存儲(chǔ)分離部署,按需擴(kuò)容,大幅降低TCO;
▪ 更加優(yōu)化的性能,以及企業(yè)級(jí)存儲(chǔ)特性;
▪ 適用于大數(shù)據(jù)平臺(tái)的容災(zāi)備份;
▪ 整體方案性能更加穩(wěn)定,易交付易維護(hù),簡(jiǎn)化工作流程大幅縮短交付周期。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。