電信與媒體市場調研公司Informa Telecoms & Media的調查結果顯示,早在2013年,全球120家運營商中約有48%的運營商正在實施大數(shù)據(jù)業(yè)務。大數(shù)據(jù)業(yè)務成本平均占到運營商總IT預算的10%,并且在未來五年內(nèi)將升至23%左右。

電信運營商在運營服務中積累了大量數(shù)據(jù),既包括日志、賬單、信令等結構化和半結構化數(shù)據(jù),也會涉及到圖片、文本、音頻、視頻等非結構化數(shù)據(jù)。據(jù)不完全統(tǒng)計,一個省一天的運營商數(shù)據(jù)量可達到PB級。
而通過對海量數(shù)據(jù)資源的挖掘,可支撐運營商快速響應需求,實現(xiàn)敏捷運營,以及推動數(shù)字化轉型。例如,利用大數(shù)據(jù)對DPI(Deep Packet Inspection,基于數(shù)據(jù)包的深度檢測)等數(shù)據(jù)進行分析,可獲取客戶的行為偏好,實現(xiàn)客戶精準營銷。
01河南移動的實踐
據(jù)媒體報道,早在2018年7月,河南移動4G用戶數(shù)量已突破4000萬,在河南運營商市場處于領先地位。與此同時,其家庭寬帶客戶接近900萬,建設4G基站10萬個;物聯(lián)網(wǎng)連接數(shù)接近2000萬(新聞鏈接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移動全面啟動了5G建設。
為了更加精細化大數(shù)據(jù)運營,管理和監(jiān)控網(wǎng)絡流量數(shù)據(jù),河南移動部署了統(tǒng)一DPI系統(tǒng)實現(xiàn)海量日志數(shù)據(jù)處理,包括支撐集團和省層面的網(wǎng)絡運行、企業(yè)信息、市場營銷、網(wǎng)信安全、特殊通信等五大類應用,如移動感知分析、移動上網(wǎng)日志留存、信息推送、流量軌跡查詢、IDC/ISP信安系統(tǒng)等。

統(tǒng)一DPI系統(tǒng)
在該業(yè)務的數(shù)據(jù)處理上,客戶過去采用MR+HiveSQL+HDFS+Flum傳統(tǒng)架構進行支撐。這一解決方案導致:在應用端,無法實現(xiàn)多種數(shù)據(jù)融合分析,多并發(fā)能力不足查詢效率不高;在存儲端,計算存儲緊耦合不夠彈性,出現(xiàn)存儲訪問瓶頸,無法支持海量數(shù)據(jù)的按需擴展;以及更復雜的運維,更高的建設成本,逐漸難以滿足海量日志分析的需求。
為了解決上述問題,客戶在數(shù)據(jù)共享層采用了HashData+XEOS+gdfdists新架構,為客戶提供云原生數(shù)據(jù)倉庫解決方案,相對于原Hadoop方案,可減少60%的集群硬件和70%的運維投入。

數(shù)據(jù)共享層解決方案
1、AAA解析模塊:接受Radius原始流量解析后發(fā)送至HashData平臺;
2、Web服務器:負責策略生成、策略下發(fā)、數(shù)據(jù)結果展現(xiàn);
3、HashData:數(shù)據(jù)導入、數(shù)據(jù)清洗、數(shù)據(jù)查詢和數(shù)據(jù)分發(fā)(數(shù)據(jù)生成與Td上報程序);
4、XEOS:對接HashData平臺,海量日志數(shù)據(jù)存儲。
在新的解決方案中,XEOS替代原先HDFS實現(xiàn)PB級數(shù)據(jù)在線管理,同時提供冷熱數(shù)據(jù)分層、索引數(shù)據(jù)多副本、日志數(shù)據(jù)采用糾刪碼(EC糾刪碼12+3,得盤率80%)等策略,保障整體方案的更優(yōu)性價比。目前,客戶已采購1.5PB存儲容量…
02現(xiàn)有的數(shù)據(jù)應用問題
今天,企業(yè)數(shù)據(jù)呈指數(shù)級增長,基于海量數(shù)據(jù)的分析、挖掘數(shù)據(jù)價值成為運營商和企業(yè)用戶的常態(tài)化選擇。然而數(shù)據(jù)環(huán)境的諸多變化,驅動了數(shù)據(jù)應用的新需求產(chǎn)生:
1、全量數(shù)據(jù)處理:統(tǒng)一系統(tǒng)內(nèi)處理內(nèi)外部的海量數(shù)據(jù),數(shù)據(jù)類型復雜如結構化數(shù)據(jù)、半結構化數(shù)據(jù);
2、高并發(fā)響應:更多部門、角色甚至機器參與到數(shù)據(jù)訪問中,動態(tài)的支持高并發(fā)響應;
3、多維實時分析:將各維度的數(shù)據(jù)關聯(lián)進行數(shù)據(jù)分析挖掘,沒有大量時間做預處理,裸數(shù)據(jù)實時響應;
4、跨平臺訪問:數(shù)據(jù)訪問環(huán)境差異,公有云、私有云以及混合云等多種場景下,跨平臺數(shù)據(jù)靈活訪問;
5、云技術融合:大數(shù)據(jù)和云計算技術飛速發(fā)展,如何充分利用云的優(yōu)勢讓數(shù)據(jù)發(fā)揮更大價值亟待解決。
面對數(shù)據(jù)應用的上述新需求,現(xiàn)有的解決方案面臨著以下問題:
1、共享存儲數(shù)據(jù)倉庫
▪ 擴展性差
▪ 存儲訪問瓶頸
▪ 無法支持海量數(shù)據(jù)
▪ 一體機價格昂貴
2、MPP數(shù)據(jù)倉庫
▪ 無法支持多種數(shù)據(jù)類型
▪ 大數(shù)據(jù)量性能級穩(wěn)定性下降
▪ 擴容數(shù)據(jù)重分布難度大過程冗長
▪ 無法合理規(guī)劃以及靈活利用存儲和計算資源
▪ 無法支持高并發(fā)
3、Hadoop及NoSQL方案
▪ 不完全支持SQL
▪ 計算存儲緊耦合不夠彈性
▪ 配置、調優(yōu)、管理、維護復雜
▪ 學習成本高、學習曲線陡峭
▪ 效率低下,高并發(fā)能力有限
▪ 查詢性能不穩(wěn)定,影響因素多
03存算分離的云原生數(shù)倉
鑒于此,HashData(酷克數(shù)據(jù))研發(fā)設計了新一代云原生數(shù)據(jù)倉庫架構。HashData企業(yè)級云數(shù)據(jù)倉庫是一個高性能、完全托管的PB級數(shù)據(jù)倉庫服務,融合MPP高效引擎、云計算的彈性以及大數(shù)據(jù)平臺綜合數(shù)據(jù)處理能力三方特性。全面兼容PostgreSQL協(xié)議以及SQL 2008語法標準,對外提供標準的JDBC和ODBC接口,無縫集成主流ETL和BI工具。

新一代云原生數(shù)據(jù)倉庫架構具有以下特點:
▪ 元數(shù)據(jù)、計算和存儲三者分離;
▪ SQL on 對象存儲;
▪ 按需動態(tài)水平擴容;
▪ 支持跨數(shù)據(jù)中心和云平臺數(shù)據(jù)訪問;
▪ 毫秒級響應海量數(shù)據(jù)交互式查詢及多維分析;
▪ 高可用架構以及靈活數(shù)據(jù)副本策略;
▪ 無縫對接Oracle、MySQL、DB2、MongoDB等以及主流BI產(chǎn)品。
在基于云原生的計算和存儲分離數(shù)據(jù)倉庫方案構建中,獨立擴展的計算和存儲更加靈活,同時可顯著降低成本。HashData與XSKY建立了合作伙伴關系,利用XSKY XEOS對象存儲與HashData企業(yè)級云數(shù)據(jù)倉庫形成統(tǒng)一解決方案,并具有以下優(yōu)勢:
▪ 計算存儲分離部署,按需擴容,大幅降低TCO;
▪ 更加優(yōu)化的性能,以及企業(yè)級存儲特性;
▪ 適用于大數(shù)據(jù)平臺的容災備份;
▪ 整體方案性能更加穩(wěn)定,易交付易維護,簡化工作流程大幅縮短交付周期。
特別提醒:本網(wǎng)內(nèi)容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內(nèi)容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。