在互聯(lián)網(wǎng)行業(yè)快速迭代、數(shù)據(jù)規(guī)模呈指數(shù)級增長的今天,作為國內(nèi)領(lǐng)先的年輕人文化社區(qū),嗶哩嗶哩(Bilibili)面臨著海量、多維、實(shí)時(shí)的數(shù)據(jù)處理挑戰(zhàn)。為了高效賦能業(yè)務(wù)創(chuàng)新、提升用戶體驗(yàn)并驅(qū)動(dòng)科學(xué)決策,構(gòu)建一個(gè)統(tǒng)一、高效、敏捷的數(shù)據(jù)服務(wù)中臺(tái),尤其是其核心組件——數(shù)據(jù)處理服務(wù),成為B站技術(shù)演進(jìn)的必然選擇。本文將探討嗶哩嗶哩在數(shù)據(jù)服務(wù)中臺(tái)建設(shè)過程中,數(shù)據(jù)處理服務(wù)的實(shí)踐路徑、技術(shù)架構(gòu)與核心價(jià)值。
一、建設(shè)背景與核心目標(biāo)
嗶哩嗶哩的業(yè)務(wù)生態(tài)涵蓋視頻、直播、游戲、漫畫、社區(qū)互動(dòng)等多個(gè)板塊,每日產(chǎn)生PB級別的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。早期,數(shù)據(jù)處理往往以“煙囪式”架構(gòu)存在于各業(yè)務(wù)線,導(dǎo)致數(shù)據(jù)孤島、計(jì)算資源浪費(fèi)、研發(fā)效率低下、數(shù)據(jù)口徑不一致等問題日益凸顯。為此,數(shù)據(jù)服務(wù)中臺(tái)的建設(shè)核心目標(biāo)確立為:
- 統(tǒng)一化:建立標(biāo)準(zhǔn)化的數(shù)據(jù)接入、處理、存儲(chǔ)與服務(wù)出口,打破數(shù)據(jù)壁壘。
- 平臺(tái)化:提供自助、易用的數(shù)據(jù)處理工具與平臺(tái),降低數(shù)據(jù)使用門檻,提升研發(fā)效率。
- 服務(wù)化:將數(shù)據(jù)能力封裝成可復(fù)用、可擴(kuò)展的API服務(wù),敏捷響應(yīng)前端業(yè)務(wù)需求。
- 智能化:融入實(shí)時(shí)計(jì)算與智能算法,支持實(shí)時(shí)推薦、風(fēng)險(xiǎn)控制、動(dòng)態(tài)運(yùn)營等場景。
數(shù)據(jù)處理服務(wù)作為中臺(tái)的“加工廠”,承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為清潔、可靠、有價(jià)值的數(shù)據(jù)資產(chǎn)的關(guān)鍵職責(zé)。
二、數(shù)據(jù)處理服務(wù)的架構(gòu)演進(jìn)
嗶哩嗶哩的數(shù)據(jù)處理服務(wù)架構(gòu)經(jīng)歷了從分散到集中、從批處理到批流一體的演進(jìn)過程。
1. 分層解耦的架構(gòu)設(shè)計(jì):
當(dāng)前的核心架構(gòu)通常分為四層:
- 數(shù)據(jù)采集層:通過自研Agent、日志SDK、數(shù)據(jù)庫Binlog同步等多種方式,實(shí)現(xiàn)全端數(shù)據(jù)的高效、可靠接入。
- 數(shù)據(jù)存儲(chǔ)與計(jì)算層:這是數(shù)據(jù)處理的核心。結(jié)合Hadoop、Spark、Flink、Kafka等開源生態(tài),構(gòu)建了強(qiáng)大的批處理和流式計(jì)算能力。數(shù)據(jù)倉庫采用分層建模(如ODS、DWD、DWS、ADS),確保數(shù)據(jù)一致性和復(fù)用性。
- 數(shù)據(jù)管理與治理層:建立統(tǒng)一的數(shù)據(jù)資產(chǎn)目錄、元數(shù)據(jù)管理、數(shù)據(jù)血緣和質(zhì)量監(jiān)控體系。通過可視化工具,讓數(shù)據(jù)來源、加工邏輯、數(shù)據(jù)質(zhì)量一目了然,為數(shù)據(jù)可信度奠定基礎(chǔ)。
- 數(shù)據(jù)服務(wù)層:將加工后的數(shù)據(jù),通過統(tǒng)一查詢服務(wù)、實(shí)時(shí)數(shù)據(jù)服務(wù)、指標(biāo)平臺(tái)、推薦/搜索數(shù)據(jù)服務(wù)等方式,以API或數(shù)據(jù)產(chǎn)品的形式提供給各業(yè)務(wù)方。
2. 批流一體的實(shí)踐:
為滿足實(shí)時(shí)業(yè)務(wù)需求(如實(shí)時(shí)彈幕分析、實(shí)時(shí)熱門榜單、實(shí)時(shí)風(fēng)控),在傳統(tǒng)T+1批處理的基礎(chǔ)上,深度應(yīng)用Apache Flink構(gòu)建了低延遲的實(shí)時(shí)數(shù)據(jù)處理管道。通過將批流計(jì)算在SQL層面進(jìn)行統(tǒng)一,并共享數(shù)據(jù)存儲(chǔ)(如Hive、Iceberg),實(shí)現(xiàn)了“一套代碼,兩種執(zhí)行模式”,簡化了開發(fā)運(yùn)維復(fù)雜度。
3. 平臺(tái)化與自助化:
開發(fā)了面向內(nèi)部用戶的數(shù)據(jù)開發(fā)平臺(tái)。數(shù)據(jù)研發(fā)人員可以在平臺(tái)上進(jìn)行任務(wù)編排、SQL/代碼開發(fā)、依賴配置、調(diào)度發(fā)布與監(jiān)控告警。業(yè)務(wù)分析師也可以通過低代碼或SQL界面,自助進(jìn)行數(shù)據(jù)查詢、報(bào)表生成和即席分析,大大縮短了從數(shù)據(jù)需求到數(shù)據(jù)產(chǎn)出的路徑。
三、關(guān)鍵技術(shù)挑戰(zhàn)與解決方案
- 海量數(shù)據(jù)下的效率與成本:通過計(jì)算引擎優(yōu)化(如Spark動(dòng)態(tài)資源分配、Flink增量計(jì)算)、存儲(chǔ)格式升級(采用ORC、Parquet及數(shù)據(jù)湖格式)、冷熱數(shù)據(jù)分層存儲(chǔ)與智能壓縮等手段,在保障查詢性能的有效控制了存儲(chǔ)與計(jì)算成本。
- 數(shù)據(jù)質(zhì)量保障:建立了貫穿數(shù)據(jù)處理全鏈路的質(zhì)量監(jiān)控體系。在任務(wù)層面,設(shè)置關(guān)鍵指標(biāo)(如記錄數(shù)波動(dòng)、空值率、數(shù)值異常)的強(qiáng)規(guī)則校驗(yàn);在鏈路層面,通過數(shù)據(jù)血緣進(jìn)行影響分析和故障溯源;推行數(shù)據(jù)資產(chǎn)認(rèn)責(zé)制度,確保問題可追溯、可定責(zé)、可修復(fù)。
- 復(fù)雜業(yè)務(wù)場景的敏捷支持:面對快速變化的業(yè)務(wù)需求(如新活動(dòng)、新功能上線),數(shù)據(jù)處理服務(wù)通過以下方式提升敏捷性:
- 模型復(fù)用:沉淀公共數(shù)據(jù)層(DWD/DWS),避免重復(fù)開發(fā)。
- 快速啟動(dòng)模板:為常見場景(如用戶行為分析、AB實(shí)驗(yàn))提供標(biāo)準(zhǔn)化數(shù)據(jù)模型與處理模板。
- 服務(wù)化接口:將核心數(shù)據(jù)能力(如用戶畫像查詢、實(shí)時(shí)計(jì)數(shù))封裝為高可用、低延遲的在線服務(wù),供業(yè)務(wù)系統(tǒng)直接調(diào)用。
四、核心價(jià)值與未來展望
通過數(shù)據(jù)服務(wù)中臺(tái)及數(shù)據(jù)處理服務(wù)的建設(shè),嗶哩嗶哩實(shí)現(xiàn)了顯著的業(yè)務(wù)與技術(shù)價(jià)值:
- 業(yè)務(wù)賦能:為個(gè)性化推薦、內(nèi)容安全、商業(yè)化廣告、運(yùn)營決策等提供了堅(jiān)實(shí)、及時(shí)的數(shù)據(jù)支撐,直接提升了用戶體驗(yàn)和商業(yè)效率。
- 效率提升:數(shù)據(jù)研發(fā)效率大幅提高,需求交付周期從“周/月”級縮短到“天/小時(shí)”級。業(yè)務(wù)方獲取數(shù)據(jù)從“提需求”轉(zhuǎn)變?yōu)椤白灾?wù)”。
- 成本優(yōu)化:統(tǒng)一的資源調(diào)度與存儲(chǔ)管理,避免了重復(fù)建設(shè),實(shí)現(xiàn)了集群資源利用率的整體優(yōu)化。
- 質(zhì)量與信任:標(biāo)準(zhǔn)化的流程與全面的監(jiān)控,構(gòu)建了公司內(nèi)部對數(shù)據(jù)資產(chǎn)的信任文化。
嗶哩嗶哩的數(shù)據(jù)處理服務(wù)將繼續(xù)向更智能、更實(shí)時(shí)、更易用的方向發(fā)展:深化實(shí)時(shí)數(shù)倉建設(shè),探索數(shù)據(jù)湖倉一體化架構(gòu);加強(qiáng)AI能力注入,實(shí)現(xiàn)數(shù)據(jù)處理的智能化運(yùn)維與異常檢測;進(jìn)一步降低數(shù)據(jù)消費(fèi)門檻,讓數(shù)據(jù)能力像水電煤一樣,無縫、高效地流淌到每一個(gè)需要的業(yè)務(wù)環(huán)節(jié),持續(xù)鞏固B站在內(nèi)容生態(tài)領(lǐng)域的核心競爭力。