桑文鋒增長實操復(fù)盤:如何使核心指標(biāo)提升 7.5%

信息隨時隨刻在產(chǎn)生,它為世界指出兩條路:一條路布滿著那些故步自封、因循守舊企業(yè)的「尸體」;另一條則為擁有數(shù)據(jù)思維和掌握數(shù)據(jù)駕馭能力的企業(yè)鋪就康莊大道。

數(shù)據(jù)驅(qū)動增長是我們持續(xù)關(guān)注討論的話題。神策數(shù)據(jù)創(chuàng)始人桑文鋒,以第一人稱視角,分享他如何在百度期間通過試驗方式,提升「百度知道」項目核心指標(biāo)的實戰(zhàn)案例復(fù)盤,以及在百度內(nèi)部搭建數(shù)據(jù)平臺的階段始末。

桑文鋒,神策數(shù)據(jù)創(chuàng)始人兼 CEO,浙江大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)碩士,在百度任職 8 年,從無到有構(gòu)建了百度用戶日志大數(shù)據(jù)平臺,覆蓋數(shù)據(jù)收集、傳輸、元數(shù)據(jù)管理、作業(yè)流調(diào)度、海量數(shù)據(jù)查詢引擎及數(shù)據(jù)可視化等。

 

我如何將百度知道的核心指標(biāo)提升 7.5%

在我剛加入百度時,「百度知道」已經(jīng)成立三年,采用「問答」的形式,每天有 9 萬多次提問和 25 萬多次回答。由于產(chǎn)品形態(tài)成熟、數(shù)據(jù)穩(wěn)定,所以優(yōu)化與提升空間非常狹小。

為了提升百度知道的核心指標(biāo)——回答量,我們開始研究用戶,并嘗試對不同用戶采用不同的策略。比如為他們展示不同的樣式和界面,以此來提升百度知道的產(chǎn)品黏性和價值。

在 2008 年初,我們開始嘗試通過待解決問題推薦的方式來提升回答量。

第一次,基于核心用戶。我們抽取了 35 萬個核心用戶群 —— 近 1個月回答問題的次數(shù)在 6 次之上的用戶群體 —— 為該用戶群體抽取了 17 萬多個興趣詞,并做了個性化推薦。

這次試驗前后歷時 3 個多月,結(jié)果卻十分令人失望。我們發(fā)現(xiàn),用戶只是將回答問題的入口,從之前的分類頁面改到了個人中心,僅此而已,用戶回答量沒有發(fā)生變化。

對此,我們進(jìn)行了反思。一般來說產(chǎn)品的優(yōu)化與提升只有兩種思路,要么吸引更多新用戶,要么在單個用戶上「榨取」更多價值。既然老用戶被「榨取」得差不多了,不妨嘗試拉新用戶,進(jìn)而擴(kuò)大用戶規(guī)模。

因此,我們進(jìn)行了第二次嘗試,基于所有用戶做個性化推薦,而非僅針對核心用戶。

百度內(nèi)部當(dāng)時有一個項目叫「后羿」,起源于百度在 2008 年做個性化廣告的設(shè)想,即在用戶進(jìn)行搜索操作時,基于用戶所搜索的關(guān)鍵詞和用戶行為記錄,為用戶推出相關(guān)廣告。

用戶通過瀏覽器進(jìn)行訪問的時候,都會種下一個 Cookie,用戶在百度貼吧、百度知道、百度網(wǎng)頁所瀏覽的信息都能通過 Cookie 串到一起。這為后續(xù)進(jìn)行用戶行為分析打下了堅實的根基。

于是,我們直接基于這些數(shù)據(jù),根據(jù)用戶的檢索和訪問頁面的標(biāo)題進(jìn)行興趣模型訓(xùn)練,抽取每個用戶權(quán)重最高的 5 個興趣詞,當(dāng)用戶訪問百度知道的詳情頁時,我們基于每個用戶的興趣詞做實時搜索,將 7、8 個待解決的問題放到頁面右側(cè)。

這次嘗試效果非常好,新版上線后,百度知道的回答量提升了 7.5%,而我也因此獲得當(dāng)時百度個人的最高榮譽(yù) —— 「最佳百度人」獎項。

接下來,我對百度知道又做了一些改良,比如讓推薦問題更具多樣性、按照用戶對「興趣點(diǎn)」發(fā)生的時間進(jìn)行權(quán)重調(diào)整等。但我也發(fā)現(xiàn)再往后提升就比較困難了,在這之后,我被安排到一個數(shù)據(jù)統(tǒng)計團(tuán)隊工作。

從零到一構(gòu)建百度大數(shù)據(jù)分析平臺

從 2008 年加入數(shù)據(jù)統(tǒng)計團(tuán)隊之后,我就開始專注在大數(shù)據(jù)分析平臺。當(dāng)時還沒有「大數(shù)據(jù)」的概念(大數(shù)據(jù)的概念大約在 2011 年出現(xiàn)),我在百度從零到一做這個事情的過程可以分成三個階段。

第一階段:2008 年,日志統(tǒng)計平臺

2008 年,百度流量已經(jīng)很大,尤其是百度知道、百度貼吧的數(shù)據(jù)量。前面提到,百度強(qiáng)調(diào)要用數(shù)據(jù)說話,這點(diǎn)我是非常認(rèn)可的。百度做產(chǎn)品、功能都要基于數(shù)據(jù)。但當(dāng)我們需要進(jìn)行流量統(tǒng)計和數(shù)據(jù)分析時,就遇到了問題。

因為各業(yè)務(wù)都會有處理起來非常煩瑣的需求:要寫腳本。這導(dǎo)致整個需求響應(yīng)周期非常長,維護(hù)多個腳本十分麻煩,很容易出問題。當(dāng)時主要基于單機(jī)來計算,數(shù)據(jù)規(guī)模稍大的任務(wù),通常要跑好幾個小時。

為解決這個問題,我們當(dāng)時想到使用 Hadoop。

可以說 Hadoop 是整個大數(shù)據(jù)生態(tài)的根基,其作用就像 PC 領(lǐng)域的 Windows。通過它我們可以實現(xiàn)海量數(shù)據(jù)的存儲和分布式計算。當(dāng)然,我們現(xiàn)在所說的 Hadoop 生態(tài),還包括了數(shù)據(jù)傳輸、機(jī)器學(xué)習(xí)等其他組件。

當(dāng)時 Hadoop 還只是測試版,使用起來非常不穩(wěn)定。我們在進(jìn)行平臺設(shè)計時,留有兩套計算接口:一套將數(shù)據(jù)提交到 Hadoop 平臺,一套將數(shù)據(jù)提交到已有的單機(jī)服務(wù)。

Hadoop 到底能不能解決我們的日志統(tǒng)計問題,我們心里沒底。如果 Hadoop 滿足不了需求,我們就還是用單機(jī)做計算。

做一個平臺并不難,關(guān)鍵是怎么做一個好用的平臺。

我把常用的統(tǒng)計分析需求進(jìn)一步抽象,分別抽象為計數(shù)統(tǒng)計、去重統(tǒng)計和 Top N 統(tǒng)計,并設(shè)計了一個界面,可以通過點(diǎn)選直接生成對應(yīng)的任務(wù),整個操作非常流暢。下圖當(dāng)時我們做的日志統(tǒng)計平臺架構(gòu)圖。

桑文鋒增長實操復(fù)盤:如何使核心指標(biāo)提升 7.5%
日志統(tǒng)計平臺 LSP 1.0 架構(gòu)圖

平臺發(fā)布后的效果讓我很震驚。首先是常規(guī)的需求開發(fā),從幾天降到了幾分鐘。其次是運(yùn)行周期,從單機(jī)計算變成一百多臺機(jī)器分布式計算,幾個小時的任務(wù)變成一兩分鐘。

經(jīng)過一年多的時間,整個公司都統(tǒng)一到這個平臺。這是我在百度做的最有成就感的一件事。

但是,基本統(tǒng)計需求得到解決后,很多新需求又被釋放出來。由于整個公司都在用,用于日志統(tǒng)計平臺的機(jī)器從 100 多臺增長到 5000 臺,我們每個季度提預(yù)算的時候都要提 1000 臺機(jī)器,我心驚膽戰(zhàn),畢竟日志統(tǒng)計團(tuán)隊做的這些統(tǒng)計任務(wù)到底有多大價值,很難衡量。

后來我的團(tuán)隊從以計算為中心的思路,轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心,也就是構(gòu)建數(shù)據(jù)倉庫。

第二階段:2011 年,用戶數(shù)據(jù)倉庫

當(dāng)時百度已經(jīng)有幾十條業(yè)務(wù)線,這些業(yè)務(wù)線從源頭產(chǎn)生的數(shù)據(jù)質(zhì)量不高,而且推動這些業(yè)務(wù)線進(jìn)行改造實在太難了。我們就采用折中的方式:保持源頭不動,將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,使整個公司的業(yè)務(wù)線形成用戶數(shù)據(jù)倉庫。在這個基礎(chǔ)上,構(gòu)建不同業(yè)務(wù)的主題數(shù)據(jù),在此之上建立 BI 支持,這就形成了一個數(shù)據(jù)金字塔,如下圖所示。

桑文鋒增長實操復(fù)盤:如何使核心指標(biāo)提升 7.5%
用戶數(shù)據(jù)倉庫模型

這其中最核心的就是 User Data Warehouse 部分。我們當(dāng)時采用一種 Event(行為事件)模型,把用戶在百度進(jìn)行的任何一次行為記錄,都規(guī)范為一個 Event。

Event 的屬性包括用戶 ID、時間、設(shè)備信息、行為特有的參數(shù)等。這樣,全百度的業(yè)務(wù)線都統(tǒng)一到一張表上,我們通過用戶 ID 把用戶在百度各個業(yè)務(wù)線的訪問行為全部抽出來,再這上面做數(shù)據(jù)挖掘、數(shù)據(jù)分析變得非常容易。

桑文鋒增長實操復(fù)盤:如何使核心指標(biāo)提升 7.5%
用戶行為事件

第三階段:2013 年,數(shù)據(jù)源管理

當(dāng)我們構(gòu)建整個數(shù)據(jù)金字塔,進(jìn)入新的數(shù)據(jù)階段后,又出現(xiàn)新的問題。雖然整個架子搭起來了,但是四處漏風(fēng)。

每次源頭的變更,我們都要進(jìn)行新的數(shù)據(jù)清洗和入庫工作,開發(fā)周期和后續(xù)的運(yùn)算周期非常長。業(yè)務(wù)線在上線之后不能馬上使用數(shù)據(jù),我們數(shù)據(jù)團(tuán)隊也疲于奔命。

痛定思痛,我們覺得問題的關(guān)鍵還是在數(shù)據(jù)源,要從源頭去解決這個問題。之后我們做的事情可以分成三塊:

  • 第一塊是從數(shù)據(jù)源方面,將我們開發(fā)的內(nèi)部的結(jié)構(gòu)化日志打印庫和字段變更審核系統(tǒng),引入和 Google Protocol Buffer 作為結(jié)構(gòu)化的格式;
  • 第二塊是開發(fā)新的實時傳輸系統(tǒng) Minos,將批量數(shù)據(jù)傳輸?shù)姆绞礁脑鞛閷崟r數(shù)據(jù)傳輸。
  • 第三塊是查詢,對查詢引擎本身做了改造,改造的時候提出數(shù)據(jù)從源頭產(chǎn)生之后馬上就能通過查詢引擎分析的目標(biāo)。

在整個數(shù)據(jù)源管理的項目中,最難的不是系統(tǒng)組件的開發(fā),而是推動各個業(yè)務(wù)線配合升級新的日志打印方式。

我當(dāng)時讓成員做了一個 Web 版的中國地圖,把省份和大城市標(biāo)記為百度的核心業(yè)務(wù)線,每推動一個地方完成改造就插上紅旗。經(jīng)過一年半的時間,這份地圖上都插滿了紅旗,這是我在百度做的第二有成就感的事情。

我相信,在不遠(yuǎn)的將來,不管你處在什么行業(yè)什么職位,數(shù)據(jù)分析都是你不得不具備的一種能力。為此我們還推出一本新書,名叫《數(shù)據(jù)驅(qū)動:從方法到實踐》。

本書提供給你一個極好的知識儲備的機(jī)會,它有三點(diǎn)非常值得推薦:

  • 第一,淺顯易懂地表達(dá)大數(shù)據(jù)的底層技術(shù),讓你能夠明白數(shù)據(jù)怎么產(chǎn)生,怎么加工,怎么存儲和運(yùn)算;
  • 第二,拋開了晦澀難懂的各種模型和算法,將最普適的數(shù)據(jù)洞察和分析的方法呈現(xiàn)給你,讓你能迅速具備“閱讀數(shù)據(jù)”的能力;
  • 第三,清晰地將電商、互聯(lián)網(wǎng)金融、零售、SaaS 軟件等行業(yè)鮮活的數(shù)據(jù)應(yīng)用案例呈現(xiàn)給你,讓你加深對數(shù)據(jù)應(yīng)用的理解。

相信大家閱讀此書后會更深入的了解,數(shù)據(jù)是如何驅(qū)動企業(yè)發(fā)展與產(chǎn)品迭代的。

文:桑文鋒? ? 整理:范冰@增長官研究院


相關(guān)文章推薦:

分析了近5萬首《全唐詩》,發(fā)現(xiàn)了這些有趣的秘密
從 0 到 1 搭建流量轉(zhuǎn)化分析體系
以紅酒電商為例,探討如何做到增長黑客

更多精彩,關(guān)注:增長黑客(GrowthHK.cn)

增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.gptmaths.com/cgo/9638.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2018-04-08 22:43
下一篇 2018-04-08 23:03

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論