非常多競(jìng)品app的文章分類(lèi),發(fā)現(xiàn)基本上趨于一致,但也有一些細(xì)節(jié)上的差異,更多的問(wèn)題,在于資訊文章的分類(lèi)很難窮盡,我們參考了市面上已有的分類(lèi),并結(jié)合一些資料制定了一整套內(nèi)容興趣偏好體系,在指定分類(lèi)時(shí),基本達(dá)到了相互獨(dú)立完全窮盡。
給用戶(hù)打標(biāo)簽的方式其實(shí)也可以包含兩種,統(tǒng)計(jì)類(lèi)的打標(biāo)簽及算法類(lèi)的打標(biāo)簽。統(tǒng)計(jì)類(lèi)相對(duì)簡(jiǎn)單粗暴式的以用戶(hù)一段時(shí)間閱讀的文章類(lèi)型作為用戶(hù)的興趣偏好。而算法類(lèi)則會(huì)增加更多的影響因素,包括文章閱讀的數(shù)量,閱讀的時(shí)間間隔,文章與當(dāng)前熱點(diǎn)事件的關(guān)系、用戶(hù)屬性因素等等。
前者在算法資源不足同時(shí)運(yùn)營(yíng)需求量大的情況下可以先行,而后者可以在前者的基礎(chǔ)上切分一部分流量對(duì)算法模型進(jìn)行驗(yàn)證和調(diào)整,不斷優(yōu)化。
但在用第一種方式進(jìn)行時(shí)我們發(fā)現(xiàn),用戶(hù)在一段時(shí)間內(nèi)閱讀的文章類(lèi)型并不是穩(wěn)定的,大部分用戶(hù)會(huì)有一個(gè)或者幾個(gè)主要的興趣偏好,這些類(lèi)型閱讀的文章篇數(shù)會(huì)更多,但同時(shí),用戶(hù)也會(huì)或多或少的閱讀一些其他類(lèi)型的文章,甚至有些用戶(hù)是看到哪里算哪里,什么都會(huì)看。
基于這樣的情況,我們需要對(duì)用戶(hù)的興趣偏好進(jìn)行排名,即通過(guò)對(duì)用戶(hù)一段時(shí)間內(nèi)每種文章類(lèi)型閱讀的文章數(shù)進(jìn)行排名,并取用戶(hù)top 10的標(biāo)簽,清晰告訴運(yùn)營(yíng)用戶(hù)喜歡什么類(lèi)型的文章,這些類(lèi)型中,用戶(hù)喜歡類(lèi)型的優(yōu)先級(jí)是怎樣的,便于運(yùn)營(yíng)同學(xué)進(jìn)行推送選擇。
因此,用戶(hù)的標(biāo)簽也需要更加靈活,能夠讓運(yùn)營(yíng)同學(xué)基于事件發(fā)生時(shí)間及事件發(fā)生次數(shù)等權(quán)重進(jìn)行靈活組合選擇用戶(hù)群。由于目前push推送很大一部分是由人工進(jìn)行的,從選擇文章,到選擇用戶(hù),到文章和用戶(hù)的匹配,在正式進(jìn)行推送前一般都會(huì)進(jìn)行大批量的A/B test ,而資訊文章的類(lèi)型非常多,僅一級(jí)標(biāo)簽已經(jīng)達(dá)到30+種,二級(jí)標(biāo)簽從100到幾百不等,總體的標(biāo)簽極有可能會(huì)有成千的標(biāo)簽,單靠運(yùn)營(yíng)同學(xué)進(jìn)行推送,是絕對(duì)無(wú)法完成的。
因此,在運(yùn)營(yíng)資源有限又無(wú)法實(shí)現(xiàn)自動(dòng)化的的情況下一般運(yùn)營(yíng)同學(xué)會(huì)對(duì)標(biāo)簽進(jìn)行測(cè)試,并選擇其中覆蓋用戶(hù)量大且轉(zhuǎn)化率較高的標(biāo)簽。但同時(shí)這樣的情況就會(huì)導(dǎo)致部分興趣偏好比較小眾的用戶(hù)被排除出推送的人群。
針對(duì)這樣的情況,我們?nèi)×擞脩?hù)top 10的二級(jí)標(biāo)簽及其對(duì)應(yīng)的一級(jí)標(biāo)簽作為用戶(hù)的一級(jí)和二級(jí)標(biāo)簽。這樣,解決了用戶(hù)覆蓋量的問(wèn)題,也可以讓運(yùn)營(yíng)人員集中精力對(duì)主體標(biāo)簽及人群進(jìn)行推送。
但同時(shí),另一個(gè)問(wèn)題又出現(xiàn)了,選擇用戶(hù)一段時(shí)間內(nèi)的行為,那么這個(gè)一段時(shí)間究竟是多長(zhǎng)會(huì)更加合適,使得既達(dá)到能充分反應(yīng)用戶(hù)興趣,同時(shí)又覆蓋到更多的人群(每天都會(huì)有流失的用戶(hù),因此時(shí)間線(xiàn)越長(zhǎng)覆蓋用戶(hù)量越大,時(shí)間線(xiàn)越短覆蓋用戶(hù)量越少)
我們發(fā)現(xiàn),用戶(hù)長(zhǎng)期的興趣偏好趨于某種程度的穩(wěn)定,但短期的興趣偏好卻又反應(yīng)了用戶(hù)短期內(nèi)跟隨熱點(diǎn)的行為。因此從這個(gè)層面來(lái)看,短期可能更能滿(mǎn)足用戶(hù)的需求,但短期覆蓋用戶(hù)量小。在這里,始終有覆蓋量和轉(zhuǎn)化率之間永恒的矛盾。
我們的方式是,對(duì)用戶(hù)根據(jù)瀏覽時(shí)間進(jìn)行分段。賦予用戶(hù)長(zhǎng)期興趣偏好和短期興趣偏好,并優(yōu)先短期興趣偏好,從長(zhǎng)期興趣偏好中則將短期興趣用戶(hù)進(jìn)行排除,進(jìn)行不同的推送。而對(duì)于流失用戶(hù),極有可能在最近3個(gè)月(資訊當(dāng)時(shí)定義流失用戶(hù)時(shí)間為3個(gè)月)沒(méi)有任何訪(fǎng)問(wèn)記錄,針對(duì)于這樣的用戶(hù),我們?nèi)∮脩?hù)最后一次有記錄的標(biāo)簽作為用戶(hù)標(biāo)簽,并進(jìn)行流失挽回。
至此,所有的用戶(hù)也都有了屬于自己的標(biāo)簽,而運(yùn)營(yíng)同學(xué)也可以根據(jù)用戶(hù)的活躍時(shí)間以及閱讀的頻率對(duì)不同的用戶(hù)進(jìn)行不同的文章推送,真正的實(shí)現(xiàn)千人千面。
而第二種方式,是通過(guò)算法直接為用戶(hù)打上標(biāo)簽,除了時(shí)間和閱讀頻次,在算法模型中還可以增加更多的特征緯度,比如用戶(hù)閱讀文章距離現(xiàn)在的時(shí)間、閱讀文章的時(shí)長(zhǎng)、評(píng)論、點(diǎn)贊等等,同時(shí),還可以針對(duì)于熱點(diǎn)文章、熱點(diǎn)事件,降低文章的權(quán)重。