ink="" data-mcesrc="http://www.argcandargv.com/skin/default/image/lazy.gif" class="lazy" original="http://upload.chinaz.com/2018/0225/201802251055033398.jpg" data-mceselected="1"/>
原標(biāo)題:今日頭條,走好
來源:創(chuàng)業(yè)邦
文 | L
今年春節(jié)可能是張一鳴過得最不開心的一年。
當(dāng)各大互聯(lián)網(wǎng)公司豪擲千金在各大春晚上怒刷一波存在感時(shí),本來也準(zhǔn)備大干一場的今日頭條旗下兩款產(chǎn)品——“火山小視頻”、“抖音”,卻遭遇了春晚冠名被多家衛(wèi)視臨時(shí)撤下的尷尬窘境,最后不得不用剛剛收購的自拍相機(jī)App激萌救場。
至于冠名被撤的原因,據(jù)鈦媒體報(bào)道,大概率上是因?yàn)槔钐煊樱@個(gè)中國喊麥第一人因歌詞含有違法性質(zhì)而被央視《焦點(diǎn)訪談》點(diǎn)名批評,隨后遭到全網(wǎng)封殺。而火山小視頻正是李天佑直播的平臺。
把時(shí)間往前推 2 個(gè)月。
2017 年 12 月 29 日,因傳播色情低俗信息,存在嚴(yán)重導(dǎo)向問題,對網(wǎng)上輿論生態(tài)造成惡劣影響。今日頭條手機(jī)客戶端“推薦”、“熱點(diǎn)”、“社會”、“圖片”、“問答”、“財(cái)經(jīng)”等 6 個(gè)頻道被暫停更新 24 小時(shí)。
短短兩個(gè)月時(shí)間內(nèi),這家被媒體捧為“TMD”三小巨頭之一的明星公司,旗下多款產(chǎn)品遭遇了不同程度的危機(jī),而這很難說不是在為其信奉的“算法沒有價(jià)值觀”的“價(jià)值觀”買單。
眾所周知,今日頭條以新聞聚合閱讀起家,利用個(gè)性化推薦技術(shù),打造出一款千人千面的資訊App,正是由于其對用戶資訊需求和閱讀喜好的準(zhǔn)確把握,短短幾年時(shí)間內(nèi)橫掃國內(nèi)新聞閱讀市場,甚至開始威脅到百度在內(nèi)容分發(fā)領(lǐng)域的地位。
然而即使今日頭條強(qiáng)大如斯,其頭上卻始終懸著一把達(dá)摩克斯之劍——版權(quán)與灰色內(nèi)容,這也是算法短時(shí)間內(nèi)難以克服的阿喀琉斯之踵。
算法的瓶頸
人工智能時(shí)代,算法確實(shí)代表著更為先進(jìn)的生產(chǎn)力,但算法并不是萬能的。
去年 9 月,人民網(wǎng)曾連發(fā) 3 篇評論文章,批評以今日頭條為代表的,單純依靠算法推薦的平臺價(jià)值觀缺失、制造信息繭房以及走向媚俗化,并過度追求“眼球新聞”。
事實(shí)上這也是今日頭條目前所面臨的算法瓶頸。
作為對外界批評的回應(yīng),今日頭條在 2018 年 1 月對外公布了算法原理。
ink=""/>
圖片來源于網(wǎng)絡(luò)
根據(jù)其公布的文章來看,今日頭條采用的典型推薦算法有協(xié)同過濾、邏輯回歸、DNN、因子分解機(jī)(Factorization Machine, FM)和梯度提升決策樹(GBDT)。
雖然目前業(yè)界普遍采用的是混合推薦來綜合各個(gè)推薦算法的優(yōu)點(diǎn),但算法的弱點(diǎn)仍然沒有被真正避免和彌補(bǔ)。
首先,算法嚴(yán)重依賴于數(shù)據(jù)的優(yōu)劣。訓(xùn)練數(shù)據(jù)的優(yōu)劣則直接關(guān)系到算法模型的優(yōu)劣。
算法背后實(shí)質(zhì)上是機(jī)器所做的枯燥乏味的,冷冰冰的數(shù)學(xué)計(jì)算,計(jì)算結(jié)果基本上就是后續(xù)內(nèi)容推薦的依據(jù)。
雖然點(diǎn)擊率、閱讀時(shí)長、點(diǎn)贊、評論、轉(zhuǎn)發(fā)都是推薦模型里可以量化的指標(biāo),但各大推薦平臺卻不得不承認(rèn)點(diǎn)擊率在推薦模型里仍然占有很高的權(quán)重。
利用人性弱點(diǎn)攫取用戶注意力的內(nèi)容,在點(diǎn)擊率這個(gè)指標(biāo)上面的表現(xiàn)天然好于一般內(nèi)容甚至是優(yōu)質(zhì)內(nèi)容。
而用戶的點(diǎn)擊閱讀行為數(shù)據(jù)反過來又會成為訓(xùn)練模型的數(shù)據(jù),成為給用戶推薦內(nèi)容的依據(jù),如此循環(huán)往復(fù),最終畸形的數(shù)據(jù)造就畸形的模型,畸形的模型組合成畸形的系統(tǒng),畸形的系統(tǒng)推薦出畸形的內(nèi)容。
其次是數(shù)據(jù)有效性問題。
用戶的需求變幻莫測,但系統(tǒng)卻難以捕捉需求背后用戶的真實(shí)意圖,再加上閱讀場景的不同,用戶之間的個(gè)體差異,看似需求中暗含著某些規(guī)律,實(shí)際上可能是“技術(shù)的幻想”。
最后,目前世界上還沒有任何算法膽敢保證其推薦內(nèi)容的質(zhì)量。
媒體習(xí)慣于夸大其詞,比如過于強(qiáng)調(diào)人工智能的“智能”,而選擇性忽略人工智能技術(shù)實(shí)際的進(jìn)展和應(yīng)用情況。
事實(shí)上目前的個(gè)性化推薦系統(tǒng)還遠(yuǎn)沒智能到讀懂文章的內(nèi)容,更沒法從本質(zhì)上分析內(nèi)容有沒有價(jià)值,而只能從外部的數(shù)據(jù)來衡量文章的質(zhì)量。
從這個(gè)角度看算法確實(shí)沒有“價(jià)值觀”。
因?yàn)樗不知道價(jià)值為何物。如果沒有編輯干預(yù),個(gè)性化推薦系統(tǒng)會推薦什么樣的內(nèi)容難以想象。
而作為國內(nèi)最大的個(gè)性化推薦平臺之一,今日頭條顯然對這些問題有著深切的感觸。
了解人工智能的人都知道,數(shù)學(xué)里的極限理論在人工智能領(lǐng)域有著廣泛的應(yīng)用,雖然完全去捕捉用戶的需求和意圖不可能,但通過獲取更多維度的數(shù)據(jù),交叉驗(yàn)證數(shù)據(jù)的有效性或許可以去無限逼近用戶的真實(shí)需求和意圖。
與用戶行為數(shù)據(jù)和歷史閱讀數(shù)據(jù)相比,更有效的數(shù)據(jù)莫過于社交數(shù)據(jù)。
根據(jù)GWI2017 年的報(bào)告顯示,平均每個(gè)網(wǎng)絡(luò)用戶每天在社交媒體和在線通訊平臺上花費(fèi) 2 個(gè)小時(shí) 15 分鐘時(shí)間,而這一數(shù)字在 2016 年還是 1 小時(shí) 49 分鐘。該報(bào)告還顯示98%的網(wǎng)絡(luò)用戶至少使用了一個(gè)社交網(wǎng)絡(luò)。平均每個(gè)網(wǎng)絡(luò)用戶擁有7. 6 個(gè)網(wǎng)絡(luò)賬戶。
ink=""/>
圖片來源于網(wǎng)絡(luò)
無疑社交網(wǎng)絡(luò)成為了數(shù)據(jù)挖掘的富礦,也能很好的模擬現(xiàn)實(shí)社會。
但作為一款資訊產(chǎn)品,今日頭條的社交化之路并非坦途。