国产91成年人视频观看_国产精品拍在线天天更新_中文字幕无碼在线_国产精品直接看的片

×

網(wǎng)站建設(shè)

當(dāng)前位置:首頁 > 龍鼎新聞 > 行業(yè)新聞 >

專訪騰訊數(shù)據(jù)負(fù)責(zé)人蔣杰:騰訊數(shù)十億廣告的基礎(chǔ)是精準(zhǔn)實(shí)

作者:龍鼎網(wǎng)絡(luò)發(fā)布時(shí)間:2015-08-18 18:24:10瀏覽次數(shù):15386文章出處:晉城自適應(yīng)網(wǎng)站制作

  注:本文是福布斯中文網(wǎng)“數(shù)據(jù)大玩家”專欄中的一篇文章。接受提問的蔣杰先生,是騰訊數(shù)據(jù)平臺部總經(jīng)理,在加入騰訊前,他曾經(jīng)是支付寶的數(shù)據(jù)經(jīng)理。提問的車品覺先生,是中國信息協(xié)會(huì)大數(shù)據(jù)分會(huì)副會(huì)長。

  在過去幾年,你在騰訊做了什么來推動(dòng)大數(shù)據(jù)的應(yīng)用?

  過去三年,我一直在堅(jiān)持一件事:推動(dòng)大數(shù)據(jù)的實(shí)時(shí)應(yīng)用。現(xiàn)在從國外數(shù)據(jù)中心的數(shù)據(jù),一秒鐘可以達(dá)到深圳數(shù)據(jù)中心,這就是騰訊具備的數(shù)據(jù)能力。有了這個(gè)能力,就可以做很多商業(yè)化行為的模式。

  目前騰訊收集的數(shù)據(jù)已經(jīng)超過了1萬億條, 計(jì)算機(jī)規(guī)模已經(jīng)超過了8千8百臺。這么龐大的數(shù)據(jù)如果能實(shí)時(shí)處理,就能發(fā)揮出巨大的商業(yè)價(jià)值。這個(gè)商業(yè)價(jià)值就是精準(zhǔn)推薦。

  每年騰訊幾十億的廣告,其基礎(chǔ)來自于數(shù)據(jù)的精準(zhǔn)推薦。實(shí)時(shí)數(shù)據(jù)推薦還可以用于視頻的推薦,騰訊音樂推薦,新聞客戶端的推薦,游戲道具的推薦,等等。

  目前我們做到從數(shù)據(jù)進(jìn)來到投放數(shù)據(jù),延時(shí)不會(huì)超過50毫秒。有這個(gè)技術(shù)基礎(chǔ),騰訊的精準(zhǔn)推薦才有了基礎(chǔ)。

  從內(nèi)部管理而言,實(shí)時(shí)也降低了成本。因?yàn)閷?shí)時(shí)數(shù)據(jù)處理可以用足“每一秒”。傳統(tǒng)的數(shù)據(jù)倉庫一般從晚上零點(diǎn)到第二天早上八點(diǎn),做數(shù)據(jù)截?cái)?、抽取和處理,因?yàn)樵缟暇劈c(diǎn)老板就要看數(shù)據(jù)報(bào)告了。數(shù)據(jù)處理的時(shí)間只有一天之中的三分之一,其他時(shí)間都是空閑的。

  當(dāng)我們把數(shù)據(jù)做到實(shí)時(shí)處理的事后,實(shí)際意義是將分析時(shí)間成本分?jǐn)偟饺?,成本更低。同時(shí)這也有利于控制風(fēng)險(xiǎn),因?yàn)橹灰怀鲥e(cuò)馬上可以監(jiān)控,迅速回滾。

  所以你將大部分精力放在了“實(shí)時(shí)”上,你為什么認(rèn)定“實(shí)時(shí)”會(huì)為騰訊增加更多的商業(yè)價(jià)值?

  數(shù)據(jù)首先是有時(shí)效性的,一秒鐘前的行為和一秒鐘后的行為有著天差地別。

  以往我們通過統(tǒng)計(jì)數(shù)據(jù),得出規(guī)律,找到用戶喜好。而現(xiàn)在實(shí)時(shí)變得更為重要。前一秒你看了母嬰內(nèi)容,那么幾秒內(nèi)就應(yīng)該推送相關(guān)廣告,轉(zhuǎn)化率會(huì)比較高。如果你還在推送幾天前,這個(gè)用戶看足球的數(shù)據(jù)信息,這個(gè)生意就很難做下去了。

  在騰訊,我們分三個(gè)領(lǐng)域各自研究精準(zhǔn)推薦:數(shù)據(jù)整理、實(shí)時(shí)計(jì)算、算法研究。我深知,實(shí)時(shí)計(jì)算是關(guān)鍵核心。

  在我的腦海中,一切數(shù)據(jù)必須以消息為中心,實(shí)時(shí)處理、提煉瓜分。實(shí)在解決不了的數(shù)據(jù),再做離線分析。

  比如一張照片,在數(shù)據(jù)處理端口肯定首先被實(shí)時(shí)過濾,這張照片是在哪里拍的?其中幾個(gè)人,通過什么方式拍攝的?在所有數(shù)據(jù)收集處理完之后,我可能還需要找這張圖片與其他圖片的關(guān)聯(lián)關(guān)系,這時(shí)才會(huì)做離線處理。

  騰訊基本上90%以上的數(shù)據(jù)都是在線實(shí)時(shí)處理。我一直在堅(jiān)持將騰訊的數(shù)據(jù)集中起來,放在一個(gè)平臺體系之下,這其實(shí)是來自阿里巴巴的教訓(xùn)。(蔣杰原來在支付寶數(shù)據(jù)部門工作)阿里巴巴的數(shù)據(jù)直到今天還是四分五裂。

  其實(shí),我對于數(shù)據(jù)的實(shí)時(shí)經(jīng)驗(yàn)也是在支付寶時(shí)期積累的。當(dāng)時(shí)我學(xué)到的一點(diǎn)是,如果沒有搜索引擎的支撐,就根本無法做數(shù)據(jù)分析。當(dāng)時(shí)很多人都說,沒有辦法讓數(shù)據(jù)在6秒內(nèi)被搜索出來,而我堅(jiān)持認(rèn)為可以達(dá)到。

  實(shí)際上,現(xiàn)在在騰訊,一萬五千個(gè)字段,在3秒之內(nèi)所有的數(shù)據(jù)交叉都可以實(shí)現(xiàn)。這是一個(gè)做技術(shù)的本分。

  在實(shí)時(shí)這個(gè)領(lǐng)域,技術(shù)上的難點(diǎn)是什么?

  我一直在慢慢弱化數(shù)據(jù)倉庫,逐步走向?qū)崟r(shí)數(shù)據(jù)倉庫。其中最大的問題是,如何實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)獲取?

  數(shù)據(jù)實(shí)時(shí)處理的前提,首先是實(shí)時(shí)采集。我的辦法是一方面和業(yè)務(wù)部門談好,另一方面我將數(shù)據(jù)采集文件部署到所有的機(jī)器里,從安裝操作系統(tǒng)的時(shí)候就寫入數(shù)據(jù)采集文件。這樣,騰訊所有40萬臺機(jī)器都可以協(xié)同操作。

  過去兩年,騰訊從原來的一小時(shí)響應(yīng),到現(xiàn)在一秒鐘精準(zhǔn)推送,CTR (點(diǎn)擊率)能提升20%。規(guī)模越大效果越明顯。

  精準(zhǔn)推薦有三大要素,第一是數(shù)據(jù),第二是實(shí)時(shí),第三是算法。

  首先要有強(qiáng)大的數(shù)據(jù),如果數(shù)據(jù)缺失什么都干不了;第二,效果明顯的是實(shí)時(shí),第三才是優(yōu)化算法。這是整個(gè)精準(zhǔn)推薦體系的核心。實(shí)時(shí)在其中排在第二,我們的實(shí)踐證明, 在什么都沒變的情況下,頻率改變帶來了整體收入的提升。

  在解決了獲取數(shù)據(jù)之后,數(shù)據(jù)底層所遭遇的最大困難是什么?

  眼下的挑戰(zhàn)在于深度學(xué)習(xí)。大數(shù)據(jù)時(shí)代,騰訊有200PB的圖片數(shù)據(jù),如何去挖掘圖片數(shù)據(jù)的價(jià)值?如何去挖掘語音數(shù)據(jù)的價(jià)值?

  我們正在做的是從結(jié)構(gòu)化數(shù)據(jù)分析轉(zhuǎn)向非結(jié)構(gòu)化數(shù)據(jù)。如何從非結(jié)構(gòu)化數(shù)據(jù)中提煉商業(yè)價(jià)值?這包括了深度學(xué)習(xí)的DNN和CNN技術(shù),包括如何做文本之間相似度的關(guān)系。這都是需要突破的點(diǎn)。

  微信所有的語音訓(xùn)練都是深度學(xué)習(xí)的辦法來處理。比如,每當(dāng)你在用微信放語音的時(shí)候,機(jī)器自動(dòng)翻譯成文字,就是靠深度學(xué)習(xí)網(wǎng)絡(luò)來訓(xùn)練的。但目前,計(jì)算能力依然是一個(gè)門檻,這個(gè)能力并非我們想象這么輕松,需要更多計(jì)算技術(shù)來改進(jìn)。

  未來數(shù)據(jù)處理會(huì)有劇烈的改變么?

  硬件決定了數(shù)據(jù)的能效。數(shù)據(jù)規(guī)模越大,數(shù)據(jù)展現(xiàn)的方式會(huì)越多,未來實(shí)時(shí)計(jì)算的處理需求會(huì)越來越旺盛。相信未來,能貼合更多應(yīng)用場景的高效計(jì)算引擎會(huì)出現(xiàn),這是我對未來的判斷。

  很明顯的是,如果當(dāng)前一秒的數(shù)據(jù)沒有處理完整,提煉清楚,隨后的分析成本就會(huì)越來越高,而數(shù)據(jù)的價(jià)值則越來越低。所以,在未來,高效計(jì)算引擎和存儲(chǔ)引擎的出現(xiàn),會(huì)對大數(shù)據(jù)發(fā)展有突飛猛進(jìn)的效用。

  后記:

  在蔣杰看來,沒什么比實(shí)時(shí)更重要。在騰訊,他敏感意識到實(shí)時(shí)數(shù)據(jù)對于廣告的價(jià)值,所以把大部分精力放到實(shí)時(shí)處理數(shù)據(jù)以及如何優(yōu)化廣告投放上。

  今天很多公司的數(shù)據(jù)倉庫是離線的,也因此數(shù)據(jù)距離實(shí)際業(yè)務(wù)很遙遠(yuǎn),這個(gè)距離不僅僅是無法實(shí)時(shí)反應(yīng),更多在于無法保證數(shù)據(jù)的穩(wěn)定和質(zhì)量。

  以此而言,數(shù)據(jù)實(shí)時(shí)化是業(yè)務(wù)與數(shù)據(jù)的結(jié)合的關(guān)鍵。

  但實(shí)時(shí)數(shù)據(jù)并非終點(diǎn)。

  每秒都在生產(chǎn)新數(shù)據(jù),新數(shù)據(jù)與既有數(shù)據(jù)之間的關(guān)系如何梳理?假如我們一直通過數(shù)據(jù)收集、分析得知,電腦前坐著的是一只狗,但假如某天的數(shù)據(jù)收集顯示,它會(huì)貓叫。那么我們能判斷電腦前的其實(shí)是一只貓么?

  這不僅僅是數(shù)據(jù)更新變化這么簡單,而關(guān)系到我們?nèi)绾闻袛嗪头治觥?/p>

  所以,此時(shí),延時(shí)判斷變得很重要。

  如何在龐大數(shù)據(jù)面前,做出延時(shí)判斷?盡管你有實(shí)時(shí)數(shù)據(jù)分析的能力。

  這可能是下一個(gè)更有趣的話題。

客戶評價(jià)

專業(yè)的網(wǎng)站建設(shè)、響應(yīng)式、手機(jī)站微信公眾號開發(fā)

© 2010-2020 龍鼎網(wǎng)絡(luò) 版權(quán)所有 晉ICP備14008335號-1

注冊號:140502200020561

公眾號 微信聯(lián)系

手機(jī)版 進(jìn)入手機(jī)版