基于貝葉斯網(wǎng)的新聞關(guān)注度預(yù)測
發(fā)布時間:2020-04-10 02:23
【摘要】:隨著今日頭條、網(wǎng)易新聞等各大新聞平臺的發(fā)展,基于互聯(lián)網(wǎng)產(chǎn)生了海量且規(guī)模不斷激增的網(wǎng)頁新聞。網(wǎng)頁新聞實(shí)時性、交互性和便捷的特點(diǎn),使其成為了主流的信息獲取渠道。帶來便捷的同時,網(wǎng)頁新聞數(shù)量的激增卻帶來了信息爆炸的問題,用戶很難從海量新聞中篩選出自己感興趣的新聞,由于新聞數(shù)量過多而使得新聞平臺難以有針對性地發(fā)布或推送新聞。利用人們通常更容易對那些關(guān)注度較高的新聞感興趣這一特點(diǎn),新聞關(guān)注度預(yù)測可為上述問題提供解決方案。新聞平臺可根據(jù)預(yù)測的新聞關(guān)注度來選擇關(guān)注度較高的新聞并推送給用戶,也可將預(yù)測的關(guān)注度用于改善新聞網(wǎng)站的布局,為在線廣告投放提供一種策略(例如,在預(yù)測到某條新聞將要受到關(guān)注后選擇在其中投放廣告,從而提高廣告的點(diǎn)擊率),也有助于提高信息的有效性,避免用戶被不感興趣的信息所干擾。目前研究人員提出了許多方法用于新聞關(guān)注度的預(yù)測,如分類或回歸、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林等。其中,以分類或回歸的方法應(yīng)用最為廣泛,這兩種方法的預(yù)測思想相同,都是將新聞表示成一組基于影響新聞關(guān)注度的特征,利用基于這組特征的數(shù)據(jù)集訓(xùn)練模型來預(yù)測新聞的關(guān)注度。但是,這些方法并未考慮新聞關(guān)注度相關(guān)的特征之間的相互依賴關(guān)系。貝葉斯網(wǎng)作為一種有效的不確定性知識表達(dá)和推理工具,可以對這些特征間的依賴關(guān)系進(jìn)行建模、并進(jìn)行推理,本文基于貝葉斯網(wǎng)來預(yù)測新聞的關(guān)注度。具體而言,本文的主要研究內(nèi)容如下:(1)在提取特征用于模型構(gòu)建的過程中,針對新聞關(guān)鍵詞太多而無法單獨(dú)衡量每個關(guān)鍵詞對新聞關(guān)注度影響的問題,本文利用不同等級的關(guān)鍵詞集合表達(dá)關(guān)鍵詞對新聞關(guān)注度的影響,將關(guān)鍵詞對新聞關(guān)注度的影響的研究問題轉(zhuǎn)化為新聞關(guān)鍵詞等級對新聞關(guān)注度影響的研究。(2)在構(gòu)建預(yù)測模型的過程中,針對評分搜索方法構(gòu)建的模型結(jié)構(gòu)依賴關(guān)系不合理問題,本文提出一種基于約束與評分搜索的結(jié)構(gòu)學(xué)習(xí)方法對結(jié)構(gòu)學(xué)習(xí)進(jìn)行約束限定,確保結(jié)構(gòu)學(xué)習(xí)得到的結(jié)構(gòu)依賴關(guān)系表達(dá)合理。(3)通過今日頭條爬取的1.7萬余條數(shù)據(jù)進(jìn)行實(shí)驗,測試了本文方法的有效性和可行性,并設(shè)計并實(shí)現(xiàn)了相應(yīng)的原型系統(tǒng)。
【圖文】:
分析來達(dá)到預(yù)測的目的。圖U中的化展示了現(xiàn)有的方法考慮的相關(guān)因素與新聞關(guān)逡逑注度的相互影響關(guān)系,即分析每個因素對新聞關(guān)注度的影響。但實(shí)際中,這些相關(guān)逡逑因素不是孤立存在的,它們之間存在著相互影響關(guān)系,如圖1.1中的G2所示,即關(guān)逡逑鍵詞的不同將會影響網(wǎng)頁新聞的類型和情感偏向,而關(guān)鍵詞和情感偏向影響著新逡逑聞關(guān)注度。本文在考慮這些因素對新聞關(guān)注度影響的同時,考慮這些因素間的相互逡逑依賴關(guān)系對新聞關(guān)注度的影響。逡逑2逡逑
作為一種應(yīng)用于復(fù)雜系統(tǒng)和數(shù)據(jù)分析的有效工定性依賴關(guān)系、充分利用樣本數(shù)據(jù)和相關(guān)領(lǐng)域知識,的應(yīng)用。逡逑結(jié)構(gòu)分和參數(shù)0兩部分構(gòu)成,e邋=<>,分是一個的屬性,DAG中的邊代表屬性間的依賴關(guān)系,,參賴關(guān)系程度。假設(shè)屬性&在分中的父節(jié)點(diǎn)集為;^(&),概率表^i|7Ii邋=邋PO^paO^)),則整個BN的聯(lián)合概率POi,…,xn)邋=邋nU0f|pa0i)出了邋3個節(jié)點(diǎn)的簡單貝葉斯網(wǎng),它刻畫了下雨(/?)、的關(guān)系,其中r和F代表事件發(fā)生與未發(fā)生。根據(jù)可以表示為:逡逑P(R,S,G)邋=邋P(S\R)P(G\S,R)P(R)數(shù)0求解出BN的聯(lián)合概率分布。逡逑—___邐R逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18
本文編號:2621615
【圖文】:
分析來達(dá)到預(yù)測的目的。圖U中的化展示了現(xiàn)有的方法考慮的相關(guān)因素與新聞關(guān)逡逑注度的相互影響關(guān)系,即分析每個因素對新聞關(guān)注度的影響。但實(shí)際中,這些相關(guān)逡逑因素不是孤立存在的,它們之間存在著相互影響關(guān)系,如圖1.1中的G2所示,即關(guān)逡逑鍵詞的不同將會影響網(wǎng)頁新聞的類型和情感偏向,而關(guān)鍵詞和情感偏向影響著新逡逑聞關(guān)注度。本文在考慮這些因素對新聞關(guān)注度影響的同時,考慮這些因素間的相互逡逑依賴關(guān)系對新聞關(guān)注度的影響。逡逑2逡逑
作為一種應(yīng)用于復(fù)雜系統(tǒng)和數(shù)據(jù)分析的有效工定性依賴關(guān)系、充分利用樣本數(shù)據(jù)和相關(guān)領(lǐng)域知識,的應(yīng)用。逡逑結(jié)構(gòu)分和參數(shù)0兩部分構(gòu)成,e邋=<>,分是一個的屬性,DAG中的邊代表屬性間的依賴關(guān)系,,參賴關(guān)系程度。假設(shè)屬性&在分中的父節(jié)點(diǎn)集為;^(&),概率表^i|7Ii邋=邋PO^paO^)),則整個BN的聯(lián)合概率POi,…,xn)邋=邋nU0f|pa0i)出了邋3個節(jié)點(diǎn)的簡單貝葉斯網(wǎng),它刻畫了下雨(/?)、的關(guān)系,其中r和F代表事件發(fā)生與未發(fā)生。根據(jù)可以表示為:逡逑P(R,S,G)邋=邋P(S\R)P(G\S,R)P(R)數(shù)0求解出BN的聯(lián)合概率分布。逡逑—___邐R逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 孔慶超;毛文吉;;基于動態(tài)演化的討論帖流行度預(yù)測[J];軟件學(xué)報;2014年12期
本文編號:2621615
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2621615.html
最近更新
教材專著