在線多源媒體的話題演化分析
發(fā)布時間:2020-06-13 05:36
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的迅猛發(fā)展,門戶新聞網(wǎng)站、各類新聞媒體平臺和搜索引擎構(gòu)成的在線多源媒體已然成為了描述各類話題的重要載體。話題在大規(guī)模在線多源媒體中呈現(xiàn)的演化過程逐漸成為信息檢索領(lǐng)域的一個重要的研究方向。主題模型在潛在語義挖掘和主題聚類等領(lǐng)域具有很多優(yōu)勢,近年來被廣泛應(yīng)用于話題演化研究領(lǐng)域。然而目前模型在話題演化的研究和應(yīng)用中主要集中于在大型語料庫中挖掘和劃分不同的話題,而分析某一個特定話題演化過程的應(yīng)用相對不足,其難點在于同一個話題的文本語義過于相似,不利于文本相似性計算或共現(xiàn)性統(tǒng)計,因此傳統(tǒng)的主題模型很難發(fā)揮良好的效果。本文通過研究話題在在線多源媒體環(huán)境下的演化過程,提出基于多維特征的話題演化模型,在分層狄利克雷過程(HDP)的基礎(chǔ)上,綜合考慮話題語料庫中文本的時間、關(guān)鍵詞、句法關(guān)系和命名實體等特征,通過增量詞向量訓(xùn)練的方法得到話題上下文語義關(guān)系,克服了文本語義顆粒過小導(dǎo)致的模型性能下降的問題,實現(xiàn)了話題在現(xiàn)實中的演化邏輯分析,挖掘話題在不同時期的焦點變化,呈現(xiàn)話題的演化圖譜。本文的主要工作有:(1)構(gòu)建話題特征集合庫:新聞是話題在在線多源媒體環(huán)境下最直接和客觀的表現(xiàn)形式之一,本文通過句法分析樹分析和提取話題片斷的主體、客體和行為等關(guān)系。在句法樹和詞性標(biāo)注的基礎(chǔ)上,獲取話題片斷的時間、位置、參與對象和組織機構(gòu)等實體關(guān)系。最終實現(xiàn)提取話題片斷的時間特征、句法特征(主體、客體和行為)和命名實體(位置、參與對象和組織機構(gòu))并構(gòu)建話題的特征集合庫。(2)話題語境下的詞向量訓(xùn)練:針對研究話題的新聞?wù)Z料庫,在傳統(tǒng)大規(guī)模新聞?wù)Z料庫的基礎(chǔ)上進行增量詞向量訓(xùn)練。通過詞向量的訓(xùn)練結(jié)果構(gòu)建基于話題語境的上下文語義關(guān)系,降低話題演化研究過程中的文本語義顆粒度。(3)基于多特征的話題演化模型:基于話題多維特征和詞向量關(guān)系,本文提出了基于多特征的話題演化模型(MFTEM)。模型在傳統(tǒng)分層狄利克雷過程(HDP)的基礎(chǔ)上,從橫向上擴展了時間維度,從縱向上增加了話題的多維特征,使模型更加符合話題演化的一般形式,并利用詞向量包含的上下文語義關(guān)系,擴展了文本中詞的語義,有利于分析和挖掘話題在不同階段的焦點變化,有效描述了話題在在線多源媒體環(huán)境下的演化過程,建立話題的演化圖譜。(4)實驗驗證:為了驗證話題演化分析的準(zhǔn)確性,本文基于現(xiàn)實門戶新聞網(wǎng)站和各類新聞媒體平臺,抓取了五個熱門話題的新聞數(shù)據(jù)進行實驗,并將實驗結(jié)果與第三方人工標(biāo)注的信息進行對比。從分析和對比結(jié)果可以得出:本文提出的MFTEM模型和特征選取方法能夠有效分析和描述話題在現(xiàn)實中的演化過程,并且可以用符合人們對話題演化的認知邏輯呈現(xiàn)話題的演化圖譜。同時,本文提出的模型算法以自動運行為主,對話題本身或模型均無需過多的先驗知識和專業(yè)理論水平,就可以發(fā)揮較好的效果。
【圖文】:
圖 1.1 5·12 汶川地震演化圖譜示例表 1.1 5·12 汶川地震演化情況時間 話題內(nèi)容2008年5月12日 14:28汶川縣發(fā)生8.0級地震2008年5月16日 溫家寶趕往災(zāi)區(qū)指導(dǎo)抗震2008年5月18日 5月19日至21日為全國哀悼日,省級衛(wèi)視、電視臺的臺標(biāo)置灰,4:58天安門廣場國旗降半旗,14時28分起全國默哀3分鐘2008年5月21日 建立災(zāi)后恢復(fù)重建基金2008年5月27日 實行一省幫一縣加快恢復(fù)重建2008年6月8日 地震災(zāi)后恢復(fù)重建條例公布2008年7月3日 國務(wù)院發(fā)布災(zāi)后重建指導(dǎo)從演化圖譜和百科標(biāo)注的話題演化信息可看出,汶川地震話題的演化過程經(jīng)歷了地震發(fā)生、抗震救災(zāi)、過渡安置和災(zāi)后重建等多個焦點的變化。在話題演化的各個階段,
圖 1.2 整體研究框圖本文的研究內(nèi)容包括:首先從在線多源媒體中獲取和篩選話題相關(guān)新聞?wù)Z料信息;其次提取新聞的時間特征、句法特征和命名實體特征,為了更精確地解析新聞描述內(nèi)容的實際時間,本文基于句法依賴關(guān)系提取句子中的時間關(guān)系子圖得到時間的完整表達式,并建立時間推理模型標(biāo)準(zhǔn)化表達式;同時為了克服同一話題下文本之間語義相似度過高的問題,本文基于話題語境對話題語料庫進行增量詞向量訓(xùn)練,使每個詞項可以包含文本的上下文語義信息,降低了語義顆粒度;然后在特征提取和詞向量的基礎(chǔ)上,建立基于多特征的話題演化模型,生成各階段子話題的時間、文檔和特征分布;再次基于演化分析結(jié)果,根據(jù)需求對子話題進行篩選合并,提取各階段子話題的關(guān)鍵信息和摘要內(nèi)容;最后建立話題演化圖譜。從應(yīng)用場景的角度,,本文較以往研究最大的區(qū)別和特點是以往的研究主要針對大型語料庫(包含多個話題),并從中挖掘和發(fā)現(xiàn)不同的話題劃分,對于話題演化的工作傾向于利用時間關(guān)系跟蹤各話題相關(guān)的文本,并展示每個單位時間內(nèi)的關(guān)鍵信息。而本文主要針對用戶關(guān)心的特定話題,在檢測和跟蹤話題相關(guān)文本的基礎(chǔ)上,對該話題內(nèi)部的演化過程進行進一步精細化劃分,通過生成子話題的分布,得到話題各階段的焦點變化、
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:G206;TP391.1
本文編號:2710732
【圖文】:
圖 1.1 5·12 汶川地震演化圖譜示例表 1.1 5·12 汶川地震演化情況時間 話題內(nèi)容2008年5月12日 14:28汶川縣發(fā)生8.0級地震2008年5月16日 溫家寶趕往災(zāi)區(qū)指導(dǎo)抗震2008年5月18日 5月19日至21日為全國哀悼日,省級衛(wèi)視、電視臺的臺標(biāo)置灰,4:58天安門廣場國旗降半旗,14時28分起全國默哀3分鐘2008年5月21日 建立災(zāi)后恢復(fù)重建基金2008年5月27日 實行一省幫一縣加快恢復(fù)重建2008年6月8日 地震災(zāi)后恢復(fù)重建條例公布2008年7月3日 國務(wù)院發(fā)布災(zāi)后重建指導(dǎo)從演化圖譜和百科標(biāo)注的話題演化信息可看出,汶川地震話題的演化過程經(jīng)歷了地震發(fā)生、抗震救災(zāi)、過渡安置和災(zāi)后重建等多個焦點的變化。在話題演化的各個階段,
圖 1.2 整體研究框圖本文的研究內(nèi)容包括:首先從在線多源媒體中獲取和篩選話題相關(guān)新聞?wù)Z料信息;其次提取新聞的時間特征、句法特征和命名實體特征,為了更精確地解析新聞描述內(nèi)容的實際時間,本文基于句法依賴關(guān)系提取句子中的時間關(guān)系子圖得到時間的完整表達式,并建立時間推理模型標(biāo)準(zhǔn)化表達式;同時為了克服同一話題下文本之間語義相似度過高的問題,本文基于話題語境對話題語料庫進行增量詞向量訓(xùn)練,使每個詞項可以包含文本的上下文語義信息,降低了語義顆粒度;然后在特征提取和詞向量的基礎(chǔ)上,建立基于多特征的話題演化模型,生成各階段子話題的時間、文檔和特征分布;再次基于演化分析結(jié)果,根據(jù)需求對子話題進行篩選合并,提取各階段子話題的關(guān)鍵信息和摘要內(nèi)容;最后建立話題演化圖譜。從應(yīng)用場景的角度,,本文較以往研究最大的區(qū)別和特點是以往的研究主要針對大型語料庫(包含多個話題),并從中挖掘和發(fā)現(xiàn)不同的話題劃分,對于話題演化的工作傾向于利用時間關(guān)系跟蹤各話題相關(guān)的文本,并展示每個單位時間內(nèi)的關(guān)鍵信息。而本文主要針對用戶關(guān)心的特定話題,在檢測和跟蹤話題相關(guān)文本的基礎(chǔ)上,對該話題內(nèi)部的演化過程進行進一步精細化劃分,通過生成子話題的分布,得到話題各階段的焦點變化、
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:G206;TP391.1
【參考文獻】
相關(guān)期刊論文 前4條
1 林盛;金培權(quán);趙旭劍;岳麗華;;時間感知的Web搜索研究[J];計算機學(xué)報;2015年11期
2 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實體鏈接方法[J];軟件學(xué)報;2014年09期
3 趙旭劍;楊春明;李波;張暉;金培權(quán);岳麗華;戴文鍇;;一種基于特征演變的新聞話題演化挖掘方法[J];計算機學(xué)報;2014年04期
4 周建英;王飛躍;曾大軍;;分層Dirichlet過程及其應(yīng)用綜述[J];自動化學(xué)報;2011年04期
本文編號:2710732
本文鏈接:http://www.lk138.cn/xinwenchuanbolunwen/2710732.html
最近更新
教材專著