婷婷五月日韩av永久免费,国产精品日本一区,久久久久久国产精品mv,老色鬼欧美精品

職稱論文咨詢網(wǎng),專業(yè)提供留學(xué)生論文、職稱發(fā)表論文等各類論文學(xué)術(shù)咨詢服務(wù)的論文網(wǎng)站。

當(dāng)前位置:首頁 > 論文百科

基于聯(lián)合標(biāo)注和全局推理的篇章級事件抽取-經(jīng)濟(jì)職稱論文發(fā)表范文

來源:職稱論文咨詢網(wǎng)發(fā)布時間:2022-06-05 21:22:55
摘要:事件抽取可以幫助人們從海量的文本中快速、準(zhǔn)確地獲取感興趣的事件知識。然而,目前事件抽取的研究主要集中在從單一句子中抽取事件.由于事件構(gòu)成的復(fù)雜性和語言表述的多樣性,多數(shù)情況下多句才能完整地描述一個事件。因此,從篇章中抽取出完整的結(jié)構(gòu)化事件信息,顯得更有價值和意義。該文首先利用基于注意力機(jī)制的序列標(biāo)注模型聯(lián)合抽取句子級事件的觸發(fā)詞和實體,與獨立進(jìn)行實體抽取和事件識別相比,聯(lián)合標(biāo)注的方法在F值上提升了1個百分點。然后利用多層感知機(jī)判斷實體在事件中扮演的角色。最后,在句子級事件抽取的基礎(chǔ)上,利用整數(shù)線性規(guī)劃的方法■進(jìn)行全局推理.融合句子級事件信息,實現(xiàn)篇章級事件抽取.與基線模型相比.這種基于全局推理的篇章級事件抽取在F值上提升了3個百分點。   關(guān)鍵詞:篇章級事件抽取;聯(lián)合標(biāo)注;全局推理   o引言   當(dāng)今社會,互聯(lián)網(wǎng)已成為大部分人日常生活中不可或缺的一部分,在為人們的生活、學(xué)習(xí)、工作帶來極大方便的同時,互聯(lián)網(wǎng)中海量的非結(jié)構(gòu)化文本也給用戶帶來信息冗余繁多的困擾。面對日益增長的非結(jié)構(gòu)化文本數(shù)據(jù),如何幫助人們理解并快速獲取文本中的知識,顯得尤為重要,而信息抽取技術(shù)的提出正是為了解決這個問題。作為自然語言處理(NaturalLanguageProcessing,NLP)技術(shù)中的關(guān)鍵任務(wù),信息抽取在知識獲取中扮演著重要的角色。Grishman等⑴將信息抽取定義為:從自然語言文本中抽取指定類型的實體、關(guān)系、事件等事實信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。而面向非結(jié)構(gòu)化文本的事件抽取是信息抽取領(lǐng)域中的關(guān)鍵任務(wù)和重要的研究方向(其余還有實體抽取、關(guān)系抽取等),主要應(yīng)用于事件知識圖譜的構(gòu)建、事件信息獲取和輔助其他自然語言理解任務(wù)。   事件是個復(fù)雜的概念,在不同研究領(lǐng)域有不同的定義。事件抽取領(lǐng)域最具有影響力的評測會議----自動內(nèi)容抽取(AutomaticContentExtrac-non,ACE®)評測會議將事件定義為:事件是發(fā)生在某個特定時間或時間段、某個特定地域范圍內(nèi),由一個或多個角色參與的一個或多個動作構(gòu)成的事情或狀態(tài)的改變。事件中的相關(guān)術(shù)語具體定義如下:實體(entity):用戶感興趣的語義對象.通常是一個名詞(例如,“人物”);事件觸發(fā)詞(eventtrigger):觸發(fā)事件的核心詞,通常是動詞或者名詞(例如,“喪生”或“拍賣”);事件元素角色(eventargument):實體在事件中所扮演的角色•即事件的參與者;事件描述(eventmention):描述事件的一句話或者一個字段,通常會包含觸發(fā)詞和事件元素;事件類別(eventtype):事件觸發(fā)詞和事件角色共同決定了事件的類別。   事件觸發(fā)詞和實體描述進(jìn)行了特殊標(biāo)記,有下劃線的字段代表實體及其類別(例如,“10月31號”•時間),加粗字段代表觸發(fā)詞及其事件類別(“喪生”,死亡)。虛線連接觸發(fā)詞和實體.其上面文字代表實體在該事件中所扮演的角色。在本實例中,“喪生”觸發(fā)一個死亡事件,T0月31號”“桃園中正國際機(jī)場”“82人”在該事件中分別扮演時間、地點和受害者的事件角色.從而組成一個完整的事件,而實體“新加坡航空”在該事件中不扮演任何角色。由ACE中事件的定義及圖1實例可得,事件的組成要素主要包括事件的發(fā)生時間及地點,事件的參與角色以及與之相關(guān)的動作或狀態(tài)(觸發(fā)詞)。在現(xiàn)實世界中.每天都有各式多樣的不同場景、不同類型、不同粒度的事件發(fā)生,信息描述多樣化的同時也給事件抽取任務(wù)帶來難度。   作為自然語言處理中具有挑戰(zhàn)的任務(wù),事件抽取主要研究如何從非結(jié)構(gòu)化的文本信息中抽取出用戶感興趣的事件,并以結(jié)構(gòu)化的形式呈現(xiàn)出來。目前事件抽取的研究主要集中在兩個子任務(wù)上:事件識別和事件元素識別。事件識別:識別文本中的由事件觸發(fā)詞引導(dǎo)的事件實例,并根據(jù)當(dāng)前觸發(fā)詞和上下文信息判斷當(dāng)前觸發(fā)的預(yù)定義事件類型。事件元素識別:若某句被判定為特定事件類型的事件描述,需判斷句中實體和事件觸發(fā)詞之間的關(guān)系,這里的關(guān)系即為實體在該事件中所扮演的角色。上述事件抽取定義主要是針對句子級別的,而現(xiàn)有的事件抽取框架按照文本粒度可分為句子級事件抽取和篇章級事件抽取。句子級事件抽取焦點集中于識別句子中每個詞可能提及的單個事件.以及判斷句子實體在該事件中扮演的角色。雖然句子級抽取考慮的事件類型足夠通用(ACE2005中定義了33種事件),但對于總結(jié)文檔內(nèi)容來說,句子級抽取粒度太細(xì)了?,F(xiàn)實場景中,一篇文檔通常包含一個或者多個事件,這些事件對于整體的重要性各不相同.而同一事件也可能會在文檔中被多次提及。   篇章級事件抽取以文本中描述的主要事件為中心,用簡潔、結(jié)構(gòu)化的形式呈現(xiàn)給用戶。其在現(xiàn)實世界中直接面向用戶也具有明顯的適用性,它允許用戶快速獲取文檔中的事件內(nèi)容、地點和時間,而不需要通讀全文。難點在于,篇章事件抽取需要高質(zhì)量的句子級抽取結(jié)果以及相同事件不同事件描述之間事件元素的融合,考慮以下例句:例1:根據(jù)奧地利救災(zāi)組織的統(tǒng)計,在阿爾卑斯山登山纜車失火慘劇中有155名乘客喪生。例2:奧地利一處滑雪勝地的登山纜車11號在阿爾卑斯山隧道發(fā)生纜車失火慘劇.受害者中包括有1999年世界女子花式滑雪冠軍施密特。例1和例2是描述同一災(zāi)難事件的不同句子,分布在原文檔中不同的段落當(dāng)中。例1中包含該災(zāi)難事件的死亡人數(shù)和事故來源,例2中包含事件發(fā)生的時間和地點。事件描述例1和例2中的結(jié)構(gòu)化事件信息需要融合才能得到完整的篇章級事件信息,篇章級事件抽取依賴于句子級抽取結(jié)果和跨句子的事件元素融合。   從理論出發(fā),為了獲取篇章級事件的結(jié)構(gòu)化信息,需要句子級事件抽取結(jié)果和事件共指關(guān)系判斷。目前針對篇章事件抽取研究較少,還沒有統(tǒng)一的統(tǒng)計學(xué)模型能從篇章中直接抽取出篇章的事件信息。相反,句子級事件抽取的研究日趨成熟,在句子級抽取結(jié)果的基礎(chǔ)上進(jìn)行全局推斷提高篇章事件抽取的整體性能是本文研究的方向。本文采用管道(Pipeline)的方法將篇章級抽取問題分為3個子問題:①利用序列標(biāo)注模型對句子進(jìn)行實體和事件的聯(lián)合標(biāo)注;②采用多層感知機(jī)對事件描述中的實體進(jìn)行分類,判斷實體在該事件中所扮演的角色;③基于整數(shù)線性規(guī)劃做全局推理,得到篇章級結(jié)構(gòu)化事件信息。在整個流程圖中不借助標(biāo)注語料中的其他信息和外部資源。   總的來說,本文的貢獻(xiàn)在于以下3點:(1)提出了實體和事件的聯(lián)合標(biāo)注模型.此模型可以更好地利用上下文中的實體和事件的相互依賴關(guān)系。(2)提出利用整數(shù)線性規(guī)劃的方法進(jìn)行全局推理得到篇章事件抽取結(jié)果。(3)在ACE2005中文語料上進(jìn)行實驗,實驗結(jié)果驗證了模型的有效性。   1方法   近年來,已經(jīng)證明了神經(jīng)網(wǎng)絡(luò)方法在自然語言處理領(lǐng)域的有效性。Zeng等Chen等⑶最先將深度學(xué)習(xí)的方法應(yīng)用于關(guān)系抽取和事件抽取中,并取得了很好的效果。相對于傳統(tǒng)特征表示的方式,神經(jīng)網(wǎng)絡(luò)將詞向量(Wordembedding)作為輸入,避免了傳統(tǒng)特征提取過程過分依賴詞性標(biāo)注、句法分析等自然語言處理工具。在本節(jié)中,我們將介紹本文篇章級事件抽取采取的方法,主要包括實體和事件聯(lián)合標(biāo)注、事件元素識別、全局推理。   1.1實體和事件聯(lián)合標(biāo)注   實體和事件是緊密關(guān)聯(lián)的,兩者的表示相互依賴,但現(xiàn)有的事件抽取通常都對實體和事件分別建模。在目前事件抽取任務(wù)中.研究者一般將事件抽取分為3步:①實體識別:利用外部工具或者單一模型抽取句中的實體;②事件識別:抽取句中的觸發(fā)詞并判斷事件類型;③元素分類:判斷實體在事件中扮演的角色。實體識別和事件識別分開處理是常用的技術(shù)手段,但會忽略實體和事件觸發(fā)詞之間相互依賴的關(guān)系。   例如,在例句“奧巴馬離開白宮,迎接新的挑戰(zhàn)”中,“離開”作為觸發(fā)詞,觸發(fā)了一個離職類別的事件而不是運輸類別的事件。只分析“離開”一詞,會存在歧義,但在已知句中其他實體及其類別后(“白宮,組織機(jī)構(gòu)”;“奧巴馬,人名”),更易判斷“離開”觸發(fā)離職事件;相反,當(dāng)已知“離開”觸發(fā)離職事件,更易判斷“白宮”的實體類別是組織機(jī)構(gòu)而不是地理位置。如何有效利用實體和事件觸發(fā)詞的依存關(guān)系,是本文提岀聯(lián)合標(biāo)注模型的出發(fā)點。   本文采用序列標(biāo)注模型從句中聯(lián)合標(biāo)注實體和觸發(fā)詞,同時判斷它們的類別,并將其抽取結(jié)果作為事件元素標(biāo)注的輸入。為了更好地建模上下文的關(guān)聯(lián)關(guān)系.我們將自注意力機(jī)制(self-attention)M加到模型中。目前有很多統(tǒng)計學(xué)習(xí)方法可以對中文文本中的詞進(jìn)行識別并分類,但利用詞作為輸入需要先借助外部分詞工具.而序列標(biāo)注方法能夠很好地解決中文詞間無間隔的問題。在自然語言處理中,很多基礎(chǔ)問題都可以用序列標(biāo)注模型解決,比如中文分詞、詞性標(biāo)注以及命名實體識別等。序列標(biāo)注不僅能捕獲詞的邊界,同時也可以判斷當(dāng)前詞的歸屬類別。   不同于文本分類,序列標(biāo)注模型將輸入的句子看作一個序列,輸出是一個等長的符號序列,每個符號對應(yīng)特定的含義。具體來講,序列標(biāo)注模型給句子中的每個字符打上BIO的標(biāo)簽,B表示字段開始(beginning),1表示字段中間(inside),0表示其他字段(outside),標(biāo)簽后面跟的type表示字段的分類結(jié)果,例如.B-PER表示人名的起始字符,I-Attack表示觸發(fā)攻擊事件詞的中間字段。隨著深度學(xué)習(xí)在自然語言處理中的應(yīng)用日趨成熟,利用神經(jīng)網(wǎng)絡(luò)的方法表示字符特征,能更好地捕獲字以及上下文的信息。   在神經(jīng)網(wǎng)絡(luò)中,目前主流的兩個方法是循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(ConventionalNeuralNetworks,CNN)。相比之下,RNN比CNN更適合給序列進(jìn)行建模,因為RNN的隱層既有當(dāng)前時刻的輸入,也有前一時刻的隱層輸出,這使得它能通過循環(huán)反饋連接看到前面的信息,并且還具備非線性的擬合能力,因此利用RNN對序列到序列的建模是NLP中常用的手段。而長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)能將過去和將來的序列考慮進(jìn)來.使得上下文信息充分被利用為。在LSTM后加入條件隨機(jī)場(ConditionalRandomFields,CRF)能更多地考慮整個句子的局部特征的線性加權(quán)組合,計算聯(lián)合概率,優(yōu)化了整個序列。同時.我們將自注意力機(jī)制加到模型中,主要目的是學(xué)習(xí)句子內(nèi)部字符之間的依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)和語義信息。   1.2事件元素識別   文檔中每個句子經(jīng)過上述的實體和事件聯(lián)合標(biāo)注后,可獲得句中的實體及其實體類型和事件觸發(fā)詞及其事件類型。為得到句子級的事件結(jié)構(gòu)化信息,需要進(jìn)一步標(biāo)注實體在事件中扮演的角色,即實體和觸發(fā)詞之間的關(guān)系(例女口,判別實體“155名乘客”在“死亡”事件類型中扮演了“受害者”的角色)。為了充分利用實體特征和句子中的事件信息,本文利用一個多層感知機(jī)實現(xiàn)實體的分類從而實現(xiàn)事件元素識別。輸入特征包括觸發(fā)詞、觸發(fā)詞類別、實體、實體類別、實體和觸發(fā)詞之間的位置信息以及當(dāng)前句子通過LSTM的向量化表示。   1.3全局推理   在文檔文本中,重要的事件通常會被多次提及,即同一事件會有多個事件描述。經(jīng)過上述句子級事件抽取,可獲得篇章中的一系列結(jié)構(gòu)化事件信息。為獲得篇章級的事件信息,需要判斷多個事件描述是否指代同一事件,從而得到完整的事件信息。事件描述例1和例2分別通過“喪生”和“受害”觸發(fā)“死亡”事件類型,通過文本描述的相似程度可以進(jìn)一步判斷例1和例2指代了同一事件,從而將兩者的事件元素進(jìn)行融合得到篇章級的事件結(jié)構(gòu)化信息。為了充分利用文本信息進(jìn)行事件共指的判斷,本文采用整數(shù)線性規(guī)劃的方法進(jìn)行全局推理,將獲取更好的事件共指判斷作為優(yōu)化目標(biāo),將文本相似度作為優(yōu)化目標(biāo)的重要系數(shù),在條件約束下,得到篇章級事件抽取的最優(yōu)結(jié)果。   2模型   本節(jié)主要介紹上述方法所用的模型,包括基于自注意力機(jī)制的實體事件聯(lián)合標(biāo)注模型、基于感知機(jī)的事件元素識別模型和基于整數(shù)線性規(guī)劃的全局推理。   3實驗   3.1數(shù)據(jù)   本文利用ACE評測發(fā)布的公開語料ACE2005中的中文語料作為實驗數(shù)據(jù)集。數(shù)據(jù)集中標(biāo)注的實體類別包括:PER(Person,人物)、ORG(Organization,組織機(jī)構(gòu))、GPE(Geo-PoliticalEntity,政治或人文地理區(qū)域)、LOC(Location,地理位置)、FAC(Facility,含有設(shè)施的場所),VEH(Vehicle,運輸工具),WEA(Weapon,武器)以及VALUE(值)和TIMEC時間)。ACE2005中預(yù)定義33個事件子類別,每個事件類別都由不同的事件角色構(gòu)成。本文參照Chen和Ji等進(jìn)行數(shù)據(jù)的劃分時,其中569/64/64/篇文檔分別被用作訓(xùn)練集/測試集/驗證集。利用P(Precision,精確率)、R(Recall,召回率)、尺值評價句子級的實體抽取和事件識別性能。參照Reichart等⑺采用的篇章級事件抽取評價方式,對于每篇文檔,將學(xué)習(xí)到的結(jié)構(gòu)化事件信息和標(biāo)準(zhǔn)進(jìn)行最大匹配,然后利用P、R和F,進(jìn)行篇章級事件抽取性能的評測。   3.2參數(shù)   模型的一些實現(xiàn)細(xì)節(jié)如下:輸入的embedding為100維的詞向量,是通過在維基百科中文語料進(jìn)行預(yù)訓(xùn)練得到的。LSTM隱層維度為200,batch設(shè)定為50,學(xué)習(xí)率為0.000l,droupout為0.5.最終采用Adam作為優(yōu)化器。   4相關(guān)研究   當(dāng)前事件抽取按照研究方法可分為兩大類:基于模式匹配和基于統(tǒng)計模型。模式匹配的方法在特定領(lǐng)域能取到較好的精確度,典型的基于模式匹配的事件抽取系統(tǒng)有:ExDisco[l0]和FSA^。但該方法需要大量人工進(jìn)行模板撰寫,而且普適性差,只適用于小規(guī)模的特定領(lǐng)域?;诮y(tǒng)計學(xué)習(xí)的方法,在特征選取上又可分為兩類:基于傳統(tǒng)特征選取和基于神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)特征。傳統(tǒng)特征提取主要通過自然語言處理工具獲取各種有效的詞匯、句法和語義等特征,然后利用傳統(tǒng)分類模型(例如,最大爛模型和支持向量機(jī)模型)進(jìn)行分類"“〕。隨著深度學(xué)習(xí)證明了其在NLP中的有效性,Chen等⑶率先將CNN應(yīng)用到事件抽取中,并利用了距離信息來建模實體和觸發(fā)詞的位置關(guān)系;Nguyen等〔⑸提出一種基于RNN的模型進(jìn)行事件識別和角色分類的聯(lián)合學(xué)習(xí)。   針對語料缺、不平衡等問題,Liu等借助外部語義資源進(jìn)行事件識別;Chen等利用遠(yuǎn)程監(jiān)督的方法擴(kuò)充訓(xùn)練語料提高了事件抽取性能;Yang等〔屈借助篇章信息進(jìn)行事件和實體的聯(lián)合抽取,并將其分為3個子問題:學(xué)習(xí)事件內(nèi)部結(jié)構(gòu)、學(xué)習(xí)事件與事件關(guān)系、學(xué)習(xí)實體抽取;Uu等⑴】利用雙語資源提高事件抽取的性能。這些方法在英文事件抽取數(shù)據(jù)集上取得了很好的效果。中文事件抽取方面,詞級的不匹配問題嚴(yán)重影響了漢語信息抽取中詞級模型的性能。為了解決該問題,Chen和Ji等⑷提出了基于特征的字符級BI()標(biāo)注;Li等〔河定義了中文觸發(fā)詞的人工模板,這些方法都高度依賴于人工構(gòu)建的模板和特征。從文本粒度看,目前事件抽取的相關(guān)研究主要針對句子級別的抽取.即識別句中觸發(fā)詞,并判斷實體在事件中所扮演的角色。但現(xiàn)實世界的文本大多是以篇章的形式出現(xiàn),用戶更關(guān)心的是從篇章中獲得結(jié)果化的事件知識。   最早的事件抽取系統(tǒng)FRUMPY]采用事件模板匹配的方法進(jìn)行篇章事件抽取。Huang等采用基于模式分類的方法,將篇章抽取看成兩個子問題:①角色槽填充;②句子關(guān)聯(lián)模型。Yang等[旳采用基于句子抽取結(jié)果以及文本特征發(fā)現(xiàn)主事件描述,并利用上下文元素補齊策略得到篇章事件結(jié)構(gòu)化信息的方法,在中文金融事件抽取數(shù)據(jù)集上取得不錯的效果。總的來說,目前篇章事件抽取的研究主要集中在特定的領(lǐng)域,高度依賴人工規(guī)則,很難推廣到新的領(lǐng)域。而句子級事件抽取方法應(yīng)用于更廣泛的領(lǐng)域,但生成的輸出粒度太細(xì),無法提供好的文檔級事件信息。   5總結(jié)和展望   本文討論了事件抽取對于知識獲取的重要性,并闡述了句子級事件抽取和篇章級事件抽取的差異。相比句子級事件抽取的細(xì)粒度結(jié)果,篇章級事件抽取的結(jié)果能反映出完整的事件信息,具有更好的現(xiàn)實意義和實用價值。為了從文本中獲取篇章級事件信息,本文采用深度學(xué)習(xí)的方法抽取句子級事件信息,其模型由兩部分組成:基于序列標(biāo)注的事件實體聯(lián)合抽取和基于多層感知機(jī)的事件元素識別。在句子級事件抽取基礎(chǔ)上,采取整數(shù)線性規(guī)劃進(jìn)行全局推斷得到篇章級事件結(jié)構(gòu)化信息。本文在ACE2005數(shù)據(jù)集上的實驗結(jié)果證明了方法的有效性。然而,基于Pipeline的方法不可避免地會帶來誤差的傳遞。如何利用端到端的模型.從篇章文本中直接抽取出事件結(jié)構(gòu)化信息,提升篇章級事件抽取整體性能,是下一步主要研究方向和內(nèi)容。   相關(guān)論文范文:大數(shù)據(jù)在審計分析程序中的應(yīng)用研究   摘要:21世紀(jì)是世界經(jīng)濟(jì)大發(fā)展的時代,是科學(xué)力量發(fā)揮巨大力量的時代,是極大改變?nèi)藗兯季S方式和工作理念的時代,是創(chuàng)新引領(lǐng)未來和不斷變革發(fā)展的新時代。隨著計算機(jī)技術(shù)的普及,人們開始在日常工作中引入計算機(jī)技術(shù),來幫助自己完成工作,這樣不僅可以提高效率,還可以保證工作質(zhì)量,以達(dá)到事半功倍的效果,種種跡象表明人類社會已在計算機(jī)技術(shù)的引領(lǐng)下進(jìn)入了空前大發(fā)展時期。
相關(guān)閱讀
學(xué)術(shù)咨詢服務(wù)
?
从化市| 浦县| 定结县| 佛坪县| 兰州市| 临江市| 蓬莱市| 阳信县| 德安县| 玛多县| 龙山县| 高邮市| 贵南县| 山东省| 甘肃省| 芒康县| 海安县| 长沙市| 正安县| 曲沃县| 大洼县| 松江区| 桃江县| 从江县| 深泽县| 和林格尔县| 连州市| 元谋县| 久治县| 增城市| 金华市| 望江县| 马鞍山市| 重庆市| 易门县| 喀喇| 鄯善县| 玛沁县| 含山县| 伊春市| 隆化县|