1、引言
漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注是漢語(yǔ)信息處理中重要的基礎(chǔ)性工作,它與語(yǔ)料庫(kù)基礎(chǔ)資源建設(shè)相輔相成,在中文信息處理中起著關(guān)鍵作用。經(jīng)過(guò)將近20 年的研究,自動(dòng)分詞與詞性標(biāo)注技術(shù)、語(yǔ)料庫(kù)的建設(shè)都取得了長(zhǎng)足的進(jìn)步,許許多多的系統(tǒng)應(yīng)用而生;因此,對(duì)分詞與詞性自動(dòng)標(biāo)注系統(tǒng)進(jìn)行公正的評(píng)測(cè),將會(huì)對(duì)這項(xiàng)基礎(chǔ)性的工作起到導(dǎo)向性的作用。二者之間有著十分密切的聯(lián)系, 比如, 切分歧義是漢語(yǔ)分詞所面臨的一大難題, 其中能用語(yǔ)法知識(shí)消解的就約占90%以上,而涉及語(yǔ)義和語(yǔ)用知識(shí)的切分歧義則很少,另外,詞性標(biāo)注的質(zhì)量高低直接影響著自動(dòng)分詞的效果好壞。
2、漢語(yǔ)自動(dòng)分詞
2.1 定義和產(chǎn)生原因
所謂的自動(dòng)分詞就是把連續(xù)的字串分割成詞的序列。從處理過(guò)程來(lái)看,把自動(dòng)分詞可以看作是用計(jì)算機(jī)自動(dòng)識(shí)別文本字符流中的詞并在詞與詞之間加入明顯切分標(biāo)記的過(guò)程。
詞是最小的能夠獨(dú)立運(yùn)用的有意義的語(yǔ)言單位,英文單詞之間以空格作為自然的分隔符。漢語(yǔ)是以字為基本的書(shū)寫(xiě)單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)志,計(jì)算機(jī)不能通過(guò)英文句子之間的空格方法區(qū)分漢語(yǔ)詞,否則可能會(huì)出現(xiàn)錯(cuò)誤。
如漢語(yǔ)中“學(xué)生”整體是一個(gè)詞,但計(jì)算機(jī)不容易理解“學(xué)”和“生”兩個(gè)字合起來(lái)才能表示一個(gè)詞,為了解決類(lèi)似的問(wèn)題,中文分詞技術(shù)應(yīng)運(yùn)而生。
2.2 自動(dòng)分詞的分詞方法
關(guān)于分詞方法,蘇聯(lián)學(xué)者最先提出了關(guān)于“ 6-5-4-3-2-1”的思想,這種方法中的匹配思想成為后來(lái)許多分詞方法的基礎(chǔ)。目前,漢語(yǔ)自動(dòng)分詞方法不下二十種,例如,最大匹配法、知識(shí)分詞方法、鏈接法,在參考眾多文獻(xiàn)的基礎(chǔ)上,綜合各家之言,大體上可概括為四種類(lèi)型:基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點(diǎn),分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法具有算法成熟,易于實(shí)現(xiàn)的特點(diǎn),目前是使用最普遍切分方法;基于統(tǒng)計(jì)的分詞方法由于有的歧義切分能力和低頻詞識(shí)別能力,受到越來(lái)越多的研究人員的重視,發(fā)展較快,但在實(shí)際使用中,很少單獨(dú)使用,一般都與基于詞典匹配的信息進(jìn)行更多的處理,因而加大了實(shí)現(xiàn)的難度;基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類(lèi)分詞方法的研究還處于初級(jí)階段,并且由于漢語(yǔ)自然語(yǔ)言復(fù)雜靈活,知識(shí)表示困難,所以對(duì)于這類(lèi)分詞技術(shù)還需要進(jìn)行更深入和全面的研究。
2.3 自動(dòng)分詞研究現(xiàn)狀
經(jīng)過(guò)十幾年的研究,漢語(yǔ)自動(dòng)分詞技術(shù)取得了令人矚目的成果,出現(xiàn)了一些實(shí)用的自動(dòng)分詞系統(tǒng),如:北京航空航天大學(xué)的c d w s分詞系統(tǒng),這些系統(tǒng)在分詞的精確度和分詞速度方面都具有相當(dāng)?shù)乃?,并在一些中文全文檢索系統(tǒng)中得到了應(yīng)用。中文自動(dòng)分詞技術(shù)取得了可喜的進(jìn)步,具體表現(xiàn)在:
“詞”是否有了清晰的界定。原來(lái)很難精確定義的“詞”,現(xiàn)在可通過(guò)“分詞規(guī)范+詞表+分詞語(yǔ)料庫(kù)”的方法,使中文詞語(yǔ)在真實(shí)文本中得到了可計(jì)算的定義,界定出詞語(yǔ)的邊界,這是實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)分詞和可比評(píng)測(cè)的基礎(chǔ)。
未登錄詞對(duì)分詞精度的影響。對(duì)交集型歧義字串進(jìn)行的大規(guī)模語(yǔ)料庫(kù)調(diào)查,明確提出把分詞歧義消解過(guò)程分解為偵察和消歧兩個(gè)子過(guò)程的認(rèn)識(shí),都是近十年來(lái)分詞研究的重大收獲.
基于字的分詞新方法.過(guò)去的分詞方法大都依賴(lài)于一個(gè)事先編制好的詞表或詞典。自動(dòng)分詞過(guò)程就是通過(guò)詞表和相關(guān)信息來(lái)做出詞語(yǔ)切分的決策。基于字標(biāo)注的分詞方法實(shí)際上是構(gòu)詞方法。即把分詞過(guò)程視為字在字串中的標(biāo)注問(wèn)題。這種方法的一個(gè)重要優(yōu)勢(shì)在于,它能夠平衡地看待詞表詞和未登錄詞的識(shí)別問(wèn)題。
2.4 困難和問(wèn)題
盡管漢語(yǔ)自動(dòng)分詞取得了重大進(jìn)展和突破,但仍有大量的問(wèn)題困擾著這一領(lǐng)域的學(xué)者們。因?yàn)橐杂蛇M(jìn)行漢語(yǔ)自動(dòng)分詞,至少會(huì)遇到以下一些困難:
(1) 中文原本沒(méi)有詞的概念 ,至今也沒(méi)有統(tǒng)一的詞的確切定義。漢語(yǔ)詞與詞之間既沒(méi)有西文那樣有明顯的分隔符,也沒(méi)有日文那樣豐富的詞尾變化。
(2)漢語(yǔ)迄今為此仍未有一部公認(rèn)的、確切完備的并適合于計(jì)算機(jī)自動(dòng)處理的語(yǔ)法規(guī)則。
漢語(yǔ)無(wú)標(biāo)準(zhǔn)性的詞法、復(fù)雜性的句法、模糊性的語(yǔ)法與多樣性的語(yǔ)義,如漢語(yǔ)中大量存在多義詞、同義詞、詞性變化、詞義轉(zhuǎn)借等現(xiàn)象,使?jié)h語(yǔ)表達(dá)具有很大的靈活性,所以任何人都都很難對(duì)它進(jìn)行完備的總結(jié)。
(3)中文構(gòu)詞方法的多樣性和句法的“意合”性等特點(diǎn)也是造成自動(dòng)分詞困難的重要原因。中文造詞的原料,不僅有字,而且有詞、詞組。造句的方式有以字造詞、以詞造詞,甚至壓句成詞。如果沒(méi)有語(yǔ)法、語(yǔ)義知識(shí)或語(yǔ)境的幫助就很難對(duì)有些句子進(jìn)行正確切分。
(4)語(yǔ)音中所蘊(yùn)含的部分有用信息在書(shū)面語(yǔ)中無(wú)從體現(xiàn)。
(5)新詞在不斷增加,如人名、地名、新產(chǎn)生的詞、外來(lái)詞等日益充實(shí)著漢語(yǔ)詞匯。
但最重要的困難還是歧義切分和未登錄詞的問(wèn)題。歧義切分有兩種類(lèi)型,一種是交集性切分歧義,另外一種是組合型切分歧義,如漢字串“將來(lái)”是一個(gè)詞,其中“將”和“來(lái)”也可以單獨(dú)成詞,這就涉及到如何切分的問(wèn)題。組合型歧義是切不切開(kāi)的問(wèn)題,交集型歧義是切在哪里的問(wèn)題。未登錄詞即是指未包含在分詞詞表中的詞,包括各類(lèi)專(zhuān)名(人名、地名、企業(yè)字號(hào)和商標(biāo)號(hào)等)、某些術(shù)語(yǔ)、縮略語(yǔ)和新詞等,由于專(zhuān)用術(shù)語(yǔ)繁多,新名詞、新概念層出不窮,這些詞一般很難全部收錄到詞典中,但這些詞往往在一定時(shí)期內(nèi)呈現(xiàn)較高的檢索概率。這就要求分詞系統(tǒng)具有一定的未登錄詞識(shí)別能力,從而提高分詞的準(zhǔn)確性。
對(duì)于分詞的歧義處理,目前已經(jīng)進(jìn)行了比較深入的研究,人們通過(guò)統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,使得歧義字段的正確切分達(dá)到了較高的水平 ,同時(shí)也認(rèn)識(shí)到歧義的解決需要細(xì)致的個(gè)性化的知識(shí)積累,對(duì)不同類(lèi)型的歧義要有不同消歧方法,同時(shí)研究漢語(yǔ)的構(gòu)詞規(guī)則,增強(qiáng)歧義判別能力;另一方面,無(wú)論詞表規(guī)模多么大,未登錄詞語(yǔ)的存在是必然的。因此,與分詞的歧義處理相比較,未登錄詞語(yǔ)的處理成為影響分詞精確率的最主要、最直接的因素,這也是當(dāng)前的一個(gè)研究的難點(diǎn)和熱點(diǎn)。
3 、漢語(yǔ)詞性標(biāo)注
3.1 基本含義和標(biāo)注方法
詞性標(biāo)注即在給定的句子中判定每個(gè)詞最合適的詞性標(biāo)記,關(guān)鍵是如何處理兼類(lèi)詞或多義詞。詞性標(biāo)注的正確與否對(duì)后續(xù)的句法分析、語(yǔ)義分析有很大的影響,是中文信息處理的基礎(chǔ)性課題之一。常用的詞性標(biāo)注模型有n 元模型、隱馬爾科夫模型、最大熵模型、基于決策樹(shù)的模型等。其中,隱馬爾科夫模型是應(yīng)用較廣泛且效果較好的模型之一。
由于同一個(gè)詞在不同的語(yǔ)境下會(huì)產(chǎn)生不同的詞性特征,所以就產(chǎn)生了不同的標(biāo)注方法。目前主要存在以下四種方法:基于規(guī)則的方法;統(tǒng)計(jì)方法;規(guī)則和統(tǒng)計(jì)結(jié)合方法;基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法?;谝?guī)則的方法利用規(guī)則對(duì)多個(gè)詞性的詞進(jìn)行消歧,利用上下文信息來(lái)排除多余詞性。它能夠利用現(xiàn)有研究成果,通過(guò)對(duì)語(yǔ)境中的詞語(yǔ)、詞類(lèi)和詞語(yǔ)的特征做細(xì)致描述,起到很好的排歧作用,但主觀性較強(qiáng),覆蓋率低;統(tǒng)計(jì)方法可以將一些不確定的知識(shí)量化,可以獲得較好的效果和提高覆蓋率,現(xiàn)在一般用統(tǒng)計(jì)方法來(lái)標(biāo)注詞性,據(jù)說(shuō)可以獲得95%以上的正確率,但實(shí)際消歧效果究竟怎樣,尚不明確;規(guī)則和統(tǒng)計(jì)結(jié)合方法融合了二者的優(yōu)點(diǎn);基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法是一種這種的方法,它在詞性標(biāo)注中能達(dá)到98%的正確率。
3.2 困難和問(wèn)題
漢語(yǔ)詞性標(biāo)注的困難主要是因?yàn)闈h語(yǔ)作為一種孤立語(yǔ),缺乏嚴(yán)格意義上的形態(tài)標(biāo)志和形態(tài)變化,詞類(lèi)判定基礎(chǔ)是根據(jù)詞的已實(shí)現(xiàn)的句法功能,對(duì)上下文的依賴(lài)特別嚴(yán)重。
漢語(yǔ)詞性標(biāo)注的困難具體可分為:①漢語(yǔ)缺乏詞的形態(tài)變化,不能像印歐語(yǔ)那樣,直接從詞的形態(tài)變化上去辨別出詞的類(lèi)別;②常用詞的兼類(lèi)現(xiàn)象普遍。兼類(lèi)詞不僅使用頻度高,而且兼類(lèi)現(xiàn)象復(fù)雜多樣,覆蓋面廣,兼類(lèi)現(xiàn)象分布不均,漢語(yǔ)中大部分詞類(lèi)都有兼類(lèi)現(xiàn)象,使得詞類(lèi)歧義排除的任務(wù)困難重重;③研究者本身的主觀因素也會(huì)造成兼類(lèi)詞處理的困難。
4、應(yīng)對(duì)策略
正因?yàn)樵谧詣?dòng)分詞和詞性標(biāo)注上還面臨很多的困難,所以我們今后的研究應(yīng)著重在某些點(diǎn)上的“有所為”,才能有助于達(dá)到我們的想要的結(jié)果。結(jié)合自己的學(xué)習(xí)和對(duì)其他學(xué)者的總結(jié),具體地講,大概要抓以下一些工作:l)盡快建立一個(gè)質(zhì)量高、易接受的通用詞表。這是保證其它一切自動(dòng)分詞研究是否扎實(shí)、可靠的先決條件;2)建立一套為學(xué)界同仁認(rèn)同并遵守的漢語(yǔ)自動(dòng)分詞規(guī)范和詞性標(biāo)注規(guī)范和技術(shù)標(biāo)準(zhǔn),建立詞性標(biāo)注平衡語(yǔ)料庫(kù),做好系統(tǒng)評(píng)測(cè),各家的工作成果應(yīng)盡量共享,避免簡(jiǎn)單重復(fù);3)在通用詞表及極大規(guī)模語(yǔ)料庫(kù)的支持下,系統(tǒng)地發(fā)現(xiàn)那些頻度高、穩(wěn)定性好的切分歧義,并有針對(duì)性地給出解決辦法;4)對(duì)覆蓋型切分歧義的研究目前十分薄弱,統(tǒng)計(jì)手段似乎心有余而力不足,應(yīng)該尋求新的對(duì)策;5)促進(jìn)己有的各種專(zhuān)有名詞識(shí)別機(jī)制向更加精細(xì)化方向發(fā)展,并增設(shè)少數(shù)民族人名等特殊字詞的識(shí)別機(jī)制; 6)以已有工作為基礎(chǔ),構(gòu)造更加合理的自動(dòng)分詞評(píng)測(cè)模型,爭(zhēng)取評(píng)測(cè)工作的權(quán)威化、公開(kāi)化、持續(xù)化。
漢語(yǔ)自動(dòng)分詞已經(jīng)被研究了二十多年,涉及的內(nèi)容很多,分詞方法層出不窮,取得了不少成就,但目前仍是制約中文信息處理發(fā)展的一個(gè)瓶頸。詞性標(biāo)注是一個(gè)比較活躍的應(yīng)用領(lǐng)域,它直接影響到語(yǔ)法分析、文本信息檢索等諸多領(lǐng)域,它與自動(dòng)分詞相輔相成,詞性標(biāo)注錯(cuò)誤必然導(dǎo)致分詞錯(cuò)誤。就目前情況來(lái)看,自動(dòng)分詞和詞性標(biāo)注在許多方面有許多的突破,但同時(shí)也都面臨著很多的困難和挑戰(zhàn),相信隨著科技的發(fā)展和知識(shí)的進(jìn)步,這些難題終究會(huì)被逐一擊破。