當前位置:首頁 > 科技 > 正文

中文語義識别技術發展現狀


一、中文語義識别概述 計算機科學領域的一個重要分支就是“人工智能”,它企圖了解智能的實質,并生産出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識别、圖像識别、 自然語言處理和專家系統等。
在自然語言處理方面,如何讓計算機識别和理解人類的語言,并且模拟人類思維方式去思考、推理問題,是完成“人工智能”這個人類偉大理想的重要舉措。不管是中文,英文語言環境中,除了“你”“我”“他”等這類個别的例外以外,詞組才是人類表達語義的最小單位。
中文由于其深厚而且博大精深的文化底蘊,“長字符串”形式的書寫方式使得計算機在理解中文方面遠比理解英文要困難很多。因為英文本身就是以“詞”為最小的存在單位,書寫方式是以空格區分每個詞分割,所以計算機能通過空格來很好的識别英文的一個最小語義表達。
中文的複雜程度、表達語義的能力遠遠高于英文,同樣一個詞在不同的 語用、語境下表達的意思是完全不同的。比如“乒乓球拍賣完了”,可以理解為“乒乓球_拍賣完了”、也可以是“乒乓球拍_賣完了”,再比如“XXX行賄中國石油公司”和“中國石油公司行賄XXX”。同樣的内容不同的分割、不同的順序,表達的意思就完全不一樣。 所以若想讓計算機識别中文文本,第一步要做的就是告訴計算機在一句話中,哪幾個字是一個詞組。而這就是分詞的過程。而由于中文具有非常強的歧義性,所以準确分詞技術是一項非常複雜和具有挑戰性的工作。
我們看一個廣泛流傳的民間故事: “ 民間流傳着這樣一個故事:某人去朋友家做客,正好天下雨了,客人就寫了十個字:“天下雨,留客天,留我不留?”主人沒有直接回答,而是把這10個字的标點改了改,變成了: “ 下雨天留客,天留我不留 。 ”這等于無聲的逐客令了。然而,客人不甘心淋着雨回去,于是又把标點改了一下,主人沒有辦法,隻好讓他留了下來。 你知道客人是怎麼改的嗎?請改一下試試。”
這句話到底有幾個意思呢?我們看: 1、下雨天留客,天留,我不留。 2、下雨天留客,天留我不留。 3、下雨天,留客,天留,我不留。 4、下雨天,留客,天留我,不留。 5、下雨天留客,天留我不?留! 6、下雨天,留客天,留我不留? 7、下雨天,留客天,留我?不留! 8、下雨天留客,天!留我不?留! 9、下雨天,留客!天!留我不留?
以上就是一個老祖宗留下的一個非常好的中文分詞實例。 常見的中文歧義類型有: 1、組合歧義:在分詞過程中是最常遇到的,比如:“美國花旗銀行”中的“國花”,“蘇聯想從邊境撤軍”中的“聯想”,“技術和服務”中的“和服”等等非常多。 2、人名歧義:“甯靜”、“楊柳”、“黎明”等等,語境歧義 3、語用歧義:“牦牛肉不好吃”,其中的“好”有兩種意思,a)“味道不好吃”的意思;b)“不容易吃”的意思; 4、語境歧義:兩米二六個頭的姚明。并不是說姚明有“26個腦袋” 5、真歧義:真歧義是最難以區分的,包括我們人類若沒有上下文語境的判斷和知識積累,也很難正确的分詞。例如“武漢市長江大橋”就可以分為“武漢_市長_江大橋”或者“武漢市_長江大橋”。 6、分詞顆粒問題:“中國人民解放軍”可以是一個詞,也可以是“中國 人民 解放 軍”在不同的應用情景下,分詞顆粒度是完全不同的。分詞顆粒度的不同,造成語義的完全不同。 7、分詞具有領域性:在醫藥、化工領域的中文表達方式和文字特點與其他領域完全不同,互聯網網友的用詞方式跟其他領域完全不同。 8、.......更多...
這類歧義在中文中還有更多更多,若不能正确的分詞,計算機就無法正确識别中文文本的内容。
二、中文語義識别技術領域技術發展現狀 中文深厚的文化底蘊不是外國人可以理解的,甚至中國人自己也不是很輕易的能夠說清楚,所以中國的中文語義識别技術代表着世界的領先水平。中國很多的高等院校、中科院、商業企業從幾十年前就開始研究中文的語義識别問題,尤其是近幾年随着互聯網的發展,更是促使更多的商業企業投入到這一領域中來。 該領域技術水平可以分為以下幾個陣營: 第一陣營:互聯網通用領域中文識别技術領先企業:在互聯網通用領域技術最為領先的是海量信息技術有限公司,該公司是最早投入該領域科研的商業企業,從1999年開始從事中文語義研究和商業應用,是目前中文語義識别領域最領先的企業。微軟、美國蘋果公司、Autonomy、Sybase、華為、騰訊等衆多知名技術廠商都是海量的客戶。 第二陣營:搜索引擎領域中文語義識别技術領先企業: 中文分詞是 百度、谷歌等搜索引擎核心,搜索引擎的準确性完全依賴于中文分詞的準确性。百度從2001年開始自行研發了中文分詞系統,雖然百度的中文分詞系統在搜索引擎上應用效果還不錯,其結果具有很強的專業應用性。例如“中國人民解放軍”這個詞,我們在做常規語義識别時需要分成一個詞若分成多個詞語義就産生了變化,而搜索引擎應用時就必須分成多個詞。 谷歌2002年進入中國市場的時候曾經想收購海量信息沒有成功後來收購了國外一家做中文分詞的公司,他們的做法是不考慮語義、語用、語境等因素,将一篇文章正向和反向的每2個字分成一個詞,找出重合的最大合集,再配以谷歌的知識網技術來輔助搜索結果的矯正。這種方法雖然效率比較高,技術難度也較低,但是比如“演員甯靜”和“甯靜的夏天”中兩個“甯靜”的詞性是完全不同的。 第三陣營:互聯網通用領域的科研機構:中科院、清華、北大、微軟亞洲研究院、哈工大、東北大學等科研高校機構研究中文分詞幾十年,隻有中科院面向商用市場推出了分詞産品,但分詞效果要低于海量分詞。其他高校到目前為止沒有推出可商用的分詞産品。 第四陣營:互聯網通用領域的商業機構:方正、托爾斯、盛大研究院等機構,是2005年以後才從事分詞研究的企業,分詞結果用于他們企業自身業務領域做軟件系統項目效果還基本可用(在系統層、應用層對分詞效果進行了矯正),分詞産品用于其他領域的效果更是差強人意。 第五陣營:近幾年新進企業:最近一兩年互聯網大量的商業企業招募人員開始投入到分詞研究,目前尚沒有結果推出。

三、自然語言識别的發展方向 如下圖所示:在計算機科學的最開始階段,計算機無法顯示中文、輸入中文,在“ 字符層”有了五筆字型、漢卡等系統計算機終于可以輸入中文顯示中文了;在“ 詞法層”,有了中文分詞、全文檢索、關鍵詞提取系統,也正是在這一時期出現了百度、谷歌等搜索巨頭;再往上一層是“ 實體層”,一句話中的人名、地名、機構名、時間等詞性的詞語,屬于實體詞是表達語義的重要組成部分;例如“王金山不是西門子上海分公司的員工”,其中“王金山、西門子、上海”就是實體詞,是這句話要表達語義的主體。再往上就是“ 句法層”在實體層計算機理解了一句話中獨立的實體詞的含義,但是相互之間的邏輯關系不知道,而句法層計算機就能理解一句話要表達的基本含義可以理解一句話了。而“語義層”則是計算機能将一篇文章的每句話的意思串聯起來,可以理解一篇文章,這時候才是真正達到了自然語言理解的境界,實現了人工智能的夢想。 目前,隻有海量信息達到了實體層的階段,推出了一個叫“保10潔互聯網社區淨化服務”的産品,能通過語義的方式幫助論壇、社區識别網友發布的UGC内容是不是垃圾信息、是哪類垃圾信息。其他陣營的企業還處在詞法層階段。

你可能想看:

有話要說...

取消
掃碼支持 支付碼