段文潤1 段之宓2 段琦麗3
(1.四川大學外國語學院,610064;2.中國電子科技集團公司第十研究所,成都,610036;
3.中國電信成都分公司 610051)
摘要: 本文提出了隱詞形這一計算語言學的新概念,并基于此概念建立了隱詞形語法。隱詞形理論要求應將作為代數系生成元集的自然語言的詞的集合,按照其出現的言語語境,劃分為最小等價類子集。因而,作為構句基礎元素的隱詞形在句法功能和語義上便是無歧義的,而隱詞形語法規則便是帶有語義和語境信息的語法。這種語法曾用在我們的機器翻譯試驗系統JX—1上,并證明具有很強的排歧功能。
關鍵詞:隱詞形,隱詞形語法,等價類子集,言語語境,排歧,機器翻譯,統計方法
中圖分類號:H03,TP301.2 文獻標識碼: A
Abctract: In this paper we provided a new formalized conception of computer linguistics—potential wordform, and on the basis of this conception we built a potential wordform grammar. The theory of potential wordform requires that words of national language, as the set of generative elements of a algebraic system, should be divided into minimum equivalence class subsets according to the speech situation where the words appear. Therefore, the potential wordform, as the fundamental element of sentence building, is disambiguous in its syntactic function and semantics, and the potential wordform grammar is a grammar with sematics and situation informations. The grammar was applied in our experimental machine translation system JX—1 and was proved to be a grammar highly effective in disambiguation .
Key words: potential wordform, potential wordform grammar, equivalence class set, speech situation, disambiguation, machine translation, statistical method
1. 機器翻譯歷史及現狀評論
機器翻譯始自上世紀四十年代,已有60余年的歷史。目前正進入初步實用階段(如國外的Eurotran系統及國內的若干上市軟件)。所謂初步實用,離真正的實用還很遠。目前,各系統對簡單句及受限文本(如可“對齊”語句)的翻譯尚可,而對復雜長句及非受限文本(如不能“對齊”的語句)的處理則僅僅處于起步階段。后者的質量,若按外語專業的標準打分(目前尚無權威的國際測試標準)只能達到30—40%的合格率。提高質量的瓶頸在于語言知識的粒度不夠細,從而不能有效排除歧義。對于“細度”問題,上世紀70年代末—80年代,即曾提出過“格語法”(Fillmore)[1]、“廣義短語結構文法”(Gerald Gazdar)、“詞匯—功能語法”(Bresnan及Kaplan)、“功能合一語法”(M.Kay)、“多叉多標記樹”(馮志偉)[2]以及《現代漢語語法信息辭典詳解》(俞士汶等人)[3]等理論和著作。這些理論重視詞匯及短語的“復雜特征”(即“細度”),為機器翻譯可預期的商業實用指明了正確的道路。然而,它們在具體的理論闡述與工程實施上,過多地把注意力放到了復雜特征知識的表達(如特征矩陣、多叉多標記樹等)及相關的演算(如非循環有向圖、合一運算等)上。對復雜特征應是一些什么特征及它們的排歧機制本身反倒重視不夠。此后流行的語料庫語言學及統計方法(馬爾科夫隨機過程、信息熵等)為機器翻譯所需之詞匯及語法知識的獲取開辟了半自動化的道路,也為機器詞典的義素化打下了基礎(如普林斯頓的Wordnet[4]、董振東的Hownet)。然而,對復雜特征本身應如何全面細化及各特征的排歧機制仍缺乏商用性的貢獻。統計排歧的詞類幾乎僅是傳統語法的詞類,而義素詞典也還不能完全適應詞義排歧的需要,不能有效解決機譯中的排歧問題。因此,語言知識粒度的細化及其排歧機理的研究,至今仍是有待突破的瓶頸。我們在上世紀80年代末也曾獨立提出了基于復雜特征的“隱詞形論”框架[5],此后在一次受限詞典與受限句型的英—漢機譯試驗(JX—1系統)的實踐中又對此理論進行了具體化和充實。實踐證明,“隱詞形論”在排除歧義、提高機譯質量方面取得了明顯的效果,有必要進一步研究充實,形成詞典和語法,以便用於語言工程。
2. 隱詞形論簡述 3. 隱詞形的知識表達,獲取與運用
參考文獻:
1. Charles J Fillmore. 格辨[A].語言學譯叢(第2輯)[C].北京:社科院出版社.1980.
2.馮志偉. 機器翻譯研究 [M]. 中國對外翻譯出版公司. 2004
3.俞士汶等.現代漢語語法信息詞典 [M]. 北京:清華大學出版社.1998
4.Cognitive。樱悖椋澹睿悖濉。蹋幔猓铮颍幔鬿ry。幔簟。校颍椋睿悖澹簦铮睢。眨睿椋觯澹颍螅椋簦祝铮颍洌危澹簦1.7.1[EB/OL].http://www.cogsci.princeton.edu/~wn/,2004-05-10
5. 段文潤.俄語簡單句句型的“群”描寫——數理語言學的一種代數方法[A],科學的整體化趨勢[C]. 成都:四川大學出版社.1989
6. Richard Montague. Universal grammar[A], ”Formal Philosophy”, Selected Papers of Richard Montague[M].Yale University Press.1979
7. 趙元任.漢語口語語法[M].商務印書館.1979
8. 段綺麗.機器翻譯中詞義的常識排岐[A].重慶大學學報 [J ],2005,28(3):69-71
9. Русская Грамматика. Академия Наук СССР, Институт Русского Языка, Издательство Наука .1980
10. F. de Saussure,Cours de linguistigue generale,[M] .Paris,1972 .Курс Общей лингвистики ,Русское издание
11. Chomsky , N. Aspects of the Theory of Syntax [M]. Cambridge,Mass,The MIT Press. 1965
12. 段鷹,荷芒. 機器翻譯中的一種狀態空間搜索方法[J]. 重慶大學學報,2006,29(3):99-102
13. 段鷹,段文澤. 一類相關對象組合的解耦遞階智能搜索. 中國科技創新網,論文在線: /Article/ShowArticle.asp?ArticleID=2644
14.黃昌寧,夏瑩主編. 語言信息處理專論 [M]. 北京:清華大學出版社,廣西科學技術出版社.1996
15. 段綺麗,段之宓. 機器翻譯中自然語言的梯級表示模型[A].機器翻譯研究進展[C].北京:電子工業出版社,2002
|