找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 3176|回复: 5

[转贴]统一医学语言系统简介

[复制链接]
发表于 2007-9-27 01:56:31 | 显示全部楼层 |阅读模式
统一医学语言系统简介
张慧铢

--------------------------------------------------------------------------------

前言
  1986年初,美国国家医学图书馆(NationalLibrary of Medicine,简称NLM)开始着手一个长期的研发计划,即统一医学语言系统(Unified Medical Language System,简称UMLS)。此一计划的诞生,乃是基于下列假设:『及时检索正确而新颖的信息,将有助于决策的制定,并能提升研究及病人照护质量。』。由于生物医学信息不断大量的增加且分散于各个数据库系统,因此想要查检完整而新颖的信息殊为不易,是故UMLS应运而生,其目的在提升系统之能力,使系统能了解读者在生物医学方面的问题意涵,并进而帮助读者检索及整合相关信息。UMLS着重在解决二个影响有效检索的问题:1.同一概念经由不同的人或在不同的数据库中可能会有不同的表达方式;2.库系统分散所造成的检索不完整的问题。换言之,UMLS试图在读者问题与数据源间建立概念上的连结。
  UMLS 计划的目的并不在建立一索引词汇,或建置一大型知识库以涵盖所有生物医学文献数据,而是针对病历纪录定义其电子形式数据应具备之架构及内容。也就是说,在UMLS 计划中,希望可以创造出一个界面环境,而这个界面必须担负起三项主要功能:1.具备诠释读者问题的能力;2.具备判断并链接相关数据库的人工智能;3.执行有效检索的能力。

  为达到前述三项功能,UMLS系统中设计了泛索引典(Metathesaurus)和语意网络(Semantic Network)二个知识库来达成系统在检索问题(query)与各数据库系统中所存有之大量生物医学文献间建立概念上的关联;而信息来源图(Information Source Map)的建置,可以帮助读者判断并建议合于读者检索需求之数据库;至于专家语典(SPECIALIST Lexicon)则主要应用于提供各项语词数据,以帮助系统处理自然语言所产生的语法差异的问题。

  UMLS 的主要架构系由四个知识库所构成,即泛索引典﹑语意网络﹑信息来源图和专家语典,本文简单介绍其设计的基本理念与功能,盼能让读者有一概括的认识。


一﹑泛索引典{METATHESAURUS}
  信息检索结果的成功与否,取决于读者对其所使用数据库架构之了解程度,而要使计算机与用户间可以作交互式的交谈,关键因素即是『语言』。而Metathesaurus即为UMLS系统中负责掌控词汇的工具。所谓意即超越、涵盖。顾名思义Metathesaurus(以下简称Meta)可视为一个概念名词的知识库,是由生物医学领域中许多不同索引典或分类表中所抽取出来的辞目所组成。换言之,Meta的范围决定于其涵盖的索引典数量。以目前1996年版来说,Meta中约含有589,000的个语词 (concept name) 以表达253,000个概念(concepts),而其来源则分别取自30个生物医学索引典。在Meta中,保留了个别索引典中对概念的定义、阶层的连结及各项语意关系。并为在Meta中的每一个概念建立新的关联,用以串接不同索引典中各概念与词汇间的关系,整合不同来源的索引典为一个庞大的、业经控制的概念知识库。
  除了各索引典间的整合外,Meta也试图跨越因语文的不同所造成概念的表达形式不一的问题。在1996年版的Meta中已包括MeSH的法、德、西、葡文译本。而来自其他索引典之转译辞目也将在未来Meta的后续版本中被逐步纳入。

  UMLS用以处理自然语言之程序,是把检索者的检索用语先和Meta中所载有的词汇作对照,找出系统用语,再依其所对应的语意型态,将检索者输入之检索用语间建立合理的关系,使系统可据以判读使用者检索咨询,进而作数据库选取之建议。


二﹑语意网络{SEMANTIC NETWORK}
  语意网络的产生是为了让Meta中所涵盖的概念(concepts)能有一致的分类体系,并为所有的概念建立关系,使能根据每一个概念所属之语意型态在网络中所在的位置来检视其与其他概念间的关系。其做法是为每一个在Meta中出现过的概念赋与其所归属的语意型态(semantic type),并且定义每个语意型态间产生链接的关系为何。藉由语意型态的赋与及关系的建立,提供一致的观点来检视Meta中所涵盖之所有概念,使计算机可以『理解』文献内涵及整个生物医学知识领域之架构,并进而辅助用户之信息寻求行为。也就是说语意网络是一个将生物医学领域中各对象(object)加以分类的一个架构,所以其范围大于Meta中所包含的任何单一索引典,且整个架构尚随着生物医学领域的扩展而不断向外延伸。

三﹑信息来源图{Information Sources Map}
  大量而快速成长的生物医学信息以及数据型态的多元化,使得任何个人想要完整搜集单一主题的生物医学信息,十分困难。ISM设计的目的即在帮助生物医学领域的读者,经由系统功能之支持,辅助其在数据内容上做选择判断,并透过网络快速获得相关信息,以解决其问题。
  ISM的初步构想是由使用者输入其有兴趣的主题,交由系统自动作判断并列出可能与读者需求相符之数据库列表。根据此一建议清单,用户可视其需要:1.取得各相关数据库之介绍数据;2.将列表上所建议的数据库来源,依读者个别需求加以重整;3.自动链接至某一数据库。

  ISM System主要涵盖的部份有二,即服务器与使用端,其中ISMS Server主要功能在 (1)存放知识库(ISM Knowledge Base)。(2)数据库选取程序(Source Selection Logic),此一软件程序在于执行读者检索策略,以便与知识库中涵盖之各个数据库作对照;而ISMS Client之功能则为网络通讯。

  ISM System的主要目的乃在帮助用户选择适合其研究主题的数据库,故除了上述所言, 可依使用者个别需求(如:数据相关程度、数据型态、偏重主题、检索途径、文献适用类型。)来重整输出结果外,读者也可选择某特定之数据库,以便获得有关该数据库更进一步的信息如:涵盖范围、收录标准等,或选择自动链接至该数据库检索论文、官书数据、专利及各种媒体数据等文献。


四、专家词语录{SPECIALIST Lexicon}
  专家词语录主要是在提供各项语词数据,以便系统可以据以处理自然语言所产生之语法上不确定的问题。我们可将SPECIALIST Lexicon视为是一套大部头的电子辞典,而其范围则涵盖一般常用英文单字及生物医学词汇。
  在SPECIALIST Lexicon中提供了每个字词语汇上的各项讯息,包括1.定义在其语法结构上的类属(category)2.其衍生的字词尾变化(如名词的单复数形、动词的语形变化、形容词或副词的原级、比较形、最高级等) 3.允许的修饰补语(complementation patterns)。语言学上有关语法的分类可分为11类:动词(verbs)、名词(nouns)、形容词(adjectives)、副词(adverbs)、助词(auxiliaries)、语态(modals)、代名词(pronouns)、先行词(prepositions)、连接词(conjunctions)、补语(complementizers)及限定符(determiners)。而语言的基本句型(basic sentence patterns)决定于其动词引导的补语之数目及特质,也就是说主要动词的补语一旦确定,则整个句子的架构就差不多被定型。


五、知识源服务器{Knowledge Source Server}
  UMLS的目的乃在发展一分布式知识库集,以便可以移植在各种不同的应用软件上,来补足不同生物医学数据库系统中,以不同方式表达相同概念的缺点。而UMLSKnowledge Source Server为一发展中的工具,目的在提供透过Internet撷取存于UMLS Knowledge Source中各项数据的管道,以方便用户,特别是系统发展师,可以便利地撷取UMLS系统之数据。
  UMLS系统架构是采Client-Server方式处理。由client端依TCP/IP通讯标准,传递需求指令(requests)到NLM集中管理之Server。而联机管道可经由指令模式(command-line interface)、应用模式(Application Programming Interface, API)及透过World Wide Web等三种方式。Knowledge Source Server的优点在于便利的提供系统发展师从远程依其所需撷取UMLS数据,更重要的是使系统管理师不需额外投入时间、精力去了解数据文件的架构及其他细节,就可以将UMLS Knowledge Source直接使用于应用软件上。


结语
  从UMLS的设计理念中我们可以看出,它结合了许多领域中的学科专家共同努力,至少包括医学界、图书信息学、语言学及计算机界的人士。可见一个以用户为导向的系统非要结合不同领域的知识不能竟其功。我们经常感叹学术网络(Internet)上有许多他国建置好的数据库供全世界的人取用,而我们却很汗颜并没有著名的中文数据库提供给大家。若是国内可以参考UMLS所建置的知识库,在不同的领域中整理出他们的研究成果与该领域的词汇并提供利用,应该是大家所乐观其成的。
  由于UMLS系统仍持续在研发中,我们期待有更多的应用实例能发表文献,相信从这些文献及实例应可给我们更具体的概念,也才能对该系统如何应用于国内的可行性有更清楚的认识。

  UMLS中揭示了一种可以使检索者更自由、更精确的表达信息需求的索引法。此为业经控制的自然语言索引方式。但对中文数据库而言,其整理语句架构的方式并不适用。由于中文在表达形式上与拼字语言(如英文)有很大的差异,中文并没有所谓的单复数的字尾变化,词性的分别也不明显且叙述时并没有所谓的文法来限定表达形式。换言之,以UMLS的建置经验并不能提供我们作为建置中文数据库时的方针,惟其规划系统的程序法应该可以提供给我们一个思考的空间。
 楼主| 发表于 2007-9-27 01:57:29 | 显示全部楼层

繁体原文

統一醫學語言系統簡介
張慧銖

--------------------------------------------------------------------------------

前言
  1986年初,美國國家醫學圖書館(NationalLibrary of Medicine,簡稱NLM)開始著手一個長期的研發計劃,即統一醫學語言系統(Unified Medical Language System,簡稱UMLS)。此一計劃的誕生,乃是基於下列假設:『及時檢索正確而新穎的資訊,將有助於決策的制定,並能提昇研究及病人照護品質。』。由於生物醫學資訊不斷大量的增加且分散於各個資料庫系統,因此想要查檢完整而新穎的資訊殊為不易,是故UMLS應運而生,其目的在提昇系統之能力,使系統能了解讀者在生物醫學方面的問題意涵,並進而幫助讀者檢索及整合相關資訊。UMLS著重在解決二個影響有效檢索的問題:1.同一概念經由不同的人或在不同的資料庫中可能會有不同的表達方式;2.庫系統分散所造成的檢索不完整的問題。換言之,UMLS試圖在讀者問題與資料來源間建立概念上的連結。
  UMLS 計劃的目的並不在建立一索引詞彙,或建置一大型知識庫以涵蓋所有生物醫學文獻資料,而是針對病歷紀錄定義其電子形式資料應具備之架構及內容。也就是說,在UMLS 計劃中,希望可以創造出一個界面環境,而這個界面必須擔負起三項主要功能:1.具備詮釋讀者問題的能力;2.具備判斷並連結相關資料庫的人工智慧;3.執行有效檢索的能力。

  為達到前述三項功能,UMLS系統中設計了泛索引典(Metathesaurus)和語意網路(Semantic Network)二個知識庫來達成系統在檢索問題(query)與各資料庫系統中所存有之大量生物醫學文獻間建立概念上的關聯;而資訊來源圖(Information Source Map)的建置,可以幫助讀者判斷並建議合於讀者檢索需求之資料庫;至於專家語典(SPECIALIST Lexicon)則主要應用於提供各項語詞資料,以幫助系統處理自然語言所產生的語法差異的問題。

  UMLS 的主要架構係由四個知識庫所構成,即泛索引典﹑語意網路﹑資訊來源圖和專家語典,本文簡單介紹其設計的基本理念與功能,盼能讓讀者有一概括的認識。


一﹑泛索引典{METATHESAURUS}
  資訊檢索結果的成功與否,取決於讀者對其所使用資料庫架構之了解程度,而要使電腦與使用者間可以作互動式的交談,關鍵因素即是『語言』。而Metathesaurus即為UMLS系統中負責掌控詞彙的工具。所謂意即超越、涵蓋。顧名思義Metathesaurus(以下簡稱Meta)可視為一個概念名詞的知識庫,是由生物醫學領域中許多不同索引典或分類表中所抽取出來的辭目所組成。換言之,Meta的範圍決定於其涵蓋的索引典數量。以目前1996年版來說,Meta中約含有589,000的個語詞 (concept name) 以表達253,000個概念(concepts),而其來源則分別取自30個生物醫學索引典。在Meta中,保留了個別索引典中對概念的定義、階層的連結及各項語意關係。並為在Meta中的每一個概念建立新的關聯,用以串接不同索引典中各概念與詞彙間的關係,整合不同來源的索引典為一個龐大的、業經控制的概念知識庫。
  除了各索引典間的整合外,Meta也試圖跨越因語文的不同所造成概念的表達形式不一的問題。在1996年版的Meta中已包括MeSH的法、德、西、葡文譯本。而來自其他索引典之轉譯辭目也將在未來Meta的後續版本中被逐步納入。

  UMLS用以處理自然語言之程序,是把檢索者的檢索用語先和Meta中所載有的詞彙作對照,找出系統用語,再依其所對應的語意型態,將檢索者輸入之檢索用語間建立合理的關係,使系統可據以判讀使用者檢索諮詢,進而作資料庫選取之建議。


二﹑語意網路{SEMANTIC NETWORK}
  語意網路的產生是為了讓Meta中所涵蓋的概念(concepts)能有一致的分類體系,並為所有的概念建立關係,使能根據每一個概念所屬之語意型態在網路中所在的位置來檢視其與其他概念間的關係。其做法是為每一個在Meta中出現過的概念賦與其所歸屬的語意型態(semantic type),並且定義每個語意型態間產生連結的關係為何。藉由語意型態的賦與及關係的建立,提供一致的觀點來檢視Meta中所涵蓋之所有概念,使電腦可以『理解』文獻內涵及整個生物醫學知識領域之架構,並進而輔助使用者之資訊尋求行為。也就是說語意網路是一個將生物醫學領域中各物件(object)加以分類的一個架構,所以其範圍大於Meta中所包含的任何單一索引典,且整個架構尚隨著生物醫學領域的擴展而不斷向外延伸。

三﹑資訊來源圖{Information Sources Map}
  大量而快速成長的生物醫學資訊以及資料型態的多元化,使得任何個人想要完整蒐集單一主題的生物醫學資訊,十分困難。ISM設計的目的即在幫助生物醫學領域的讀者,經由系統功能之支援,輔助其在資料內容上做選擇判斷,並透過網路快速獲得相關資訊,以解決其問題。
  ISM的初步構想是由使用者輸入其有興趣的主題,交由系統自動作判斷並列出可能與讀者需求相符之資料庫清單。根據此一建議清單,使用者可視其需要:1.取得各相關資料庫之介紹資料;2.將清單上所建議的資料庫來源,依讀者個別需求加以重整;3.自動連結至某一資料庫。

  ISM System主要涵蓋的部份有二,即伺服器與使用端,其中ISMS Server主要功能在 (1)存放知識庫(ISM Knowledge Base)。(2)資料庫選取程式(Source Selection Logic),此一軟體程式在於執行讀者檢索策略,以便與知識庫中涵蓋之各個資料庫作對照;而ISMS Client之功能則為網路通訊。

  ISM System的主要目的乃在幫助使用者選擇適合其研究主題的資料庫,故除了上述所言, 可依使用者個別需求(如:資料相關程度、資料型態、偏重主題、檢索途徑、文獻適用類型。)來重整輸出結果外,讀者也可選擇某特定之資料庫,以便獲得有關該資料庫更進一步的資訊如:涵蓋範圍、收錄標準等,或選擇自動連結至該資料庫檢索論文、官書資料、專利及各種媒體資料等文獻。


四、專家詞語錄{SPECIALIST Lexicon}
  專家詞語錄主要是在提供各項語詞資料,以便系統可以據以處理自然語言所產生之語法上不確定的問題。我們可將SPECIALIST Lexicon視為是一套大部頭的電子辭典,而其範圍則涵蓋一般常用英文單字及生物醫學辭彙。
  在SPECIALIST Lexicon中提供了每個字詞語彙上的各項訊息,包括1.定義在其語法結構上的類屬(category)2.其衍生的字詞尾變化(如名詞的單複數形、動詞的語形變化、形容詞或副詞的原級、比較形、最高級等) 3.允許的修飾補語(complementation patterns)。語言學上有關語法的分類可分為11類:動詞(verbs)、名詞(nouns)、形容詞(adjectives)、副詞(adverbs)、助詞(auxiliaries)、語態(modals)、代名詞(pronouns)、先行詞(prepositions)、連接詞(conjunctions)、補語(complementizers)及限定詞(determiners)。而語言的基本句型(basic sentence patterns)決定於其動詞引導的補語之數目及特質,也就是說主要動詞的補語一旦確定,則整個句子的架構就差不多被定型。


五、知識源伺服器{Knowledge Source Server}
  UMLS的目的乃在發展一分散式知識庫集,以便可以移植在各種不同的應用軟體上,來補足不同生物醫學資料庫系統中,以不同方式表達相同概念的缺點。而UMLSKnowledge Source Server為一發展中的工具,目的在提供透過Internet擷取存於UMLS Knowledge Source中各項資料的管道,以方便使用者,特別是系統發展師,可以便利地擷取UMLS系統之資料。
  UMLS系統架構是採Client-Server方式處理。由client端依TCP/IP通訊標準,傳遞需求指令(requests)到NLM集中管理之Server。而連線管道可經由指令模式(command-line interface)、應用模式(Application Programming Interface, API)及透過World Wide Web等三種方式。Knowledge Source Server的優點在於便利的提供系統發展師從遠端依其所需擷取UMLS資料,更重要的是使系統管理師不需額外投入時間、精力去了解資料檔案的架構及其他細節,就可以將UMLS Knowledge Source直接使用於應用軟體上。


結語
  從UMLS的設計理念中我們可以看出,它結合了許多領域中的學科專家共同努力,至少包括醫學界、圖書資訊學、語言學及電腦界的人士。可見一個以使用者為導向的系統非要結合不同領域的知識不能竟其功。我們經常感嘆學術網路(Internet)上有許多他國建置好的資料庫供全世界的人取用,而我們卻很汗顏並沒有著名的中文資料庫提供給大家。若是國內可以參考UMLS所建置的知識庫,在不同的領域中整理出他們的研究成果與該領域的辭彙並提供利用,應該是大家所樂觀其成的。
  由於UMLS系統仍持續在研發中,我們期待有更多的應用實例能發表文獻,相信從這些文獻及實例應可給我們更具體的概念,也才能對該系統如何應用於國內的可行性有更清楚的認識。

  UMLS中揭示了一種可以使檢索者更自由、更精確的表達資訊需求的索引法。此為業經控制的自然語言索引方式。但對中文資料庫而言,其整理語句架構的方式並不適用。由於中文在表達形式上與拼字語言(如英文)有很大的差異,中文並沒有所謂的單複數的字尾變化,詞性的分別也不明顯且敘述時並沒有所謂的文法來限定表達形式。換言之,以UMLS的建置經驗並不能提供我們作為建置中文資料庫時的方針,惟其規劃系統的程序法應該可以提供給我們一個思考的空間。
发表于 2007-9-27 09:48:41 | 显示全部楼层
乍一看还以为是张惠妹写的呢。
发表于 2007-9-30 10:44:34 | 显示全部楼层
看来台湾和我们在翻译上有所不同:
我们称之为“一体化医学语言系统”,“超级词表”、“语义网络”,其他如伺服器我们叫服务器。
資訊來源圖{Information Sources Map}项目已经终止了。
发表于 2007-9-30 10:50:09 | 显示全部楼层
三.        一体化医学语言系统(Unified Medical Language System, UMLS)
1        概述
        背景:美国国立医学图书馆(NLM)1986年开始组织研究和开发的一项长期项目。
        宗旨:帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息,使用户能够方便地把分离的信息系统中的信息集中起来,所谓的分离的信息系统包括计算机病案系统、书目文献数据库、事实数据库和专家系统等。
        具体手段:UMLS项目开发了机读型的“知识库”,到1999年已发行第10版。可以将其广泛应用于应用程序之中,以克服因词表不同和相关文献分散于不同数据库等问题造成的检索困难。
        开发策略:人员包括多学科的指导小组,NLM的职员,全美各地通过投标获取经费的医学信息学研究小组。此外,NLM还极力推广UMLS的使用,只要承担NLM提出的要求并在许可书上签字就可以获得当年免费的知识源。NLM通过对各版使用反馈的情况不断对“知识源”进行精雕细刻。
        知识源:包括四种,即超级词表、语义网络、信息源图谱和专家词典。相互联系,结合使用的一个整体。其中超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。语义网络是为建立概念、术语间相互关系而设计的,它为超级词表中的所有概念标明了类别和语义类型。信息源图谱是一个有关各种生物医学数据库的范围、位置、词表、语法及获取条件的信息。专家词典则包括英语词汇数据库及其配套程序。
        应用:建立病人数据库、自然语言处理、信息检索。NLM自己则将其应用到网上检索软件Internet Grateful Med上。
2        超级词表
        收录范围:第10版包括了50多种的生物医学词表和分类表。
        包括如下类型:
        病历管理系统词表:如哥伦比亚大学长老会医学中心的医学用语词典(MED of CPMC),系统化医学和兽医学术语表(SNOMED)等。
        疾病和疾病过程的分类表:如ICD-9。
        专业词表:包括与精神病学、护理、医疗器械、药物副作用等数据有关的词表。
        专家系统或联机数据库中的疾病术语:如麻省总医院的专家系统Dxplain,孟德尔人类遗传学联机数据库、临床癌症事实型数据库等。
        信息检索系统使用的词表,如MeSH及其各种译本、美国国会图书馆标题表。
        医学词典,如多兰氏医学词典、医生现行工作术语。
        工具性词表:如校对词表等。
        收录上的特点:
量大:1999年收录626,893个概念,1,358,891个词。数量在医学信息检索语言发展史上是空前的 。
有侧重:对来源词表的收录有完整收录和部分收录之分。有的词表如ICD-9,MeSH等收词多,而对《人类流行病学研究方法学专业词表》则仅收录43个。
动态:收词量动态增长,1997年约有8万个概念和13。5万个词同时有删除。
        超级词表系统的组织结构:
“概念”是超级词表的组织系统的核心。超级词表是依据概念(concept)或涵义(Meaning)为中心组织起来的,从根本上说,其目的是要将同一概念的各种名称(同义词)和形式(单复数、形容词等)联系在一起,并标识不同概念之间的关系。
超级词表中采用了三级模式来表达概念及相关形式:
        概念(Concept):共626,893个(1999),其唯一标识符为CUI。
        术语(Term):表达同一概念的不同术语,如同义词。其唯一标识符为LUI。
        串(String):同一术语的多种变异形式,如复数及其他变形。其唯一标识符为SUI
        如图1, 串Atrial Fibrillation 和及其复数形式Atriallations 具有不同的串唯一标识符(SUI=S0016668和SUI=S0016669),但是它们都连接到同一个术语标识符(LUI=L0004238)。由于术语Atrial Fibrillaion 和术语Auricular Fibrillation 是同义词,因此其不同的LUI都连接到同一个CUI。
        应当注意的问题:
        优先采用形式:词表中每个概念指定一个优先形式(Preferred),表示同一概念的术语或同一术语的多个词串分别指定一个优先形式。如上图。但这种指定只是在建词表时指定的默认形式。实际上,用户可以根据自己的习惯爱好和具体情况自由选择概念的交替术语以及术语的不同形式。
        多义串:在某些情况下,一个词串能表达两个或多个概念,称为多义词串。如COLD,在一个来源词表中是一个有关温度的名称,而在另一个词表中却是感冒的交替名称。超级词表目前对它的处理是分别标以Cold(1) 和 cold(2)作为两个不同的词串,规入两个不同的概念,因而分别具有不同的词串标识符。今后的版本中可能采取其他方式,如"Cold(temperature)","Cold(disease)"。

3        语义网络
        定义:
语义网络是建立概念间相互关系的权威规则。通过134种语义类型,为在超级词表中的所有概念提供一种目录组织结构。语义类型之间通过54种语义关系为这种组织结构提供框架,以代表生物学领域重要的关系。
语义网络为超级词表中的每个概念至少提供一种语义类型;同时也给信息源图谱中的每个数据库标明一种语义类型,以表达信息源之间的内在联系。
语义网络试图建立一种语义类型及其相互关系的权威规则,以标引每一个超级词表中的概念,表达概念之间可能存在的相互关系。
        语义类型:
语义类型的结构是等级制的,其顶层分为“物”和“事”两大类,由此层层展开。每一个语义类型有一个等级号。如“诊断过程”的等级号是B1•3•1•2。此外,每一个语义类型还赋予一个语义类型代码,这些码并无实质意义。其结构如图2。
        语义关系:
语义关系链将语义类型连接成为语义网络。在语义网络中,语义类型可以看成有层次结构的节点,而将这些节点连成网的就是语义关系“链”。这种关系链共有54种,可以分成两类:
        等级关系链(H):仅一种,为isa。它是语义网络中的基本等级链,表达语义类型间的等级关系。如果语义类型(A)与语义类型(B)之间是isa关系,则表示A语义类型在定义上比B更为专指。如图3。
        相关关系链(R):除isa外,其余的语义关系都是相关关系。它们反映了语义类型间的多样性。包括物理上的相关、空间上相关、功能上相关、时间上相关和概念上相关。如图4。

                           思想或概念
                                                发现物
                            生物体属性
                            智力产品
             概念性物       语言
                            职业或科学     专业或职业人群
        物                  组织机构       人口群体
                            人群属性       家庭群体                  药用物质
                            人群           年龄组                    生物医学或牙科材料  
高层                                       疾患或残疾人群            生物活性物质     激素
                            生物体                                   指示剂或试剂     酶
                            解剖学结构             化学功能上的物质  危险品或有毒物质 维生素
              实质性物      人造物        化学物质                                    受体
                            物质          体内物质  化学结构上的物质
                                          食物
                                          社会行为
                            行为          个体行为
              活动          日常或娱乐活动
                            职业性活动
                            机器性活动

        事
                             人为现象或过程                  疾病或综合征
                             自然现象或过程    生物学功能    细胞或分子机理不良
              现象或过程     损伤或中毒        病理功能      疾病实验模型
图2  语义类型树型结构示例
每一种语义关系都有其定义,并规定它可连接的语义类型。例如,语义关系“影响”的定义是:对...产生一种直接的效果,意为对一种存在的条件、状态、环境或物的改变或影响,包括对...起作用、改变、影响,使易感染、催化、激发、调节、抑制、阻碍、增强、有助于...、致使、修订。可连接的语义类型有:
自然现象或过程   影响   自然现象或过程
解剖学异常       影响   生理功能
生物学功能       影响   生物体
解剖学异常       影响   生物体
卫生保健活动     影响   生物学功能
心理过程         影响   行为
……

A 物 (T107)
1.        实质性物(T072)
1.生物体 (T001)
1.        植物  (T002)
1. 海藻(T003)       
2.        真菌(T004)
3.        病毒(T005)
4.        立克次氏体或衣原体(T006)
5.        细菌(T007)
6.        动物(T008)
1.无脊椎动物(T009)
2.        有脊椎动物(T010)
1.        两栖类(T011)
2.        鸟类(T012)
3.        鱼类(T013)
4.        爬行动物(T014)
5.        哺乳动物(T015)
B 事
1.        活动
1.        行为
1.        社会行为
1.        个体行为
2.        日常或娱乐活动
3.        职业性活动
1.        卫生保健活动
1.        实验室过程
2.        诊断过程
3.        治疗或预防过程
2.        研究过程
1.        分子生物学研究技术
3.政府或立法活动
4.教育活动
4.机器性活动
  1.  人类(T016)

图3 语义类型的等级结构示例


H.等级关系链 isa
R.相关关系链
1.        物理上相关
1.        ...的部分
2.        由...组成
3.        包含
4.        与...相连
5.        相互连接
2.        空间上相关
位于...
与...相邻
包围,周围
穿过
3.        功能上相关
影响
管理
治疗
干扰
并发
与...相互作用
预防
                带来、造成
                        产生
                        引起
                执行
                          实施
                        展示
                        练习
                ...
4.        时间上相关
与...同时发生
先于...发生
5.        概念上相关
...的评价
...的程度、等级
分析
        分析评估的影响
...的测量值
测量
诊断
...的特性
...



图4 UMLS语义网络的语义关系

        语义关系的等级继承和继承阻断
等级继承:只高层语义类型间的语义关系,一般可以通过等级结构(ISA链)下传给这些节点的所有子类。等级结构的高层节点之间的语义关系是固定的关系。如上述例子中的“影响”链接的高层语义类型节点,有一对是“解剖学异常          影响    生物体”,表明,语义关系“影响”固定存在于“解剖学异常 ”和“ 生物体”之间,那么这种语义关系也存在于这两种语义类型的所有子类语义类型之间。如“获得性异常”是“解剖学异常”的一个子类语义类型,那么“获得性异常”与“生物体”的所有子类语义类型之间都有“影响”语义关系。如 “获得性异常”  影响  “植物”、“获得性异常”影响“真菌”等等。
继承阻断:不能继承的链称为阻断。在某些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系之间的连接产生歧义例如,语义关系“...的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而“植物”也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显然,植物不可能有心理过程。于是这种链接不能继承。称为阻断。其具体作法是只将语义关系界定在直接连接的两种语义关系之间,而使其子类不能继承这种关系。
4        专家词典
        概述
专家词典是为满足“专家”自然语言处理系统对词汇信息的需求而开发的,打算作为一个包括大量生物医学术语的普通英语词典。覆盖面即包括常见英语词汇,也包括生物医学词汇。每条词或术语包括专家自然语言处理系统所必须的句法,形态及graphemic信息。
设计语法变形生成程序想要解决的问题是自然语言单词和术语的高度变异性。同一单词经常有多种变形,如"treat" 一词,可以有其单数第三人称形式"treats",过去分词"treated" 和现在分词"treating"。词汇变形生成程序就是帮助用户摆脱这类变化。
        词典的范围
从不同来源中选出单词进行词汇编码。从UMLS的MEDLINE文摘收据试验中获得的20,000左右的单词加上UMLS超级词表中和Dorland图解医学词典的单词,形成输入单词的核心。此外,尽量包括一般英语词汇,如在美国Heritage词频词典中列出的10,000最常用单词和在 Longman当代英语词典中定义的2,00单词。由于所选的单词大多数都是名词,通过确认当前MEDLINE记录中的动词,使用计算机化牛津高级学生词典,及挑选Dorland图解医学词典中潜在的形容词,尽量包括动词和形容词。
        用法
词典由一系列条目组成,每一条目代表在特定结构里的一种拼写变异或一组拼写变形。还包括一些多词组合词,以及缩写词等。具有共同的基本形式和拼写变化的条目组成一个记录。基本形式拼写变异中的引文形式,而引文形式系指动词的不定式形式、名词的单数形式和形容词副词的原形。
词表的记录是一个由SLOT和FILLER的框架结构。每个记录有一个“base=”slot 其filler指明其基本形式。有些记录还有一组:“spelling_variants=”slot 以标识拼写变异。每一词条由“entry= ”slot分隔开,每一个词条有其EUI号。EUI号是由“E”打头加7位数字组成。每一词条还有“cat=”slot表明其在句子中的成分。记录由花括号分隔。
例如:下面就是联合型的词典中的"anaesthetic"记录:
其基本形式是“anaesthetic”,其拼写变异是anesthetic,该记录还有名词条目和形容词条目两个条目。其“variants=”slot表示该条目的形态变异,如名词条目中的“reg”表明名词是一个可数名词,遵循一般复数规则(anaethetics)。其形容词条目中的“variants=”slot的“int”表明该形容词没有比较级和最高级。其“position=” slot 表明“anaesthetic”形容一个属性并且在正常语序中在色彩形容词之后。

{base=anaesthetic
            spelling_variant=anesthetic
        entry=E0008769
                cat=noun
                variants=reg
        entry=E0008770
                cat=adj
                variants=inv
                position=attrib(3)
}

5        信息源图谱
NLM不再继续开发ULMS的信息源图谱。但他们将继续开展该图谱一直想解决的问题,即:对一个特定的检索要求,在众多的信息源中,决定哪一个或几个信息源包含有与之相关的信息,并且支持多信息源的检索和检索结果的合成。
发表于 2007-10-1 12:41:28 | 显示全部楼层
文中提到icd9,应该偏早了,感觉umls这些年进展并不太大,是技术落后实现起来有些不容易,还是应用前景并不够广泛?即使umls建的很好,能直接翻译移植过来吗?谁来维护和同步?
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表