电子病历系统急需“医学语言机”技术

sbf2000 · 发表于 2004-6-15 19:11:00

最初由一片绿洲发表
[B]在映射之前，如何获得词汇和词汇之间的关系（确定词性）？这必然涉及到断词和句子结构分析，这就涉及到自然语言的词法和句法分析，这正是自然语言理解所研究的问题，也是最难的问题。由自然语言到RIM模型，必须解决这一问题。[/B]

首先说明，医学语言机技术并不等同于NLP，但与NLP有类似性。

主要区别在于NLP着眼于广泛的通用自然语言，医学语言机基于一个相对固定的RIM，并对词汇等符号系统、语句结构和RIM的范围作一定的控制，使它既属于自然语言，又有别于自然语言，相当于从自然语言中取出部分常用的医学语言形式，加以规范和解析。

当然这部分医学语言原则上越接近自然语言越好，可以逐步完善，最终形成属于自然语言范围的标准化医学语言。其实这种标准化在非计算机时代也是人们交流所需要的，只是需求没有现在强烈。

通常人们通过学历教育、日常言语、书刊杂志等传递并规范医学语言，现在信息时代，我们可以用医学语言机来统一（至少是辅助）和规范医学用语。

医学语言机首先要做的是分词，这是所有中文语言处理系统都要做的一步；分词以后是匹配，通过匹配，可以解决大部分词“词性”问题，少部分不能确定词性的词，可以进一步使用手工确认等方式实现；句子结构可以尽量固定，少设，并使用语句模式识别和匹配技术，提高有效率；对于生词、生句只能进行手工确定的方法来处理，再加上动态词库和动态句型库技术，不断完善受控语言，使之具有一定的“自学习功能”。至于词汇间的关系，这就由RIM决定了，RIM也可以不断完善，通过人性化的界面技术，直观的表达方法，简单明了的信息模型，应该可以实现这种受控医学语言机技术。

sinomis · 发表于 2004-6-18 09:44:01

想法不错，缺少可操作性

sbf2000 · 发表于 2004-6-23 17:20:32

经过一段时间的研究，有人提出来“医学语言机”的提法不太合适，改为“医学语言处理技术（MLP）”较好，这正好跟“自然语言处理技术（NLP）”相映。

sbf2000 · 发表于 2004-6-30 23:07:08

这几天写了点代码，初步尝试了一下实现这个“医学语言处理技术”可行性。
C:\Documents and Settings\Shen Bifei\My Documents\My Pictures\test4.jpg
这里实现了一个简单的基于词库的动态自动分词界面。

sbf2000 · 发表于 2004-6-30 23:12:40

C:\Documents and Settings\Shen Bifei\My Documents\My Pictures\test3.jpg
这个是分词后构建的解释器中的元词堆盏，可以跟据词典中的信息和语言模板动态生成对象实例。

sbf2000 · 发表于 2004-6-30 23:18:16

C:\Documents and Settings\Shen Bifei\My Documents\My Pictures\test1.jpg
这个是HL7 RIM模型，动态从RIM.DLL中反射出来的，RIM是信息表达的骨架，词典中的对词的注释项和语句模板都是由RIM中的元数据组成的。

sbf2000 · 发表于 2004-6-30 23:22:43

C:\Documents and Settings\Shen Bifei\My Documents\My Pictures\test2.jpg
这些准备实现由解释器跟据词典和句型模板自动动态生成的对象实例。这些实例数据最终存贮到关系数据库中，对象间的关系动态检索更新。

sbf2000 · 发表于 2004-6-30 23:36:46

总的来说有以下技术要点：

1.动态自然语言分词

2.动态自学习型基于模型的词典

3.高度抽象的信息模型，以最少的元数据表达最丰富的信息。

4.动态自学习型基于词典和模板的对象生成技术。

5.实例对象的持久化存贮与文本存贮间的双向解释技术。

sbf2000 · 发表于 2004-7-1 00:07:08

ToDo List:

一、分词
1.光靠词库还是不行的，需要实现简便的手工分词功能，手工分词结果可以自动记忆。
2.汉字输入跟分词系统结合，可以提高分词的准确性，也可以提高输入速度。

二、词典
1.词典现在只实现了最简单的词条，还需要实现用RIM来注释每个词条，当然事先注释是不可以对100万词全部完成注释的，必须实现一种简便的自动注释功能，边用边完善词条注释。既可以丰富词典，又可以共享每个用户的用词能力。
2.词典的数据结构不能太复杂，否则速度难以保证。速度和智能度之间肯定是一对矛盾。

三、模型
1.HL7 RIM对MIS信息应该可以表达了，但病历中大量的医学概念不知能否表达，RIM也需要可以动态扩展。
2.语句模板的数据结构还没有实现，存贮检索问题也有待研究，语句模板也要动态记忆。

四、对象
1.对象中如何封装和执行逻辑？
2.有些对象可能应该再一次生成更为具体的与实际相符的对象实例，但这种具体对象模型不作为词典和模板元数据用。而主要用于封装逻辑功能。

五、双向解释技术
1.重点考虑XML技术。
2.实现CDA。

xuyunxi · 发表于 2004-7-2 09:50:58

sbf兄，看不到图片呀，呵呵！
你老兄能做这么深入的研究，令人佩服！分词、字典、模型的设计分析已经很庞大了，建议老兄不妨先把系统实现和逻辑分开，相对来说逻辑的实现要相对容易一些。

sbf2000 · 发表于 2004-7-2 18:00:59

呵呵，我昨天就发现看不到图片了，原因是我不知道如何帖出图片，以为把我的图片在硬盘上的路径写上就能上传了，结果我自已是可以看到图片了，而别人却看不到。不知谁能告诉我如何在论坛里贴图？

xuyunxi建议得不错，我是用C#先做了分词模块，RIM模型，和一个测试界面。因为这些都是应用技术，光纸上谈兵是深入不下去的，所以我要边试验，边研究。再说，用C#提供的功能，系统实现有时候要比想象的简单。

希望有心人多给点指点，那怕是反面意见也行，因为我需要更多人对我的想进行更全面可行的思考。

dreamaster · 发表于 2004-7-3 10:28:29

贴图的方法是：

不要直接在帖子下面的文本框中回复。

先点右下角的“回复帖子”按钮，然后在“附件”一栏选你的图片文件。

sbf2000 · 发表于 2004-7-4 07:26:57

第一张图

sbf2000 · 发表于 2004-7-4 07:27:32

第二张图

sbf2000 · 发表于 2004-7-4 07:27:57

第三张图

		自动登录	找回密码
密码			欢迎注册