|
LBSALE[200]LBSALE本人最近研究了一下XSL,发现它有非常强大的信息提取功能。
XSL可把一个XML数据源,转换为另一个XML数据或其它格式的数据。如果在XSL中包含了信息提取方法以后,它就可能从一个源XML提取出另一个目的XML,目的XML同样还可以再次提取出更精炼的目的XML。这样,类似数学上的解题过程,可以从大量复杂数据中,按一层或多层XSL提取逻辑进行多次演算提取后,产生各种人们容易接受的精炼信息。这样就能完成数据->信息的转换,中间利用了XSL描术了解题步骤与方法。由于用XSL记录了演算提取的过程和算法,这想当于把人的知识传授给了电脑。电脑可以利用这些XSL反复进行解题。
现在一般的数据都是存贮在关系数据库之中的,利用各数据库产商的工具很容易将关系数据转化为XML数据,再经XSL多次提取后可以产生多层中间XML数据,这样用多个XSL反复组合演算不难得到人们想要又能轻易理解的数据,最终可以将最精炼有用的信息以HTML或其它形式提供给人们。
当前,我们最关键要研究的是这些XML数据如何组织?适当地定义了各中间XML数据层后,我们就可以很容易地编写出相应的XSL来进行转换。中间XML的定义,好比是数学题的解题步骤划分,这是比较困难的,又是非常重要的。
对于某个领域,我们可能通过监测系统或业务系统采集大量的原始数据。这些数据,在手工方式下大多没有记录或无法利用,比如医院的门诊处方,相信每个医院都有几十万几百万份,但这些纸张上的数据,绝大部分难以利用。最多使用抽样调查和数理统计的方法来研究其中的某些数据,但其难度和工作量都是非常大的。现在有了电脑,数据是记录下来了,但如何利用这些数据和电脑的计算能力来为我们提取出更多更好的实用信息,是摆在我们面前的主要问题。
我这里提出的是使用XSL对XML数据提取和利用,也包括数据格式的转化。当然,我针对的是医学信息领域。为什么要利用XSL而不用其它一些现成的工具呢?原因是现成还没有更方便、廉价、容易掌握、并非常灵活的现成工具或技术,而XSL是最好的。它可以与其它工具或数据进行协作,以允分利用现成的软件技术。
至于如何具体去实现?如何使这种方法和技术能被人普遍接受和采用?我想最关键的是“共享XSL逻辑”。当我们针对某个问题,编写了一个XSL,如果它只能为一个人用,那为它付出的代价也是挺大的。但如果它能使很多人,在很多问题的求解中用到,那就有了巨大的价值。
要想实现“共享XSL逻辑”这个目的,一个前提是“统一XML数据”,也就是,我们要定义一个公共的XML中间数据规范。任何数据可以先用一个专用的XSL将自它转换为标准的XML数据,再使用现成的XSL逻辑进行信息提取。
在医学信息领域,我们最关心的应该是临床数据及其反映的信息和知识,如果能使用电脑,成功地提取日常业务中的临床数据所包含的未知信息和知识,这将是一种突破性的研究成果,具有十分巨大的应用价值。这也将是将来电子病历的努力的方向。研究基于XSL的信息提取技术,将使这个愿望提前实现!
HL7 V3,全面使用了XML作为消息数据格式,这为我们研究“统一XML数据”提供了重要参考。我们可以把HL7 V3,dicom3等看作是医院信息的基础框架,再用XSL熔入各个医学领域的专家知识。我们就不难实现先进的电子化病案系统、信息化医院及数字医学。为医学临床研究从经验性转变到数字性开创途径!
本人在这方面已进行了大量研究和思考,但自知能力有限,不敢独享其果,而误了技术发展。所以,写来与大家共享,希望更多有识之士,加入研究和讨论。
我想就此主题及临床文档相关的主题成立专题研究组,招纳个方贤士共同研究。也希望坛主能给予鼎立支持和管理。 |
|