找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 2319|回复: 12

基于XSL的信息提取技术

[复制链接]
发表于 2003-3-12 10:25:30 | 显示全部楼层 |阅读模式
LBSALE[200]LBSALE本人最近研究了一下XSL,发现它有非常强大的信息提取功能。
XSL可把一个XML数据源,转换为另一个XML数据或其它格式的数据。如果在XSL中包含了信息提取方法以后,它就可能从一个源XML提取出另一个目的XML,目的XML同样还可以再次提取出更精炼的目的XML。这样,类似数学上的解题过程,可以从大量复杂数据中,按一层或多层XSL提取逻辑进行多次演算提取后,产生各种人们容易接受的精炼信息。这样就能完成数据->信息的转换,中间利用了XSL描术了解题步骤与方法。由于用XSL记录了演算提取的过程和算法,这想当于把人的知识传授给了电脑。电脑可以利用这些XSL反复进行解题。
现在一般的数据都是存贮在关系数据库之中的,利用各数据库产商的工具很容易将关系数据转化为XML数据,再经XSL多次提取后可以产生多层中间XML数据,这样用多个XSL反复组合演算不难得到人们想要又能轻易理解的数据,最终可以将最精炼有用的信息以HTML或其它形式提供给人们。
当前,我们最关键要研究的是这些XML数据如何组织?适当地定义了各中间XML数据层后,我们就可以很容易地编写出相应的XSL来进行转换。中间XML的定义,好比是数学题的解题步骤划分,这是比较困难的,又是非常重要的。
对于某个领域,我们可能通过监测系统或业务系统采集大量的原始数据。这些数据,在手工方式下大多没有记录或无法利用,比如医院的门诊处方,相信每个医院都有几十万几百万份,但这些纸张上的数据,绝大部分难以利用。最多使用抽样调查和数理统计的方法来研究其中的某些数据,但其难度和工作量都是非常大的。现在有了电脑,数据是记录下来了,但如何利用这些数据和电脑的计算能力来为我们提取出更多更好的实用信息,是摆在我们面前的主要问题。
我这里提出的是使用XSL对XML数据提取和利用,也包括数据格式的转化。当然,我针对的是医学信息领域。为什么要利用XSL而不用其它一些现成的工具呢?原因是现成还没有更方便、廉价、容易掌握、并非常灵活的现成工具或技术,而XSL是最好的。它可以与其它工具或数据进行协作,以允分利用现成的软件技术。
至于如何具体去实现?如何使这种方法和技术能被人普遍接受和采用?我想最关键的是“共享XSL逻辑”。当我们针对某个问题,编写了一个XSL,如果它只能为一个人用,那为它付出的代价也是挺大的。但如果它能使很多人,在很多问题的求解中用到,那就有了巨大的价值。
要想实现“共享XSL逻辑”这个目的,一个前提是“统一XML数据”,也就是,我们要定义一个公共的XML中间数据规范。任何数据可以先用一个专用的XSL将自它转换为标准的XML数据,再使用现成的XSL逻辑进行信息提取。
在医学信息领域,我们最关心的应该是临床数据及其反映的信息和知识,如果能使用电脑,成功地提取日常业务中的临床数据所包含的未知信息和知识,这将是一种突破性的研究成果,具有十分巨大的应用价值。这也将是将来电子病历的努力的方向。研究基于XSL的信息提取技术,将使这个愿望提前实现!
HL7 V3,全面使用了XML作为消息数据格式,这为我们研究“统一XML数据”提供了重要参考。我们可以把HL7 V3,dicom3等看作是医院信息的基础框架,再用XSL熔入各个医学领域的专家知识。我们就不难实现先进的电子化病案系统、信息化医院及数字医学。为医学临床研究从经验性转变到数字性开创途径!
本人在这方面已进行了大量研究和思考,但自知能力有限,不敢独享其果,而误了技术发展。所以,写来与大家共享,希望更多有识之士,加入研究和讨论。
我想就此主题及临床文档相关的主题成立专题研究组,招纳个方贤士共同研究。也希望坛主能给予鼎立支持和管理。
 楼主| 发表于 2003-3-12 10:30:32 | 显示全部楼层

基于XSL的信息提取技术

我想就此主题及临床文档相关的主题成立专题研究组,招纳个方贤士共同研究。也希望坛主能给予鼎立支持和管理。
贴子要购买,只是不想让没有兴趣的人参与。如果您想研究电子病历、临床文档、XML、和医学信息提取,请你不要错过,一定要进来看看!不满意者,说明理由,退回全部勤奋值!
发表于 2003-3-14 01:35:42 | 显示全部楼层

基于XSL的信息提取技术

思路很不错,我想可以归纳为两个方面,一个是xsl技术方面如何实现,另一个是技术的具体应用,我想这个数学题,是需要知道答案然后在反过去推测这个数学题的解题过程,是吗?
如果要成立专题小组的话,具体的目标仍不够明确,我想初期应该定义更详细一些更具体一些的应用目标,然后才好考虑如何应用到其他方面,最后再考虑如何提取共性的东西形成成果。
 楼主| 发表于 2003-3-14 09:02:43 | 显示全部楼层

基于XSL的信息提取技术

1.XSL是W3C标准,在IE6及各主流开发工具中都是直接支持的可用技术。
2.这种数学题包括各种推导和计算,并不一定知道答案,它需要源XML数据作为输入,XSL记录解题过程,输出预先制定好的目的XML数据结果。
3.技术应用,是相对容易的。最方便的应用就是Web(B/S),因为IE6对XML和XSL有很好的支持。也可以在C/S应用中使用,使用XMLDOM,可以方便地对XML进行XSL转换。
4.至于具体目标,我想让大家先讨论一下再定。这里我先提几点:
一、我们不去研究具体的应用问题,而是研究一种解决方法和途径。
二、我们的研究需要一些用例(Case),对一些实际用例的研究,从而总结归纳出一般性的原则和方法。
三、我们的成果可以是一系列相关的研究报告和论文;也可以是软件;还有一些用于推广此技术的教学资料、PPT等;最重要的,通过这个研究,我们可以集中一群志趣相投的网络朋友,通过对同一课题的研究,增加各自的知识和能力以及相互学习和团体协作的经验。
四、作为一种民间技术协作研究,我们做法本身就有很大创新。利用网络,进行协作讨论和研究,是一种技术研究在组织方法上的新革命。研究的成功或失败,很大程度上决定于我们组织和管理。所以,我希望有人能在研究组的组织上做一些努力,大家也都注意一下这个问题,在研究技术的同时,我们还要尝试一种新的技术研究组织方法。所以,我想,组织管理也是我们的研究目标之一。
发表于 2003-3-14 12:33:13 | 显示全部楼层

基于XSL的信息提取技术

年轻人的想法很好。
发表于 2003-3-25 10:47:50 | 显示全部楼层

基于XSL的信息提取技术

这里好像每篇文章都要钱呀,这使新来了好像什么也看不了
发表于 2003-3-25 10:55:58 | 显示全部楼层

基于XSL的信息提取技术

我本人是搞HIS系统的,所以对XML略知一二,而且也希望能在sbf2000 那里学到一些东西,可是没想到很令我失望,题目很吸引人,可内容没有什么实质的东西,XSL能提取信息,是个懂XML的人都知道,关键是你是否有什么新颖的见解。所以我强烈要求退钱!!!!!!!
发表于 2003-3-25 10:59:11 | 显示全部楼层

基于XSL的信息提取技术

我也希望对该课题有兴趣的能人志士能和我合作共同探讨和学习
邮箱:zhaozxhr@sina.com
发表于 2003-4-5 08:51:05 | 显示全部楼层

基于XSL的信息提取技术

Cooky,你搞HIS可以不关心这个。
发表于 2003-4-7 11:31:38 | 显示全部楼层

基于XSL的信息提取技术

sbf2000,你的勤奋值已经很多了,还要盘剥我们这些穷人,为富不仁的典型啊。
xsl有一定的信息提取功能,不过。。是否十分强大就值得考虑了。
终究xsl只不过支持一定的查询定位功能而已,感觉并不是太强,
面对结构复杂的xml的文档,不知道是不是能胜任
 楼主| 发表于 2003-4-7 11:56:23 | 显示全部楼层

基于XSL的信息提取技术

呵呵,我为富不仁?严重了吧,勤奋值只是对用户对这个论坛的贡献大小的评价,它并没有流通价值(坛主取消了这个功能),所以我何富之有?相返,我很穷啊,所以只能到这里聊聊,想找点乐趣和交几个朋友而已,把我自已的所知所想,写来让大家听听、看看,这又算不仁了吗?
XSL的功能是非常强大的,但要想用好它也是很难的,我提出这个想法来,也是想看看大家是怎样认为的?
发表于 2003-4-8 14:40:32 | 显示全部楼层

基于XSL的信息提取技术

我只是随口说说,不用太当真了。
xsl和xml结合确实很不错, 不过它主要还是用于数据转换,
数据提取和数据转换当然有相似之处,但是。。。
我没有好好用过xsl,可能是了解的不够。
希望其他人能给点意见。
发表于 2003-4-11 17:18:54 | 显示全部楼层

基于XSL的信息提取技术

支持一下
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表