找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
楼主: dongxi

Miforum0505191900论坛数据挖掘

[复制链接]
发表于 2005-8-31 18:00:34 | 显示全部楼层

Miforum0505191900论坛数据挖掘

大多数数据挖掘都停留在定量分析阶段,请大家一定要注意定性分析啊!
发表于 2005-9-1 13:15:24 | 显示全部楼层

Miforum0505191900论坛数据挖掘

<p>数据挖掘_首先必须要有数据,你从这些数据得到社么信息,你能从这些信息得到社么_这就是数据挖掘的目的</p>
医疗信息 该用户已被删除
发表于 2006-2-5 16:08:07 | 显示全部楼层

Miforum0505191900论坛数据挖掘

<img src='images/smiles/cry.gif' smilietext=':cry:' border='0' style='vertical-align:middle' alt=':cry:' />  
<br>盲目!  医学信息标准化        447        62
发表于 2006-3-8 20:57:29 | 显示全部楼层

Miforum0505191900论坛数据挖掘

数据挖掘的原理与技术,本身统计学方法和计算机应用就是构成其的基础与成分。
发表于 2010-2-1 17:19:57 | 显示全部楼层
数据挖掘用到一些统计的方法,但是数据挖掘不等于统计汇总,回顾一下数据挖掘的定义,这一点点的变量几乎不可能发现模式的。
发表于 2010-2-1 18:18:08 | 显示全部楼层
就现有数据分析,只能是统计分析啊:
论坛名称        帖子数        帖子累积数目        帖子累积百分比
HIS论坛        5232        5232        19.88899871
Pacs系统应用        3033        8265        31.41868775
医学信息学研究        2712        10977        41.72812286
HL7研究        2474        13451        51.13282141
电子病历技术        2274        15725        59.77723713
七七八八        2187        17912        68.09092983
DICOM技术论坛        1966        19878        75.56451
医院CIO        1347        21225        80.68501483
生物医学知识整合论        1025        22250        84.5814643
版务办公室        1000        23250        88.38287843
广告区        876        24126        91.71291721
专业翻译切磋        589        24715        93.95195013
国外参考        563        25278        96.09214628
医学信息标准化        447        25725        97.79137839
统计学讨论        175        25900        98.45662586
健康报在线版        165        26065        99.0838592
学术杂谈        108        26173        99.49441192
认证交流        89        26262        99.83273778
NoSA统计软件讨论        44        26306        100
平均数 1354
按帖子数目排序: 不知道这是多长时间的数据,如果有,可以和其他专业的论坛对比,各个论坛平均帖子数是1354,但是标准差也是1354左右,应该说比较大。
从帖子的学科领域可以看出来,his和pasc两个就占了30%的帖子。总的来说,临床信息实用技术论坛的帖子占绝大多数,而医学信息学研究,七七八八,生物医学知识整合论,统计,翻译等等帖子数所占比例很小。所以,这个论坛是以临床信息学,而且是以信息技术为主的论坛,
类目设置对这个领域比较细,对其他设置比较粗,可能是网站管理者的理解和偏好,也可能是网站用户的实际需求所致。
每个论坛发表主题数目:
HIS论坛        603
七七八八        603
Pacs系统应用        459
医学信息学研究        444
HL7研究        382
DICOM技术论坛        347
广告区        259
电子病历技术        251
版务办公室        165
医院CIO        156
生物医学知识整合论        142
国外参考        133
专业翻译切磋        74
学术杂谈        64
医学信息标准化        62
统计学讨论        38
健康报在线版        29
认证交流        24
NoSA统计软件讨论        18
可以理解为每个论坛涉及的广度,除了HIS,七七八八还是名副其实的,需要对这里的主题进一步分类后整理出新的类目来。
下面是每个论坛每个主题的平均帖子数分析,可以在一定程度上说明每个主题大家关注的程度。
论坛名称        每个主题平均帖子数
电子病历技术        9.059760956
HIS论坛        8.676616915
医院CIO        8.634615385
专业翻译切磋        7.959459459
生物医学知识整合论        7.218309859
医学信息标准化        7.209677419
Pacs系统应用        6.607843137
HL7研究        6.476439791
医学信息学研究        6.108108108
版务办公室        6.060606061
健康报在线版        5.689655172
DICOM技术论坛        5.665706052
统计学讨论        4.605263158
国外参考        4.233082707
认证交流        3.708333333
七七八八        3.626865672
广告区        3.382239382
NoSA统计软件讨论        2.444444444
学术杂谈        1.6875
从上面的各个论坛每个主题平均帖子数,也可以看出来大家关心的还是临床信息技术,但是翻译问题也比较引人注目。
所以,这些数据一方面反映了网站本身的类目设置上的合理性,另一方面反映了用户的兴趣爱好,二者需要结合起来分析。
但是,我要说,这远远不是数据挖掘。
发表于 2010-2-1 18:20:45 | 显示全部楼层

补充几句

本帖最后由 zilu85 于 2010-2-2 07:00 编辑

对不起,多发了一遍,通过编辑修改来删除重复的信息。借机补充几句话:
统计是很有用的工具,一点点的数据,用最基本的百分比、平均数、标准差可以看出大致的分布趋势,但是不能找出数据之间的联系或者潜在的模式,不能因为数据挖掘这个词时髦就什么都往上靠。
文献计量学的分析有时候和文本挖掘也不好区分,按照频次由高到低排列,是产生布拉德福定律等经典定律的基本手段,由此发现了相关论文在期刊上分布的规律,单词出现频率的规律(齐夫定律),写出相应论文数目的作者数目的分布(洛特卡定律),这就发现了数据之间的潜在的规律,得出了经验公式,符合数据挖掘的定义了。但是目前对某个领域的文献计量学研究多数是总结汇总已有状况,甚至是表现学科研究发展历史的总结性研究,是否算作数据挖掘和知识发现,值得商榷,因为数据挖掘和知识发现也在发展中,也没有广为接受的确切的定义。
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表