找回密码
 欢迎注册
搜索
热搜: 活动 交友 discuz
查看: 5096|回复: 17

如何看待“数据清洗”

[复制链接]
发表于 2004-11-20 08:35:40 | 显示全部楼层 |阅读模式
前几天参加一信息化会议,会议上谈论较多的是数据仓库的问题,其中都普遍提到“数据清洗”一词。
本院信息科设立了一个信息组,主要为院长做专题信息分析报告,在提取数据过程,经常会发现一些异常数据,因此也经常干一些修改原始数据的活,目的是能得出更加客观分析,我以为这也是“数据清洗”之列了。
但要说明的是,对于发现的异常数据(经常有发生),我却以为,如果是一个更加严谨系统,却是可以避免的。
因此在大家在谈“数据清洗”时,是否可以反思一下。
发表于 2004-11-20 09:48:32 | 显示全部楼层

如何看待“数据清洗”

“数据清洗”其实是必须的,因为各种数据所表达的信息“粒度”是不尽相同的,作业系统从设计的一开始就是着眼于操作方便的,而不光是为了数据分析。
有时系统设计的越严谨,提取数据的复杂度却会越高,反而更需要清洗了。所以,我认为系统设计必须严谨,但数据提取时的清洗也必须认真对待。
 楼主| 发表于 2004-11-20 10:10:45 | 显示全部楼层

如何看待“数据清洗”

我理解sbf2000的
"因为各种数据所表达的信息“粒度”是不尽相同的",好像是指“数据清洗”是为了得到不同“粒度”的数据,以便于数据分析。
“数据清洗”包不包括,对系统中存在的一些与客观不符,或数据不一致,或逻辑不一致的数据的修正呢。
 楼主| 发表于 2004-11-20 10:17:19 | 显示全部楼层

如何看待“数据清洗”

从实际工作出发,我也赞同“数据清洗”其实是必须的。
记得八年前,初入此道时,一位权威的医学统计学家对如何保证系统源数据的准确性表示疑问,
并且提出一种简单且容易实现,但实际工作中却不可能有人去做的方法来保证数据的准确性,暂且卖一个关子,让大家猜猜
发表于 2004-11-20 10:25:05 | 显示全部楼层

如何看待“数据清洗”

信息系统把客观的事实保留下来是必须的。否则,很难获得管理有用的信息。
 楼主| 发表于 2004-11-20 11:11:16 | 显示全部楼层

如何看待“数据清洗”

最初由 熟透番薯 发表
[B]信息系统把客观的事实保留下来是必须的。否则,很难获得管理有用的信息。 [/B]

熟透番薯兄所指“客观的事实保留下来”意义不明,
发表于 2004-11-20 13:56:51 | 显示全部楼层

如何看待“数据清洗”

能否举个简单的实际例子?
发表于 2004-11-21 08:48:54 | 显示全部楼层

如何看待“数据清洗”

最初由 ermulong 发表
[B]我理解sbf2000的
"对系统中存在的一些与客观不符,或数据不一致,或逻辑不一致的数据... [/B]


系统中存在一些错误数据,可能产生原因有很多:

1.软件编程中的BUG引起的,这种错误发现后马上要改正的,所以一个比稳定的系统很少再会有这种情况。

2.软件设计时的观察点不同,使各个子系统中的数据有矛盾,这种错误根源在于系统分析不全面。现在有一定规模的HIS软件公司的产品一般都能做到比较完整的系统分析。

3.软件使用时,只使用部分功能造成数据不完整,而失去了数据的利用价值。这种问题要从软件设计和应用实施两方面去解决。软件设计尽量使各子系统能够松散耦合、可以独立使用、为使用者留下充分的余地;实施时一定要做好沟通和培训,使用户很快就理解并接受系统的设计思想。

4.用户操作时输入错识数据,但系统没有做到或不能做到数据验证。这种错识有时只能靠修改,只是可以考虑通过有监控的修改还是直接开库修改。

所以,数据清洗主要是为了数据分析而进行的,并不需要对大量与分析无关的原始数据进行处理。

对于象电子病历那样有大量重要原始数据的系统,有必要设计数据质控系统,对所有原始数据进行全面的检查和质控,以便日后可以比较方便和有效地分析数据。据我在一套地区性围产保健系统中得到的经验,数据错误率一般达到3%-30%。比如你收集了10万人的保健信息,完整可用的数据可能只有7万。
发表于 2004-11-22 14:22:54 | 显示全部楼层

如何看待“数据清洗”

我最近在做一个住院病人的数据分析,对于数据清洗除了更正一些系统中的错误数据以外,更多的工作是对数据进行归并和整理。在数据分析中并不是所有的数据、所有的字段都有用,数据清洗就是从原有的数据中提取有用的字段和数据生成新的事实数据表。例如床位费在住院表中每天都是固定的一条在数据分析中意义不大,我们就可以将它按照收费价格合并。还有在住院病人信息表中会纪录一些病人的联系电话,亲属的电话等这些字段对数据分析毫无用处,形成新的CUBE时就可以去掉。
由于数据分析的数据量非常大,为了系统效能,没用的字段尽量不要,可合并的数据尽量合并。
 楼主| 发表于 2004-11-22 17:27:12 | 显示全部楼层

如何看待“数据清洗”

最初由 sbf2000 发表
[B]据我在一套地区性围产保健系统中得到的经验,数据错误率一般达到3%-30%。比如你收集了10万人的保健信息,完整可用的数据可能只有7万[/B]

假设有此数据分析不能少这3万如何处理
发表于 2004-11-26 10:55:14 | 显示全部楼层

如何看待“数据清洗”

1、删除在数据仓库中不需要的字段。
2、将所有的数值转换为所需的数据类型。
3、将每一个字段转换为正切的格式(例如:大小写字母、删除前置空格)。
4、根据需求检验字段数值是否在正确范围之内。
5、检验数据仓库所需字段是否拥有数据。
数据清洗是一项复杂且耗时的工作!
发表于 2004-11-26 11:05:13 | 显示全部楼层

如何看待“数据清洗”

我正在使用sql2000中的Analysis Services对住院系统作数据分析,在过程中发现HIS数据库中的数据问题太多了,不进行整理其分析结果根本没有参考价值且效率非常低。
发表于 2004-11-26 12:53:17 | 显示全部楼层

如何看待“数据清洗”

我觉得"清洗"提法欠妥。

上述各位所讲的情况非常重要,但大多只是数据“清理”,“整理”,“选择”的问题,极少需要清除。数据就是根据,证据,是宝中之宝。除非确实是风马牛不相及的东西,或确实时效极短的东西。有些数据就象物种一样,丢失了或删除了就永远找不回来。几千年前欧洲盖伦留下的数据(病史)现在是无价之宝。 所以对原始数据我觉得应尽可能保存下来,只要是如实记载的数据。有些数据对某种问题是“不完整”的数据,但对其他问题可能很关键。

还有"清洗"的原则也必须理清。如果遇到既无知又“自信”的老兄来个大刀阔斧,大砍大删,有分析头脑的人士岂非欲哭无泪?!
发表于 2004-11-26 18:31:01 | 显示全部楼层

如何看待“数据清洗”

应用是“数据筛选和转换”吧?在具体的分析过程中,一般不能在原数据库中修改,只能是用备份库或直接从库中提取和转换。这在数据仓库的应用中就是这么做的。
发表于 2004-11-29 08:35:33 | 显示全部楼层

如何看待“数据清洗”

数据仓库的形成是从原有数据库中或文本中进行提取和转换,形成数据仓库中新的事实表,在提取和转换中进行数据清洗,并非在原数据库中直接操作。
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

快速回复 返回顶部 返回列表