整洁的数据和如何得到它

作者:约翰·斯宾塞,马萨诸塞州不整洁的数据甚至可以破坏最强的卫生信息系统,并为有效使用数据设置障碍。

作者John Spencer, MA,高级GIS技术专家,MEASURE评估

整理数据你准备好坐下来使用一个新获得的数据集,为它将如何打开一个洞察和理解的世界而兴奋,然后发现你不能使用它。首先,您必须花费大量的时间来重构数据,甚至开始生成一组基本的描述性统计数据或将其链接到您一直在使用的其他数据。

如果你有过这样的经历,你就遇到过不整洁的数据集

不整洁的数据是一团糟。变量名很奇怪;观测值应该以行形式存储时,却以列形式存储;时间序列数据被记录,因此很难计算经过的时间。底线:当数据不整洁时,在将其用于任何分析之前可能需要进行单独的工作。

在全球卫生领域,不整洁的数据是一个问题,即使是最强的卫生信息系统也会受到影响,并给有效使用数据带来障碍。随着卫生系统的发展,从系统输出的数据与进入系统的数据一样易于处理,这一点同样重要。这是因为越来越多的人依赖于数据进行规划决策、专门分析以及与其他系统的连接。整洁的数据对一个强大的卫生系统至关重要。

“整洁数据”是一个术语,旨在提供一个框架,用于生成符合标准的数据,使数据更易于使用。整洁的数据可能仍然需要一些清理以进行分析,但这项工作将容易得多。整洁数据背后的概念在2014年Hadley Wickham的论文《整洁数据》中有所描述。[1]他描述了整洁数据的三个基本属性:

  1. 每个变量组成一列
  2. 每个观察结果组成一行
  3. 每种类型的观测单元组成一个表

不整洁的数据通常是这样的:

  • 列标题是值,而不是变量名
  • 多个变量存储在一列中
  • 变量存储在行和列中
  • 多个类型的观测单元存储在同一个表中
  • 一个观测单元存储在多个表中

这些年来,我遇到过所有这些问题。这是一个非常常见的问题,人们引用了90/10规则,90%的工作将用于准备数据,只有10%将用于分析和映射。有人把它称为二八定律,但他们是我们当中的乐观主义者。

不整洁的数据从何而来?我通常发现它起源于两个方面:

  1. 国家卫生信息系统、捐助者报告系统或其他政府部门等独立系统中的数据是为满足该组织的需要而设计的,但很少考虑如何将这些数据与其他系统的数据相结合。
  2. 数据原本是整齐的,但导出后变得不整齐。例如,存储在常规健康信息系统中的数据结构良好,但导出到Excel文件或CSV文件时就变得不整洁。

解决这两个问题需要提高数据提供者和数据用户对整洁数据的意识。数据提供者可以以符合整洁数据标准的定义良好的导出格式提供数据。数据用户可能仍然需要对数据进行一些修改,但当数据一开始就很整洁时,这样做要容易得多。

整洁的数据是充分发挥现有潜力的重要组成部分数据的激增.在世界摆脱不整洁的数据之前,这里有一些工具可以帮助整理:

Jean-Nicholas Hould概述了Python编程语言中的工具。在(http://www.jeannicholashould.com/tidy-data-in-python.html).

统计编程语言R是数据分析和整理数据的好工具。R中有几个可用的包可以帮助整理数据。哈德利·维克汉姆的《Tidyr》可能是最好的入门读物。在https://blog.rstudio.org/2014/07/22/introducing-tidyr/

更多关于R编程语言的信息可以在https://www.r-project.org/about.html网上有很多很好的R教程。

Excel不一定是整理数据的最好工具,但它可以做一些事情。微软介绍了如何清理数据,并包括一些可能有帮助的插件https://support.office.com/en-us/article/Top-ten-ways-to-clean-your-data-2844b620-677c-47a7-ac3e-c2e157d1db19

并且,您还将在http://myexcelonline.com/blog/top-excel-data-cleansing-techniques/

欲了解更多信息

MEASURE评估由美国国际开发署资助,旨在加强发展中国家收集、解释和使用数据以改善健康的能力。有关该项目的数据科学工作的更多信息,请访问://www.veresfitness.com/our-work/data-science

有关整洁数据的有用信息以及地理空间数据隐私和机密性的重要性,请参阅MEASURE评估的这两个常见问题。

关于地理信息系统的常见问题-整洁的数据:空间数据成功的关键-数据结构技巧

关于地理信息系统的常见问题-明智和道德地使用空间数据:隐私和机密性



[1]哈德利,维克汉姆,2014年。整理数据。统计软件杂志;卷59;问题10。从检索https://www.jstatsoft.org/article/view/v059i10

了下: 数据 数据质量 地理信息系统
邮件 LinkedIn 推特 脸谱网
分享
Baidu
map