数据可视化
数据可视化(英语:Data visualization)被许多学科视为与视觉传达含义相同的现代概念。它涉及到数据的可视化表示的创建和研究。[1]
为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图表和其他工具。可以使用点、线或条对数字数据进行编码,以便在视觉上传达定量信息。[2] 有效的可视化可以帮助用户分析和推理数据和证据。它使复杂的数据更容易理解和使用。用户可能有特定的分析任务(如进行比较或理解因果关系),以及该任务要遵循的图形设计原则。表格通常用于用户查找特定的度量,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。
数据可视化既是一门艺术也是一门科学。[3] 有些人认为它是描述统计学的一个分支,但也有些人认为它是一个扎根理论开发工具。互联网活动产生的数据量的增加和环境中传感器数量的增加被称为"大数据"或物联网。处理、分析和交流这些数据对数据可视化来说是道德和分析方面的挑战。[4] 数据科学领域和被称为数据科学家的从业人员可以帮助应对这一挑战。[5]
概述
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息[6]。
数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一[7]。
历史
数据可视化领域的起源可以追溯到1950年代初的。当时,人们利用电脑创建出了首批图形图表。1987年,由布鲁斯·麦考梅克、汤姆斯·蒂凡提和玛克辛·布朗所编写的美国国家科学基金会报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”)[8],对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于电脑的可视化技术方法的必要性。随着电脑运算能力的迅速提升,人们建立了规模越来越大,复杂程度越来越高的数值模型,从而造就了形形色色体积庞大的数值型数据集。同时,人们不但利用医学扫描仪和显微镜之类的数据采集装置产生大型的数据集,而且还利用可以保存文本、数值和多媒体信息的大型数据库来收集数据。因而,就需要高级的电脑图形学技术与方法来处理和可视化这些规模庞大的数据集[7]。
短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于电脑建模和模拟的运用。更近一些的时候,可视化也日益尤为关注数据,包括那些来自商业、财务、行政管理、数码媒体等方面的大型异质性数据集合。1990年代初,人们发起了一个新的,称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,目前人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化”[7]。
自那时起,数据可视化就是一个处于不断演变之中的概念,其边界在不断地扩大;因而,最好是对其加以宽泛的定义。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、电脑视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多[9]。
数据可视化的适用范围
关于数据可视化的适用范围,目前存在着不同的划分方法。一个常见的关注焦点就是信息的呈现。例如,迈克尔·弗兰德利(2008)提出了数据可视化的两个主要的组成部分:统计图形和主题图[1]。另外,《Data Visualization: Modern Approaches》(意为“数据可视化:现代方法”,2007)一文则概括阐述了数据可视化的下列主题[10]:
所有这些主题全都与图形设计和信息表达密切相关。
另一方面,Frits H. Post(2002)则从电脑科学的视角,将这一领域划分为如下多个子领域[7]:
- 可视化算法与技术方法
- 立体可视化
- 信息可视化
- 多分辨率方法
- 建模技术方法
- 交互技术方法与体系架构
数据可视化的成功应归于其背后基本思想的完备性:依据数据及其内在模式和关系,利用电脑生成的图像来获得深入认识和知识。其第二个前提就是利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。这些思想和概念极其重要,对于计算科学与工程方法学以及管理活动都有着精深而又广泛的影响。《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中重点强调了各种应用领域与它们各自所特有的问题求解可视化技术方法之间的相互作用[7]。
相关领域
数据采集
数据采集(有时缩写为DAQ或DAS),又称为“数据获取”或“数据收集”,是指对现实世界进行采样,以便产生可供电脑处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成组件当中包括用于将测量参数转换成为电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的。
数据分析
数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
数据分析的类型包括:
- 探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。
- 定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
数据治理
数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术;数据治理旨在:
- 增强决策制定过程中的一致性与信心
- 降低遭受监管罚款的风险
- 改善数据的安全性
- 最大限度地提高数据的创收潜力
- 指定信息质量责任
数据管理
数据管理,又称为“数据资源管理”,包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理,DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛,涵盖了许多可能在技术上并不直接接触低层数据管理工作(如关系数据库管理)的职业。
数据挖掘
数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智慧组织和金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大数据集之中提取信息。
数据挖掘被描述为“从数据之中提取隐含的,先前未知的,潜在有用信息的非凡过程”[11],以及“从大型数据集或数据库之中提取有用信息的科学”[12]。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析,从中寻找可能有助于决策制定工作的模式的过程[13]。
参考文献
- ^ 1.0 1.1 Michael Friendly (2008). "Milestones in the history of thematic cartography, statistical graphics, and data visualization" (页面存档备份,存于互联网档案馆).
- ^ Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004 (PDF). [2019-04-28]. (原始内容存档 (PDF)于2014-10-05).
- ^ Manuela Aparicio and Carlos J. Costa. Data visualization. Communication Design Quarterly Review. November 2014, 3 (1): 7–11. doi:10.1145/2721882.2721883.
- ^ Nikos Bikaks (2018) "Big Data Visualization Tools" Encyclopedia of Big Data Technologies, Springer 2018.
- ^ Press, Gil. A Very Short History Of Data Science. [2019-04-28]. (原始内容存档于2017-09-11).
- ^ (英文) "Data Visualization and Infographics" (页面存档备份,存于互联网档案馆) in: Graphics, Monday Inspiration, January 14th, 2008.
- ^ 7.0 7.1 7.2 7.3 7.4 (英文) Frits H. Post, Gregory M. Nielson and Georges-Pierre Bonneau (2002). Data Visualization: The State of the Art 互联网档案馆的存档,存档日期2009-10-07..
- ^ (英文) Bruce H. McCormick, Thomas A. DeFanti and Maxine D. Brown (eds.) (1987). Visualization in Scientific Computing. ACM Press
- ^ (英文)Paul Reilly, S. P. Q. Rahtz (eds.) 1992. Archaeology and the Information Age: A Global Perspective. p.92.
- ^ (英文)"Data Visualization: Modern Approaches" (页面存档备份,存于互联网档案馆). in: Graphics, August 2nd, 2007
- ^ (英文)W. Frawley and G. Piatetsky-Shapiro and C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine. Fall 1992: pp. 213–228. ISSN 0738-4602.
- ^ (英文)D. Hand, H. Mannila, P. Smyth. Principles of Data Mining. MIT Press, Cambridge, MA. 2001. ISBN 0-262-08290-X.
- ^ (英文)Ellen Monk, Bret Wagner. Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. 2006. ISBN 0-619-21663-8.
延伸阅读
- (英文)Chandrajit Bajaj, Bala Krishnamurthy (1999). 'Data Visualization Techniques.
- (英文)William S. Cleveland (1993). Visualizing Data. Hobart Press.
- (英文)William S. Cleveland (1994). The Elements of Graphing Data. Hobart Press.
- (英文)Alexander N. Gorban, Balázs Kégl and Andrey Zinovyev (2007). Principal Manifolds for Data Visualization and Dimension Reduction.
- (英文)John P. Lee and Georges G. Grinstein (eds.) (1994). Database Issues for Data Visualization: IEEE Visualization '93 Workshop, San Diego.
- (英文)Peter R. Keller and Mary Keller (1993). Visual Cues: Practical Data Visualization.
- (英文)Frits H. Post, Gregory M. Nielson and Georges-Pierre Bonneau (2002). Data Visualization: The State of the Art.
外部链接
- (英文)Milestones in the History of Thematic Cartography, Statistical Graphics, and Data Visualization (页面存档备份,存于互联网档案馆), An illustrated chronology of innovations by Michael Friendly and Daniel J. Denis.
- (英文)uiGarden.net - Weaving Usability and Cultures: Infographics: Being and Doing (Part I) (页面存档备份,存于互联网档案馆) by Venkatesh Rajamanickam (27 November 2007).
- (英文)uiGarden.net - Weaving Usability and Cultures: Infographics: Being and Doing (Part II) (页面存档备份,存于互联网档案馆) by Venkatesh Rajamanickam (27 November 2007).