数据可视化技术包含以下几个基本概念:
①数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;
②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
③数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;
④数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。
数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。
常见的数据质量问题包括:1.数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象。2.数据中的离群点,即不同于数据集中其他大部分数据对象特征的数据对象。3.存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全。4.数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。例如,体重是负数,或者所填的邮政编码和城市之间并没有对应关系。5.重复值的存在,数据集中包含完全重复或几乎重复的数据。正是因为有以上问题的存在,直接拿采集的数据进行分析or可视化,得出的结论往往会误导用户做出错误的决策。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。
版权所有©2024 天助网