2023大数据可视分析技术.docx
大数据可视化分析技术综述目录大数据可视化分析技术综述11引言32可视化和可视分析概述62.1 可视化62.2 可视化查询语言72.3 可视分析与自动数据分析82.4 可视分析的数据准备92.5 图驱动的数据获取102.6 识指导的数据增强102.7 量感知的数据清洗103.1 分析意图驱动的数据获取103.2 领域知识指导的数据增强123.3 分析质量感知的数据清洗134智能数据可视化144.1 智能数据可视化概述154.2 领域知识指导的数据可视化推荐204.3 数据特征驱动的数据可视化推荐214.4 融合分析意图的数据可视化推荐214.5 基于参考对象的数据可视化推荐224.6 考虑用户偏好的数据可视化推荐234.7 基于混合策略的数据可视化推荐235高效可视分析244.8 能254.9 计算框架255.1 基于高效数据管理的高效可视分析255.2 可视化感知的高效可视分析275.3 人工智能驱动的高效可视分析285.4 基于硬件和计算框架加速的高效可视分析296智能可视分析接口297研究展望与未来趋势387.1 面向可视分析的数据准备387.2 智能数据可视化397.3 高效可视分析397.4 智能可视分析接口397.5 智能可视分析的评测基准407.6 智能可视分析的应用生态408总结401引三随着计算机硬件和大数据处理技术的高速发展,海量数据智能分析的瓶颈已经从“如何快速地处理海量数据”转变为“如何从海量数据中快速有效地挖掘出有价值的信息可视化和可视分析基于人类的视觉感知特性,结合数据分析和人机交互等技术,利用可视化图表去解构复杂数据中蕴含的知识和规律.这种技术贯穿于数据科学的全生命周期,被誉为大数据智能领域的最后一公里,已在许多大数据应用分析场景取得令人瞩目的效果.因此,中国科技创新2030”新一代人工智能”和“大数据”专项都将可视化和可视分析列为大数据智能的关键技术g1.触电如图1所示,传统的可视分析极度依赖用户频繁主动地参与可视分析的全生命周期41标备、叫你3,化限射。f机化以研圉恂户交近.可便分析等舲段,M用户的干般投他”较为,泵段的Wie化程度较低UMt,传统的可彼分析«1宜系维。花可屈分析归门播.故找发着代馅为,文?1.响应归姬居交现楂式效率低酬(战.为了提高可视分析系统的整体效能研究者们M从人工智能和数据管理的视角出发,将人工智能和数据管理技术赋能可视化和可视分析系统,提高系统的智能化程度,进而帮助用户高效地参与可视分析全生命周期的数据准备、可视化、可视分析交互等环节,优化可视分析的人机协作模式,提高可视分析的质量和效率.基于此,智能数据可视分析(intelligentdatavisualizationanalysis)的概念应运而生,其核心思想是“算法赋能”和“以简驭繁二通过数据管理和人工智能技术赋能可视分析的工作流,将传统可视分析工作流中的用户的主动探索和分析变为机器算法的智能辅助探索和分析,降低可视化和可视分析的生产和消费成本,协同优化可视分析全生命周期的数据管理、可视化和可视分析的人机协作模式,致力于辅助用户高效地进行可视分析.从学科关系的视角出发,如图2所示,智能数据可视分析是以数据管理和人工智能技术为支撑,通过人机交互手段进行交互式数据分析,通过可视化手段进行数据的信息解构和分析结果的直观呈现,帮助用户快速地从海量数据中挖掘出有价值的信息.从可视化工作流的视角出发,如图1所示,智能数据可视分析技术可以优化传统可视分析工作流的人机协作模式,提高可视分析的效能.具体而言,智能数据可视分析技术可以优化传统可视分析工作流中的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接口4个模块.接下来,本文将困绕上述4个模块,展开介绍智能数据可视分析技术.现有挑战数枕布飞大、工1卜”也;Ad改耍析推成本至曲可E)析出口检分4结果不精准交互应花延迟交4q式效忠低分析:应对智能数据可视分析框架面向可视分析的数1«准备智能数据可视化高效可视分析,分析意图驱动的数据获取I领域知识指导的数据地兴I分析质n密知的数据清洗I领域知识I数据特征I分析意函1参考对象I用户偏好?昆立镜略1I“r一J.J实时大规KJ溶染菠化感知的数据索引M似另询处理it化?%的故据4样智能可视分析接口渐进式可视化IT咎式可视分析为口JI白嬷酒;搜索Mi交,1卜一¾rOa智能分析故“发述接U数据不备收据可视化映射旧可视化形式可视化结果治染轮图I数据管理1_!数据可视化据务图数任意可视分析结果可视分析)用户交互交互设计可视分析工作流6A传统可视分析人机协作模式智能可视分析人机协作模式图1N视分析工作流和智能数据可视分析技术框架(1)面向可视分析的数据准备:传统可视化和可视分析工作流中的数据准备工作没有针对可视化和可视分析的特点进行优化,存在数据准备代价高、数据质量较敏感和分析维度不全面的挑战.首先,在数据发现阶段,传统方法没有根据用户的分析任务进行相关数据集/数据元组的发现,从而导致在数据准备阶段融合了大量对可视分析无关或者没有蕴含足够洞察的数据集.加重后续可视分析的负担.其次,在数据清洗阶段,传统方法力求找到数据集中的所有错误并进行清洗,以为后续的可视分析提供高质量的数据集.然而,这种数据清洗方式的代价通常很高.如果在数据准备阶段提前考虑可视分析的意图,即清洗与可视分析查询相关的数据子集,则在降低数据清洗代价的同时还能提高可视分析的质量.此外,如果获取的数据集属性过于单一,通常会导致分析的维度过于局限.因此,可以通过关联相关数据源进行数据增强,丰富可视分析的维度.面向可视分析的数据准备技术旨在运用数据管理和人工智能技术,结合可视化和可视分析的特性,优化可视分析工作流中数据准备阶段的人机协作模式,为用户以低成本的方式准备高质量和语义丰富的数据,以支持高质量的可视化和可视分析.图2智能可视分析内涵(2)智能数据可视化:数据可视化通过可视化图表来解构复杂数据中蕴含的知识和规律.在可视化阶段,概括来说需要解决两大核心的任务为“需要可视化哪些数据(Whaldataisneeded?)”和“以什么样的方式进行数据的可视化(Howtovisualizethedata?)”.传统的可视化方式需要用户在对数据集理解的基础上,选择和过滤出用于生成可视化结果的数据子集,挑选合适的数据维度并进行一系列的数据转换操作(如聚集操作等),最后通过可视化工具将该数据表映射到可视化空间中,渲染生成可视化结果.如果生成的可视化结果不满足可视分析中用户的任务需求,则需要重复上述的若干步骤直到找到用户满意的可视化结果.不难看出,传统的可视化过程通常是循环迭代的.需要用户参与到数据选择、转换和可视化映射等环节,存在可视分析高门槛、交互模式效率低、分析结果不精准和分析维度不全面的挑战.为了解决上述挑战,智能数据可视化技术需要结合用户的分析意图、数据特征、领域知识等,自动地生成和推荐给定数据集中有价值的可视化结果,帮助用户高效地进行可视化和可视分析.(3)高效可视分析:在数据量急剧增长的情况下,受计算能力可扩展性和显示设备局限性的约束,会导致可视分析的交互响应延迟较高.方面,这是由于可视分析系统的数据处理和分析时间较长;另一方面,大规模的数据点难以高效渲染并在有限的显示设备上进行呈现和实时交互.为了解决上述挑战,研究人员从硬件和计算框架、数据管理、人工智能和可视化技术出发研究高效可视分析技术,协同优化可视分析中的数据管理和可视化交互的效率.例如,基于可视化感知的数据索引技术和近似查询处理技术,高效地进行数据组织和处理;利用人工智能技术进行用户交互行为的预测,进行用户分析查询的高效重写和数据预取;基于视觉感知的采样、渐进可视化和实时泡染技术,进行大规模数据的高效演染和实时交互.(4)智能可视分析接口:可视分析接口是用户与系统交互的媒介,一方面,系统需要通过交互接口获得用户可视分析的意图和操作指令.传统的交互方法褥要用户根据可视分析系统的交互设计规则,学习特定系统的交互方式(如编程指令或图形化界面操作方式等),对用户的专业要求技能较高,交互接口的学习成本也较大,存在可视分析门槛高和交互模式效率低的挑战;另一方面,可视分析的结果需要通过交互接口呈现给用户,传统的方法仅仅是将可视分析的碎片化发现直接呈现给用户,需要用户进一步挖掘这些碎片化可视分析结论的内在逻辑关系和因果关系,并进一步整理成可在组织内传播的可视分析报告,存在可视分析结果难消贽的挑战.基于上述讨论,一方面,智能可视分析接口需要为用户提供简单的交互接口(例如基于自然语言查询的接口),并通过智能算法进行用户分析意图的理解和可视分析结果的生成和推荐,降低可视分析系统的使用门援和优化系统的人机协作模式.另一方面,智能可视分析接口还需要基于人工智能技术,自动挖掘可视分析结果之间的内在联系,通过关系挖掘、信息补全、文本生成等技术,基于用户可视分析得到的碎片化结果智能地生成分析式仪表盘和可视分析故事叙述,提高用户整理和共享可视分析结果的效率,从而缓解可视分析结果难消费的挑战.综上所述,智能数据可视分析以人工智能和数据管理技术为支撑,结合可视化和可视分析、人机交互等技术,对可视分析工作流的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接I14个模块进行协同优化:优化可视分析中数据准备阶段的人机协作模式,以支持用户以低成本的方式准备高质量的分析数据;通过智能可视化手段,自动地生成和推荐数据集中有意义的可视化和可视分析结果给用户,优化可视化的生产模式;基于数据管理和可视化技术提高分析数据的处理效率,以支持海量数据的实时分析和交互;基于数据挖掘、自然语言处理和可视化技术为用户提供问答式可视分析接口,并根据可视分析的结果智能地生成分析式仪表盘和可视分析故事叙述,降低用户利用可视分析结果的代价.综述调查范围:为了更好地对智能数据可视分析的研窕进展进行梳理、总结和分析,本文对30多年来(1984-2022)近200篇论文进行了系统性地梳理、总结和分析.如表1所示,本文主要调查了可视化、数据挖掘和数据管理、人机交互和机器学习领域的主要国际会议和期刊论文.通过对图3(八)论文发表年份变化的观察,会发现所有会议或者期刊随着时间推移论文的总数呈现出稳步上升的趋势.这也说明了智能数据可视分析在未来将会受到持续的关注.图3(b)展示了本文主要章节所调查论文的分布情况,其中可视化与数据挖掘和数据管理领域的相关论文数量最多,由此反映出本文所调态的论文与本文题目的相关性较高,还可以看出各章节对各领域的分析都有所涉及且重点突出.表I本文综述调查范围研究领域会议,期刊可视化和图形学ViSUalization(VIS)IEEEVIS(InfOVis,VAST.SciVis).TVCGEuroVis.PacifkVisTOG.SlGGRAPHCGF数据挖掘和数据管理KDD.SIGMOD.V1.DB.ICDE.TKDE.TheV1.DBJoumalTODS.CIDR.DASFAA.EDBT.Dataminingandmanagement(DMM)IEEEBigData人机交互HUma膜,HerirUen3on陋,UlSTJUI,Hl1.DA.AVI,HCl机器学习Machinelearning(M1.)ICM1.,NeurIPS,CVPR,AC1.,EMN1.P,IJCAI,AAAIOOOZl芟6一EOOEOOzO-Oel-Ooe