车联网路侧数据质量评估技术规范.docx
ICS43.020CCST04DJG330521德清县地方技术性规范DJG330521/T1152024车联网路侧数据质量评估技术规范TechnicaIspecificationsforroadsidedataquaIityassessmentoftheInternetofvehicIes20241205发布20250101实施德清县市场监督管理局发布_i_z_»刖百本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由德清县数据局提出并负责归口。本文件起草单位:德清县数据局、交通运输部公路科学研究所、浙江智网数创科技发展有限公司、车路通科技(成都)有限公司、浙江德清莫干山智联未来科技有限公司、浙江省质量科学研究院、德清县市场监督管理局。本文件主要起草人:朱芸、施钦怡、唐绍春、王卓丞、贝昂杰、张一鹏、郝德峰、董通、沈云麒、张鑫、顾升、范青蓝、张楠、张亮、冯钮、楼水能、杨洁、范芳亚、张卧龙、赵友。车联网路侧数据质量评估技术规范1范围本文件规定了车联网路侧数据质量评估的体系框架、评价原则及要求、评价实施、数据质量等级划分及评分结果等内容。本文件适用于车联网路侧数据、交通信号灯数据、道路施工数据、交通事故数据的质量评估,其他类似路侧数据质量评估也可参照使用。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344信息技术数据质量评价指标GB/T287892012视频交通事件检测器GB/T363442018信息技术数据质量评价指标YDB1242013车联网总体技术要求YD/T4770车路协同路侧感知系统技术要求及测试方法3术语和定义GB/T36344、YD/T4770界定的以及下列术语和定义适用于本文件。3.1车联网VehiClenetworking通过装载在车辆上的传感器、车载终端及电子标签提供车辆信息,采用各种通信技术实现车与车、车与人、车与路互连互通,并在信息网络平台上对信息进行提取、共享等有效利用,对车辆进行有效的管控和提供综合服务。来源:YDB124-2013,定义4.33.2交通事件trafficincident道路上发生的,影响车辆通行及交通安全的异常交通状况行为,主要指停止事件、逆行事件、行人事件、抛洒物事件、拥堵事件、机动车驶离事件、低速/超速行驶等典型事件种类。来源:GB/T287892012,定义3.13.3数据质量datequaIity在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T363442018,定义2.33.4数据模型datamodel对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和战略,以及管理和评价组织所需要的数据。来源:GB/T363442018,定义2.73.5数据标准datastandard数据的命名、定义、结构和取值规范方面的规则和基准。来源:GB/T363442018,定义2.来3.6路侧单元roadsideunit安装在路边的可实现V2X通信,支持V2X应用的硬件单元。来源:T/CASE53-2020,定义3.1.源3.7路侧感知定位系统roadsidesensingandpositioningsystem部署在路侧的由计算设备、感知设备及相关附属设备所组成的用于对道路交通参与者、交通事件和交通运行状况等进行实时检测识别和定位的系统。来源:T/CASE2021,定义3.1.23.8车载真值系统groundtruthsystem车载真值系统由惯性组合导航系统、固定基准站、移动基准站和数据采集模块构成。惯性组合导航系统包括惯性导航系统、GNSS定位系统,定位精度能达到ICm。固定基准站和移动基准站都是用于修正GNSS定位系统的定位偏差,固定基准站适用于开阔无遮挡的场地,有效范围不超过2公里,移动基准站适用于遮挡较多的城市道路。数据采集模块主要是采集来自惯性组合导航系统的数据,数据包括位置、速度、航向角、加速度、角速度等信息。来源:TLC061-2023,附录D定义D.2.14评价体系车联网路侧数据质量评价体系框架,见图1。可访问性不察网路侧数榭而评价体格枢瞿图1车联网路侧数据质量评价体系框架说明:规范性一一数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。完整性一一按照数据规则要求,数据元素被赋予数值的程度。准确性一一数据准确表示其所描述的真实实体(实际对象)真实值的程度。一致性一一数据与其他特定上下文中使用的数据无矛盾的程度。时效性一一数据在时间变化中的正确程度。可访问性一一数据能被访问的程度。5评价原则及要求5. 1评价原则车联网路侧数据质量评价体系遵循如下原则: 系统性:指标体系应考虑路侧、公共、多传感器等系统完备性,综合考虑各评价要素对数据质量的影响,且各指标项之间尽可能相互独立; 科学性:结合数据质量、数据生命周期管理的相关要求及实践情况,采用定性、定量的方法,科学设计评价指标体系;一通用性:评价体系宜考虑车联网通用场景下各系统的普适性,合理、合规的选择权重和分值; 可操作性:指标体系内容设置及评价方法选取数据概念明确及计算方法简单的指标,评价方法、评价内容和指标可量化,评价结果可使用。5.2评价要求5.2.1 可采用自动化评价工具和人工审核两种方式进行数据质量评价,自动化评价工具采用大数据统计和比对技术、人工智能模型、车辆运动轨迹模型等计算机应用技术;人工审核通过专家团队对数据进行综合核查并给出评价结果。5.2.2 宜定期开展对数据质量进行评价工作,并根据评价报告,反馈给数据提供方,以提升数据质量。表1规范性评价说明(续)名称描述计算方法业务规则数据符合业务规则的度量X=AB式中:A=满足业务规则的数据集中元素的个数B=被评价的数据集中元素的个数安全规范安全规范是安全和隐私方面的规则,包括数据权限管理,数据脱敏处理等X=AB式中:A=满足安全规范的数据集中元素的个数B=被评价的数据集中元素的个数注1:评价数据质量时需要收集数据在命名、创建、定义、更新和归档时遵循的标准,包括国际标准、国家标准、行业标准、地方标准或相关规定等。注2:在一个完整的数据规则中旧数据的销毁一般也有一个比较详细且具有可执行性的规定。注3:数据模型是一种直观描述组织数据结构的手段,是数据表达的规范。注4:评价数据质量时需要检查是否存在清晰可理解的数据模型定义以及这些数据的组织形式。注5:业务规则是一种权威性原则或指导方针,用来描述业务交互,并建立行动和数据行为结果及完整性的规则。注6:评价数据质量时需要检查是否存在良好归档的业务规则。6. 3数据质量完整性7. 3.1评价对象附录A采集数据、附录B交通信号灯数据、附录C道路施工数据、附录D交通事故数据的所有字段参与评价。8. 3.2评价方法9. 3.2.1数据完整性检查检查数据表中所有必要的字段都已填充,且未遗漏关键信息;验证数据记录内容完整,无丢失或截断记录;对于时间序列数据,检查数据在时间轴上的连续性,无突然中断或跳跃。10. .3评价说明完整性评价说明见表2。表2完整性评价说明名称描述计算方法数据元素完整性按照业务规则要求,数据集中应被赋值的数据元素的赋值程度X=AB式中:A二被赋值的数据集中元素的个数8=预期被赋值的数据集中元素的个数表2完整性评价说明(续)名称描述计算方法数据记录完整性按照业务规则要求,数据集中应被赋值的数据记录的赋值程度X=AB式中:4=被赋值的数据集中元素的个数B=预期被赋值的数据集中元素的个数6.4数据质量准确性6. 4.1评价对象附录A采集数据、附录B交通信号灯数据、附录C道路施工数据、附录D交通事故数据的所有字段参与评价。7. 4.2评价方法8. 4.2.1误差率统计计算数据值与实际值之间的误差,并统计误差率。9. 4.2.2分布检验对于某些类型的数据(如速度、油耗等),可以通过分析其分布情况判断数据的准确性。如果数据分布异常(如偏离正态分布过远),则可能存在准确性问题。注:具体的评价方法见附录F数据质量准确性评价方法。10. .3评价说明准确性评价说明见表3。表3准确性评价说明名称描述计算方法数据内容准确性数据内容是否是预期数据X=AB式中:A=满足数据准确性要求的数据集中元素的个数B=被评价的数据集中元素的个数数据格式合规性数据格式(包括数据类型、数据范围、数据长度、精度等)是否满足预期要求X=AB式中:生满足格式要求的数据集中元素的个数作被评价的数据集中元素的个数脏数据出现率正确字段、记录、文件或者数据集之外无效数据的度量X=AB式中:小有脏数据出现的数据集中元素的个数庐被评价的数据集中元素的个数1.5 数据质量一致性1.6 .1评价对象附录A中的采集数据、附录B中的交通信号灯数据、附录D中的交通事故数据所有字段参与评价。6. 5.2评价方法7. 5.2.1数据比对与验证将车联网系统收集的数据与原始数据源(如车辆传感器、GPS设备等)进行比对,确保数据的准确性和一致性;根据业务逻辑和规则(如速度限制、车辆行驶路线等)验证数据合理性。8. 5.2.2数据比对9. 5.2.2.1时间序列比对将同一车辆在不同时间点采集的数据进行比对,检查数据的异常波动及变化趋势的合理性。10. 5.2.2.2空间位置比对结合GPS等定位技术,比对车辆在不同时间点的位置数据,确保位置的连续性和准确性。6.5.2.3数据模型验证利用数据模型法,通过数学、统计和计算机方法建立数据模型,验证数据之间的一致性关系。例如,通过车辆动力学模型验证速度、加速度等数据的合理性,具体模型验证指标参照附录H。6.5.2.4数据追踪法追踪数据的流动路径,从数据源到数据处理、存储、分析等环节,检查数据在各个环节中的一致性和完整性。6.5.3评价说明一致性评价说明见表4。表4一致性评价说明名称描述计算方法相同数据一致性同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性;数据发生变化时,存储在不同位置的同一数据被同步修改X=AB式中:A=满足一致性要求的数据集中元素的个数B=被评价的数据集中元素的个数6.6数据质量时效性6.6.1评价对象附录A中的采集数据、附录B中的交通信号灯数据所有字段参与评价。6.6.2评价方法6.6.2.1时间戳对比通过比较数据的时间戳与当前时间的差异,计算出数据的更新延迟。例如,计算”数据更新延迟=当前时间-数据最后更新时间戳”,以此评估数据的时效性。6.6.2.2更新频率分析分析数据的更新频率,即单位时间内数据更新的次数。通过统计数据的更新频率,并与预设的期望频率进行对比,评估数据的更新频率是否满足要求。6.6.3评价说明时效性评价说明见表5。表5时效性评价说