编辑: 匕趟臃39 | 2019-07-15 |
1 4r e f s . :traffice n g i n e e r i n g ;
t r a f f i ca c c i d e n t s e v e r i t y ;
p r e d i c t i o nm o d e l ;
d a t am i n i n g ;
d e c i s i o n t r e e ;
C 5. 0a l g o r i t h m
0 引言道路交通事故是当今社会公民生命财产安全的 主要威胁之一.事故严重程度预测研究逐渐成为交 通安全管理者、 研究者及车辆厂家关注的重要内容. 交通事故严重程度影响因素主要包括人、 车、 路和环 境等.国外学者针对交通事故严重程度预测和影响 因素的研究开展较早, 主要研究方法包括经典统计 回归模型, 如二项或多项 L o g i t 、 P r o b i t模型[
1
2 ] ;
考 虑事故 严重程度分类有序离散属性(orderedd i s c r e t e ) 的广义或贝叶斯有序Logit或Probit模型[
3 4] ;
考虑选择枝间相关性约束条件的嵌套 L o g i t 模型、 混合L o g i t模型以及马尔科夫链多元L o g i t模型[
5 7] ;
也有研究者使用数据挖掘技术, 如人工神经 网络建立事故严重程度预测模型[ 8] .中国有关事故 严重程度 的相关研究主要有: 李世民等使用累积Logit模型分析发生于北京市无信号交叉口的事故 严重程度与交叉口属性之间的关系[ 9] ;
马壮林等使 用Logit模型研究公路隧道交通事故严重程度的影 响因素, 使用模糊和灰色 D l e p h i法研究基于事故严 重程度的道路安全评价[
1 0
1 1 ] ;
侯树展等利用主成分 分析( P C A) 技术, 研究交通流因素对事故严重程度 的影响[
1 2 ] . 经典统计回归模型由于其严格的模型假设以及 输入、 输出变量间既定的函数形式, 在交通事故严重 程度研究的实际应用中对数据集结构要求较高, 易 出现由于有偏参数估计导致的模型解释能力下降的 现象.决策树( d e c i s i o nt r e e ) 是通过归纳和提炼现 有数据包含的规律, 并用于新数据分类预测的一种 非参数方法.其特点是不固定特定函数形式, 且不 需要任何样本数据先验分布假设.考虑到中国现行 道路现场信息数据结构中, 输入变量繁多且多为分 类变量的数据特征, 本文以决策树模型为工具, 通过 对实证数据的决策规则集发掘建立事故严重程度预 测模型, 对影响事故严重程度的安全因素进行分析, 探讨决策树应用于事故严重程度分析的可行性, 为 相关政策法规的制定提供理论支持.
1 决策树模型与算法 1.
1 决策树的构造机理 决策树是由1个根节点和数个叶节点及中间节 点组成的树状结构, 每个节点均是具有一定样本量 的样本集合, 根节点的样本量最大, 其他节点的样本 量依层递减.决策树学习过程是数据驱动的自顶向 下的递归方法, 每一层节点依照某一属性向下分子 节点, 待分类目标在每一节点处与该节点相关属性 进行比较, 根据结果向响应的子节点扩展, 直到到达 决策树的叶节点时结束. 决策树建模过程体现了对样本数据不断分组的 过程, 即考虑训练数据集, 根据输出变量的取值和 分组规则将 分为
2 个或更多子集的所有可能分 枝........