- 最后登录
- 2005-4-22
- 注册时间
- 2002-10-8
- 威望
- 20
- 金钱
- 2815
- 贡献
- 7
- 阅读权限
- 50
- 积分
- 2842
- 日志
- 0
- 记录
- 0
- 帖子
- 377
- 主题
- 28
- 精华
- 0
- 好友
- 0
该用户从未签到 - 注册时间
- 2002-10-8
- 最后登录
- 2005-4-22
- 积分
- 2842
- 精华
- 0
- 主题
- 28
- 帖子
- 377
|
6、决策树
6、决策树3 f! C4 r& i% Q) k# m+ |
[face=黑体]决策树是如何工作的
, E/ N$ t- ]2 ^5 X( k+ p8 F; w+ C1 r- u
决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
0 {- B- S |+ c5 Z R# t
7 A* L3 U9 b6 C' s6 Y选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。; Q. c8 m1 J( T% |2 E
从根到叶子节点都有一条路径,这条路径就是一条“规则”。
/ t B0 k2 Q% n9 j: |决策树可以是二叉的,也可以是多叉的。
) g7 o2 v: J1 E! T7 `. { Z对每个节点的衡量:4 Y2 O* |0 m* {
1) 通过该节点的记录数
! \1 {! m+ s2 ]& J, t1 Y1 l2) 如果是叶子节点的话,分类的路径
" ^8 s' m. m* ]4 X8 B4 y3) 对叶子节点正确分类的比例。
; g( H n, u" V- G% B' h: r" B8 p有些规则的效果可以比其他的一些规则要好。
2 L2 g7 K: r2 J& q% h
' g m" ~; W5 Q# K8 K# [决策树对于常规统计方法的优缺点& n" G J4 d+ p1 J: r/ Q
. O8 r- P( E% ?2 m; ^
优点:
2 T% a9 V- _0 s/ P3 f8 y$ b
' C n7 g1 o8 J6 C: X4 G6 E+ k1) 可以生成可以理解的规则。
* k! a3 d- U6 v3 `9 e2) 计算量相对来说不是很大。
8 [9 G0 t- g+ A5 Q. s; d3) 可以处理连续和种类字段。' i" R6 B) f& X* L: k6 i+ g
4) 决策树可以清晰的显示哪些字段比较重要
' D% K: G# s+ J. W
+ k# R5 M. f0 j. b8 |, }3 b' M缺点:
2 J! J( u& P* X) g3 i, t0 X
. M6 g* z0 y. e1 n- h1) 对连续性的字段比较难预测。" e! B: S* U) |$ D
2) 对有时间顺序的数据,需要很多预处理的工作。
8 v2 {7 N/ D- L8 o# w7 a( l3) 当类别太多时,错误可能就会增加的比较快。
* f& i4 K$ I) a8 j4 V$ r4) 一般的算法分类的时候,只是根据一个字段来分类。, J7 X- h" w$ ]9 r" T3 J
" s0 L0 Z6 f8 ~' F2 b7 x% s
|
|