- 最后登录
- 2005-4-22
- 注册时间
- 2002-10-8
- 威望
- 20
- 金钱
- 2815
- 贡献
- 7
- 阅读权限
- 50
- 积分
- 2842
- 日志
- 0
- 记录
- 0
- 帖子
- 377
- 主题
- 28
- 精华
- 0
- 好友
- 0
 
该用户从未签到  - 注册时间
- 2002-10-8
- 最后登录
- 2005-4-22
- 积分
- 2842
- 精华
- 0
- 主题
- 28
- 帖子
- 377
|
6、决策树
6、决策树% y' [8 E: M' q$ @' O- v: K, W
[face=黑体]决策树是如何工作的 * [5 M: a8 {, U ~5 n2 J }
5 ~& F( i5 D# B0 a5 \决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
; f) _7 k1 K: e' i+ l9 g
# F3 ^) T& F+ R! ?6 u' l& g+ t: o6 @- X选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
$ h, p! e: I; y! R d从根到叶子节点都有一条路径,这条路径就是一条“规则”。
' e/ ^' n' r. y) r1 b: O决策树可以是二叉的,也可以是多叉的。
5 C3 G$ t, r$ A5 I9 C7 a. r, a对每个节点的衡量:
1 R6 V- ]3 Z( I1) 通过该节点的记录数
" \! A4 G( e) l1 E4 c- H1 e2) 如果是叶子节点的话,分类的路径8 T! k* F# U: A: C z: f
3) 对叶子节点正确分类的比例。
( y( T. T+ q' I有些规则的效果可以比其他的一些规则要好。
% n6 Y( X9 I" w& X
, Z$ w( e6 _2 V$ P _决策树对于常规统计方法的优缺点& N f0 i4 Q8 F; ?& @' [ X
0 W2 J& c! v. Z3 h7 M
优点:2 u/ T* j6 e! }0 ]3 N7 D
' f$ p& s/ y. E0 J; G4 a& L
1) 可以生成可以理解的规则。. G& M* M( } N1 L
2) 计算量相对来说不是很大。
2 R8 D: \) j9 ^; p3 u" ~: j. w: j3) 可以处理连续和种类字段。
' c" a9 H" n9 K9 R" J4) 决策树可以清晰的显示哪些字段比较重要( H% [, n ?. U0 W7 ~
0 ?$ n7 d1 n: b$ y/ g/ O% l) V
缺点:
% L6 Q8 b l% K7 S1 L5 a
3 W( r( V, v a2 T' J! V4 i1) 对连续性的字段比较难预测。$ ~- e: N6 t; t* P0 u6 J
2) 对有时间顺序的数据,需要很多预处理的工作。2 |; |% d% S) o+ l }
3) 当类别太多时,错误可能就会增加的比较快。7 e2 s8 s9 ]8 F- |' V' s( s
4) 一般的算法分类的时候,只是根据一个字段来分类。$ \# ?7 _0 K5 X0 f9 Q, p
4 H( a/ @: M B% T- g+ m1 a% N
|
|