- 最后登录
- 2005-4-22
- 注册时间
- 2002-10-8
- 威望
- 20
- 金钱
- 2815
- 贡献
- 7
- 阅读权限
- 50
- 积分
- 2842
- 日志
- 0
- 记录
- 0
- 帖子
- 377
- 主题
- 28
- 精华
- 0
- 好友
- 0
 
该用户从未签到  - 注册时间
- 2002-10-8
- 最后登录
- 2005-4-22
- 积分
- 2842
- 精华
- 0
- 主题
- 28
- 帖子
- 377
|
6、决策树
6、决策树
$ [' r) O: |2 C; ]5 k[face=黑体]决策树是如何工作的 8 G5 a* T9 m& O& ]. S
2 O% r- W) L. a( ?% C决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
) }2 @; l0 d: I2 v. c0 Z) a+ ?6 n- [' u9 W/ g% w+ P. B& a
选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
) p- s/ y: `8 r7 K$ i从根到叶子节点都有一条路径,这条路径就是一条“规则”。% ?2 w% r3 m* R; S/ ^, t! L- C$ _
决策树可以是二叉的,也可以是多叉的。7 f& R" m3 w0 M7 H k
对每个节点的衡量:
/ [# b0 p. L5 S! o' @( x, P1) 通过该节点的记录数" z U9 z. r% S& A& p$ V M
2) 如果是叶子节点的话,分类的路径
+ i& U2 W' x- e3) 对叶子节点正确分类的比例。0 g) G% b1 {& a0 m
有些规则的效果可以比其他的一些规则要好。: t$ v, {* |$ c% q8 ^8 A1 v3 D
$ r- T& j. G2 X; u/ W2 _
决策树对于常规统计方法的优缺点
( i- L- q9 ^( C+ S% B- w, Y+ ~; Y$ y: h
优点:- q0 N, f9 H5 o
* C; C, G% D0 F$ t; f G
1) 可以生成可以理解的规则。
- b( x: v$ x" H$ S$ l z2) 计算量相对来说不是很大。+ V/ K2 m. ~! Y0 \, J3 E
3) 可以处理连续和种类字段。
# n, r8 C u5 @2 r6 [4) 决策树可以清晰的显示哪些字段比较重要
) T. F6 | T( z- F& l( z! @# ~" U2 \+ N3 D" {" @% i
缺点:5 W' P6 {: r' c) Q
+ U! @/ V" S6 h K4 O3 G' U2 k
1) 对连续性的字段比较难预测。
& c( @, s; R s! d2) 对有时间顺序的数据,需要很多预处理的工作。
, \ _0 B8 @. z$ X: _' @1 V3) 当类别太多时,错误可能就会增加的比较快。
5 W( E4 c! p: K3 A4) 一般的算法分类的时候,只是根据一个字段来分类。
0 m- e) r. q9 p. U! m, B) |! y6 G8 R5 s' J, `3 [. r
|
|