- 最后登录
- 2005-4-22
- 注册时间
- 2002-10-8
- 威望
- 20
- 金钱
- 2815
- 贡献
- 7
- 阅读权限
- 50
- 积分
- 2842
- 日志
- 0
- 记录
- 0
- 帖子
- 377
- 主题
- 28
- 精华
- 0
- 好友
- 0
该用户从未签到 - 注册时间
- 2002-10-8
- 最后登录
- 2005-4-22
- 积分
- 2842
- 精华
- 0
- 主题
- 28
- 帖子
- 377
|
6、决策树
6、决策树/ [) W; M" n: m, ]
[face=黑体]决策树是如何工作的
+ G) d8 I R8 @+ n. X+ O2 d/ j3 y9 \
决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
. D, c% l1 M! }: h5 c( E& Z
6 H+ R+ @4 A. K3 J选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。! p2 G+ y9 T3 b- [, L( b% K& l) G+ W
从根到叶子节点都有一条路径,这条路径就是一条“规则”。8 t1 R' b# L" d/ `) T! |
决策树可以是二叉的,也可以是多叉的。
) _1 @* k$ j" e% \5 o+ r1 p对每个节点的衡量:8 p9 |! [9 D6 i: K4 q E h
1) 通过该节点的记录数
2 y1 p9 W5 w/ t, W0 }1 V" O0 \2) 如果是叶子节点的话,分类的路径
6 g! }% _' N4 p4 T3) 对叶子节点正确分类的比例。
( [ }& X. H& U: B. @0 P有些规则的效果可以比其他的一些规则要好。7 f: x- r/ ]4 U: [
; q W) f) Y1 b9 y: R: C决策树对于常规统计方法的优缺点6 N4 w! t- x4 W# z7 l# o
' }# U5 _1 R1 ~) N
优点:% `) Q8 A8 p4 G! T2 }
# F2 W8 Z) a1 x p1) 可以生成可以理解的规则。: X$ ~4 t% H3 j2 b& ?, O y
2) 计算量相对来说不是很大。0 i) E0 d Y0 l O9 ^$ @& z
3) 可以处理连续和种类字段。
3 Q5 }" s) {2 n M8 a1 _2 H4) 决策树可以清晰的显示哪些字段比较重要- l: b1 H) X3 z, ]$ s# N( g1 y
0 K. Z; d) s& A" p缺点:% B0 T% m+ s, c; y# ?
6 {; R5 Y5 v7 D, v; r2 W$ I3 N$ m. W1) 对连续性的字段比较难预测。
+ |: S! y3 d2 k, G. n2) 对有时间顺序的数据,需要很多预处理的工作。' k5 S; X& R7 I6 |
3) 当类别太多时,错误可能就会增加的比较快。
& B7 b% U6 m) p5 l' V2 j# L' S4) 一般的算法分类的时候,只是根据一个字段来分类。1 b$ ?6 m0 H% D0 y
' k2 v9 B9 C1 _% Y |
|