- 最后登录
- 2005-4-22
- 注册时间
- 2002-10-8
- 威望
- 20
- 金钱
- 2815
- 贡献
- 7
- 阅读权限
- 50
- 积分
- 2842
- 日志
- 0
- 记录
- 0
- 帖子
- 377
- 主题
- 28
- 精华
- 0
- 好友
- 0
 
该用户从未签到  - 注册时间
- 2002-10-8
- 最后登录
- 2005-4-22
- 积分
- 2842
- 精华
- 0
- 主题
- 28
- 帖子
- 377
|
6、决策树
6、决策树4 Q4 q7 f# l Q& ?" G8 h2 h1 }
[face=黑体]决策树是如何工作的
8 ~& v6 j/ ~8 n# H/ u* H6 g# @, n( c! W6 ~$ D( u
决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
6 r8 ~/ o& a; ]! M" P; c, Y* G
) Z `: p6 |) e) Z* p0 s# N+ ?选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
1 G* M# g- t0 ]/ @: h4 b4 }从根到叶子节点都有一条路径,这条路径就是一条“规则”。
; ?0 W6 q/ t* }决策树可以是二叉的,也可以是多叉的。" k- T$ t" c! O; Z- ^8 g6 a
对每个节点的衡量:
% ~* f% A5 H+ L" y' K0 N7 i7 U1) 通过该节点的记录数
9 q3 y* g Y1 w P' T2) 如果是叶子节点的话,分类的路径; }6 J' P* }- X$ L; Y- b# p6 {1 I
3) 对叶子节点正确分类的比例。
' O4 |5 A( G. ?# q' V+ o: t有些规则的效果可以比其他的一些规则要好。
' }, k2 n5 L4 W, M( w7 d1 G' K/ M* x* B- W J/ p. a, G! L
决策树对于常规统计方法的优缺点
, K, ?9 x" @# N$ Q: n7 u+ h2 H) m1 n) Z
优点:0 O: n! W/ Y4 A2 X; ^
8 y' v, ~" Y2 Y4 F1) 可以生成可以理解的规则。
% Z; `: R4 e8 O. ~/ K2) 计算量相对来说不是很大。
/ h$ _* B& L r7 _7 z3) 可以处理连续和种类字段。! ?) |+ t7 r6 k S, l2 [8 D
4) 决策树可以清晰的显示哪些字段比较重要
4 P5 U2 R0 H Y, h
' g; I+ S" v4 h1 S缺点:
! E; t7 p# ~. z1 [4 ^
9 G$ p5 d. }1 M" d2 p& P& Q1) 对连续性的字段比较难预测。
# |4 t/ [. q4 m8 r: Y% I2) 对有时间顺序的数据,需要很多预处理的工作。" @; w* c# {4 l4 a
3) 当类别太多时,错误可能就会增加的比较快。
9 N* K) Y5 ?+ z F$ e4) 一般的算法分类的时候,只是根据一个字段来分类。
! k0 ~" w# a$ b. U( [& \- J' H2 Z; ]" E8 i
|
|