Để tiếp nối cho kỳ 1 của thuật toán Quinlan, ta cùng tham khảo thêm một ví dụ tiếp theo để hiểu hơn về nó.

Ví dụ 2: Cho bảng quan sát sau: Hãy sử dụng thuật toán QuinLan để xác định xem một người thuộc nhóm A hay B ?

q3

Giải

Vector đặc trưng cho các thuộc tính:

Thuộc tính: Vóc dáng 

Vvóc dáng (Nhỏ) = ( T(Nhỏ, A), T(Nhỏ, B) )

Số người vóc dáng nhỏ là : 3

Số người vóc dáng nhỏ và nhóm A là : 1

Số người vóc dáng nhỏ và nhóm B là: 2

Do đó

Vvóc dáng (Nhỏ) =( T(Nhỏ, A), T(Nhỏ, B) ) = (1/3,2/3)

Vvóc dáng (Lớn) =( T(Lớn, A), T(Lớn, B) ) = (2/5, 3/5) = (0,1)

 => Tổng số vector đơn vị của thuộc tính vóc dáng là 1.

Các thuộc tính khác được tính tương tự, kết quả như sau :

Thuộc tính: Quốc tịch 

Vquốc tịch (Đức) = ( T(Đức, A),T(Đức, B) ) = (2/4,2/4)

Vquốc tịch (Pháp) = ( T(Pháp, A), T(Pháp, B) ) = (1/1,0/1) = (1,0)

Vquốc tịch (Ý) = ( T(Ý, A), T(Ý, B) )= (0/3,3/3) = (0,1)

 => Tổng số vector đơn vị của thuộc tính quốc tịch là 2.

Thuộc tính: Gia cảnh

Vgia cảnh (Độc thân) = ( T(Độc thân,A), T(Độc thân,B) ) = (3/5,2/5)

Vgia cảnh (Có gia đình) = ( T(Có gia đình, A), T(Có gia đình, B) ) = (0/3,3/3) = (0,1)

=> Tổng số vector đơn vị của thuộc tính gia cảnh là 1.

Như vậy, thuộc tính quốc tịch có số vector đơn vị nhiều nhất nên sẽ được phân hoạch.

Sau khi phân hoạch theo quốc tịch xong, chỉ có phân hoạch theo quốc tịch (PĐức) là còn chứa những người nhóm A và B nên ta sẽ tiếp tục phân hoạch tập này. Ta sẽ thực hiện thao tác tính vector đặc trưng tương tự đối với các thuộc tính còn lại (vóc dáng, gia cảnh, nhóm). Trong phân hoạch PĐức, tập dữ liệu của chúng ta còn lại là :

kq_3_1.PNG

Vector đặc trưng cho các thuộc tính:

Thuộc tính: Vóc dáng

Vvóc dáng (Nhỏ) =( T(Nhỏ, A), T(Nhỏ, B) ) = (1/2,1/2)

Vvóc dáng (Lớn) =( T(Lớn, A), T(Lớn, B) ) = (1/2,1/2)

 => Tổng số vector đơn vị của thuộc tính vóc dáng là 0.

Thuộc tính: Gia cảnh

Vgia cảnh(Độc thân) = ( T(Độc thân, A), T(Độc thân, B) ) = (2/2,0/2) = (1,0)

Vgia cảnh(Có gia đình) = ( T(Có gia đình, A), T(Có gia đình, B) ) = (0/2,2/2) = (0,1)

=> Tổng số vector đơn vị của thuộc tính gia cảnh là 2.

Như vậy, thuộc tính Gia cảnh có số vector đơn vị nhiều nhất nên sẽ được phân hoạch.

Kết luận: Kết quả cây định danh cuối cùng :kq_3_2

Vậy ta có tập luật:

IF Quốc tịch = Pháp THEN Nhóm = A;

IF Quốc tịch = Ý THEN Nhóm = B;

IF Quốc tịch = Đức AND Gia cảnh = Độc thân THEN Nhóm = A;

IF Quốc tịch = Đức AND Gia cảnh = Có gia đình THEN Nhóm = B;

Từ tập luật ta có thể suy ra:

Người có vóc dáng nhỏ, mang quốc tịch Pháp, có gia đình thì thuộc nhóm A.

Kết thúc

NGUYỄN THỊ YẾN NHI

nguyennhipuka@gmail.com

Advertisements