Построение дерева решений и порождающих правил. Структура дерева решений.
Единственное приведенное правило, созданное непосредственно после преобразования дерева, можно разделить на три отдельных правила, которые не требуют использования логической дизъюнкции, а затем представить каждое из них на языке описания порождающих правил, например CLIPS:
if наблюдение = облачно then П if наблюдение = солнечно & влажность = нормально then П if наблюдение = дождливо & ветрено = нет then П
Причина, по которой предпочтение иногда отдается деревьям решений, а не порождающим правилам, состоит в том, что существуют сравнительно простые алгоритмы построения дерева решений в процессе обработки обучающей выборки, причем построенные деревья могут быть использованы в дальнейшем для корректной классификации объектов, не представленных в обучающей выборке. Алгоритм системы ID3, который используется для построения дерева по обучающей выборке, мы рассмотрим в следующем разделе. Этот алгоритм достаточно эффективен с точки зрения количества вычислительных операций, поскольку объем вычислений растет линейно по отношению к размерности проблемы.
В табл. 20.2 показана обучающая выборка, которая использовалась для формирования дерева на рис. 20.2.
Таблица 20.2. Обучающая выборка (заимствовано из [Quinlan, 1986,a]).
Номер | Наблюдение | Температура | Влажность | Ветрено | Класс |
---|---|---|---|---|---|
1 | Солнечно | Жарко | Высокая | Нет | Н |
2 | Солнечно | Жарко | Высокая | Да | Н |
3 | Облачно | Жарко | Высокая | Нет | п |
4 | Дождливо | Умеренно | Высокая | Нет | п |
5 | Дождливо | Холодно | Нормальная | Нет | п |
6 | Дождливо | Холодно | Нормальная | Да | Н |
7 | Облачно | Холодно | Нормальная | Да | п |
8 | Солнечно | Умеренно | Высокая | Нет | Н |
9 | Солнечно | Холодно | Нормальная | Нет | п |
10 | Дождливо | Умеренно | Нормальная | Нет | п |
11 | Солнечно | Умеренно | Нормальная | Да | п |
12 | Облачно | Умеренно | Высокая | Да | п |
13 | Облачно | Жарко | Нормальная | Нет | п |
14 | Дождливо | Умеренно | Высокая | Да | Н |
Читатель может самостоятельно проверить, насколько корректно классифицируется каждый из 14 экземпляров, представленных в этой выборке. Обратите внимание на то, что атрибут температура в дереве отсутствует, поскольку он оказался излишним при выполнении классификации.