Иерархический кластерный анализ. Анализ с двумя переменными.
После обычной обшей статистической сводки итогов по наблюдениям, в окне просмотра сначала приводится обзор принадлежности, из которого можно выяснить очередность построения кластеров, а также их оптимальное количество. По двум колонкам, расположенным под общей шапкой Cluster Combined (Объединение в кластеры), можно увидеть, что на первом шаге были объединены наблюдения 5 и 12 (т.е. Heineken и Becks); эти две марки максимально похожи друг на друга и отдалены друг от друга очень малое расстояние. Эти два наблюдения образовывают кластер с номером 5, в то время как кластер 12 в обзорной таблице больше не появляется. На следующем шаге происходит объединение наблюдений 10 и 17 (Coors Light и Schlitz Light), затем 2 и 3 (Lowenbrau и Michelob) и т.д.
Agglomeration Schedule (Порядок агломерации)
Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэффициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следующий шаг) | ||
Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | |||
1 | 5 | 12 | 8.508e-03 | 0 | 0 | 9 |
2 | 10 | 17 | 2.880e-02 | 0 | 0 | 4 |
3 | 2 | 3 | 4.273e-02 | 0 | 0 | 13 |
4 | 8 | 10 | 6.432e-02 | 0 | 2 | 7 |
5 | 7 | 13 | 8.040e-02 | 0 | 0 | 8 |
6 | 1 | 15 | 0.117 | 0 | 0 | 8 |
7 | 8 | 9 | 0.206 | 4 | 0 | 14 |
8 | 1 | 7 | 0.219 | 6 | 5 | 12 |
9 | 5 | 11 | 0.233 | 1 | 0 | 11 |
10 | 14 | 16 | 0.313 | 0 | 0 | 14 |
11 | 4 | 5 | 0.487 | 0 | 9 | 16 |
12 | 1 | 6 | 0.534 | 8 | 0 | 13 |
13 | 1 | 2 | 0.820 | 12 | 3 | 15 |
14 | 8 | 14 | 1.205 | 7 | 70 | 15 |
15 | 1 | 8 | 4.017 | 13 | 14 | 16 |
16 | 1 | 4 | 6.753 | 15 | 11 | 0 |
Для определения, какое количество кластеров следовало бы считать оптимальным, решающее значение имеет показатель, выводимый под заголовком "коэффициент". По этим коэффициентом подразумевается расстояние между двумя кластерами, определенное на основании выбранной дистанционной меры с учетом предусмотренного преобразования значений. В нашем случае это квадрат евклидового расстояния, определенный с использованием стандартизованных значений. На этом этапе, где эта мера расстояния между двумя кластерами увеличивается скачкообразно, процесс объединения в новые кластеры необходимо остановить, так как в противном случае были бы объединены уже кластеры, находящиеся на относительно большом расстоянии друг от друга.
В приведенном примере – это скачок с 1.205 до 4.017. Это означает, что после образования трех кластеров мы больше не должны производить никаких последующих объединений, а результат с тремя кластерами является оптимальным. Визуально же мы ожидали результат с четырьмя кластерами. Оптимальным считается число кластеров равное разности количества наблюдений (здесь: 17) и количества шагов, после которого коэффициент увеличивается скачкообразно (здесь: 14).
В пояснении нуждаются еще и три последние колонки вышеприведенной таблицы, отражающей порядок агломерации; для этого в качестве примера мы рассмотрим строку, соответствующую 14 шагу. Здесь объединяются кластеры 8 и 14. Перед этим кластер 8 уже участвовал в объединениях на шагах 4 и 7, последний раз, стало быть, на шаге 7. Строго говоря, название колонки Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) можно считать ошибочным и вместо этого ее следовало назвать Cluster Last Appears (Последнее появление кластера). Кластер 14 последний раз участвовал в объединении кластеров на шаге 10. Новый кластер 8 затем примет участие в объединении кластеров на шаге 15 (колонка: Next Stage (Следующий шаг)).