Иерархический кластерный анализ с более чем двумя переменными
Рассмотрим пример из области кадровой политики некоего предприятия. 18 претендентов прошли 10 различных тестов в кадровом отделе предприятия. Максимальная оценка, которую можно было получить на каждом из тестов, составляет 10 балов. Список тестов был следующим:
№теста | Предмет теста |
1 | Память на числа |
2 | Математические задачи |
3 | Находчивость при прямом диалоге |
4 | Тест на составление алгоритмов |
5 | Уверенность во время выступления |
6 | Командный дух |
7 | Находчивость |
8 | Сотрудничество |
9 | Признание в коллективе |
10 | Сила убеждения |
Результаты теста хранятся в файле assess.sav в переменных t1-t10. В файле находится также и текстовая переменная для характеристики тестируемых. С использованием результатов теста соответствия, мы хотим провести кластерный анализ, целью которого является обнаружение групп кандидатов, близких по своим качествам.
- Откройте файл assess.sav.
- Выберите в меню Analyze (Анализ) › Classify (Классифицировать) › Hierarchical Cluster… (Иерархический кластерный анализ)
- В диалоговом окне Hierarchical Cluster Analysis (Иерархический кластерный анализ) переменные t1-t10 поместите в поле тестируемых переменных, а текстовую переменную name (имя) используйте для обозначения (маркировки) наблюдений.
- Для начала должно быть достаточно вывода обзорной таблицы порядка агломерации; не делайте больше запроса на какие-либо данные и деактивируйте вывод диаграмм. Так как все переменные в этом примере имеют одинаковые пределы значений, стандартизация переменных является излишней.
Обзорная таблица порядка агломерации выглядит следующим образом:
Agglomeration Schedule (Порядок агломерации)
Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэффициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следующий шаг) | ||
Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | |||
1 | 1 | 4 | 0.000 | 0 | 0 | 6 |
1 | 14 | 18 | 2.000 | 0 | 0 | 4 |
3 | 12 | 15 | 2.000 | 0 | 0 | 6 |
4 | 9 | 14 | 2.000 | 0 | 2 | 8 |
5 | 2 | 10 | 2.000 | 0 | 0 | 13 |
6 | 1 | 12 | 3.000 | 1 | 3 | 15 |
7 | 13 | 16 | 4.000 | 0 | 0 | 12 |
8 | 9 | 11 | 4.000 | 4 | 0 | 11 |
9 | 5 | 7 | 5.000 | 0 | 0 | 14 |
10 | 6 | 17 | 6.000 | 0 | 0 | 13 |
11 | 3 | 9 | 6.000 | 0 | 8 | 15 |
12 | 8 | 13 | 7.000 | 0 | 7 | 14 |
13 | 2 | 6 | 7.500 | 5 | 10 | 16 |
14 | 5 | 8 | 12.833 | 9 | 12 | 16 |
15 | 1 | 3 | 194.000 | 6 | 11 | 17 |
16 | 2 | 5 | 198.500 | 13 | 14 | 17 |
17 | 1 | 2 | 219.407 | 15 | 16 | 0 |
Значительный скачок коэффициента наблюдается после 14-го шага; как указанно в разделе 20.1, это означает, что для данных, включающих 18 наблюдений, оптимальным является решение с четырьмя кластерами. Авторы в этом месте добавляют следующее: данный пример является искусственным, и из дидактических соображений мы предварительно скомпоновали данные таким образом, чтобы получился однозначный результат. После определения оптимального количества кластеров организуем для каждого наблюдения вывод информации о принадлежности к кластеру.
- Для этого вновь откройте диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ) и щелкните по выключателю Statistics… (Статистики). В разделе Cluster Membership (Принадлежность к кластеру) активируйте опцию Single solution (Одно решение) и укажите желаемое количество кластеров 4.
Информацию о принадлежности каждого наблюдения к определенному кластеру вы можете сохранить в новой переменной.
- Пройдите выключатель Save… (Сохранить), активируйте опцию Single solution (Одно решение) и для указания желаемого количества кластеров введите 4. Теперь помимо таблицы порядка агломерации для каждого наблюдения будет выводиться и информация о принадлежности к кластеру.