Кластерный анализ при большом количестве наблюдений
Сначала приводятся первичные кластерные центры и обобщенные данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.
Final Cluster Centers (Кластерные центры окончательного решения)
Cluster (Кластер) | ||||
1 | 2 | 3 | 4 | |
Приложение | -0.15219 | -0.62362 | -0.23459 | 1.16856 |
Программирование | -2.91321 | 0.232223 | 0.23371 | 0.05918 |
Использование Интернет | -1.71057 | 0.7232 | -0.02994 | 0.25268 |
Игры | 0.04717 | 0.51053 | -1.51014 | 0.26081 |
При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идет о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 = отлично, 5 = абсолютно не использую) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.
Если учесть все вышесказанное, то наши четыре кластера можно интерпретировать следующим образом:
- Кластер1: Программисты, Интернет-эксперты
- Кластер2: Пользователи стандартного программного обеспечения
- Кластер3: Игроки
- Кластер4: Начинающие пользователи
В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 2) наиболее многочисленна.
Number of Cases in each Cluster (Количество наблюдений в каждом кластере)
Cluster (Кластер) | 1 | 63.000 |
2 | 488.000 | |
3 | 221.000 | |
4 | 313.000 | |
Valid (Действительные) | 1085.000 | |
Missing (Отсутствующие) | 0.000 |
К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определенному кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией и происхождением (западные земли Германии, восточные земли Германии, зарубежные страны).
Наряду с количеством кластеров можно так же, как было упомянуто в начале главы, задать и первичные кластерные центры. Для этого их необходимо определенным образом ввести в файл данных SPSS. Изучим процесс создания такого файла на рассмотренном примере.
- После щелка в диалоговом окне K-Means Cluster Analysis (Кластерный анализ методом k-средних) по выключателю Centers (Центры), диалоговое окно примет расширенный вид (см. рис. 20.5).
- Активируйте Read initial from (Читать первичные значения из) и щелкните на выключателе File… (Файл). Откроется диалоговое окно K-Means Cluster Analysis: Read initial from (Кластерный анализ методом К-средних: Читать первичные значения из).
- Откройте файл zentren.sav.
Файл содержит:
- количественную переменную с именем cluster_
- одну строку для каждого кластера
- первичные значения для каждой кластерной переменной.