Кластерный анализ
Принцип кластерного анализа
В результате кластерного анализа при помощи предварительно заданных переменных формируются группы наблюдений. Под наблюдениями здесь понимаются отдельные личности (респонденты) или любые другие объекты.Иерархический кластерный анализ. Анализ с двумя переменными.
В иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера.Иерархический кластерный анализ с более чем двумя переменными
Рассмотрим пример из области кадровой политики некоего предприятия. 18 претендентов прошли 10 различных тестов в кадровом отделе предприятия. Максимальная оценка, которую можно было получить на каждом из тестов, составляет 10 балов. Список тестов был следующим: | №теста | Предмет теста | 1Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных: | Переменная | Значение | land | Страна | sb | Процент городского населения | lem | Средняя продолжительность жизни мужчин | lew |Меры расстояния и меры сходства. Метрические переменные.
Основой кластеризации (образования групп) наблюдений является дистанционная матрица и матрица подобия наблюдений. Так как расстояние (дистанция) также применяется и для оценки подобия, то разница между этими двумя матрицами не велика.Частоты
В качестве примера возьмем файл laender.sav, в котором значения переменных отображают частоты. В файле находится текстовая переменная land (федеральная земля) и три переменные cdu, spd и andere (другие).Бинарные переменные
Здесь, как правило, речь идет о переменных, которые указывают на факт осуществления некоторого события или выполнения определенного критерия. В файле данных это обстоятельство должно быть закодировано при помощи двух численных значений, причем в соответствии с установками по умолчанию, SPSS для кодировки осуществления события ожидает цифру 1.Методы объединения
SPSS предлагает, в общей сложности, семь методов объединения. Из них метод Связь между группами (Between-groups linkage) устанавливается по умолчанию. | Связь между группами | Дистанция между кластерами равна среднему значению дистанций между всеми возможными парами наблюдений, причем один наблюдения берется из одного кластера, а другой из другого.Кластерный анализ при большом количестве наблюдений
Кластерный анализ при большом количестве наблюдений называют еще Кластерный анализ методом к-средних. | Иерархические методы объединения, хотя и точны, но трудоемки: на каждом шаге необходимо выстраивать дистанционную матрицу для всех текущих кластеров.