Иллюстрированный самоучитель по SPSS 10/11
Кластерный анализ
-
В результате кластерного анализа при помощи предварительно заданных переменных формируются группы наблюдений. Под наблюдениями здесь понимаются отдельные личности (респонденты) или любые другие объекты.
-
В иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера.
-
Рассмотрим пример из области кадровой политики некоего предприятия. 18 претендентов прошли 10 различных тестов в кадровом отделе предприятия. Максимальная оценка, которую можно было получить на каждом из тестов, составляет 10 балов. Список тестов был следующим: | №теста | Предмет теста | 1
-
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных: | Переменная | Значение | land | Страна | sb | Процент городского населения | lem | Средняя продолжительность жизни мужчин | lew |
-
Основой кластеризации (образования групп) наблюдений является дистанционная матрица и матрица подобия наблюдений. Так как расстояние (дистанция) также применяется и для оценки подобия, то разница между этими двумя матрицами не велика.
-
В качестве примера возьмем файл laender.sav, в котором значения переменных отображают частоты. В файле находится текстовая переменная land (федеральная земля) и три переменные cdu, spd и andere (другие).
-
Здесь, как правило, речь идет о переменных, которые указывают на факт осуществления некоторого события или выполнения определенного критерия. В файле данных это обстоятельство должно быть закодировано при помощи двух численных значений, причем в соответствии с установками по умолчанию, SPSS для кодировки осуществления события ожидает цифру 1.
-
SPSS предлагает, в общей сложности, семь методов объединения. Из них метод Связь между группами (Between-groups linkage) устанавливается по умолчанию. | Связь между группами | Дистанция между кластерами равна среднему значению дистанций между всеми возможными парами наблюдений, причем один наблюдения берется из одного кластера, а другой из другого.
-
Кластерный анализ при большом количестве наблюдений называют еще Кластерный анализ методом к-средних. | Иерархические методы объединения, хотя и точны, но трудоемки: на каждом шаге необходимо выстраивать дистанционную матрицу для всех текущих кластеров.
Если Вы заметили ошибку, выделите, пожалуйста, необходимый текст и нажмите CTRL + Enter, чтобы сообщить об этом редактору.