Иллюстрированный самоучитель по SPSS 10/11

Иерархический кластерный анализ с предварительным факторным анализом

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная Значение
land Страна
sb Процент городского населения
lem Средняя продолжительность жизни мужчин
lew  
ks Детская смертность на 1000 новорожденных
so Количество часов ясной погоды в году
nt Количество дней пасмурной погоды в году
tjan Средняя дневная температура в январе
tjul Средняя дневная температура в июле

Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) › Data Reduction (Преобразование данных) › Factor… (Факторный анализ)

Если Вы проведете факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem .lew, ks и sb, а во второй фактор – переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причем высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают теплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с теплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) › Reports (Отчеты) › Case Summaries… (Итоги по наблюдениям)

Они выглядят следующим образом:

Case Summariesa (Итоги по наблюдениям)

  LAND (Страна) Lebenserwartung (Ожидаемая продолжительность жизни) Klima (Климат)
1 ALBA -1.78349 0.57155
2 BELG 0.55235 -0.57937
3 BULG -0.43016 -0.13263
4 DAEN 0.97206 -0.23453
5 DDR 0.26961 -0.33511
6 DEUT 0.19121 -0.44413
7 FINN -0.30226 -1.28467
8 FRAN 1.05511 1.04870
9 GRIE 0.12794 2.65654
10 GROS 0.75443 -0.05221
11 IRLA 0.16370 -0.66514
12 ISLA 1.75315 -0.97421
13 ITAL 0.40984 1.68933
14 JUGO -2.63161 -0.44127
15 LUXE -0.16469 -0.98618
16 NIED 1.31001 -0.29362
17 NORW 0.96317 -0.46987
18 OEST -0.20396 -0.31971
19 POLE -0.65937 -0.92081
20 PORT -1.10510 1.59478
21 RUMA -1.32450 0.09481
22 SCHD 1.22645 -0.20543
23 SCHZ 0.56289 -0.45454
24 SOWJ -0.67091 -1.32517
25 SPAN 0.83627 1.91193
26 TSCH -0.59407 -0.40632
27 TUER -0.52049 1.04424
28 UNGA -0.75761 -0.08695
Total N 28 28 28
  • a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Если Вы заметили ошибку, выделите, пожалуйста, необходимый текст и нажмите CTRL + Enter, чтобы сообщить об этом редактору.