Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная | Значение |
land | Страна |
sb | Процент городского населения |
lem | Средняя продолжительность жизни мужчин |
lew | |
ks | Детская смертность на 1000 новорожденных |
so | Количество часов ясной погоды в году |
nt | Количество дней пасмурной погоды в году |
tjan | Средняя дневная температура в январе |
tjul | Средняя дневная температура в июле |
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) › Data Reduction (Преобразование данных) › Factor… (Факторный анализ)
Если Вы проведете факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem .lew, ks и sb, а во второй фактор – переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причем высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают теплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с теплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) › Reports (Отчеты) › Case Summaries… (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summariesa (Итоги по наблюдениям)
LAND (Страна) | Lebenserwartung (Ожидаемая продолжительность жизни) | Klima (Климат) | |
1 | ALBA | -1.78349 | 0.57155 |
2 | BELG | 0.55235 | -0.57937 |
3 | BULG | -0.43016 | -0.13263 |
4 | DAEN | 0.97206 | -0.23453 |
5 | DDR | 0.26961 | -0.33511 |
6 | DEUT | 0.19121 | -0.44413 |
7 | FINN | -0.30226 | -1.28467 |
8 | FRAN | 1.05511 | 1.04870 |
9 | GRIE | 0.12794 | 2.65654 |
10 | GROS | 0.75443 | -0.05221 |
11 | IRLA | 0.16370 | -0.66514 |
12 | ISLA | 1.75315 | -0.97421 |
13 | ITAL | 0.40984 | 1.68933 |
14 | JUGO | -2.63161 | -0.44127 |
15 | LUXE | -0.16469 | -0.98618 |
16 | NIED | 1.31001 | -0.29362 |
17 | NORW | 0.96317 | -0.46987 |
18 | OEST | -0.20396 | -0.31971 |
19 | POLE | -0.65937 | -0.92081 |
20 | PORT | -1.10510 | 1.59478 |
21 | RUMA | -1.32450 | 0.09481 |
22 | SCHD | 1.22645 | -0.20543 |
23 | SCHZ | 0.56289 | -0.45454 |
24 | SOWJ | -0.67091 | -1.32517 |
25 | SPAN | 0.83627 | 1.91193 |
26 | TSCH | -0.59407 | -0.40632 |
27 | TUER | -0.52049 | 1.04424 |
28 | UNGA | -0.75761 | -0.08695 |
Total N | 28 | 28 | 28 |
- a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).