Меры связанности для переменных с номинальной шкалой
Лямбда
В данном примере вопрос о партийной работе можно рассматривать как зависимую переменную, определяемую родом занятий. Если для какого-то отдельно взятого человека надо сделать предположение о том, выполняет ли он партийную работу или нет, то, естественно, делается наиболее вероятное предположение, соответствующее наиболее часто даваемому ответу – в данном случае, предположение о том, что опрашиваемый занимается партийной работой. Такой ответ дают 56.3% респондентов; однако в 43.7% наблюдений наше предположение будет неверным.
Вероятность предположения можно повысить, если учитывать другую переменную – род занятий. Для наемных работников, как и для государственных служащих, можно достаточно уверенно прогнозировать участие в партийной работе, причем этот прогноз окажется неверным для 9 наемных работников и для 2 государственных служащих. В то же время для предпринимателей можно с большими основаниями предположить, что они не занимаются партийной работой, и ошибиться в 7 наблюдениях. Таким образом, для общего числа 64 опрашиваемых мы получаем 9 + 2 + 7=18 наблюдений, или 28.1%, в которых прогноз будет неверен. Легко видеть, что первоначальная вероятность ошибки 43.7% значительно сократилась.
На основе этих двух вероятностей можно вычислить относительное сокращение ошибки, которое и называется лямбда:
Лямбда
=
(Ошибка при первом прогнозе
-
Ошибка при втором прогнозе)
/
Ошибка при первом
В нашем примере:
Лямбда
=
(
43.7
%
-
28.1
%
)
/
43.7
%
=
.
357
Если ошибка при втором прогнозе сокращается до 0, лямбда будет равна 1. Если ошибки при первом и при втором прогнозе одинаковы, лямбда = 0. В этом случае вторая переменная никак не помогает в уточнении предсказания значения первой (зависимой переменной); то есть выбранные две переменные совершенно не зависят друг от друга.
Так как ваш быстрый, но совершенно не умеющий соображать компьютер не знает, какую переменную следует считать зависимой, SPSS вычисляет оба значения Я, поочередно рассматривая каждую из переменных как зависимую. В случае, если выясняется, что ни одну из выбранных переменных нельзя объявить зависимой, выводится среднее двух этих значений с обозначением "лямбда -симметричная".
Тау (т) Гудмена-Крускала
Это вариант меры связанности, который SPSS всегда вычисляет совместно с ней. При определении этой меры количество правильных предсказаний определяется по-иному: наблюдаемые частоты взвешиваются с учетом своих процентов и складываются. Для первого прогноза это дает:
36
*
56.3
%
+
28
*
43.8
%
=
32.53
Согласно этому выражению, из 64 респондентов неверное предположение сделано для 31.47, что составляет 49.17%.
С учетом второй переменной количество верных предположений (второй прогноз) составляет:
13
*
59.1
%
+
16
*
88.9
%
+
7
*
29.2
%
+
9
*
40.9
%
+
2
*
11.1
%
+
17
*
70.8
%
=
39.89
Итак, при втором прогнозе сделано 24.11 неверных прогнозов из 64, что составляет 37.67%. Тогда сокращение ошибки равно:
(
49.17
%
-
37.67
%
)
/
49.17
%
=
0.235
Это значение выводится под названием "тау Гудмена-Крускала". И в этом случае SPSS выдает второе значение т, рассматривая вторую переменную, как зависимую.
Коэффициент неопределенности
Это еще один вариант критерия лямбда, при определении которого имеется в виду не ошибочное предсказание, а "неопределенность", то есть степень неточности предсказаний. Эта неопределенность вычисляется по достаточно сложным формулам, которые мы опускаем. Коэффициент неопределенности также принимает значения в диапазоне от 0 до 1. Значение 1 говорит о том, что одну переменную можно точно предсказать по значениям другой.