Литмир - Электронная Библиотека

plotIndiv(My_result.pca2,

          comp = c(1,3),

          legend = TRUE,

          group = My_table$'Класс',

          legend.title = 'Класс',

          title = 'Анализ успеваемости, PCA 1-3')

mixOmics для гуманитариев - _9.jpg

В связи с этим возникает естественный вопрос об оптимальном количестве главных компонент. С другой стороны, важную роль в дисперсионном анализе (ANOVA) играет объясненная дисперсия, пропорционально характеризующая долю общего числа образцов, охватываемую той или иной главной компонентой. Объяснённая дисперсия может быть представлена наглядно, функцией plot, либо фактическими численными её пропорциями и накапливаемыми пропорциями:

plot(My_result.pca2)

mixOmics для гуманитариев - _10.jpg

Следующая команда:

My_result.pca2

Выведет собственные значения для первых трех главных компонент:

      PC1       PC2       PC3

2.8142478 1.2477355 0.7394421

Пропорциональное отношение объяснённой ими дисперсии:

      PC1            PC2            PC3

0.5433274      0.2408917      0.1427590

И совокупное значение оной по мере увеличения числа главных компонент:

      PC1            PC2            PC3

0.5433274      0.7842191      0.9269781

К сожалению, не существует строгих правил, руководствуясь которыми можно определить, сколько компонентов должно быть включено в PCA, – это зависит от данных и от уровня шума. Зачастую просто по приведённой выше диаграмме делают вывод о том, что увеличение количества главных компонент в модели не способствует резкому увеличению оставшейся доли объяснённой дисперсии.

С другой стороны, всегда можно посмотреть на переменные коэффициенты в каждом компоненте с векторами нагрузки. Весы нагрузки представлены по убыванию абсолютной величины снизу вверх. Абсолютное значение указывает на важность каждой переменной для определения каждого главной компоненты и представлено длиной каждого прямоугольника:

plotLoadings(My_result.pca)

mixOmics для гуманитариев - _11.jpg

Можно открыть справку командой ?plotLoadings, чтобы ознакомиться с полным списком аргументов. Следующий пример покажет только две темы, оказавших наибольше влияние на разделение, с указанием их названий и увеличением шрифта на 10%:

plotLoadings(My_result.pca, ndisplay = 2,

  name.var = c('первая тема','вторая тема','третья тема','четвертая тема','пятая тема'),

  size.name = rel(1.1))

mixOmics для гуманитариев - _12.jpg

Такое представление будет особенно информативным в случае, когда необходимо выбирать из нескольких переменных. Диаграммы и графики можно отображать интерактивно в 3D, используя стилевую опцию style="3d". Для этого используется пакет rgl, устанавливаемый и подключаемый предварительно:

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

4
{"b":"725159","o":1}