Полная версия страницы  English  

Статистический анализ связи генотипов и признаков

Marishok, 10.07.2007 11:44
Помогите определиться!
Имеется группа лиц, отгенотипированная по нескольким генам. Имеется некий признак
Как правильно проанализировать есть ли разница по этому признаку у носителей разных генотипов? Интересует взаимосвязь одного признака и двух генов

Не оставьте без ответа! Нужен хелп - мозги уже кипят!
Den-N, 10.07.2007 14:45
Это будет зависеть от данных. Опишите подробнее:
(1) каков интересующий признак: количественный (непрерывный) или качественный?
(2) Если качественный - то сколько у него градаций: 2 (например, "есть-нет") или больше (например, "красный-желтый-зеленый") и много ли нолей в массиве данных (признак в каких-то сочетаниях не обнаружен)?
(3) Чтобы сориентироваться в объеме данных желательно знать как маркируются генотипы: просто наличие гена или несколько его аллелей?
(4) Какими статистическими программами имеете возможность воспользоваться?
Тогда будем думать.
skhizhnyak, 10.07.2007 18:17
Так, навскидку:
если признак количественный - для начала сравнить генотипы между собой дисперсионным анализом
если качественный - анализ таблиц сопряженности по хи-квадрату
Но, действительно, надо на данные взглянуть.
guest: Игорь , 11.07.2007 07:51
Я написал программу, которая вычисляет значимость связи признака с генотипами, формирует группы (кластеры) генотипов, однородных по этому признаку, вычисляет количественную долю (вклад) каждой группы генотипов в появление признака. Вышлите мне свои данные, и с помощью моей программы я дам Вам ответ. Мой e-mail: imoiseev@mail.ru
Marishok, 11.07.2007 11:20
Спасибо, что откликнулись!

признак не непрерывный, но в цифрах - количество баллов по шкале от 0 до 120

генотипы - гомо и гетерозиготы по двум аллелям каждого гена - то есть по каждому гену три варианта, для совместного анализа уменьшаю это количество до двух - носители доминантного аллеля и гомозиготы по рецессивному - два варианта для каждого гена

имеется программа Statistica 6.0

когда смотрели связь одного гена и признака - использовали просто ANOVA
а вот теперь два гена - в принципе можно их перевести в один независимый признак - просто одна колонка в каждой ячейке которой будет записана комбинация аллелей генов для данного человека и опять делать однофакторный дисперсионный, но насколько это будет корректно?
Den-N, 11.07.2007 20:19
Однофакторный анализ здесь делать корректно, т.к. рабочую гипотезу можно формулировать по-разному. Если ее сформулировать: "генотипы различаются по среднему значению признака", то можно считать и однофакторным. Но в этом случае информация о возможном взаимодействии генов потеряется. Все будет зависеть от объема материала.
Чтобы прикинуть как считать нужно заполнить количеством наблюдений таблицу 3 х 3, где по горизонтали отложить три варианта первого гена, по вертикали - второго.
1. Если в вашей выборке присутствуют все 9 возможных сочетаний - нет необходимости огрублять материал до 2 вариантов. В программе заполняется 3 столбца: 1-балл признака, 2 - метки для первого гена (1, 2 и 3), 3 - метки для второго гена (1, 2 и 3). В ANOVA выберите Factorial ANOVA и далее заполняйте как в однофакторном, но факторов выберите 2 одновременно. В таблице результатов будут оценки главных эффектов (2 гена) и их взаимодействия. Это - обычный двухфакторный дисперсионный анализ.
2. Если в таблице 3 х 3 есть пустые ячейки - стройте свою 2 х 2. Если в ней нет пустых ячеек - проводите двухфакторный ДА, как написал выше, только градаций факторов (меток) будет не 3, а 2.
3. Если и в таблице 2 х 2 есть пустые ячейки - придется проводить однофакторный ДА.
Баллы могут не быть распределены нормально или дисперсия в ячейках комплекса может сильно различаться. Поэтому может потребоваться преобразование исходных данных. Если вероятность нулевой гипотезы Р для каких-то эффектов будет не слишком велика (примерно P=0,15 - 0,20) попробуйте посчитать anova с логарифмами баллов, т.к. распределение сосчитанных значений близко к логнормальному.
skhizhnyak, 12.07.2007 07:53
Кстати, на мой взгляд, 1- и 2-факторный дисперсионный анализ в Excel удобнее, чем ANOVA из StatSoft STATISTICA. Впрочем, это только моё ИМХО.
И не забудьте, что при двух- и многофакторном анализе число повторностей в каждой ячейке должно быть одинаково. Если нет - применяются специалльные алгоритмы "восстановления данных".
guest: Игорь , 12.07.2007 10:27
Есть ген TH. У этого гена несколько аллелей с номерами: 5,6,…,11. Сравнили 2 выборки: больные и здоровые (контроль) по этому гену. Результаты сравнения показаны в таблице1 ниже. Вопросы:
1) есть ли различие по генотипам TH между больными и здоровыми? Какова его значимость P1?
2) выделите однородные группы (кластеры) генотипов, по которым есть отличие и вычислите значимость различия P2. Насколько P2 изменилась по сравнению с Р1, т.е. во сколько раз кластеризация увеличила значимость различий?
3) Какова доля гена ТН в заболевании? Иначе говоря, вычислите долю больных с неблагоприятными генотипами по ТН по отношению ко всем больным.

А теперь, дорогие любители Statistica 6.0 и Excel, ответьте на вышеизложенные вопросы 1-3. Учтите, что вся информация хранится в базе данных. Нужно уметь делать выборки по любым параметрам: возраст, тяжесть заболевания и т.д. Желательно уметь сравнивать более, чем две выборки, по более чем двум генам.

Таблица1.
---------------------------------------
ВЫБ.1 ВЫБ.2
параметры сравнения больные контроль Всего
ТН_A1, ТН_A2 = 5\6 0 1 1
ТН_A1, ТН_A2 = 6\6 22 19 41
ТН_A1, ТН_A2 = 6\7 22 26 48
ТН_A1, ТН_A2 = 6\8 12 29 41
ТН_A1, ТН_A2 = 6\9 35 67 102
ТН_A1, ТН_A2 = 6\10 39 58 97
ТН_A1, ТН_A2 = 7\7 6 14 20
ТН_A1, ТН_A2 = 7\8 10 32 42
ТН_A1, ТН_A2 = 7\9 29 36 65
ТН_A1, ТН_A2 = 7\10 31 28 59
ТН_A1, ТН_A2 = 8\8 3 5 8
ТН_A1, ТН_A2 = 8\9 10 37 47
ТН_A1, ТН_A2 = 8\10 17 18 35
ТН_A1, ТН_A2 = 9\9 17 26 43
ТН_A1, ТН_A2 = 9\10 33 46 79
ТН_A1, ТН_A2 = 10\10 33 32 65
ТН_A1, ТН_A2 = 10\11 0 2 2
Всего 319 476 795
---------------------------------------
skhizhnyak, 12.07.2007 12:11
На первый взгляд, задачка довольно элементарная. Немножко классической и многомерной статистики, немножко программирования БД... можно реализовать практически на любом языке (лично я делал в своё время на DOS-овских машинах на комбинации FoxPro и TurboPascal, правда, не для генетики; а знакомый мужик ещё раньше - вообще на Fortran'е для отечественных СМ-ок).
Так, собственно, никто и не говорит, что стандартные пакеты всегда лучше самопального софта. Всё определяется соотношением цель/трудозатраты...
Den-N, 12.07.2007 20:36
> skhizhnyak
В Statistic'е по умолчанию выставлен способ расчета суммы квадратов по типу VI. В детали я не вдавался (там есть ссылка), но насколько понимаю - это вариант общих линейных моделей (GLM), которые и используются для восстановления пропущенных значений и в случае неравномерных дисперсионных комплексов. Поэтому число наблюдений в ячейках может быть разным, и это здорово, т.к. в популяционных исследованиях, в отличие от экспериментов получить равномерный комплекс практически нереально.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2012 Invision Power Services, Inc.