Информация

Выбор между хи-квадрат и t-тестом

Выбор между хи-квадрат и t-тестом


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Я всегда не понимаю, делать ли тест хи-квадрат или t-тест в суммах, которые дает мой учитель биостатики. У кого-нибудь есть простое правило, чтобы это решить?


Это очень тонкий вопрос, и я рекомендую вам прочитать статьи в Википедии по этим различным предметам (t-тест, критерий хи-квадрат, p-значение и т. Д.), Потому что авторы упорно трудились, чтобы бороться с распространенными заблуждениями об этих часто используемых статистических тестах. . Вот довольно упрощенное практическое правило для этих различных тестов:

  1. t-тест: используется, когда вы смотрите на средства разных популяций. Например, вам может потребоваться определить, отличается ли разница в среднем уровне экспрессии генов между обработанными и необработанными клетками, или же уровень экспрессии генов в клетках в определенной среде отличается от того, что вы ожидаете в нулевой гипотезе. Предположения: Вы предполагаете, что исследуемые популяции распределены нормально. Дисперсия популяций неизвестна (это был бы Z-тест), но предполагается, что дисперсия каждой популяции одинакова. Наконец, чтобы t-критерий работал, предполагается, что выборки данных из двух популяций независимы.
  2. $ chi ^ 2 $ test: Несколько возможностей для этого. Наиболее распространенным в биологии является тест Пирсона $ chi ^ 2 $, который используется, когда вы смотрите на категориальные данные, например, количество растений гороха с белыми или пурпурными цветками и круглыми или морщинистыми семенами, и попытка выяснить, согласуется ли количество особей в каждой категории с некоторой нулевой гипотезой (например, число в каждой категории, которое вы ожидаете, если гены окраски цветков и формы семян не связаны). Предположения: Точки данных были собраны случайным образом и независимо от совокупности, и у вас есть достаточно большое количество выборок.

Я бы не хотел совершить огромную ошибку, поэтому, пожалуйста, отредактируйте мой ответ и / или поделитесь своим, если вы думаете, что я полностью искажаю эти темы!


Дополнительная информация

Т-тест

Как сказал А.Кеннард, t-критерий применяется, когда случайная величина имеет нормальное распределение. Как узнать, что обычно распределяется - это актуальный вопрос. Обычные меры, допускающие некоторую случайную погрешность измерения, обычно распределяются. Средние значения, оцененные по разным образцам (эксперимент, который генерирует эту выборку, может иметь любой распределение) следовать нормальному распределению. Например, для среднего временного интервала радиоактивного распада - сам интервал распределен экспоненциально, но среднее значение среднего интервала распада будет нормально распределено. Вы можете предположить, что это снова ошибка измерения, которая приводит к изменению среднего значения, рассчитанного в разных выборках. Это называется Центральная предельная теорема.

Нормальное распределение имеет два параметра - среднее значение и дисперсию, т.е. вам необходимо знать эти значения заранее, чтобы построить нормальное распределение. Равномерное распределение не имеет параметров - это не означает, что равномерно распределенные выборки не имеют среднего или дисперсии (в этом случае среднее и дисперсия являются свойствами выборки, а не параметрами распределения). Чтобы увидеть, является ли выборка представителем данного нормального распределения, проводится t-тест или z-тест. Это снова означает, что вычисленное среднее значение и дисперсия эквивалентны соответствующим параметрам распределения. В случае z-теста вы знаете дисперсию совокупности (параметр распределения). Вы можете спросить, как можно заранее узнать дисперсию населения. Примером может служить случай, когда вы уже знаете частоту ошибок вашего измерительного устройства (может быть предоставлена ​​производителем или интерпретирована исходя из его конструкции).

$ chi ^ 2 $ тест

Существует несколько вариантов теста $ chi ^ 2 $. Но что общего между ними, так это то, что они относятся к Распределение $ chi ^ 2 $. Вариации, которые всегда положительны, не могут быть нормально распределенными. Они соответствуют распределению $ chi ^ 2 $. F-тест для дисперсии использует соотношение статистики $ chi ^ 2 $ двух случайных величин, обозначающих дисперсии. Даже в тесте Пирсона $ chi ^ 2 $ статистика теста представляет собой сумму квадратов, что делает ее всегда положительной. Фактически это распределение $ chi ^ 2 $ также используется в t-тесте. В качестве . Кеннард сказал, что одно из предположений t-критерия состоит в том, что дисперсия генеральной совокупности неизвестна, но предполагается, что она равна. Поскольку дисперсия генеральной совокупности неизвестна, ее необходимо оценивать по выборке. Как и в случае со всеми оценками, у вас есть не фиксированное значение, а диапазон допустимых значений, попадающий в некоторые доверительные интервалы. T-распределение - это в основном среднее нескольких нормальных распределений со значениями дисперсии, попадающими в допустимый доверительный интервал распределения $ chi ^ 2 $.

Необязательно, чтобы категориальные данные проверялись тестом $ chi ^ 2 $. Эксперимент с подбрасыванием монеты дает начало категориальному, но его можно проверить на биномиальное распределение. Таким образом, тест $ chi ^ 2 $ можно использовать для категориальных данных, но это не единственный тест.

Нижняя линия: статистика, проверенная тестом $ chi ^ 2 $, имеет $ chi ^ 2 $ распределение как его выборочное распределение. Эта статистика должна быть квадратом / суммой квадратов - что-то, что никогда не может иметь отрицательного значения. Возможно, поэтому он называется $ chi $ в квадрате.


Верно, что T-тест используется, когда ваша зависимая переменная является числовой, а критерий хи-квадрат используется, когда вы анализируете категориальную переменную. Но как насчет этого:

У вас категорический отклик (0,1) на кампанию. 1 купивший продукт и 0 не купивший. Если вы суммируете ответы в своей тестовой группе и контрольной группе и разделите их по соответствующему размеру популяции, допустим, вы получите что-то вроде этого - коэффициент ответа 0,23% в группе тестирования и коэффициент ответа 0,01% в группе управления.

Разве вы не можете использовать Т-тест, чтобы увидеть, отличаются ли эти показатели ответа? Если да, то напомню, что эти переменные были категориальными (0,1), но мы по-прежнему использовали их как числовые.

Все, что я хочу сказать, это то, что если мы сравниваем процент или процент ответов, то T-тесты можно использовать независимо от того, является ли зависимая переменная символьной или числовой.

Сачин


В чем разница между Т-тестом и ANOVA?

В этом руководстве объясняется разница между t-тест и ANOVA, а также когда использовать каждый тест.

Т-тест

А t-тест используется для определения наличия статистически значимой разницы между средними значениями двух групп. Существует два типа t-критериев:

1. Независимый t-критерий выборки. Это используется, когда мы хотим сравнить разницу между средними значениями двух групп, и группы полностью независимы друг от друга.

Например, исследователи могут захотеть узнать, помогает ли людям похудеть диета A или диета B. 100 случайно назначенных людей назначают на диету А. Еще 100 случайно назначенных людей назначают на диету Б. Через три месяца исследователи записывают общую потерю веса для каждого человека. Чтобы определить, существенно ли отличается средняя потеря веса между двумя группами, исследователи могут провести t-тест для независимых выборок.

2. t-критерий парных выборок.. Это используется, когда мы хотим сравнить разницу между средними значениями двух групп и где каждое наблюдение в одной группе может быть объединено с одним наблюдением в другой группе.

Например, предположим, что 20 учеников в классе проходят тест, затем изучают определенное руководство, а затем повторно проходят тест. Чтобы сравнить разницу между оценками в первом и втором тестах, мы используем парный t-тест, потому что для каждого учащегося их первый результат теста может быть объединен с его вторым результатом теста.

Чтобы t-критерий дал достоверные результаты, должны быть соблюдены следующие допущения:

  • Случайный: Для сбора данных для обеих выборок следует использовать случайную выборку или случайный эксперимент.
  • Обычный: Распределение выборки нормальное или приблизительно нормальное.

Если эти предположения соблюдены, то можно безопасно использовать t-критерий для проверки разницы между средними значениями двух групп.


Как рассчитать размер выборки при исследованиях на животных?

Расчет размера выборки - один из важных компонентов дизайна любого исследования, включая исследования на животных. Если исследователь выберет меньшее количество животных, это может привести к отсутствию каких-либо существенных различий, даже если они существуют в популяции, а если будет выбрано большее количество животных, это может привести к ненужной трате ресурсов и может привести к этическим проблемам. В этой статье на основе проведенного нами обзора литературы мы предложили несколько методов расчета размера выборки для исследований на животных.

Сколько животных мне следует использовать для исследования? Это один из самых запутанных вопросов, с которыми сталкивается исследователь. Слишком маленький размер выборки может упустить реальный эффект в эксперименте, а слишком большой размер выборки приведет к ненужной трате ресурсов и животных. [1] Вопрос размера выборки был адекватно освещен в клинических испытаниях и клинических исследованиях, но мало изучен в случае исследований на животных в опубликованной литературе. Очень важно научить молодых исследователей и аспирантов важности и методам расчета размера выборки. Чтобы прояснить этот вопрос о размере выборки в исследованиях на животных, мы решили поискать в различных доступных статьях, касающихся размера выборки в исследованиях на животных. Мы выполнили поиск в PubMed, используя различные термины MeSH, такие как & # x0201c размер выборки, & # x0201d & # x0201cs расчет размера выборки, & # x0201d & # x0201 исследования животных & # x0201d и т. Д., А также их комбинации. Мы также искали различные статьи через Google и Google Scholar. Мы также провели поиск на различных веб-сайтах, связанных с исследованиями на животных (http: // www. 3rs-reduction.co.uk/html/6__power_and_sample_size.html, http://www.acuc.berkeley.edu/, http: // www. bu.edu/orccommittees/iacuc/policies-and-guidelines/sample-size-calculations/, http://www.ucd.ie/researchethics/etc.). Первый автор прочитал всю доступную литературу, и понимание концепции было сделано после консультации со вторым автором. Здесь мы кратко объясняем метод расчета размера выборки в исследованиях на животных на основе проведенного нами обзора литературы.

В основном, существует два метода расчета размера выборки при исследованиях на животных. Самый популярный и наиболее научный метод - это расчет размера выборки с помощью анализа мощности. [2] Следует приложить все усилия, чтобы рассчитать размер выборки этим методом. Этот метод аналогичен методу, используемому для расчета размера выборки для клинических испытаний и клинических исследований. Простой расчет можно выполнить вручную с помощью какой-либо формулы [Приложение 1], но для сложных расчетов можно использовать статистическое программное обеспечение или обратиться за помощью к статистику. Чтобы рассчитать размер выборки с помощью анализа мощности, исследователь должен обладать знаниями и информацией об этих концепциях:

Размер эффекта: это разница между средним значением двух групп (количественные данные) или пропорциями событий в двух группах (качественные данные). Перед началом исследования исследователь должен решить, какая минимальная разница между двумя группами может считаться клинически значимой. Представление о клинически значимой разнице между группами следует брать предпочтительно из ранее опубликованных исследований [2,3,4,5].

Стандартное отклонение: стандартное отклонение измеряет изменчивость в пределах выборки. Информация о стандартном отклонении необходима только в случае количественных переменных. Информацию о стандартном отклонении конкретной переменной можно получить из ранее опубликованных исследований. Если такого исследования нет, то автор должен сначала провести пилотное исследование, и стандартное отклонение может быть рассчитано на основе пилотного исследования [2,3,4,5]

Ошибка 1-го типа: измеряется уровнем значимости, который обычно фиксируется на уровне 5% (п = 0,05). Это произвольное значение, которое может быть уменьшено или увеличено в соответствии с вопросом исследования [2,3,4,5].

Мощность: Мощность исследования - это вероятность обнаружения эффекта, на поиск которого и направлено исследование. Это может быть от 80% до 99% в зависимости от исследовательского вопроса, но обычно оно составляет 80% [2,3,4,5]

Направление эффекта (односторонний или двусторонний): когда исследователь хочет изучить эффект некоторого вмешательства, фактический эффект, наблюдаемый в образце, может быть в том же направлении, что и думал исследователь, или может быть прямо противоположным ему. Если исследователь чувствует, что эффект может быть в обоих направлениях, то ему следует использовать двусторонний тест, а если у него есть веские основания полагать, что эффект находится в одном направлении, то он может использовать односторонний тест. В исследованиях на животных обычно используются двусторонние тесты [2].

Статистические тесты: для расчета размера выборки важно иметь представление о статистическом тесте, который будет применяться к данным. Для простых статистических тестов, таких как t-критерий Стьюдента или критерий хи-квадрат, можно выполнить ручной расчет на основе формулы [Приложение], но для сложных тестов, таких как ANOVA или непараметрические тесты, необходима помощь статистика или использование программного обеспечения [ 2,4]

Ожидаемая убыль или гибель животных: окончательный размер выборки следует скорректировать с учетом ожидаемой убыли. Предположим, исследователь ожидает 10% отсева, тогда размер выборки, рассчитанный по формуле или программному обеспечению, следует разделить на 0,9, чтобы получить фактический размер выборки. Предположим, что размер выборки, рассчитанный с помощью программного обеспечения, составляет 10 животных на группу, и исследователь ожидает 10% отсева, тогда его окончательный размер выборки будет 11 животных на группу (10 / 0,9 = 11,11). Аналогичным образом, для 20% отсева размер выборки следует разделить на 0,8. [5] Это можно объяснить в виде структурированной формулы, т. Е.

Скорректированный размер выборки = размер выборки / (1 & # x02212 [% отсева / 100])

Мы предлагаем использовать бесплатно загружаемое программное обеспечение G Power (Faul, Erdfelder, Lang and Buchner, 2007) для расчета размера выборки. Это программное обеспечение также хорошо подходит для расчета размера выборки для клинических испытаний. Это программное обеспечение можно использовать как для простых, так и для сложных расчетов размера выборки. [6] G Power может рассчитать размер выборки на основе заранее разработанного размера эффекта при небольшой, средней и большой разнице между группами на основе принципов Коэна. [7] Информация о другом бесплатном программном обеспечении и калькуляторах для расчета размера выборки приведена в Приложении 2. Для более сложного размера выборки потребуется более сложное программное обеспечение, такое как & # x0201cnQuery Advisor & # x0201d или & # x0201cMINITAB & # x0201d.

Второй метод расчета - это грубый метод, основанный на законе убывающей доходности. Этот метод называется методом & # x0201cresource уравнение & # x0201d. [2,8,9] Этот метод используется, когда невозможно предположить размер эффекта, чтобы получить представление о стандартном отклонении, поскольку предыдущие результаты недоступны или когда несколько конечные точки измеряются или для анализа используется сложная статистическая процедура. Этот метод также можно использовать в некоторых поисковых исследованиях, где проверка гипотез не является основной целью, но исследователь заинтересован только в обнаружении любого уровня различий между группами.

Согласно этому методу измеряется значение & # x0201cE & # x0201d, которое представляет собой не что иное, как степень свободы дисперсионного анализа (ANOVA). Значение E должно находиться в диапазоне от 10 до 20. Если E меньше 10, то добавление большего количества животных увеличит шанс получения более значимого результата, но если оно больше 20, то добавление большего количества животных не увеличит вероятность получения значимого результата. полученные результаты. Хотя этот метод основан на ANOVA, он применим ко всем экспериментам на животных. Любой размер выборки, в котором E составляет от 10 до 20, следует рассматривать как адекватный. E можно измерить по следующей формуле:

E = Общее количество животных & # x02212 Общее количество групп

Предположим, исследователь хочет увидеть действие лекарства и создал пять групп (одна группа в качестве контроля и четыре группы с разными дозами этого лекарства) по 10 крыс в каждой. В этом случае E будет

E = 50 & # x02212 5 = 45, что больше 20, следовательно, размер выборки в этом эксперименте больше, чем необходимо. Однако, если размер выборки составляет пять на группу, то E будет 20, что является приемлемым пределом и, следовательно, может считаться адекватным размером выборки.

Этот метод прост, но он не может считаться таким же надежным, как метод анализа мощности.

Мы хотим предложить исследователям включить заявление о методе расчета размера выборки и обосновании размера выборки в рукопись, которую они хотят опубликовать. Животные в исследованиях: отчетность in vivo Руководство по проведению экспериментов рекомендует включить заявление, в котором упоминается обоснование размера выборки, используемой в исследовании, и подробные сведения о методе расчета размера выборки. [10] Все компоненты расчета размера выборки, такие как размер эффекта, ошибка типа 1 и типа 2, односторонний / двусторонний тест, стандартное отклонение и т. Д., Должны быть указаны в рукописи, отправляемой для публикации, как это предлагается для клинических исследований. [11 ] Нехватка ресурсов (бюджета, рабочей силы), временные ограничения и т. Д. Не могут рассматриваться как веское оправдание для принятия решения о размере выборки. Многие исследователи считают, что шесть животных в группе являются адекватным размером выборки, но после обзора доступной литературы по этому вопросу мы пришли к выводу, что такое представление о шести животных в группе имеет мало научных и статистических оснований. Это краткое описание, и читателям предлагается ознакомиться с другими доступными ресурсами для лучшего понимания различных концепций, связанных с расчетом размера выборки в исследованиях на животных.


ПЕРЕМЕННЫЕ

Переменная - это характеристика, которая варьируется от одного члена популяции к другому. [3] Такие переменные, как рост и вес, измеряются с помощью весов определенного типа, передают количественную информацию и называются количественными переменными. Пол и цвет глаз дают качественную информацию и называются качественными переменными [3] [Рисунок 1].

Классификация переменных

Количественные переменные

Количественные или числовые данные подразделяются на дискретные и непрерывные измерения. Дискретные числовые данные записываются в виде целого числа, например 0, 1, 2, 3, & # x02026 (целое число), тогда как непрерывные данные могут принимать любое значение. Наблюдения, которые можно подсчитать, составляют дискретные данные, а наблюдения, которые можно измерить, составляют непрерывные данные. Примерами дискретных данных являются количество эпизодов остановки дыхания или количество повторных интубаций в отделении интенсивной терапии. Аналогичным образом, примерами непрерывных данных являются последовательные уровни глюкозы в сыворотке, парциальное давление кислорода в артериальной крови и температура пищевода.

Иерархическая шкала возрастающей точности может использоваться для наблюдения и записи данных, которая основана на категориальной, порядковой, интервальной и пропорциональной шкалах [Рисунок 1].

Категориальные или номинальные переменные неупорядочены. Данные просто классифицируются по категориям и не могут быть расположены в каком-либо определенном порядке. Если существуют только две категории (например, пол мужской и женский), это называется дихотомическими (или двоичными) данными. Примерами категориальных переменных являются различные причины повторной интубации в отделении интенсивной терапии из-за обструкции верхних дыхательных путей, нарушения выведения секрета, гипоксемии, гиперкапнии, отека легких и неврологических нарушений.

Порядковые переменные имеют четкий порядок между переменными. Однако упорядоченные данные могут не иметь равных интервалов. Примерами являются статус Американского общества анестезиологов или шкала агитации-седации Ричмонда.

Интервальные переменные похожи на порядковые переменные, за исключением того, что интервалы между значениями интервальной переменной одинаковы. Хорошим примером шкалы интервалов является шкала градусов Фаренгейта, используемая для измерения температуры. Для шкалы Фаренгейта разница между 70 & # x000b0 и 75 & # x000b0 равна разнице между 80 & # x000b0 и 85 & # x000b0: единицы измерения одинаковы во всем диапазоне шкалы.

Шкалы отношений аналогичны шкалам интервалов в том, что одинаковые различия между значениями шкалы имеют одинаковое количественное значение. Однако шкалы соотношений также имеют истинную нулевую точку, что придает им дополнительное свойство. Например, система сантиметров является примером шкалы отношений. Есть настоящая нулевая точка, а значение 0 см означает полное отсутствие длины. Расстояние между щитовидной железой, равное 6 см, у взрослого человека может быть вдвое больше, чем у ребенка, у которого оно может составлять 3 см.


Когда использовать z-тест по сравнению с t-тестом

Как узнать, когда использовать t-тест вместо z-теста?

Практически каждый студент-статистик, которого я когда-либо обучал, в какой-то момент задавал мне этот вопрос. Когда я только начинал заниматься, я объяснял, что это зависит от задачи, и начинал болтать о центральной предельной теореме, пока их глаза не потускнели. Потом я понял, что легче понять, если я просто сделаю блок-схему. Итак, вот оно!

В основном это зависит от четырех вещей:

  1. Работаем ли мы со средним (например, «37 студентов») или пропорцией (например, «15% всех студентов»).
  2. Знаем мы или нет численность населения стандартное отклонение ( ( sigma )). В реальной жизни мы обычно этого не делаем, но курсы статистики любят придумывать проблемы там, где это делаем мы.
  3. Распределено ли население нормально. Это особенно важно при работе с выборками небольшого размера.
  4. В размер нашего образца. Магическое число обычно 30 - ниже это считается «маленьким» образцом, а 30 или больше считается «большим». Когда размер выборки велик, центральная предельная теорема говорит нам, что нам не нужно беспокоиться о том, нормально ли распределена генеральная совокупность.

Когда вы работаете над проблемой слов статистики, вам нужно искать именно эти вещи. Проблемы пропорции никогда не являются задачами t-теста - всегда используйте z! Однако вам необходимо убедиться, что (np_ <0> ) и (n (1-p_ <0>) ) оба больше 10, где (n ) - размер вашей выборки, а (p_ < 0> ) - это ваша предполагаемая доля населения. По сути, это означает, что доли населения (например,% мужчин и% женщин) должны быть достаточно большими, чтобы они были адекватно представлены в выборке.

Вообще говоря, проблема явно скажет вам, известно ли стандартное отклонение генеральной совокупности - если они не говорят, предполагайте, что оно неизвестно. То же самое и с нормально распределенной популяцией - если они не говорят «предположить, что популяция нормально распределена» или что-то в этом роде, тогда не надо просто сделайте это предположение. К счастью, если размер выборки достаточно велик, это не имеет значения!

Начните работу с репетитором по статистике в IU уже сегодня!

Понравилась эта статья? Ознакомьтесь с другими сообщениями о статистике.

Bloomington Tutors & copy 2013-2021 обслуживает студентов в Блумингтоне, штат Индиана, 47405. Заинтересованы в сотрудничестве с нами? Подайте заявку сегодня. Вам нужно с нами связаться? Посетите нашу страницу контактов или напишите / позвоните нам по телефону (812) 269-2380. Поищите репетиторство в College Park Tutors в Университете Мэриленда (UMD).

Положения и условия и политика конфиденциальности middot, здоровье и безопасность middot
Этот сайт защищен reCAPTCHA, и применяются Политика конфиденциальности и Условия использования Google.
Мы не связаны с Университетом Индианы (IU) или Ivy Tech.


Тест хи-квадрат против логистической регрессии: что лучше?

Привет Карен,
Я изучаю биостатистику, магистр здравоохранения, и мне интересно использовать регрессию для проверки ассоциаций в прикладном статистическом анализе. Почему использование регрессии или логистической регрессии & # 8220 лучше & # 8221, чем выполнение двумерного анализа, такого как хи-квадрат?

Я прочитал много исследований в своих исследованиях в аспирантуре, и кажется, что половина исследований использует хи-квадрат для проверки связи между переменными, а другая половина, которая, кажется, просто пытается изобразить, проводит сложную регрессию. -Приспособлен для контролируемой модели. Но конечные результаты кажутся такими же. Я работал с некоторыми профессионалами, которые утверждали, что простота лучше, а использование хи-квадрат - это нормально, но я работал с другими профессорами, которые настаивают на построении моделей. Также кажется, что намного проще провести хи-квадрат, когда вы проводите преимущественно категориальный анализ.

Мои профессора, кажется, не могут дать мне простое обоснованное
ответ, так что я подумал, что спрошу вас. Мне нравится читать ваш сайт, и я планирую начать участвовать в ваших вебинарах.

Спасибо!

Спасибо. Я с нетерпением жду встречи с вами на вебинарах.

На ваш вопрос я видел несколько разных причин.

Вы правы в том, что существует множество ситуаций, в которых изощренный (и сложный) подход и простой подход работают одинаково хорошо, а при прочих равных условиях простой лучше.

Конечно, я не могу сказать, почему кто-то использует ту или иную методологию в каком-либо конкретном исследовании, не видя ее, но я могу догадываться по некоторым причинам.

Я уверен, что исследователи склонны идти к сложностям, потому что даже когда журналы говорят, что хотят простых, модные вещи такие блестящие и красивые, и их все чаще принимают. В основном потому, что он сообщает (на каком-то уровне), что вы разбираетесь в сложной статистике и проверили контрольные переменные, поэтому рецензентам нет необходимости возражать. И правда ли это на самом деле, я уверен, что людей это беспокоит.

Включение элементов управления действительно важно во многих отношениях. Парадокс Симпсона, в котором отношения меняются на противоположные без надлежащего контроля, действительно случается.

Теперь вы можете поспорить, что логистическая регрессия - не лучший инструмент. Если все переменные, предикторы и результаты категоричны, лог-линейный анализ - лучший инструмент. Логлинейный анализ - это расширение хи-квадрат.

Тем не менее, я лично никогда не находил лог-линейные модели интуитивно понятными для использования или интерпретации. Итак, если будет выбор, я воспользуюсь логистической регрессией. Моя личная философия заключается в том, что если два инструмента разумны, а один настолько тупой, ваша аудитория не поймет этого, выберите более простой.

Это возвращает нас к хи-квадрат. Почему бы просто не использовать самое простое из всех?

Хи-квадрат - это действительно описательный тест, похожий на корреляцию. Это не метод моделирования, поэтому нет зависимой переменной. Итак, вопрос в том, хотите ли вы описать силу отношений или вы хотите смоделировать детерминанты и спрогнозировать вероятность результата?

Таким образом, даже в очень простой двумерной модели, если вы хотите явно определить зависимую переменную и делать прогнозы, логистическая регрессия уместна.


3 ответа 3

Существует причина, по которой «двусторонний хи-квадрат» редко используется: если вы выполните тест $ chi ^ 2 $ для таблиц сопряженности, то статистика теста будет (без поправки на непрерывность):

где $ o_$ - наблюдаемые числа в ячейках $ i, j $ и $ e_$ - ожидаемое количество ячеек в ячейке $ i, j $. При относительно слабых предположениях можно показать, что $ X ^ 2 $ приблизительно следует распределению $ chi ^ 2 $ со степенью свободы $ 1 $ (это для стола 2x2, как в вашем случае).

Если вы предполагаете независимость между переменной строки и столбца (которая равна $ H_0 $), тогда $ e_$ оцениваются из предельных вероятностей.

Это просто краткое введение в $ chi ^ 2 $ для таблиц непредвиденных обстоятельств. Самое главное, что числитель каждого члена в $ X ^ 2 $ - это в квадрате разница между «наблюдаемыми подсчетами» и «ожидаемыми подсчетами». Так $ o_ & lt e_$ или $ o_ & gt e_$ не имеет значения в результате для $ X ^ 2 $.

Итак, тест $ chi ^ 2 $ для таблицы непредвиденных обстоятельств проверяет, являются ли наблюдения меньше или больше ожидаемых! Так что, это двусторонний тест даже если критическая область определяется в одном (правом) хвосте распределения $ chi ^ 2 $.

Итак, дело в том, что $ chi ^ 2 $ -тест является двусторонним (он может отклонять значения $ o_$, которые либо слишком малы, либо слишком велики), но использует одностороннюю критическую область (правая очередь $ chi ^ 2 $).

Итак, как вы должны интерпретировать свой результат: если $ H_0: text <'переменная строки и переменная столбца независимы'> $, то вероятность наблюдения значения, по крайней мере, столь же экстремального, как вычисленное $ X ^ 2 $, составляет 0,059. Это называется p-значением теста.

(Обратите внимание, что под «независимым» выше подразумевается «либо слишком высокий, либо слишком низкий».)

Чтобы что-то «решить», вы должны сначала выбрать уровень значимости. Это «риск, который вы принимаете за ошибки типа I. Обычно используется уровень значимости $ 5 \% $.

Теперь вы отклоните нулевую гипотезу, если значение p (0,059) меньше выбранного уровня значимости (0,05). Это не так для вашего стола, поэтому вы нет отклонить $ H_0 $ на уровне значимости $ 5 \% $.

Что касается вашего вопроса внизу, вы должны сказать (но в вашем примере это не так): p-значение ниже или равно выбранному уровню значимости 0,05, поэтому $ H_0 $ отклоняется, и мы заключаем, что переменные строк и столбцов являются зависимыми. (но, как сказано, в вашем примере значение p выше уровня значимости 0,05).

Может быть, вам также стоит взглянуть на Непонимание P-value ?.


Тест хи-квадрат: пример работы со строками и столбцами в SAS

Как правило, когда программисты SAS хотят манипулировать данными строка за строкой, они достигают шага SAS DATA. Когда для вычислений требуется статистика столбцов, также полезна процедура SQL. Когда требуются операции со строками и столбцами, язык SAS / IML является мощным дополнением к набору инструментов программиста SAS.

Мне напомнили об этом факте недавно, когда программист SAS (возможно, студент) спросил, как «вручную» выполнить классический тест хи-квадрат для ассоциации в двухсторонней таблице частот. Вычисление требует вычисления средних значений по строкам и нижним столбцам, и ученику было сложно выполнить вычисления на этапе DATA. В этой статье показано, как SAS / IML может упростить вычисления по строкам и столбцам в классическом тесте хи-квадрат.

Тест хи-квадрат на ассоциацию в PROC FREQ

В SAS простой способ вычислить критерий хи-квадрат для ассоциации - использовать PROC FREQ. Следующие данные взяты из нескольких примеров в документации PROC FREQ. Данные показывают цвет волос и глаз 762 европейских детей. Вызов PROC FREQ вычисляет критерий хи-квадрат и перекрестную таблицу, которая отображает наблюдаемое значение, ожидаемые значения (в соответствии с гипотезой о том, что цвет волос и цвет глаз независимы) и отклонения, которые представляют собой «наблюдаемые минус ожидаемые» значения. :

В таблице с пошаговыми инструкциями каждая ячейка содержит три значения. Первое значение - это наблюдаемое количество ячеек, второе значение - это ожидаемое количество ячеек (при условии независимости), а третье значение - их разность, которую иногда называют «отклонением». Статистика теста и p-значение для теста хи-квадрат выделены красным. Статистика теста - 20,92. Вероятность наблюдения этого значения при случайном построении распределения хи-квадрат с 8 степенями свободы составляет 0,0073. Поскольку эта вероятность настолько мала, мы отвергаем нулевую гипотезу о независимости цвета волос и глаз.

Вычислите критерий хи-квадрат "вручную" в SAS

Тест хи-квадрат для таблицы 3 x 4 достаточно прост для вычисления вручную, но предположим, что вы хотите использовать SAS для проверки или воспроизведения чисел, которые производит PROC FREQ? Это хорошее упражнение по программированию для учащихся, чтобы убедиться, что они понимают вычисления. В документации PROC FREQ представлена ​​формула для статистики теста с использованием уравнения

куда пij - наблюдаемое количество в строке i и столбце j и еij - ожидаемое количество, но нет ничего лучше, чем программирование формулы для обеспечения понимания.

    for each row and column, and the grand mean for all cells.
  1. Use an outer product to form the table of expected values from the mean vectors.
  2. Compute the test statistic by using elementwise matrix operations. to compute the p-value.

Notice that the program does not contain any loops, although the formulas contain double summations over the elements of the table. This is an example of "vectorizing" the computations, which means writing the computations as vector or matrix computations rather than scalar operations in a loop.

You can see that the 'Expected' matrix matches the PROC FREQ output for the expected values for each cell. Similarly, the 'Deviance' matrix matches the PROC FREQ output for the difference between observed and expected values. The test statistic is the sum of the ratios of the squared deviances and the expected values. A call to the CDF function computes the p-value.

In summary, you can use the high-level SAS/IML language to implement basic statistical tests such as the chi-square test for association in a two-way frequency table. Such an exercise enables students to understand the details of elementary statistical tests. For programmers who know the statistical details but who are new to the SAS/IML language, this short exercise provides a way to gain proficiency with vectorized programming techniques.

About Author

Rick Wicklin, PhD, is a distinguished researcher in computational statistics at SAS and is a principal developer of PROC IML and SAS/IML Studio. His areas of expertise include computational statistics, simulation, statistical graphics, and modern methods in statistical data analysis. Rick is author of the books Statistical Programming with SAS/IML Software а также Simulating Data with SAS.

1 Comment

Rick,
I think the following code is more readable.

proc iml
cName = <"black" "dark" "fair" "medium" "red">
rName = <"blue" "brown" "green">
C = < 6 51 69 68 28,
16 94 90 94 47,
0 37 69 55 38>
colMarg = C[+, ]/c[+] /* margin probability of each column */
rowMarg = C[ ,+]/c[+] /* margin probability of each row */
expect=(rowMarg*colMarg)#c[+]


Вступление

In hypothesis testing a decision between two alternatives, one of which is called the null hypothesis and the other the alternative hypothesis, must be made. As an example, suppose you are asked to decide whether a coin is fair or biased in favor of heads. In this situation the statement that the coin is fair is the null hypothesis while the statement that the coin is biased in favor of heads is the alternative hypothesis. To make the decision an experiment is performed. For example, the experiment might consist of tossing the coin 10 times, and on the basis of the 10 coin outcomes, you would make a decision either to accept the null hypothesis or reject the null hypothesis (and therefore accept the alternative hypothesis). So, in hypothesis testing acceptance or rejection of the null hypothesis can be based on a decision rule. As an example of a decision rule, you might decide to reject the null hypothesis and accept the alternative hypothesis if 8 or more heads occur in 10 tosses of the coin.

The process of testing hypotheses can be compared to court trials. A person comes into court charged with a crime. A jury must decide whether the person is innocent (null hypothesis) or guilty (alternative hypothesis). Even though the person is charged with the crime, at the beginning of the trial (and until the jury declares otherwise) the accused is assumed to be innocent. Only if overwhelming evidence of the person's guilt can be shown is the jury expected to declare the person guilty--otherwise the person is considered innocent.

Errors

In the jury trial there are two types of errors: (1) the person is innocent but the jury finds the person guilty, and (2) the person is guilty but the jury declares the person to be innocent. In our system of justice, the first error is considered more serious than the second error. These two errors along with the correct decisions are shown in the next table where the jury decision is shown in bold on the left margin and the true state of affairs is shown in bold along the top margin of the table.


With respect to hypothesis testing the two errors that can occur are: (1) the null hypothesis is true but the decision based on the testing process is that the null hypothesis should be rejected, and (2) the null hypothesis is false but the testing process concludes that it should be accepted. These two errors are called Type I and Type II errors. As in the jury trial situation, a Type I error is usually considered more serious than a Type II error. The probability of a Type I error is denoted by the Greek letter alpha and is also called the significance level of the test, while the probability of a Type II error is denoted by the Greek letter beta. The next table is analogous to the previous table with the decision reached in hypothesis testing shown in bold along the left margin and the true situation shown in bold along the top margin of the table.

Предположения

In a jury trial the person accused of the crime is assumed innocent at the beginning of the trial, and unless the jury can find overwhelming evidence to the contrary, should be judged innocent at the end of the trial. Likewise, in hypothesis testing, the null hypothesis is assumed to be true, and unless the test shows overwhelming evidence that the null hypothesis is not true, the null hypothesis is accepted.

Пример

Suppose that you are trying to decide whether a coin is fair or biased in favor of heads. The null hypothesis is H0: the coin is fair (i.e., the probability of a head is 0.5), and the alternative hypothesis is Ha: the coin is biased in favor of a head (i.e. the probability of a head is greater than 0.5). To make this problem easier, assume that the alternative hypothesis is Ha: the probability of a head is 0.7. You are allowed to toss the coin only 10 times, and on the basis of the outcomes, make your decision.

The next graphs show Type I and Type II errors made in testing a null hypothesis of the form H0:p=p0 against H1:p=p1 where p1>p0. In these graphs n is taken to be 10. The red outlined bars show the probability distribution of the number of heads under the assumption that the null hypothesis (fair coin or p=0.5) is true , while the blue shaded bars show the probability distribution of the number of heads under the assumption that the null hypothesis is false (and p=0.7) . The decision rule is based on a critical value--if the number of heads is greater than or equal to this critical value, the null hypothesis is rejected--otherwise the null hypothesis is accepted. At the top of each graph you find the null, H0, and alternative, Ha, hypotheses, the critical value (CV) ranging from 6 to 10, Alpha, the probability of a Type I error, and Beta, the probability of a Type II error. These errors are show by the red and blue shadings, respectively.

Decreasing the Probability of a Type II Error (beta) Without Increasing the Probability of a Type I Error (alpha)

The previous example shows that decreasing the probability of a Type I error leads to an increase in the probability of a Type II error, and vice versa. How probability of a Type I error be held at some (preferably small level) while decreasing the probability of a Type II error? The next series of graphs show that this can be done by using a larger n, that is by increasing the number of coin tosses. An increase in n can be viewed as increasing the sample size for the experiment. In the middle graph of the series of five graphs shown above, the probability of a Type I error, alpha, is approximately 0.05. Suppose the coin was tossed 30 times instead of 10 times. With 30 tosses you would want the critical value to be some number greater than 15. Suppose that 20 is used as the critical value, that is, if 20 or more heads occur in the 30 tosses you would reject the null hypothesis that the coin is fair and accept the alternative hypothesis that the coin is biased in favor of heads (in this situation, we are looking at the alternative that the probability of a head is p=0.7). The next graph displays the results with the probability distribution of the number of heads under the assumption that the null hypothesis is true shown in red , and the probability distribution of the number of heads under the assumption that the null hypothesis is false (and the probability of a head is 0.7) is displayed in blue .

Notice that the probability of a Type I error is approximately 0.05, while the probability of a Type II error is approximately 0.27. Contrast this with the situation when the coin was tossed 10 times--from the middle graph of that series of graphs, alpha is approximately 0.05 but beta, the probability of a Type II error, is about 0.62.

The P-Value Approach to Hypothesis Testing

In the previous examples, a critical value was used in each of the situations in which a coin was tested for fairness. Although it was not explained how the critical value was selected in those examples, the critical value is usually chosen so that the test will have a small probability of Type I error. The values usually used for alpha, the probability of a Type I error, are 0.10, 0.05, or 0.01. Recall that alpha is also called the significance level. These are called 10%, 5%, or 1%, respectively, significance levels.

In the p-value approach neither a significance level nor a critical value are determined before the experiment is carried out or the sample taken. The null and alternative hypotheses are stated, and the experiment is run. A statistic is computed from the outcome of the experiment--the p-value is the probability of the observed outcome or something more extreme than the observed outcome, computed under the assumption that the null hypothesis is true. The determination of an outcome being more extreme than the observed outcome is based on the null and alternative hypotheses. Examples of this will be shown later.

For now, go back to the coin tossing experiment where the null hypothesis is that the coin is fair (p=0.5) and the alternative hypothesis is that the coin is biased in favor of heads (p>0.5). Suppose the coin is tossed 10 times and 8 heads are observed. Since the alternative hypothesis is p>0.5, more extreme values are numbers of heads closer to 10. So, to compute the p-value in this situation, you need only compute the probability of 8 or more heads in 10 tosses assuming the coin is fair. But, the number of heads in 10 tosses of a coin assuming that the coin is fair has a binomial distribution with n=10 and p=0.5. The p-value is P[8 heads] + P[9 heads] + P[10 heads]. From the binomial probability distribution, P[8 heads]=0.044, P[9 heads]=0.01, and P[10 heads]=0.001. Thus the p-value is 0.044+0.010+0.001=0.055.

Now that the p-value is computed, how do you decide whether to accept or reject the null hypothesis? Since the p-value is simply the probability of getting the observed number of heads under the assumption that the null hypothesis is true, if this probability is small, it is unlikely that the null hypothesis is true. So 'small' p-values lead to rejection of the null hypothesis. But 'small' is not defined. The definition of small is up to the reader--if in the opinion of the reader, the p-value is small, the null hypothesis is rejected, while larger values would cause the null hypothesis to be accepted. In statistical practice, 'small' values are usually 0.10, 0.05, or 0.01. In the coin tosses above, the p-value is 0.055, and if a 'small' p-value for you is 0.05, you would fail to reject the null hypothesis, that is, you would say 8 heads in 10 tosses is not enough evidence to conclude that the coin is not fair.

One and Two Tail Tests

In each of the coin tests shown above, the null hypotheses was H0: coin is fair (p=0.5) and the alternative hypothesis was Ha: coin is biased toward heads (p>0.5). With these hypotheses the null hypothesis would only rejected if the number of heads in 10 coin tosses was some number greater than 5. For example, you might reject the null only if you observe 9 or 10 heads in the 10 tosses. The 'rejection region' (shown as the red bars in the above graphs) lies in the right tail of the distribution of the number of heads in 10 tosses of a fair coin. This is a one-tail rejection region or one-tail test. Note that the 'greater than' symbol (>) in Ha points toward the rejection region.

If you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is biased toward tails (p<0.5), you would only reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number less than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer. Then the rejection region would lie in the left-hand tail of the probability distribution as shown by the shaded portion of the next graph. This is again a one-tail test. The 'less than' symbol (<) points toward the rejection region.

On the other hand if you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is not fair (p not equal to 0.5), you would reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number much less than 5 or some number much greater than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer or 8 or more. Then the rejection region would lie in both tails of the probability distribution of the number of heads. This is shown by the shaded portion of the next graph. This is a two-tail test with rejection regions in both tails.

Specific Hypothesis Tests

Summary of the p-value method

  • Determine the null and alternative hypotheses
  • Determine the test statistic
  • Take a random sample of size n and compute the value of the test statistic
  • Determine the probability of observed value or something more extreme than the observed value of the test statistic (more extreme is based on the null and alternative hypotheses). This is the p-value.
  • Reject the null hypothesis if the p-value is 'small.' (Where a significance level is give for the test, 'small' is usually meant to be any p-value less than or equal to the significance level)

For a population mean with known population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal or close to normal.

For a population mean with unknown population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal.

For a population proportion

(1) Sample is random
(2) Sample is large (n is 30 or more)
(3) x is the number of sample elements that have the characteristic


Confidence Intervals and Levels

В доверительный интервал is the plus-or-minus figure usually reported in newspaper or television opinion poll results. For example, if you use a confidence interval of 4 and 47% percent of your sample picks an answer you can be “sure” that if you had asked the question of the entire relevant population between 43% (47-4) and 51% (47+4) would have picked that answer.

В уровень уверенности tells you how sure you can be. It is expressed as a percentage and represents how often the true percentage of the population who would pick an answer that lies within the confidence interval. The 95% confidence level means you can be 95% certain the 99% confidence level means you can be 99% certain. Most researchers work for a 95% confidence level.

When you put the confidence level and the confidence interval together, you can say that you are 95% sure that the true percentage of the population is between 43% and 51%.

Factors that Affect Confidence Intervals
The confidence interval is based on the margin of error. There are three factors that determine the size of the доверительный интервал for a given уровень уверенности. Эти: размер образца, процент а также численность населения.

Размер образца
The larger your sample, the more sure you can be that their answers truly reflect the population. This indicates that for a given уровень уверенности, the larger your sample size, the smaller your доверительный интервал. However, the relationship is not linear (i.e., doubling the sample size does not halve the confidence interval).

Процент
Your accuracy also depends on the percentage of your sample that picks a particular answer. If 99% of your sample said “Yes” and 1% said “No” the chances of error are remote, irrespective of sample size. However, if the percentages are 51% and 49% the chances of error are much greater. It is easier to be sure of extreme answers than of middle-of-the-road ones.

When determining the sample size needed for a given level of accuracy you must use the worst case percentage (50%). You should also use this percentage if you want to determine a general level of accuracy for a sample you already have. To determine the confidence interval for a specific answer your sample has given, you can use the percentage picking that answer and get a smaller interval.

Population Size
How many people are there in the group your sample represents? This may be the number of people in a city you are studying, the number of people who buy new cars, etc. Often you may not know the exact population size. This is not a problem. The mathematics of probability proves the size of the population is irrelevant, unless the size of the sample exceeds a few percent of the total population you are examining. This means that a sample of 500 people is equally useful in examining the opinions of a state of 15,000,000 as it would a city of 100,000. For this reason, the sample calculator ignores the population size when it is “large” or unknown. Population size is only likely to be a factor when you work with a relatively small and known group of people .

Примечание:
The confidence interval calculations assume you have a genuine random sample of the relevant population. If your sample is not truly random, you cannot rely on the intervals. Non-random samples usually result from some flaw in the sampling procedure. An example of such a flaw is to only call people during the day, and miss almost everyone who works. For most purposes, the non-working population cannot be assumed to accurately represent the entire (working and non-working) population.

Most information on this page was obtained from The Survey System


  • This table is designed to help you choose an appropriate statistical test for data with two or more dependent variables .
  • Hover your mouse over the test name (in the Тестовое задание column) to see its description.
  • В Methodology column contains links to resources with more information about the test.
  • В Как columns contain links with examples on how to run these tests in SPSS, Stata, SAS, R and MATLAB.
  • The colors group statistical tests according to the key below:

* This is a user-written add-on

This page was adapted from the UCLA Statistical Consulting Group. We thank the UCLA Institute for Digital Research and Education (IDRE) for permission to adapt and distribute this page from our site.


Смотреть видео: chi kwadrat 2 (December 2022).