Доверительный интервал и доверительная вероятность. Как вычислить доверительный интервал Как строить доверительный интервал

Доверительный интервал (ДИ; в англ, confidence interval - CI) полученный в исследовании при выборке даёт меру точности (или неопределённости) результатов исследования, для того чтобы делать выводы о популяции всех таких пациентов (генеральная совокупность). Правильное определение 95% ДИ можно сформулировать так: 95% таких интервалов будет содержать истинную величину в популяции. Несколько менее точна такая интерпретация: ДИ - диапазон величин, в пределах которого можно на 95% быть уверенным в том, что он содержит истинную величину. При использовании ДИ акцент делается на определении количественного эффекта, в противоположность величине Р, которая получается в результате проверки статистической значимости. Величина Р не оценивает никакого количества, а служит скорее мерой силы свидетельства против нулевой гипотезы «никакого эффекта». Величина Р сама по себе не говорит нам ничего ни о величине различия, ни даже о его направлении. Поэтому самостоятельные величины Р абсолютно неинформативны в статьях или рефератах. В отличие от них ДИ указывает и на количество эффекта, представляющего непосредственный интерес, например на полезность лечения, и на силу доказательств. Поэтому ДИ непосредственно имеет отношение к практике ДМ.

Подход оценки к статистическому анализу, иллюстрируемый ДИ, направлен на измерение количества интересующего нас эффекта (чувствительность диагностического теста, частота прогнозируемых случаев, сокращение относительного риска при лечении и т.д.), а также на измерение неопределённости в этом эффекте. Чаще всего ДИ - диапазон величин по обе стороны оценки, в котором, вероятно, лежит истинная величина, и можно быть уверенным в этом на 95%. Соглашение использовать 95% вероятность произвольно, также как и величину Р <0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».

ДИ основан на идее, что то же самое исследование, выполненное на других выборках пациентов, не привело бы к идентичным результатам, но что их результаты будут распределены вокруг истинной, однако неизвестной величины. Иными словами, ДИ описывает это как «вариабельность, зависящую от выборки». ДИ не отражает дополнительную неопределённости, обусловленную другими причинами; в частности, он не включает влияние селективной потери пациентов при отслеживании, плохого комплайнса или неточного измерения исхода, отсутствия «ослепления» и т.д. ДИ, таким образом, всегда недооценивает общее количество неопределённости.

Вычисление доверительного интервала

Таблица А1.1. Стандартные ошибки и доверительные интервалы для некоторых клинических измерений

Обычно ДИ вычисляют из наблюдаемой оценки количественного показателя, такого, как различие (d) между двумя пропорциями, и стандартной ошибки (SE) в оценке этого различия. Приблизительный 95% ДИ, получаемый таким образом, - d ± 1,96 SE. Формула изменяется согласно природе меры исхода и охвату ДИ. Например, в рандомизированном плацебо-контролируемом испытании бесклеточной коклюшной вакцины коклюш развивался у 72 из 1670 (4,3%) младенцев, получивших вакцину, и у 240 из 1665 (14,4%) в группе контроля. Различие в процентах, известное как абсолютное снижение риска, составляет 10,1%. SE этого различия равна 0,99%. Соответственно 95% ДИ составляет 10,1% + 1,96 х 0,99%, т.е. от 8,2 до 12,0.

Несмотря на разные философские подходы, ДИ и тесты на статистическую значимость тесно связаны математически.

Таким образом, величина Р «значимая», т.е. Р <0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.

Неопределенность (неточность) оценки, выражаемая в ДИ, в большой степени связана с квадратным корнем из размера выборки. Маленькие выборки предоставляют меньше информации, чем большие, и ДИ соответственно шире в меньшей выборке. Например, статья, сравнивающая характеристики трёх тестов, которые применяются для диагностики инфекции Helicobacter pylori , сообщила о чувствительности дыхательной пробы с мочевиной 95,8% (95% ДИ 75-100). В то время как число 95,8% выглядит внушительно, маленькая выборка из 24 взрослых пациентов с Я. pylori означает, что имеется значительная неопределенность в этой оценке, как показывает широкий ДИ. Действительно, нижний предел 75% намного ниже, чем оценка 95,8%. Если бы такая же чувствительность наблюдалась в выборке 240 человек, то 95% ДИ составлял бы 92,5-98,0, давая больше гарантий, что тест высокочувствителен.

В рандомизированных контролируемых испытаниях (РКИ) незначимые результаты (т.е. те, где Р >0,05) особенно подвержены неверному толкованию. ДИ особенно полезен здесь, поскольку он показывает, насколько совместимы результаты с клинически полезным истинным эффектом. Например, в РКИ, сравнивающем наложение анастомоза швом и скрепками на толстой кишке , раневая инфекция развилась у 10,9% и 13,5% пациентов соответственно (Р = 0,30). 95% ДИ для этого различия составляет 2,6% (от -2 до +8). Даже в этом исследовании, включавшем 652 пациента, остаётся вероятность, что существует умеренное различие в частоте инфекций, возникающих вследствие этих двух процедур. Чем меньше исследование, тем больше неуверенность. Сунг и соавт. выполнили РКИ, чтобы сравнить инфузию октреотида со срочной склеротерапией при остром кровотечении из варикозно-расширенных вен на 100 пациентах. В группе октреотида частота остановки кровотечения составила 84%; в группе склеротерапии - 90%, что даёт Р = 0,56. Заметим, что показатели продолжающегося кровотечения аналогичны таковым при раневой инфекции в упомянутом исследовании. В этом случае, однако, 95% ДИ для различия вмешательств равен 6% (от -7 до +19). Этот интервал весьма широк по сравнению с 5% различием, которое представляло бы клинический интерес. Ясно, что исследование не исключает значительной разницы в эффективности. Поэтому заключение авторов «инфузия октреотида и склеротерапия одинаково эффективны при лечении кровотечения из варикозно-расширенных вен» определённо невалидно. В подобных случаях, когда, как здесь, 95% ДИ для абсолютного снижения риска (АСР; absolute risk reduction - ARR, англ.) включает ноль, ДИ для ЧПЛП (NNT - number needed to treat, англ.) является довольно затруднительным для толкования. ЧПЛП и его ДИ получают из величин, обратных АСР (умножая их на 100, если эти величины даны в виде процентов). Здесь мы получаем ЧПЛП = 100: 6 = 16,6 с 95% ДИ от -14,3 до 5,3. Как видно из сноски «d» в табл. А1.1, этот ДИ включает величины ЧПЛП от 5,3 до бесконечности и ЧПЛВ от 14,3 до бесконечности.

ДИ можно построить для большинства обычно употребляемых статистических оценок или сравнений. Для РКИ он включает разность между средними пропорциями, относительными рисками, отношениями шансов и ЧПЛП. Аналогично ДИ можно получить для всех главных оценок, сделанных в исследованиях точности диагностических тестов - чувствительности, специфичности, прогностической значимости положительного результата (все они являются простыми пропорциями), и отношения правдоподобия - оценок, получаемых в метаанализах и исследованиях типа сравнения с контролем. Компьютерная программа для персональных компьютеров, которая покрывает многие из этих способов использования ДИ, доступна со вторым изданием «Statistics with Confidence». Макросы для вычисления ДИ для пропорций бесплатно доступны для Excel и статистических программ SPSS и Minitab на http://www.uwcm.ac.uk/study/medicine/epidemiology_ statistics/research/statistics/proportions, htm.

Множественные оценки эффекта лечения

В то время как построение ДИ желательно для первичных результатов исследования, они не обязательны для всех результатов. ДИ касается клинически важных сравнений. Например, при сравнении двух групп правилен тот ДИ, что построен для различия между группами, как показано выше в примерах, а не ДИ, который можно построить для оценки в каждой группе. Мало того, что бесполезно давать отдельные ДИ для оценок в каждой группе, это представление может вводить в заблуждение. Точно так же правильный подход при сравнении эффективности лечения в различных подгруппах - сравнение двух (или более) подгрупп непосредственно. Неправильно предполагать, что лечение эффективно только в одной подгруппе, если ее ДИ исключает величину, соответствующую отсутствию эффекта, а другие - нет . ДИ полезны также при сравнении результатов в нескольких подгруппах. На рис. А 1.1 показан относительный риск эклампсии у женщин с преэклампсией в подгруппах женщин из плацебо-контролируемого РКИ сульфата магния.

Рис. А1.2. Лесной график показывает результаты 11 рандомизированных клинических испытаний бычьей ротавирусной вакцины для профилактики диареи в сравнении с плацебо. При оценке относительного риска диареи использован 95% доверительный интервал. Размер чёрного квадрата пропорционален объёму информации. Кроме того, показана суммарная оценка эффективности лечения и 95% доверительного интервала (обозначается ромбом). В метаанализе использована модель случайных эффектов превышает некоторые предварительно установленные; например, это может быть размер, использованный при вычислении величины выборки. В соответствии с более строгим критерием весь диапазон ДИ должен показывать пользу, превышающую предустановленный минимум.

Мы уже обсуждали ошибку, когда отсутствие статистической значимости принимают как указание на то, что два способа лечения одинаково эффективны. Столь же важно не уравнивать статистическую значимость с клинической важностью. Клиническую важность можно предполагать, когда результат статистически значим и величина оценки эффективности лечения

Исследования могут показать, значимы ли результаты статистически и какие из них клинически важны, а какие - нет. На рис. А1.2 приведены результаты четырёх испытаний, для которых весь ДИ <1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval , ДИ – Доверительный интервал ) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

In statistics, a confidence interval (CI) is a type of interval estimate of a population parameter. It is an observed interval (i.e., it is calculated from the observations), in principle different from sample to sample, that frequently includes the value of an unobservable parameter of interest if the experiment is repeated. How frequently the observed interval contains the parameter is determined by the confidence level or confidence coefficient. More specifically, the meaning of the term «confidence level» is that, if CI are constructed across many separate data analyses of replicated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the given confidence level. Whereas two-sided confidence limits form a confidence interval, their one-sided counterparts are referred to as lower/upper confidence bounds (or limits).


Доверительный интервал показывает, в каком диапазоне расположатся результаты выборочных наблюдений (опросов). Если мы проведем 100 одинаковых опросов в одинаковых выборках из единой генеральной совокупности (например, 100 выборок по 1000 человек в каждой в городе с населением 5 миллионов человек), то при 95%-й доверительной вероятности, 95 из 100 результатов попадут в пределы доверительного интервала (например, от 28% до 32% при истинном значении 30%). Например, истинное количество курящих жителей города составляет 30%. Если мы 100 раз подряд выберем по 1000 человек и в этих выборках зададим вопрос «курите ли Вы?», в 95 из этих 100 выборок при 2%-м доверительном интервале значение составит от 28% до 32%.

Формулы для построения доверительных интервалов с практическими примерами можно найти, например, .

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение. ()

Оценка доверительных интервалов

Цели обучения

Статистика рассматривает следующие две основные задачи :

    У нас есть некоторая оценка, построенная на выборочных данных, и мы хотим сделать некоторое вероятностное утверждение относительно того, где находится истинное значение оцениваемого параметра.

    У нас есть конкретная гипотеза, которую необходимо проверить на основе выборочных данных.

В данной теме мы рассматриваем первую задачу. Введем также определение доверительного интервала.

Доверительный интервал - это интервал, который строится вокруг оценочного значения параметра и показывает, где находится истинное значение оцениваемого параметра с априори заданной вероятностью.

Изучив материал данной темы, Вы:

    узнаете, что такое доверительный интервал оценки;

    научитесь классифицировать статистические задачи;

    освоите технику построения доверительных интервалов, как по статистическим формулам, так и с помощью программного инструментария;

    научитесь определять необходимые размеры выборок для достижения определенных параметров точности статистических оценок.

Распределения выборочных характеристик

Т-распределение

Как обсуждали выше распределение случайной величины близко к стандартизованному нормальному распределению с параметрами 0 и 1. Поскольку нам не известна величина σ, мы заменяем ее на некоторую оценку s . Величина уже имеет другое распределение, а именно или Распределение Стьюдента , которое определяется параметром n -1 (число степеней свободы). Это распределение близко к нормальному распределению (чем больше n , тем распределения ближе).

На рис. 95
представлено распределение Стьюдента с 30 степенями свободы. Как видно, оно весьма близко к нормальному распределению.

Аналогично функциям для работы с нормальным распределением НОРМРАСП и НОРМОБР имеются функции для работы с t-распределением - СТЬЮДРАСП (TDIST) и СТЬЮДРАСПОБР (TINV) . Пример использования этих функций можно посмотреть в файле СТЬЮДРАСП.XLS (шаблон и решение ) и на рис. 96
.

Распределения других характеристик

Как мы уже знаем, для определения точности оценивания математического ожидания нам необходимо t-распределение. Для оценивания других параметров, например, дисперсии, требуются другие распределения. Два из них - это F-распределение и x 2 -распределение .

Доверительный интервал для среднего значения

Доверительный интервал - это интервал, который строится вокруг оценочного значения параметра и показывает, где находится истинное значение оцениваемого параметра с априори заданной вероятностью.

Построение доверительного интервала для среднего значения происходит следующим образом :

Пример

В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом планирует выбрать 40 посетителей из тех, кто уже попробовал его и предложить им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемое количество баллов, которое получит новый продукт и построить 95%-й доверительный интервал этой оценки. Как это осуществить? (см. файл СЭНДВИЧ1.XLS (шаблон и решение ).

Решение

Для решения данной задачи можно воспользоваться . Результаты представлены на рис. 97
.

Доверительный интервал для суммарного значения

Иногда по выборочным данным требуется оценить не математическое ожидание, а общую сумму значений. Например, в ситуации с аудитором интерес может представлять оценка не средней величины счета, а суммы всех счетов.

Пусть N - общее количество элементов, n - размер выборки, T 3 - сумма значений в выборке, T" - оценка для суммы по всей совокупности, тогда , а доверительный интервал вычисляется по формуле , где s - оценка стандартного отклонения для выборки, - оценка среднего для выборки.

Пример

Допустим, некоторая налоговая служба хочет оценить размер суммарных налоговых возвратов для 10 000 налогоплательщиков. Налогоплательщик либо получает возврат, либо доплачивает налоги. Найдите 95%-й доверительный интервал для суммы возврата при условии, что размер выборки составляет 500 человек (см. файл СУММА ВОЗВРАТОВ.XLS (шаблон и решение ).

Решение

В StatPro нет специальной процедуры для этого случая, однако можно заметить, что границы можно получить из границ для среднего исходя из вышеприведенных формул (рис. 98
).

Доверительный интервал для пропорции

Пусть p - математическое ожидание доли клиентов, а р в - оценка этой доли, полученная по выборке размера n. Можно показать, что для достаточно больших распределение оценки будет близко к нормальному с математическим ожиданием p и стандартным отклонением . Стандартная ошибка оценки в данном случае выражается как , а доверительный интервал как .

Пример

В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом выбрал 40 посетителей из тех, кто уже попробовал его и предложил им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемую долю клиентов, которые оценивают новый продукт не менее чем в 6 баллов (он ожидает, что именно эти клиенты и будут потребителями нового продукта).

Решение

Первоначально создаем новый столбец по признаку 1, если оценка клиента была больше 6 баллов и 0 иначе (см. файл СЭНДВИЧ2.XLS (шаблон и решение ).

Способ 1

Подсчитывая количество 1, оцениваем долю, а далее используем формулы.

Значение z кр берется из специальных таблиц нормального распределения (например, 1,96 для 95%-го доверительного интервала).

Используя данный подход и конкретные данные для построения 95%-го интервала, получим следующие результаты (рис. 99
). Критическое значение параметра z кр равно 1,96. Стандартная ошибка оценки - 0,077. Нижняя граница доверительного интервала - 0,475. Верхняя граница доверительного интервала - 0,775. Таким образом, менеджер вправе полагать с 95%-й долей уверенности, что процент клиентов, оценивших новый продукт на 6 баллов и выше, будет между 47,5 и 77,5.

Способ 2

Данная задача допускает решение стандартными средствами StatPro . Для этого достаточно заметить, что доля в данном случае совпадает со средним значением столбца Тип . Далее применим StatPro/Statistical Inference/One-Sample Analysis для построения доверительного интервала среднего значения (оценки математического ожидания) для столбца Тип . Полученные в этом случае результат, будут весьма близок к результату 1-го способа (рис. 99).

Доверительный интервал для стандартного отклонения

В качестве оценки стандартного отклонения используется s (формула приведена в разделе 1). Функцией плотности распределения оценки s является функция хи-квадрат , которая, как и t-распределение, имеет n-1 степень свободы. Имеются специальные функции для работы с этим распределением ХИ2РАСП (CHIDIST) и ХИ2ОБР (CHIINV) .

Доверительный интервал в этом случае уже будет не симметричным. Условная схема границ представлена на рис. 100 .

Пример

Станок должен производить детали диаметром 10 см. Однако в силу различных обстоятельств происходят ошибки. Контролера по качеству волнуют два обстоятельства: во-первых, среднее значение должно равняться 10 см; во-вторых, даже в этом случае, если отклонения будут велики, то многие детали будут забракованы. Ежедневно он делает выборку из 50 деталей (см. файл КОНТРОЛЬ КАЧЕСТВА.XLS (шаблон и решение ). Какие выводы может дать такая выборка?

Решение

Построим 95%-й доверительные интервалы для среднего и для стандартного отклонения с помощью StatPro/Statistical Inference/ One-Sample Analysis (рис. 101
).

Далее, используя предположение о нормальном распределении диаметров, рассчитаем долю бракованных изделий, задавшись предельным отклонением 0,065. Используя возможности таблицы подстановки (случай двух параметров), построим зависимость доли брака от среднего значения и стандартного отклонения (рис. 102
).

Доверительный интервал для разности двух средних значений

Это одно из наиболее важных применений статистических методов. Примеры ситуаций.

    Менеджер магазина одежды хотел бы знать, на сколько больше или меньше тратит в магазине средняя женщина-покупатель, чем мужчина.

    Две авиакомпании летают аналогичными маршрутами. Организация-потребитель хотела бы сравнить разницу между среднеожидаемыми временами задержек рейсов по обеим авиакомпаниям.

    Компания рассылает купоны на отдельные виды товаров в одном городе и не рассылает в другом. Менеджеры хотят сравнить средние объемы покупок этих товаров в ближайшие два месяца.

    Автомобильный дилер часто имеет дело на презентациях с замужними парами. Чтобы понять их персональную реакцию на презентацию, пары часто опрашивают отдельно. Менеджер хочет оценить разницу в рейтингах указываемых мужчинами и женщинами.

Случай независимых выборок

Разность средних значений будет иметь t-распределение с n 1 + n 2 - 2 степенями свободы. Доверительный интервал для μ 1 - μ 2 выражается соотношением:

Данная задача допускает решение не только по вышеприведенным формулам, но и стандартными средствами StatPro . Для этого достаточно применить

Доверительный интервал для разности между пропорциями

Пусть - математическое ожидание долей. Пусть - их выборочные оценки, построенные по выборкам размера n 1 и n 2 соответственно. Тогда является оценкой для разности . Следовательно, доверительный интервал этой разности выражается как:

Здесь z кр является значением, полученным из нормального распределения по специальным таблицам (например, 1,96 для 95%-й доверительного интервала).

Стандартная ошибка оценки выражается в данном случае соотношением:

.

Пример

Магазин, готовясь к большой распродаже, предпринял следующие маркетинговые исследования. Были выбраны 300 лучших покупателей, которые в свою очередь были случайным образом поделены на две группы по 150 членов в каждой. Всем из отобранных покупателей были разосланы приглашения для участия в распродаже, но только для членов первой группы был приложен купон, дающий право на скидку 5%. В ходе распродажи покупки всех 300 отобранных покупателей фиксировались. Каким образом менеджер может интерпретировать полученные результаты и сделать заключение об эффективности предоставления купонов? (см. файл КУПОНЫ.XLS (шаблон и решение )).

Решение

Для нашего конкретного случая из 150 покупателей, получивших купон на скидку, 55 сделали покупку на распродаже, а среди 150, не получивших купон, покупку сделали только 35 (рис. 103
). Тогда значения выборочных пропорций соответственно 0,3667 и 0,2333. А выборочная разность между ними равна соответственно 0,1333. Полагая доверительный интервал 95%-м, находим по таблице нормального распределения z кр = 1,96. Вычисление стандартной ошибки выборочной разности равно 0,0524. Окончательно получаем, что нижняя граница 95%-го доверительного интервала равна 0,0307, а верхняя граница 0,2359 соответственно. Полученные результаты можно интерпретировать таким образом, что на каждых 100 покупателей, получивших купон со скидкой, можно ожидать от 3 до 23 новых покупателей. Однако надо иметь в виду, что этот вывод сам по себе еще не означает эффективности применения купонов (поскольку, предоставляя скидку, мы теряем в прибыли!). Продемонстрируем это на конкретных данных. Предположим, что средний размер покупки равен 400 руб., из которых 50 руб. есть прибыль магазина. Тогда ожидаемая прибыль на 100 покупателях, не получивших купон, равна:

50 0,2333 100 = 1166,50 руб.

Аналогичные вычисления для 100 покупателей получивших купон, дают:

30 0,3667 100 = 1100,10 руб.

Уменьшение средней прибыли до 30 объясняется тем, что, используя скидку, покупатели, получившие купон, в среднем будут делать покупку на 380 руб.

Таким образом, итоговый вывод говорит о неэффективности использования таких купонов в данной конкретной ситуации.

Замечание. Данная задача допускает решение стандартными средствами StatPro . Для этого достаточно свести данную задачу к задаче оценки разности двух средних способом, а далее применить StatPro/Statistical Inference/Two-Sample Analysis для построения доверительного интервала разности двух средних значений.

Управление длиной доверительного интервала

Длина доверительного интервала зависит от следующих условий :

    непосредственно данных (стандартное отклонение);

    уровня значимости;

    размера выборки.

Размер выборки для оценки среднего значения

Сначала рассмотрим задачу в общем случае. Обозначим данное нам значение половины длины доверительного интервала за В (рис. 104
). Нам известно, что доверительный интервал для среднего значения некоторой случайной величины X выражается как , где . Полагая:

и выражая n , получим .

К сожалению, точное значение дисперсии случайной величины X нам не известно. Кроме этого, нам неизвестно и значение t кр , так как оно зависит от n через количество степеней свободы. В данной ситуации мы можем поступить следующим образом. Вместо дисперсии s используем какую-либо оценку дисперсии, по каким-либо имеющимся реализациям исследуемой случайной величины. Вместо значения t кр используем значение z кр для нормального распределения. Это вполне допустимо, поскольку функции плотности распределений для нормального и t-распределения очень близки (за исключением случая малых n ). Таким образом, искомая формула принимает вид:

.

Поскольку формула дает, вообще говоря, нецелочисленные результат, в качестве искомого размера выборки берется округление с избытком результата.

Пример

В ресторане быстрого обслуживания планируется расширить ассортимент новым видом сэндвича. Для того чтобы оценить спрос на него, менеджер случайным образом планирует выбрать некоторое количество посетителей из тех, кто уже попробовал его, и предложить им оценить их отношение к новому продукту в баллах от 1 до 10. Менеджер хочет оценить ожидаемое количество баллов, которое получит новый продукт и построить 95%-й доверительный интервал этой оценки. При этом он хочет, чтобы половина ширины доверительного интервала не превышала 0,3. Какое количество посетителей ему необходимо опросить?

выглядит следующим образом:

Здесь р оц - оценка доли p , а В есть заданная половина длины доверительного интервала. Завышенное значение для n можно получить, используя значение р оц = 0,5. В этом случае длина доверительного интервала не будет превосходить заданного значения В при любом истинном значении p .

Пример

Пусть менеджер из предыдущего примера планирует оценить долю клиентов, отдавших предпочтение новому виду продукции. Он хочет построить 90%-й доверительный интервал, половина длины которого не превосходила бы 0,05. Сколько клиентов должно войти в случайную выборку?

Решение

В нашем случае значение z кр = 1,645. Поэтому искомое количество вычисляется как .

Если бы менеджер имел основания полагать, что искомое значение p составляет, например, примерно 0,3, то, подставляя это значение в вышеприведенную формулу, мы получили бы меньшее значение величины случайной выборки, а именно 228.

Формула для определения размеров случайной выборки в случае разности между двумя средними значениями записывается как:

.

Пример

Некоторая компьютерная компания имеет сервисный центр по обслуживанию клиентов. В последнее время увеличилось количество жалоб клиентов на плохое качество обслуживания. В сервисном центре в основном работают сотрудники двух типов: не имеющие большого опыта, но закончившие специальные подготовительные курсы, и имеющие большой практический опыт, но не закончившие специальных курсов. Компания хочет проанализировать нарекания клиентов за последние полгода и сравнить их средние количества, приходящиеся на каждую из двух групп сотрудников. Предполагается, что количества в выборках по обеим группам будут одинаковые. Какое количество сотрудников необходимо включить в выборку, чтобы получить 95%-й интервал с половиной длины не более 2?

Решение

Здесь σ оц есть оценка стандартного отклонения обеих случайных переменных в предположении, что они близки. Таким образом, в нашей задаче нам необходимо каким-то образом получить эту оценку. Это можно сделать, например, следующим образом. Просмотрев данные по нареканиям клиентов за последние полгода, менеджер может заметить, что на каждого сотрудника в основном приходится от 6 до 36 нареканий. Зная, что для нормального распределения практически все значения удалены от среднего значения не более чем на три стандартных отклонения, он может с определенным основанием полагать, что:

, откуда σ оц = 5.

Подставляя это значение в формулу, получаем .

Формула для определения размера случайной выборки в случае оценки разности между долями имеет вид:

Пример

Некоторая компания имеет две фабрики по производству аналогичной продукции. Менеджер компании хочет сравнить доли бракованной продукции на обеих фабриках. По имеющейся информации процент брака на обеих фабриках составляет от 3 до 5%. Предполагается построить 99%-й доверительный интервал с половиной длины не более 0,005 (или 0,5%). Какое количество изделий необходимо отобрать с каждой фабрики?

Решение

Здесь р 1оц и р 2оц являются оценками двух неизвестных долей брака на 1-й и 2-й фабрике. Если положить р 1оц = р 2оц = 0,5, то мы получим завышенное значение для n . Но поскольку в нашем случае мы имеем некоторую априорную информацию об этих долях, то мы берем верхнюю оценку этих долей, а именно 0,05. Получаем

Когда делается оценка некоторых параметров совокупности по выборочным данным, полезно дать не только точечную оценку параметра, но и указать доверительный интервал, который показывает, где может находиться точное значение оцениваемого параметра.

В данной главе мы также познакомились с количественными соотношениями, позволяющими строить такие интервалы для различных параметров; узнали способы управления длиной доверительного интервала.

Отметим также, что задачу оценки размеров выборки (задача планирования эксперимента) можно решить, используя стандартные средства StatPro , а именно StatPro/Statistical Inference/Sample Size Selection .

Из данной статьи вы узнаете:

    Что такое доверительный интервал ?

    В чем суть правила 3-х сигм ?

    Как можно применить эти знания на практике?

В наше время из-за переизбытка информации, связанного с большим ассортиментом товаров, направлений продаж, сотрудников, направлений деятельности и т.д., бывает трудно выделить главное , на что, в первую очередь, стоит обратить внимание и приложить усилия для управления. Определение доверительного интервала и анализ выхода за его границы фактических значений - методика, которая поможет вам выделить ситуации , влияющие на изменение тенденций. Вы сможете развивать позитивные факторы и снизить влияние негативных. Данная технология применяется во многих известных мировых компаниях.

Существуют так называемые "оповещения" , которые информируют руководителей о том, что очередное значение в определенном направлении вышло за доверительный интервал . Что это означает? Это сигнал, что произошло какое-то нестандартное событие, которое, возможно, изменит существующую тенденцию в данном направлении. Это сигнал к тому, чтобы разобраться в ситуации и понять, что на неё повлияло.

Например, рассмотрим несколько ситуаций. Мы рассчитали прогноз продаж с границами прогноза по 100 товарным позициям на 2011 год по месяцам и в марте фактические продажи:

  1. По «Подсолнечному маслу» пробили верхнюю границу прогноза и не попали в доверительный интервал.
  2. По «Сухим дрожжам» вышли за нижнюю границу прогноза.
  3. По «Овсяным Кашам» пробили верхнюю границу.

По остальным товарам фактические продажи оказались в рамках заданных границ прогноза. Т.е. их продажи оказались в рамках ожиданий. Итак, мы выделили 3 товара, которые вышли за границы, и начали разбираться, что же повлияло на выход за границы:

  1. По «Подсолнечному маслу» мы вошли в новую торговую сеть, которая дала нам дополнительный объем продаж, что привело к выходу за верхнюю границу. Для этого товара стоит пересчитать прогноз до конца года с учетом прогноза продаж в данную сеть.
  2. По «Сухим дрожжам» машина застряла на таможне, и образовался дефицит в рамках 5 дней, что повлияло на снижение продаж и выход за нижнюю границу. Возможно, стоит разобраться, что послужило причиной и постараться не повторять данную ситуацию.
  3. По «Овсяным Кашам» было запущено мероприятие по стимулированию сбыта, которое дало значительный прирост продаж и привело к выходу за границы прогноза.

Мы выделили 3 фактора, которые повлияли на выход за границы прогноза. В жизни их может быть гораздо больше.Для повышения точности прогнозирования и планирования факторы, которые приводят к тому, что фактические продажи могут выйти за границы прогноза, стоит выделить и строить прогнозы и планы по ним отдельно. А затем учитывать их влияние на основной прогноз продаж. Также можно регулярно оценивать влияние данных факторов и менять ситуацию к лучшему за счет уменьшения влияния негативных и увеличения влияния позитивных факторов .

С помощью доверительного интервала мы можем:

  1. Выделить направления , на которые стоит обратить внимание, т.к. в этих направлениях произошли события, которые могут повлиять на изменение тенденции .
  2. Определить факторы , которые реально влияют на изменение ситуации.
  3. Принять взвешенное решение (например, о закупках, при планировании и т.д.).

Теперь рассмотрим, что такое доверительный интервал и как его рассчитать в Excel на примере.

Что такое доверительный интервал?

Доверительный интервал – это границы прогноза (верхняя и нижняя), в рамки которых с заданной вероятностью (сигма) попадут фактические значения.

Т.е. мы рассчитываем прогноз - это наш основной ориентир, но мы понимаем, что фактические значения вряд ли на 100% будут равны нашему прогнозу. И возникает вопрос, в какие границы могут попасть фактические значения, если существующая тенденция сохранится ? И на этот вопрос нам поможет ответить расчет доверительного интервала , т.е. - верхней и нижней границы прогноза.

Что такое заданная вероятность сигма?

При расчете доверительного интервала мы можем задать вероятность попадания фактических значений в заданные границы прогноза . Как это сделать? Для этого мы задаем значение сигма и, если сигма будет равна:

    3 сигма - то, вероятность попадания очередного фактического значения в доверительный интервал составят 99,7%, или 300 к 1, или существует 0,3% вероятности выхода за границы.

    2 сигма - то, вероятность попадания очередного значения в границы составляет ≈ 95,5 %, т.е. шансы примерно 20 к 1, или существует 4,5% вероятности выхода за границы.

    1 сигма - то, вероятность ≈ 68,3%, т.е. шансы примерно 2 к 1, или существует 31,7% вероятность того, что очередное значение выйдет за пределы доверительного интервала.

Мы сформулировали правило 3 сигм, которое гласит, что вероятность попадания очередного случайного значения в доверительный интервал с заданным значением три сигма составляет 99.7% .

Великим русским математиком Чебышевым была доказана теорема о том, что существует 10% вероятность выхода за границы прогноза с заданным значением три сигма. Т.е. вероятность попадания в доверительный интервал 3 сигма составит минимум 90%, в то время как попытка рассчитать прогноз и его границы «на глазок» чревата куда более существенными ошибками.

Как самостоятельно рассчитать доверительный интервал в Excel?

Расчет доверительного интервала в Excel (т.е. верхней и нижней границы прогноза) рассмотрим на примере. У нас есть временной ряд - продажи по месяцам за 5 лет. См. Вложенный файл.

Для расчета границ прогноза рассчитаем:

  1. Прогноз продаж ().
  2. Сигма - среднеквадратическое отклонение модели прогноза от фактических значений.
  3. Три сигма.
  4. Доверительный интервал.

1. Прогноз продаж.

=(RC[-14](данные во временном ряду) - RC[-1](значение модели) )^2(в квадрате)


3. Просуммируем для каждого месяца значения отклонений из 8 этапа Сумма((Xi-Ximod)^2), т.е. просуммируем январи, феврали... для каждого года.

Для этого воспользуемся формулой =СУММЕСЛИ()

СУММЕСЛИ(массив с номерами периодов внутри цикла (для месяцев от 1 до 12);ссылка на номер периода в цикле; ссылка на массив с квадратами разницы исходных данных и значений периодов)


4. Рассчитаем среднеквадратическое отклонение для каждого периода в цикле от 1 до 12 (10 этапво вложенном файле ).

Для этого из значения рассчитанного на 9 этапе мы извлекаем корень и делим на количество периодов в этом цикле минус 1 = КОРЕНЬ((Сумма(Xi-Ximod)^2/(n-1))

Воспользуемся формулами в Excel =КОРЕНЬ(R8 (ссылка на (Сумма(Xi-Ximod)^2) /(СЧЁТЕСЛИ($O$8:$O$67 (ссылка на массив с номерами цикла) ; O8 (ссылка на конкретный номер цикла, которые считаем в массиве) )-1))

С помощью формулы Excel = СЧЁТЕСЛИ мы считаем количество n


Рассчитав среднеквадратическое отклонение фактических данных от модели прогноза, мы получили значение сигма для каждого месяца - этап 10 во вложенном файле .

3. Рассчитаем 3 сигма.

На 11 этапе задаем количество сигм - в нашем примере «3» (11 этапво вложенном файле ):

Также удобные для практики значения сигма:

1,64 сигма - 10% вероятность выхода за предел (1 шанс из 10);

1,96 сигма - 5% вероятность выхода за пределы (1 шанс из 20);

2,6 сигма - 1% вероятность выхода за пределы (1 шанс из 100).

5) Рассчитываем три сигма , для этого мы значения «сигма» для каждого месяца умножаем на «3».

3.Определяем доверительный интервал.

  1. Верхняя граница прогноза - прогноз продаж с учетом роста и сезонности + (плюс) 3 сигма;
  2. Нижняя граница прогноза - прогноз продаж с учетом роста и сезонности – (минус) 3 сигма;

Для удобства расчета доверительного интервала на длительный период (см. вложенный файл) воспользуемся формулой Excel =Y8+ВПР(W8;$U$8:$V$19;2;0) , где

Y8 - прогноз продаж;

W8 - номер месяца, для которого будем брать значение 3-х сигма;

Т.е. Верхняя граница прогноза = «прогноз продаж» + «3 сигма» (в примере, ВПР(номер месяца; таблица со значениями 3-х сигма; столбец, из которого извлекаем значение сигма равное номеру месяца в соответствующей строке;0)).

Нижняя граница прогноза = «прогноз продаж» минус «3 сигма».

Итак, мы рассчитали доверительный интервал в Excel.

Теперь у нас есть прогноз и диапазон с границами в пределах, которого с заданной вероятностью сигма попадут фактические значения.

В данной статье мы рассмотрели, что такое сигма и правило трёх сигм, как определить доверительный интервал и для чего вы можете использовать данную методику на практике.

Точных вам прогнозов и успехов!

Чем Forecast4AC PRO может вам помочь при расчете доверительного интервала ?:

    Forecast4AC PRO автоматически рассчитает верхнюю или нижнюю границы прогноза для более чем 1000 временных рядов одновременно;

    Возможность анализа границ прогноза в сравнении с прогнозом, трендом и фактическими продажами на графике одним нажатием клавиши;

В программе Forcast4AC PRO есть возможность задать значение сигма от 1 до 3.

Присоединяйтесь к нам!

Скачивайте бесплатные приложения для прогнозирования и бизнес-анализа :


  • Novo Forecast Lite - автоматический расчет прогноза в Excel .
  • 4analytics - ABC-XYZ-анализ и анализ выбросов в Excel.
  • Qlik Sense Desktop и QlikView Personal Edition - BI-системы для анализа и визуализации данных.

Тестируйте возможности платных решений:

  • Novo Forecast PRO - прогнозирование в Excel для больших массивов данных.

Доверительные интервалы (англ. Confidence Intervals ) одним из типов интервальных оценок используемых в статистике, которые рассчитываются для заданного уровня значимости. Они позволяют сделать утверждение, что истинное значение неизвестного статистического параметра генеральной совокупности находится в полученном диапазоне значений с вероятностью, которая задана выбранным уровнем статистической значимости.

Нормальное распределение

Когда известна вариация (σ 2) генеральной совокупности данных, для расчета доверительных пределов (граничных точек доверительного интервала) может быть использована z-оценка. По сравнению с применением t-распределения, использование z-оценки позволит построить не только более узкий доверительный интервал, но и получить более надежные оценки математического ожидания и среднеквадратического (стандартного) отклонения (σ), поскольку Z-оценка основывается на нормальном распределении.

Формула

Для определения граничных точек доверительного интервала, при условии что известно среднеквадратическое отклонение генеральной совокупности данных, используется следующая формула

L = X - Z α/2 σ
√n

Пример

Предположим, что размер выборки насчитывает 25 наблюдений, математическое ожидание выборки равняется 15, а среднеквадратическое отклонение генеральной совокупности составляет 8. Для уровня значимости α=5% Z-оценка равна Z α/2 =1,96. В этом случае нижняя и верхняя граница доверительного интервала составят

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности попадет в диапазон от 11,864 до 18,136.

Методы сужения доверительного интервала

Допустим, что диапазон является слишком широким для целей нашего исследования. Уменьшить диапазон доверительного интервала можно двумя способами.

  1. Снизить уровень статистической значимости α.
  2. Увеличить объем выборки.

Снизив уровень статистической значимости до α=10%, мы получим Z-оценку равную Z α/2 =1,64. В этом случае нижняя и верхняя граница интервала составят

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

А сам доверительный интервал может быть записан в виде

В этом случае, мы можем сделать предположение, что с вероятностью 90% математическое ожидание генеральной совокупности попадет в диапазон .

Если мы хотим не снижать уровень статистической значимости α, то единственной альтернативой остается увеличение объема выборки. Увеличив ее до 144 наблюдений, получим следующие значения доверительных пределов

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Сам доверительный интервал станет иметь следующий вид

Таким образом, сужение доверительного интервала без снижения уровня статистической значимости возможно только лишь за счет увеличения объема выборки. Если увеличение объема выборки не представляется возможным, то сужение доверительного интервала может достигаться исключительно за счет снижения уровня статистической значимости.

Построение доверительного интервала при распределении отличном от нормального

В случае если среднеквадратичное отклонение генеральной совокупности не известно или распределение отлично от нормального, для построения доверительного интервала используется t-распределение. Это методика является более консервативной, что выражается в более широких доверительных интервалах, по сравнению с методикой, базирующейся на Z-оценке.

Формула

Для расчета нижнего и верхнего предела доверительного интервала на основании t-распределения применяются следующие формулы

L = X - t α σ
√n

Распределение Стьюдента или t-распределение зависит только от одного параметра – количества степеней свободы, которое равно количеству индивидуальных значений признака (количество наблюдений в выборке). Значение t-критерия Стьюдента для заданного количества степеней свободы (n) и уровня статистической значимости α можно узнать из справочных таблиц.

Пример

Предположим, что размер выборки составляет 25 индивидуальных значений, математическое ожидание выборки равно 50, а среднеквадратическое отклонение выборки равно 28. Необходимо построить доверительный интервал для уровня статистической значимости α=5%.

В нашем случае количество степеней свободы равно 24 (25-1), следовательно соответствующее табличное значение t-критерия Стьюдента для уровня статистической значимости α=5% составляет 2,064. Следовательно, нижняя и верхняя граница доверительного интервала составят

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

А сам интервал может быть записан в виде

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне .

Использование t-распределения позволяет сузить доверительный интервал либо за счет снижения статистической значимости, либо за счет увеличения размера выборки.

Снизив статистическую значимость с 95% до 90% в условиях нашего примера мы получим соответствующее табличное значение t-критерия Стьюдента 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

В этом случае мы можем утверждать, что с вероятностью 90% математическое ожидание генеральной совокупности окажется в диапазоне .

Если мы не хотим снижать статистическую значимость, то единственной альтернативой будет увеличение объема выборки. Допустим, что он составляет 64 индивидуальных наблюдения, а не 25 как в первоначальном условии примера. Табличное значение t-критерия Стьюдента для 63 степеней свободы (64-1) и уровня статистической значимости α=5% составляет 1,998.

L = 50 - 1,998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Это дает нам возможность утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне .

Выборки большого объема

К выборкам большого объема относятся выборки из генеральной совокупности данных, количество индивидуальных наблюдений в которых превышает 100. Статистические исследования показали, что выборки большего объема имеют тенденцию быть нормально распределенными, даже если распределение генеральной совокупности отличается от нормального. Кроме того, для таких выборок применение z-оценки и t-распределения дают примерно одинаковые результаты при построении доверительных интервалов. Таким образом, для выборок большого объема допускается применение z-оценки для нормального распределения вместо t-распределения.

Подведем итоги