Как найти объем выборки примеры

Формула выборки — простая

Приведенная ниже формула для расчета объема выборки используется в тех случаях, когда опрашиваемым (респондентам) задается только один вопрос, на который существует только два варианта ответа. Например: «Да» и «Нет», «Покупаю» и «Не покупаю», «Пользуюсь» и «Не пользуюсь». Конечно, данную формулу можно применять только при проведении простейших исследований. Если Вам нужно определить объем выборочной совокупности при проведении более масштабных исследований, например анкетирования, то следует использовать другие формулы.

Простая формула для расчета объема выборки

Ниже приведена простая формула для расчета объема выборки для тех случаев когда на заданный вопрос возможны лишь два варианта ответа:

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (доверительного интервала, доверительной вероятности).

Этот показатель характеризует вероятность попадания ответов в специальный доверительный интервал — диапазон, границам которого соответствует определенный процент определенных ответов на некоторый вопрос.

Можно сказать, что уровень доверительности выражает вероятность того, что респонденты генеральной совокупности ответят так же, как и представители анализируемой выборки.

На практике доверительный интервал при проведении маркетинговых исследований часто принимают за 95% или 99%. Тогда значения z будут соответственно 1,96 и 2,58.

Также существует специальная таблица «Значение интеграла вероятностей», используя которую можно найти значение z для различных доверительных интервалов. Сокращенный вариант такой таблицы приведен ниже;

p – вариация для выборки, в долях.

Вариация характеризует величину схожести / несхожести ответов респондентов на вопрос. По сути, p — вероятность того, что респонденты выберут той или иной вариант ответа.

Допустим, если мы считаем, что четверть опрашиваемых выберут ответ «Да», то p будет равно 25%, то есть p = 0,25;

q = 1 — p.

Можно сказать, что q — это вероятность того, что респонденты не выберут анализируемый вариант ответа (в нашем примере ответят «Нет»). Например, если p = 0,25, то q = 1 — 0,25 = 0,75;

e – допустимая ошибка, в долях.

Значение допустимой ошибки заранее определяют исследователь и заказчик маркетингового исследования.

Пример расчета объема выборочной совокупности

Маркетинговая компания получила заказ на проведение социологического исследования с целью выявить долю курящих лиц в населении города. Для этого сотрудники компании будут задавать прохожим один вопрос: «Вы курите?». Возможных вариантов ответа, таким образом, только два: «Да» и «Нет».

Объем выборки в этом случае рассчитывается следующим образом. Уровень доверительности принимается за 95% (одно из стандартных значений для маркетинговых исследований), тогда нормированное отклонение z = 1,96. Проведя предварительный анализ населения города, вариацию принимаем за 50%, то есть условно считаем, что половина респондентов может ответить на вопрос о том, курят ли они — «Да». Тогда p = 0,5. Отсюда находим q = 1 – p = 1 – 0,5 = 0,5. исходя из требуемой заказчиком точности, допустимую ошибку выборки принимаем за 10%, то есть e = 0,1.

Подставляем эти данные в формулу и считаем:

Округлив расчетное значение, получаем объем выборки n = 96 человек.

Следовательно, для проведения исследования с заданными параметрами (уровень доверительности, допустимая ошибка) компании необходимо опросить 96 человек.

Значение нормированного отклонения для различных доверительных интервалов

В таблице приведены некоторые значения нормированного отклонения (z) для важнейших уровней доверительности, или, иначе, доверительной вероятности (α):

α (%) 60 70 80 85 90 95 97 99 99,7
z 0,84 1,03 1,29 1,44 1,65 1,96 2,18 2,58 3,0

Конечно, в таблице приведены значения z только для основных уровней доверительности. Полную версию таблицы можно найти в интернете.

Область применения простой формулы выборки

При проведении простых исследований, когда нужно получить ответ всего на один простой вопрос. При этом шкала ответов, как правило, дихотомического характера. То есть предлагаются (или подразумеваются) варианты ответов по типу «Да» — «Нет», «Черное» — «Белое», «Куплю» — «Не куплю», и т. д. Иными словами возможны лишь два варианта ответа на заданный вопрос.

Особенности формулы расчета размера выборки

Для рассмотренной нами простой формулы определения объема выборки можно выделить несколько характерных особенностей:

  • перед тем, как рассчитывать объем выборки в данном случае желательно предварительно провести качественный анализ изучаемой генеральной совокупности. В частности установить степень схожести, близости изучаемых единиц совокупности в части их социальных, демографических, географических, иных характеристик. Также полезно провести пилотное (разведочное) исследование, чтобы установить приблизительную величину p;
  • нужно иметь в виду, что максимальная изменчивость (вариация ответов) соответствует значению p = 50%, так как тогда q = 50% и p × q = 0,5 × 0,5 = 0,25. Это наихудший случай, все другие значения p дадут изменчивость меньшего размера (например, при p = 80%, p × q = 0,8 × 0,2 = 0,16; а при p = 10%, p × q = 0,1 × 0,9 = 0,09). Впрочем, данный показатель влияет на объем выборки не очень сильно.

Также стоит отметить, что существует ряд иных формул для определения объема выборки в случаях с дихотомической шкалой ответов на единственный вопрос. Для более сложных маркетинговых исследований применяются другие формулы.

  1. Голубков Е. П. Маркетинговые исследования: теория, методология и практика. — М.: Издательство «Финпресс», 1998.

© Копирование любых материалов статьи допустимо только при указании прямой индексируемой ссылки на источник: Галяутдинов Р.Р.

Читайте также:  Dana 35 объем масла

Источник

socioline.ru

Расчет доверительного интервала
(«погрешность», ± % )

Если размер генеральной совокупности более 1 000 000 или сложно оценить точно иначе чем фразой «ну очень много» — можно просто оставить поле пустым.

Пояснения

Доверительная вероятность показывает, с какой вероятностью случайный ответ попадет в доверительный интервал. Для простоты можно понимать её как точность выборки. Как правило, используется 95%, но в условиях малых бюджетов и для небольших выборок, когда высокая точность не нужна, вероятностью можно пожертвовать и понизить её уровень до 90% и даже до 85% (главное не забыть учесть это в процессе анализа и в выводах). И наоборот, чем большую выборку может себе позволить исследователь, тем выше можно установить точность полученных данных.

Доверительный интервал можно понимать как погрешность, задает размах части кривой распределения по обе стороны от выбранной точки, куда могут попадать ответы.

Необходимы пояснения для тех, кто в первый раз сталкивается с понятиями доверительной вероятности и доверительного интервала. Например, выборка в 384 человека для генеральной совокупности более 500 000 человек (например, один из административных округов Москвы) означают доверительную вероятность 95% и доверительный интервал ±5%. То есть при проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного.

Если еще упростить то, опросив 384 человка из полумиллиона и получив искомое значение «Х», можно утверждать, что 95% человек или 475 000 ответов попадут в интервал Х±5%, оставшиеся 25 000 ответов попадут «пальцем в небо», то есть за пределы полученного интервала.

Процент ответов . Применяемая формула предполагает, что на заданный вопрос существует два варианта ответа «да» или «нет», «белый» или «черный» и так далее. Чем более равноценны оба варианта ответов, чем ближе пропорция к 50/50, тем бОльшую выборку надо брать. Поэтому если это соотношение заранее неизвестно (а это как правило так и бывает до начала исследований), то надо ставить 50 %. По умолчанию именно такой вараинт и установлен в формуле калькулятора. Наоборот, проведя исследования и зная процент можно скорректировать доверительный интервал, полученный по факту.

Применяемые Формулы

Формулы расчета размера выборки, применяемые в калькуляторе.

Размер Выборки

где:

Z = Z фактор (например 1,96 для 95% доверительного интервала)
p = процент интересующих респондентов или ответов,
в десятичной форме (0,5 по умолчанию)
c = доверительный интервал, в десятичной форме
(например, 0,04 = ±4%)

Корректировка для малой генеральной совокупности

ss = размер выборки
css = скорректированная выборка
pop = генеральная совокупность

Источник

Как найти объем выборки примеры

О возможности судить о целом по части миру рассказал российский математик П.Л. Чебышев. «Закон больших чисел» простым языком можно сформулировать так: количественные закономерности массовых явлений проявляются только при достаточном числе наблюдений. Чем больше выборка, тем лучше случайные отклонения компенсируют друг друга и проявляется общая тенденция.

А.М. Ляпунов чуть позже сформулировал центральную предельную теорему. Она стала фундаментом для создания формул, которые позволяют рассчитать вероятность ошибки (при оценке среднего по выборке) и размер выборки, необходимый для достижения заданной точности.

Строгие формулировки:

С увеличением числа случайных величин их среднее арифметическое стремится к среднему арифметическому математических ожиданий и перестает быть случайным. Общий смысл закона больших чисел — совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.

Таким образом з.б.ч. гарантирует устойчивость для средних значений некоторых случайных событий при достаточно длинной серии экспериментов.

Распределение случайной величины, которая получена в результате сложения большого числа независимых случайных величин (ни одно из которых не доминирует, не вносит в сумму определяющего вклада и имеет дисперсию значительно меньшею по сравнению с дисперсией суммы) имеет распределение, близкое к нормальному.

Из ц.п.т. следует, что ошибки выборки также подчиняется нормальному распределению.

Репрезентативность — это степень соответствия характеристик выборки характеристикам генеральной совокупности. Только данные по репрезентативным выборкам можно экстраполировать на всю популяцию.

Репрезентативность достигается за счет случайного отбора. Случайный отбор — хорошо. Детерминированный отбор — плохо. Он искажает структуру выборки и как следствие результат измерений. Нельзя судить о среднем росте россиян по росту ста баскетболистов, которые тренируются во дворе вашего дома, просто потому что вам так удобно.

Существует методология, которая позволяет сократить детерминированность при формировании выборки и приблизиться к случайному отбору.

Стратифицированная выборка. Выделяются объективно существующие страты и из каждой страты отбираются единицы пропорционально их доле в генеральной совокупности. Например для опроса россиян страты могут быть определены пропорцией населения в регионах. После чего респонденты внутри каждого региона отбираются случайным образом.

Механический отбор. Все объекты сортируются по порядковым номерам, после чего осуществляется отбор с шагом n. Например, можно отсортировать телефонные номера потенциальных участников исследования и звонить каждому 100-му.

Серийная выборка (гнездовая, кластерная). Объективно существующие группы отбираются случайным образом. Объекты внутри групп обследуются полностью. Например вскрывается один контейнер продукции и каждый товар проверяется на брак.

Метод снежного кома. У каждого респондента запрашиваются контакты его знакомых, которые подходят под условия отбора. Условия случайности отбора грубо нарушается, но это один из способов провести исследование среди труднодостижимых групп. Как быть иначе, если ваша цель — опросить любителей стальных гоночных велосипедов выпущенных не позже 1987 года.

Стихийная выборка (выборка по удобству). Применяется, когда низкая цена получения данных — это главный приоритет. Для повышения качества стихийной выборки на неё накладываются квоты. Заранее рассчитываются пропорции признаков в выборке так, чтобы они соответствовали структуре генеральной совокупности. В социологии такими признаками служат пол, возраст, профессия, семейный статус, регион проживания.

Читайте также:  B38 bmw двигатель объем масла

Источник

Определение объема выборки

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов, времени и легкости создания выборки. [1] Например, если нам необходимо оценить среднюю сумму накладных или долю ошибочных накладных в информационной системе компании, сначала следует выяснить, насколько точной должна быть оценка. Иначе говоря, следует задать ошибку выборочного исследования, допускаемую при оценке каждого из параметров. Кроме того, необходимо заранее определить доверительный уровень оценки истинного параметра генеральной совокупности.

Определение объема выборки для оценки математического ожидания

Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1) (о происхождении этой формулы см. Построение доверительного интервала для математического ожидания генеральной совокупности):

где – среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки

Скачать заметку в формате Word или pdf, примеры в формате Excel2013

В этой формуле величина, добавляемая и вычитаемая из равна половине длины интервала. Она определяет меру неточности оценки, возникающей вследствие ошибки выборочного исследования, которая обозначается символом е и вычисляется по формуле

Решив уравнение (2) относительно n, получим:

Таким образом, для определения объема выборки необходимо знать три параметра:

  1. Требуемый доверительный уровень, который влияет на величину Z, являющуюся критическим значением стандартизованного нормального распределения; [2]
  2. Приемлемую ошибку выборочного исследования е;
  3. Стандартное отклонение σ.

На практике вычислить эти величины непросто. Как определить доверительный уровень и ошибку выборочного исследования? Обычно ответить на этот вопрос могут лишь эксперты в предметной области (т.е. люди, понимающие смысл оцениваемых величин). Как правило, доверительный уровень равен 95% (в этом случае Z = 1,96). [3] Если требуется поднять доверительный уровень, обычно выбирают величину, равную 99%. Если можно ограничиться более низким доверительным уровнем, выбирают 90%. Определяя ошибку выборочного исследования, не стоит думать о ее величине (в принципе, любая ошибка нежелательна). Следует задать такую ошибку, чтобы полученные результаты допускали разумную интерпретацию.

Кроме доверительного уровня и ошибки выборочного исследования, необходимо знать стандартное отклонение генеральной совокупности. К сожалению, этот параметр почти никогда не известен. В некоторых случаях стандартное отклонение генеральной совокупности можно оценить на основе предшествующих исследований. В других ситуациях эксперт может учесть размах выборки и распределение случайной переменной. Например, если генеральная совокупность имеет нормальное распределение, ее размах приближенно равен 6σ (т.е. ±3σ в окрестности математического ожидания). Следовательно, стандартное отклонение приближенно равно одной шестой части диапазона. Если величину σ невозможно оценить таким способом, необходимо выполнить пилотный проект и вычислить стандартное отклонение по результатам.

Пример 1. Вернемся к задаче об аудиторской проверке. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Компания желает построить интервал, содержащий математическое ожидание генеральной совокупности, доверительный уровень которого равен 95%. Как был определен объем выборки? Следует ли его уточнить?

Допустим, что после консультаций с экспертами, работающими в компании, статистики установили допустимую ошибку выборочного исследования равной ±5 долл., а доверительный уровень — 95%. Результаты предшествующих исследований свидетельствуют, что стандартное отклонение генеральной совокупности приближенно равно 25 долл. Таким образом, е = 5, σ = 25 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (3) получаем:

Следовательно, n = 96. Таким образом, объем выборки, равный 100, был выбран удачно и вполне соответствует требованиям, выдвинутым компанией.

Пример 2. Некая промышленная компания на Среднем Западе производит электрические изоляторы. Если во время работы изолятор выходит из строя, происходит короткое замыкание. Чтобы проверить прочность изолятора, компания проводит испытания, в ходе которых определяется максимальная сила, необходимая для разрушения изолятора. Сила измеряется в фунтах нагрузки, приводящей к разрушению изолятора (рис. 1, столбец А). Предположим, что нам необходимо оценить среднюю силу разрушения изолятора с точностью +25 фунтов при 95%-ном доверительном интервале для этой величины. Данные, полученные в предыдущем исследовании, свидетельствуют, что стандартное отклонение равно 100 фунтов. Определите требуемый объем выборки.

Решение. Итак, е = 25, σ =100, доверительный уровень 95% (т.е. Z = 1,96) (рис. 1).

Рис. 1. Определение объема выборки

Таким образом, n = 62 (дробные результаты, как правило, округляют с избытком до ближайшего целого).

Определение объема выборки для оценки доли признака в генеральной совокупности

Выше мы рассмотрели способ определения объема выборки для оценки математического ожидания генеральной совокупности. Предположим теперь, что нам необходимо определить долю накладных, не соответствующих правилам, принятым компанией (начальные условия см. пример 1 выше). Сколько накладных следует извлечь из информационной системы, чтобы построенный интервал имел заданный доверительный уровень? Для ответа на этот вопрос применим тот же подход, что и при определении объема выборки для оценки математического ожидания.

Читайте также:  Горизонтальный индикатор объемов тинькофф

Ошибка выборочного исследования определяется по формуле (2). При оценке доли признака величину σ следует заменить на величину . Таким образом, формула для ошибки выборочного исследования принимает следующий вид:

Выражая n через остальные величины, получаем следующую формулу:

Таким образом, для определения объема выборки необходимо знать три параметра:

  1. Требуемый доверительный уровень, по которому определяется величина Z.
  2. Допустимую ошибку выборочного исследования е.
  3. Истинную долю успехов р.

На практике вычислить эти величины нелегко. Если известен доверительный уровень, можно вычислить критическое значение стандартизованного нормального распределения Z. Ошибка выборочного исследования е определяет точность, с которой оценивается доля успехов в генеральной совокупности. Третий параметр — доля успехов в генеральной совокупности р — это именно тот параметр, который нам необходимо оценить. Итак, как оценить диапазон изменения величины р по его выборочным значениям?

Существуют два способа. Во-первых, во многих ситуациях для оценки величины р можно использовать результаты предыдущих исследований. Во-вторых, если данные о предыдущих исследованиях недоступны, можно попытаться оценить параметр р так, чтобы исключить недооценку объема выборки. Обратите внимание на то, что в формуле (5) величина р(1 – р) стоит в числителе. Следовательно, необходимо найти максимальное значение этой величины. Очевидно, что оно достигается при р = 0,5.

Таким образом, если доля признака в генеральной совокупности р заранее неизвестна, для определения объема выборки следует задать р = 0,5. В этом случае объем выборки будет переоценен, что приведет к дополнительным затратам на ее создание. Если истинная доля успехов в генеральной совокупности сильно отличается от 0,5, доверительный интервал окажется значительно уже, чем требовалось. Оценка параметра р в этом случае будет весьма точной, однако за это придется заплатить дополнительными временными и финансовыми ресурсами.

Вернемся к задаче об аудиторской проверке. Предположим, аудитор желает построить интервал, содержащий долю ошибочных накладных, доверительный уровень которого равен 95%. Допустимая точность равна ±0,07. Результаты предыдущих проверок свидетельствуют, что доля ошибочных накладных не превышает 0,15. Таким образом, е = 0,07, р = 0,15 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (5) получаем:

Таким образом, объем выборки, равный 100, был выбран совершенно правильно и вполне соответствует требованиям, выдвинутым компанией.

Определение объема выборки, извлекаемой из конечной генеральной совокупности

Для определения объема выборки, извлеченной из конечной генеральной совокупности без возвращения, необходимо использовать поправочный коэффициент. Например, при оценке математического ожидания выборочная ошибка вычисляется по следующей формуле:

При оценке доли признака ошибка выборочного исследования равна:

Чтобы вычислить объем выборки для оценки математического ожидания или доли признака, применяются формулы:

где n — объем выборки без учета поправочного коэффициента для конечной генеральной совокупности. Применение поправочного коэффициента приводит к следующей формуле:

[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 471–476

[2] Для определения размера выборки используется величина Z, а не t, поскольку для вычисления критического значения t размер выборки необходимо знать заранее. В большинстве случаев размеры выборки позволяют хорошо аппроксимировать t-распределение стандартизованным нормальным распределением.

[3] Интервал c доверительным уровнем 95% делится на две равные части. Первая часть лежит слева от математического ожидания генеральной совокупности, а вторая — справа. Значение величины Z, соответствующей вероятности 2,5% (площади 0,025), равно –1,96, а значение величины Z, соответствующей суммарной площади 0,975, равно +1,96. Для расчета удобно воспользоваться функцией Excel Z=НОРМ.СТ.ОБР(р), где р – вероятность, подставляя значения р1 = 2,5% и р2 = 97,5%

13 комментариев для “Определение объема выборки”

Предположим, суммарная стоимость всех элементов (счетов-фактур, объектов основных средств, запасов и т. д.) составляет 200 000 тыс. тенге. Суммарное денежное выражение элементов наибольшей стоимости — 4 000 тыс. тенге. Суммарное денежное выражение ключевых элементов — 6 000 тыс. тенге. Уровень существенности — 5 000 тыс. тенге. Аудиторский риск составляет 10%, соответственно, уровень надежности — 90%.
1. Найти объем выборки

По какой формуле определяется объем выборки, если заранее известны генеральная совокупность и распределение оценок&

Света, обратитесь к примерам 1 и 2 настоящей заметки. Откройте Excel-файл, в нем есть формулы. Если останутся вопросы, пришлите в личку исходные данные.

Добрый день!
Перерыла весь интернет, так и не смогла вспомнить, как решить следующую задачу:

Недавно нанятый менеджер Яндекса должен посчитать, какая доля пользователей из России имеет доход больше 40 000 руб. в месяц. Для этого он через специальную форму на странице http://www.yandex.ru может анонимно опрашивать пользователей об их доходе. Специалисты из поиска считают, что такие опросы мешают пользователям и тем самым портят качество сервиса. Какое минимальное количество людей менеджер должен опросить, чтобы посчитать долю с точностью в пределах одного процентного пункта на уровне доверия 95 %? Дисперсию оценки искомой доли следует считать максимальной, а квантиль 0.975 нормального распределения —приблизительно равной двум.

Ну что вы, что вы. неужели так сложно самому цифры подставить, али вы гуманитарий совсем?

Помоги пожалуйста решить: Оценить объем репрезентативной выборочной совокупности с ошибкой не более 10%, если в качестве генеральной совокупности выступает население города от 100 до 120 тысяч человек.

Каким должен быть объем выборки при случайном повторном отборе, чтобы ошибка определения среднего (среднее квадратичное отклонение оценки от истинного среднего) составляла не более 10% от среднего квадратичного отклонения в генеральной совокупности? Помогите, пожалуйста

Источник

Поделиться с друзьями
Объясняем