Курсовая работа по дисциплине: «Теория вероятности и математическая статистика»


НазваниеКурсовая работа по дисциплине: «Теория вероятности и математическая статистика»
страница1/6
Овчинцев Е М
Дата26.04.2013
Размер0.59 Mb.
ТипКурсовая
  1   2   3   4   5   6
Московский государственный строительный университет


Институт фундаментального образования

Факультет общенаучных кафедр


Курсовая работа по дисциплине:

«Теория вероятности и математическая статистика»












Выполнил:

Студент ИФО 3-2

Овчинцев Е.М.


Проверила:

Доцент Кирьянова Л.В



Москва 2010



Содержание:


1. Часть 1

1.1 Численность сельского населения в субъектах РФ

1.2 Введение

1.3 Задача

1.4 Решение

1.5 Выборочные характеристики

1.6 Интервальная оценка

1.7 Гипотеза о виде распределения


2. Часть 2

2.1 Задача

2.2 Корреляционный анализ задачи

2.3 Регрессионный анализ задачи

3. Часть 3

3.1 Задача

3.2 Выборочные характеристики

3.3 Интервальная оценка

3.4 Гипотеза о виде распределения

4. Литература



Стр. 3

3

3

4

4

Стр. 8

Стр. 12

Стр. 14


Стр. 16

16

Стр. 17

Стр. 21

Стр. 26

Стр. 26

Стр. 31

Стр. 31

Стр. 32

Стр. 34



Часть №1

Статистические данные, обрабатываемые при выполнении части 1 курсовой работы.

Численность сельского населения в субъектах Российской Федерации.

К началу 2009 численность населения планеты составила 6,6 млрд. человек. Согласно демографическим исследованиям, численность населения продолжает быстро увеличиваться, хотя прирост сократился почти вдвое по сравнению с показателем 1963 года, когда он достиг пикового значения.

Самое крупное в мире государство по численности населения - Китай, после 2025 года, возможно, его догонит Индия , до 1991 года третьим по численности населения был Союз Советских Социалистических Республик, после его распада третьим стали США, которые после 2006 года имели 300 млн чел (более чем страны СНГ), ИндонезияБразилия занимают четвёртое и пятое место по численности населения, РоссияПакистанБангладешНигерия занимают шестое, седьмое, восьмое и девятое место.

Сельское население — население, проживающее в сельских населённых пунктах.

Обычно занимается сельским хозяйством. Имеется во всех субъектах РФ, кроме городов федерального подчинения (до 90-х годов вМоскве официально имелось небольшое количество сельского населения, так как в её состав входило несколько деревень). Населённые пункты и объединения сельских населенных пунктов — места, где есть сельское население. К ним относятся: сельские районы, сельсоветы, сельские поселки, сёладеревнистаницыхуторааулы и т. п. По данным Всероссийской переписи населения 2002 года, в России более 140 тысяч сельских населённых пунктов.

Федеративное устройство России было установлено в январе 1918 года, вскоре после установления республиканской формы правления. Оно сменило собой унитарное государственное устройство Российской империи.

В настоящее время (на 2010 год) согласно статье 5 Конституции 1993 годаРоссийская Федерациясостоит из равноправных субъектов. Во взаимоотношениях с федеральными органами государственной власти все субъекты Российской Федерации между собой равноправны.

С 1 марта 2008 года таких субъектов 83.

Введение.

Математическая статистика – наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования. Задачей математической статистики является построение методов оценки вероятности или принятия решений о характере событий на основе статистических данных. Математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

Задача.

Провести первичную обработку статистических данных по численности постоянного сельского населения на начало года. Сделать выводы.


Решение.

Теоретические сведения.

Объем выборки

- это количество проведенных измерений или наблюдений.

Вариационный ряд

- это упорядоченные по возрастанию числовые значения элементов выборки.

Статистическая совокупность

- это совокупность предметов или явлений, объединенных каким-либо общим признаком.

Генеральная совокупность

- это совокупность объектов или явлений, все элементы которой подлежат изучению при статистическом анализе.

Выборочная совокупность (выборка)

- множество результатов наблюдений, случайно отобранных из генеральной совокупности.

Численность постоянного сельского населения на начало года


(тыс.чел)

 

2002 г.







РОССИЙСКАЯ ФЕДЕРАЦИЯ

38738

Центральный федеральный округ

7633

Белгородская область

526

Брянская область

436

Владимирская область

310

Воронежская область

907

Ивановская область

199

Калужская область

262

Костромская область

241

Курская область

478

Липецкая область

433

Московская область

1370

Орловская область

314

Рязанская область

382

Смоленская область

306

Тамбовская область

504

Тверская область

395

Тульская область

309

Ярославская область

261

Северо-Западный федеральный округ

2473

Республика Карелия

179

Республика Коми

252

Архангельская область

337

в т.ч. Ненецкий автономный округ

15

Вологодская область

393

Калининградская область

214

Ленинградская область

561

Мурманская область

70

Новгородская область

209

Псковская область

258

Южный федеральный округ

9741

Республика Адыгея (Адыгея)

212

Республика Дагестан

1474

Ингушская Республика

269

Кабардино - Балкарская Республика

392

Республика Калмыкия - Хальмг Тангч

163

Карачаево - Черкесская Республика

246

Республика Северная Осетия

245

Чеченская Республика

731

Краснодарский край

2385

Ставропольский край

1204

Астраханская область

325

Волгоградская область

669

Ростовская область

1426

Приволжский федеральный округ

9108

Республика Башкортостан

1478

Республика Марий Эл

268

Республика Мордовия

358

Республика Татарстан (Татарстан)

989

Удмуртская Республика

476

Чувашская Республика - Чаваш республики

517

Кировская область

425

Нижегородская область

769

Оренбургская область

919

Пензенская область

508

Пермский край

698

Самарская область

628

Саратовская область

704

Ульяновская область

371

Уральский федеральный округ

2382

Курганская область

445

Свердловская область

542

Тюменская область

739

в т.ч. Ханты - Мансийский автономный округ

131

Ямало - Ненецкий автономный округ

84

Челябинская область

656

Сибирский федеральный округ

5790

Республика Алтай

149

Республика Бурятия

396

Республика Тыва

149

Республика Хакасия

159

Алтайский край

1221

Красноярский край

720

в т.ч. Таймырский (Долгано - Ненецкий) автономный округ

14

Эвенкийский автономный округ

12

Иркутская область

534

в т.ч. Усть - Ордынский Бурятский автономный округ

135

Кемеровская область

386

Новосибирская область

671

Омская область

651

Томская область

337

Читинская область

417

в т.ч. Агинский Бурятский автономный округ

47

Дальневосточный федеральный округ

1611

Республика Саха (Якутия)

339

Приморский край

449

Хабаровский край

279

Амурская область

309

Камчатская область

68

в т.ч. Корякский автономный округ

19

Магаданская область

14

Сахалинская область

73

Еврейская автономная область

62

Чукотский автономный округ

18



Размах выборки

- это разность где выбранные точки называются экстремальными значениями (только для отсортированных данных).

Интервал варьирования

- называется промежуток между экстремальными значениями.

Составим интервальную таблицу частот. Обычно число интервалов группировки рассчитывают по формуле Стерджеса:



Ширина интервала равна:



Частота

- число, равное количеству элементов, попавших в данный интервал. Сумма всех частот должна равняться объему выборки:



Относительная частота

- это отношение частоты к объему выборки, т.е. .

Относительная накопленная частота

- это отношение количества элементов, оказавшихся меньше какого-то определенного значения, к объему выборки.

Практика:

Для первой части курсовой работы возьмем данные за 2002 год.



Мы не будем использовать формулу Стерджеса, а возьмем . Также для удобства возьмем . Тогда .



1

2

3

4

5

6

Интервал

[0;400)

[400;800)

[800;1200)

[1200;1600)

[1600;2000)

[2000;2400]



200

600

1000

1400

1800

2200

Частоты

50

26

3

6

0

1

Отн. Частота

0.58

0.3

0.035

0.07

0

0.0012

Накоп. Частота

0.58

0.88

0.92

0.99

0.99

1



Для графического представления непрерывных выборочных данных используют гистограмму и полигон.

Полигон частот

- ломаная, концы отрезков имеют координаты .


Гистограмма

- это способ графического представления табличных данных некоторого показателя в виде прямоугольников, площади которых пропорциональны.

При построении гистограммы мы на каждом интервале строим прямоугольник площадью , то есть высота прямоугольника . Таким образом, общая площадь равна единице. С увеличением объема выборки и уменьшением длины интервала гистограмма будет приближаться к кривой плотности распределения, поэтому гистограмму используют в качестве оценки для плотности распределения.

1.bmp

Теоретические сведения.

Выборочные характеристики.

Выборочное (эмпирическое) среднее.



Выборочная медиана

- это значение признака, приходящееся на середину вариационного ряда.



Медиану, как меру средней величины, используют в том случае, если крайние члены вариационного ряда по сравнению с остальными, оказались чрезмерно большими или малыми.

Выборочная мода

- это выборочное значение, которому соответствует наибольшая частота. Моду легко найти графическим путем с помощью гистограммы.

Выборочная (эмпирическая) дисперсия



Выборочное среднеквадратическое отклонение

- это арифметический квадратный корень из выборочной дисперсии .

Эмпирический коэффициент асимметрии



Если , то распределение имеет симметричную форму.

Если , то распределение имеет положительную (правостороннюю) асимметрию.

Если , то распределение имеет отрицательную (левостороннюю) асимметрию.

Эмпирический эксцесс



Если , то полигон вариационного ряда имеет более крутую вершину по сравнению с нормальной кривой.

Если , то полигон вариационного ряда имеет более пологую вершину по сравнению с нормальной кривой.

Практика.

Выборочное среднее: .

Выборочная медиана: .

Выборочная мода: .

Выборочная дисперсия: .

Выборочное среднеквадратическое отклонение: .

Эмпирический коэффициент асимметрии: распределение имеет положительную асимметрию.

Эмпирический эксцесс: полигон имеет более крутую вершину по сравнению с нормальной кривой.


Интервальное оценивание параметров.

Теоретические сведения.

Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью доверия будет заключено значение оцениваемого параметра.

Доверительный интервал

- это статистическая оценка параметра вероятностного распределения, имеющая вид интервала, границами которого служат функции от результатов наблюдений и который с высокой вероятностью «накрывает» неизвестный параметр.

При этом вероятность называют доверительной вероятностью или уровнем надежности.

Величину называют нижней доверительной границей, аналогично – верхняя доверительная граница.

Если установить большое значение уровня надежности, то доверительный интервал будет шире, и увеличится «уверенность» в оценке, и наоборот. Ширина доверительного интервала также зависит от объема выборки и «степени разброса» наблюденных значений.

Различают два вида задания доверительных границ:

1. Симметрично относительно оценки параметра, т.е.



где - величина абсолютной погрешности или предельная ошибка.

Для симметричного относительно точечной оценки интервала величина абсолютной погрешности оценивания равна половине доверительного интервала.

2. Из условия равенства вероятностей выхода за верхнюю и нижнюю границу, т.е.



В общем случае , тогда предельная ошибка выборки равна наибольшему отклонению выборочного значения параметра от его истинного значения.

Интервальная оценка для математического ожидания нормального распределения при известной дисперсии.

Для использования этой оценки на практике требуется, чтобы распределение генеральной случайной величины было нормальным и параметрами , либо, чтобы объем выборки был достаточно велик. Тогда - доверительный интервал имеет вид:



где - квантиль стандартного нормального распределения уровня , - выборочное среднее.

Интервальная оценка для математического ожидания нормального распределения при неизвестной дисперсии.

Если дисперсия неизвестна, то ее заменяют на оценку:



Поэтому симметричный - доверительный интервал будет иметь вид:



где - определяется из условия , случайная величина имеет распределение Стьюдента с степенью свободы.

Отметим так же, что если , распределение Стьюдента близко к нормальному и можно пользоваться таблицами нормального распределения.

Интервальная оценка для среднеквадратического отклонения нормального распределения.

В этом случае эффективной оценкой дисперсии является статистика



Тогда - доверительный не симметричный интервал будет иметь вид:



где - квантиль уровня распределения с степенью свободы, - квантиль уровня распределения с степенью свободы.

Если же математическое ожидание – неизвестно, то количество степеней свободы уменьшается на , и доверительный интервал имеет вид





Практика.

Доверительный интервал для математического ожидания при неизвестной дисперсии. Так как это социологические данные, то





Доверительный интервал для среднеквадратического отклонения при неизвестном математическом ожидании. Так как это социологические данные, то



Гипотеза о виде распределения.

Предположим, что наша выборка имеет нормальное распределение.

Проверка: критерий согласия – критерий (Пирсона).

Теоретические сведения.

Проверка этой гипотезы состоит из следующих пунктов:

1. Весь диапазон значений случайной величины разбиваем на интервалы без общих точек и подсчитываем число наблюдений, попавших в каждый интервал.

2. Предположив справедливость основной гипотезы, подсчитывают вероятность попадания в каждый интервал:

3. Составляем статистику критерия:



4. Задавшись уровнем значимости , строят критическую область, используя предельную теорему: при выполнении основной гипотезы распределение статистики критерия сходится к - распределению с степенью свободы.

5. Если значение статистики критерия меньше критического значения, т.е.



Если же значение статистики критерия больше критического значения.



Практика:

Предположим, что наше распределение показательное.

1) .

2)

3)

4)





5) Составим таблицу, где – это интервал, – частота, – теоретическая вероятность, - теоретическая частота.















[0;400)

0,58355463

50

50,1857

-0,1857

0,034483941

0,00068713

[400;800)

0,24301862

26

20,8996

5,100398

26,01406394

1,24471578

[800;1200)

0,10120398

3

8,703542

-5,70354

32,53039401

3,73760397

[1200;1600)

0,04214593

6

3,62455

2,37545

5,642763504

1,55681775

[1600;2000)

0,01755148

0

1,509427

-1,50943

2,278369811

1,50942698

[2000;2400]

0,007309231

1

0,628594

0,371406

0,137942512

0,21944616

Сумма




86










8,26869777





Наше предположение подтвердилось.


  1   2   3   4   5   6

Добавить документ в свой блог или на сайт

Похожие:

Разместите кнопку на своём сайте:
cat.convdocs.org


База данных защищена авторским правом ©cat.convdocs.org 2012
обратиться к администрации
cat.convdocs.org
Главная страница