Elements of statistics

Meet YouTube
 

Statistical tables in English 🏴󠁧󠁢󠁥󠁮󠁧󠁿

Standard normal table - Wikipedia

Statistical tables in Polish 🇵🇱

Tablice statystyczne Statystyka Kalkulatory statystyczne

Lecture 19 02 2023

Statystyka to zbiór metod służących:

1. Pozyskiwaniu danych.
2. Prezentacji danych.
3. Analizie danych.
1. Pozyskiwanie danych to proces zwany inaczej badaniem statystycznym, w ramach którego dokonuje się obserwacji statystycznej (pomiar
lub zliczanie).
2. Prezentowanie danych to przedstawianie licznych zbiorów danych w postaci ułatwiającej ich ocenę i analizę.
Wyróżnia się 3 podstawowe formy prezentacji:
1. Tabelaryczną.
2. Graficzną.
3. W postaci zwartych wskaźników liczbowych, które w dalszym ciągu nazywać będziemy miarami.
3. Analiza danych
Podstawowe zadanie statystyki to analiza i interpretacja danych, które prowadzą do uzyskiwania użytecznych i uogólnionych informacji
na temat zjawiska, którego dane dotyczą.
Badanie statystyczne dotyczy zawsze pewnych zbiorowości, których elementami są obiekty materialne lub zjawiska.
Badane zbiorowości w statystyce nazywają się populacjami.
Jeśli zbiór elementów populacji jest skończony to populacje nazywamy skończoną.

Przykłady populacji skończonych:

1. Zbiorowość mieszkańców polski.
2. Zbiorowość budynków mieszkalnych w środzie wielkopolskiej.
3. Zbiorowość indywidualnych gospodarstw rolnych w Wielkopolsce.
Koncepcja populacji nieskończonej jest wynikiem myślenia teoretycznego i dotyczy zjawisk a nie obiektów materialnych.

Przykłady:

1. Zbiorowość kolejnych rzutów monetą.
2. Zbiorowość możliwych wyników pomiaru wytrzymałości materiału itp.
Elementy populacji mogą mieć różne własności czy inaczej właściwości, które podlegają obserwacji statystycznej.
Właściwości te nazywamy cechami statystycznymi.

Przykłady cech statystycznych:

1. płeć.
2. Wiek.
3. Wzrost.
4. Waga.
5. Kolor oczu.
6. Wykształcenie.
7. Liczba posiadanych par butów.
Niektóre z tych cech mają charakter ilościowy np. wiek, waga, wzrost itd.
Nazywamy je cechami mierzalnymi.
Inne mają charakter jakościowy np. płeć i kolor oczu.
Te cechy nazywamy nie mierzalnymi.
Cechy mierzalne dzielimy na skokowe (dyskretne) oraz ciągłe.
Cecha dyskretna albo skokowa to jest cecha, która przyjmuje jedną z wartości naturalnych np. 0, 1, 2 lub 3.
Rozróżnia się dwa rodzaje badań statystycznych pełne i częściowe.
Badanie pełne obejmuje wszystkie elementy populacji.

Przykład badania pełnego:

1. Narodowy spis powszechny.
2. Pobór do wojska.
3. Spisy rolne.
Badanie częściowe obejmuje tylko pewną część populacji.
Podzbiór elementów populacji podlegających badaniu nazywa się próbą.

Przykłady akademickie:

1. W trakcie kontroli drogowej 25 przejeżdżających samochodów osobowych zanotowano dane o liczbie pasażerów (bez kierowcy) i o zarejestrowanej prędkości samochodu w kilometrach na godzinę.
Liczba pasażerów:
{2, 0, 2, 1, 2, 1, 0, 3, 1, 3, 3, 1, 0, 3, 4, 2, 2, 1, 3, 1, 1, 2, 1, 4, 2}
Liczba prędkości:
{64, 77, 51, 70, 69, 50, 72, 47, 93, 52, 60, 56, 63, 59, 58, 82, 60, 63, 65, 67, 61, 71, 66, 62, 68}
Są to 2 cechy mierzalne.
Cecha 1 jest dyskretna.
Cecha 2 jest ciągła.
Przedstawienie danych liczbowych w postaci tabelarycznej to inaczej przedstawienie w
postaci szeregu rozdzielczego.
Wartości cechy ciągłej w danym zbiorze danych należą do przedziału domkniętego .
Przedział dzielimy na podprzedziały o równej długości.
Jeśli m oznacza liczbę badanych jednostek to liczba podprzedziałów nazywanych przedziałami klasowymi powinna być równa n√.
Następnie zliczamy ile jednostek ma wartość cechy należąca do danego przedziału klasowego.
Każda jednostka musi tylko trafić do jednej klasy i pożądane jest by nie występowały klasy z zerową liczebnością.
Ze względu na czytelność szeregu rozdzielczego zaleca się również, aby granice klas i ich długości były liczbami całkowitymi.

Przykład

MinV = 47 a MaxV 93
Przedział = <47, 93>
Długość tego przedziału = 46.

Temat: Miary statystyczne rozkładu wartości badanej cechy.

Miary, które opisują rozkład wartości badanej cechy statystycznej dzielimy na:
1. Położenia rozrzutu (rozproszenia) i asymetrii.
2. Drugą miarą położenia jest mediana. W celu wyliczenia mediany zbiór uzyskanych wartości
porządkujemy rosnąco.
Mediana = (xn+1)/2 gdy n jest nieparzyste.
Mediana będzie równa (1/2)*(xn/2) + (xn/2) + 1 gdy n parzyste.
3. Miarą jest wariancja
Zastosowania średniej z próby i odchylenia standardowego.
Za pomocą tych dwóch wielkości można przekształcić pierwotne dane statystyczne x1, x2, ..., xn.
Można uzyskać dane scentrowane, znormalizowane i standaryzowane.
Dane scentrowane to dane przesunięte do początku układu współrzędnych.
Wariancja danych znormalizowanych wynosi 1.
Dane standaryzowane to dane, które powstały przy użyciu scentralizowania i normalizacji.
Reguła trzech odchyleń standardowych.
Obserwacje leżące poza przedziałem nazywamy obserwacjami odstającymi.
1. Miara położenia wskazuje wokół jakich wartości skupia się rozkład analizowanych zmiennych. Dzieli się je na klasyczne i pozycyjne. Miary klasyczne to średnie: arytmetyczna, harmoniczna i geometryczna. Do miar pozycyjnych należy
dominanta (modalna, wartość najczęstsza) oraz kwantyle.
2. Miara rozrzutu zróżnicowanie zaobserwowanych wartości zmiennej. Jest tym większy, im bardziej te wartości odchylają się od tendencji centralnej. Obok tendencji centralnej rozrzut jest podstawową charakterystyką
próby statystycznej. Najczęściej stosowanymi miarami rozrzutu są wariancja, odchylenie standardowe, rozstęp, odchylenie ćwiartkowe
3. Miara asymetrii mierzy symetryczność rozkładu obserwacji w okuł ich wartości średnich.
Wzór na wariancję:
σ² = ( Σ (x-μ)² ) / N.
A = n/(n - 1)(n - 2) + i =(1, n)
((xi - x średnie)/s)^3
Jeśli A = 0 to rozkład wartości cechy jest w pełni symetryczny.
Jeżeli A > 0 to rozkład wartości cechy jest prawostronnie asymetryczny.
Jeżeli A < 0 to rozkład wartości cechy jest lewostronnie asymetryczny.
W większości przypadków A należy do przedziału <-2, 2>.
Jeżeli dla pewnej cechy A jest z poza tego przedziału to mówimy o ekstremalnie silnej asymetrii.
Dla liczby pasażerów A = 0.25.
Dla prędkości samochodów A = 0.75.
Prędkość samochodu charakteryzuje się umiarkowaną asymetrią prawostronną.
Oznacza to, że kierowcy są skłonni do przekraczania nakazanej prędkości.
Przedział skonstruowany przez Spława-Neyman'a nazywany jest przedziałem ufności .
Liczby A i B zależą od wielkości próby.
Jeżeli szacowany nie znany parametr populacji nazywa się θ to przedział ufności jest najkrótszym przedziałem takim, że prawdopodobieństwo, że to nieznane θ leczy w przedziale = 1 - α dla zadanego α z przedziału otwartego
(0, 1).
Wartość współczynnika 1 - α nazywa się poziomem ufności.
Najczęściej wybiera się α = 0.05 lub α = 0.01.
Parametry populacji będziemy oznaczać literami greckimi i tak średnia w populacji jest oznaczana przez literę μ, a wariancja przez σ².
W próbie te same parametry oznaczane są literami alfabetu łacińskiego np. średnia z próby ̅ a wariancja przez σ².
Te parametry nie są nam znane, ale możemy je wyliczyć za pomocą próby.
Dla średniej z populacji czyli dla μ ten przedział wygląda:
średnia z próby - t * s/n√ i średnie +t 1 - α/2 od n - 1 s/n√.
t z wskaźnikiem 1 - α/2 od (n - 1) kwantyl rzędu 1 - α/2 rozkładu testu z (n - 1) stopniami swobody dla danego α oraz n kwantyl ten jest odczytywany z tablic
Jest to przedział symetryczny jego środkiem jest x średnie, a długość tego przedziału wynosi l = 2 * t1 - α od (n - 1) * s/n√.
Długość tego przedziału zależy od próby.
Na 16 poletkach doświadczalnych zasadzono nową odmianę ziemniaków w celu oceny jej wydajności.
W rezultacie otrzymano następujące charakterystyki plonów z hektara x średnie = 264q s = 15q.
Na poziomie ufności 1 - α = 0,95 wyznaczyć przedział ufności dla nieznanego średniego plonu μ z hektara nowej odmiany ziemniaka.
Dla α = 0.05 1 - α/2 = 0.975 kwantyl wynosi 2.131.
Przedział ufności:
Wartość średnia to 264q - 2.131 * 16q/16√.
Przedział <256q, 272q>
Obierzmy teraz α 0.01 wówczas 1 - α/2 = 0.995.
t0.995 od 15 = 2.947.
Przedział ufności = <252.95, 275.05>.
Wzrosła długość przedziału.
Im próba większa tym przedział krótszy.
(n-1)σ²/χ² 1 - α/2 od (n - 1)s^2/χ² α/2/(n - 1)
σ² - Wariancja z próby.
n - Liczebność próby.
χ² jest kwantylem rzędem 1 - α - 1 jest kwantylem rzędu 1 - α/2 rozkładu χ² z stopniami (n - 1) stopniami swobody.

Przykład:

W celu sprawdzenia dokładności pracy automatu wytwarzającego śruby dokonano pomiaru średnicy 10 losowo wybranych śrub i otrzymano x średnie = 7.1mm
s^2 = 0.053mm na poziomie ufności α = 0.95 zbudować przedział ufności dla nieznanej wariancji σ² i nieznanego odchylenia standardowego σ średnicy wytwarzanych śrub.
n = 10
1 - α/2 od (n - 1)
Dla χ² od 0.975 a n - 1 = 9
Kwantyl = 19.023
χ²α/2 od (n - 1) χ² od 0.025 od 9 2.7004
n - 1 * s^2 = 9 * 0.053/19.023 9 * 0.053/27004
0.0251 17.56
Po spierwiastkowaniu:
<16, 0.42>
Przedział ufności dla σ² i σ nie jest symetryczny.
Średnica wytwarzanych śrub ma za dużą tolerancję.
Badana cecha statystyczna X w populacji przyjmuje tylko dwie wartości 0 oraz 1.
Wartość 0 określona jest jako porażka.
Natomiast wartość 1 jako sukces.
Prawdopodobieństwo zdarzenia, że cecha X przyjmie wartość 1 jest oznaczane przez p.
Stąd prawdopodobieństwo porażki jest oznaczone przez 1 - p.
Parametr p można interpretować jako frakcję elementów populacji przyjmujących wartość 1.
Przedział ufności dla nieznanej frakcji p został skonstruowany w roku 1927 przez Wilsona.
Przedział ufności Wilsona dla nieznanej frakcji p:
<(2nè + z1 0 α/2^2 - z1 - α/2 * z1 - α/2^2 + 4nè*1 - P̃)/2 * n + z1 - α/2^2, 2nP̃ + z1 - α/2^2 + z1 - α/2 * z1 - α/2^2 + 4nè(1 - P̃)/2n + z1 - α/2^2√>
n - Liczebność próby.
s - Liczba sukcesów w próbie.
P̃ = s/n
z1 - α/2 jest kwantylem rzędu 1 - α/2 standaryzowanego rozkładu normalnego (rozkładu n(0, 1))
Przedział ten jest przedziałem symetrycznym o środku (2 * n *P̃ + z^21 - α/2 ^2)/2(n + z1 - α/2^2)

Przykład:

Z linii produkcyjnej w fabryce zabawek losowo zdjęto 500 sztuk i stwierdzono, że 109 sztuk posiada różnego rodzaju defekty.
Zbudować przedział ufności Wilsona dla frakcji p produktów wadliwych na poziomie ufności 1 - α = 0.95.

W przykładzie tym sukces kojarzony jest z wykryciem zabawki wadliwej.

Poziom ufności wynosi 95%.
Wobec tego kwantyl rzędu 1 - α/2 to jest kwantyl standaryzowanego rozkładu normalnego on nie zależy od liczebności próby to jest kwantyl rzędu 0.975 = 1.96.
Jeżeli podniesiemy ten kwantyl do kwadratu to otrzymamy 3.8416.
Wszystkich sztuk zdjętych z taśmy było 500.
Wadliwych było 109.
109/500 to jest punktowa ocena prawdopodobieństwa, że lalka jest wadliwa 0.218.
Nasze prawdopodobieństwo mieści się w przedziale <0.1825, 0.2578>.
Środek tego przedziału = 0.22015.
Przedział ufności dla różnicy dwóch frakcji.
Niech s1 będzie liczbą sukcesów w próbie liczącej m1 oraz s2 będzie liczbą sukcesów w niezależnej próbie liczącej n2 elementów.
Niech p1 oraz p2 będą frakcjami sukcesów w dwóch populacjach z których próby te zostały pobrane i niech d = p1 - p2.
Przedział ufności new Comba dla różnicy dwóch frakcji d = p1 - p2
p1 = s1/n1
p2 = s2/n2
l1u1 Przedział ufności Wilsona to przedział ufności Wilsona dla frakcji p1.
l2u2 Przedział ufności Wilsona to przedział ufności Wilsona dla frakcji p2.
d to różnica p1 - p2.
z1 - α/2 t kwantyl rzędu 1 - α/2 standaryzowanego rozkładem normalnego.

Przykład:

W celu sprawdzenia efektywności testu diagnostycznego wykrywającego pewną chorobę przebadano 30 chorych z których 28 zostało poprawnie zdiagnozowanych przez test.
Test ten zastosowano też do grupy 60 osób zdrowych z których 8 zostało niepoprawnie zdiagnozowanych.
Niech p1 będzie frakcją osób u których test poprawnie wykrył chorobę i niech p2 będzie frakcją osób u których test błędnie wykrył chorobę.
Zbudować przedział ufności new Comba dla d = p1 - p2 na poziomie ufności 1 - α = 0.95.
p1 = 28/30 = 0.9333
p2 = 8.8660 = 0.1333
d = p1 - p2 = 0.8.
1 - α/2 = 0,975 wartość od kwantyla 1.96.
p1 to jest l1u1 i ten przedział = <0.7868, 0.9815>
l2u2 = <0,0691, 0.2417>
<0.6177, 0.8803>

Exercises 25 02 2023

Attachment ↝ statystyka_zadania_2023_02_25

Exercises 12 03 2023

Attachment ↝ statystyka_zadania_2023_03_12