Definice základních pojmů
Statistika
je matematická disciplína zabývající se sběrem, prezentací, analýzou a interpretací dat. Daty rozumíme údaje, které slouží k popisu jevů nebo vlastností pozorovaných objektů. Můžeme je získat měřením nebo pozorováním. (Informací se data stávají až v okamžiku, kdy mohou ovlivnit chování příjemce). Statistiku, jako řadu jiných vědních disciplín, můžeme rozdělit na teoretickou (matematická statistika) a aplikovanou.
Matematická statistika
se zabývá výzkumem a popisem nových metod, zatímco
aplikovaná statistika
tyto metody používá v konkrétních situacích v různých oborech lidské činnosti, například v přírodních či společenských vědách, v politice nebo v lékařství. Známé jsou tzv.
průzkumy veřejného mínění
realizované různými agenturami.
Slovo statistika může mít různý význam.
Jednak, jak již bylo uvedeno, označuje vědní disciplínu,
ale používá se také k označení určité vlastnosti
sledované veličiny (např. aritmetický průměr je jedním
z možných vyjádření její střední hodnoty, směrodatná odchylka
vyjadřuje její variabilitu a obě veličiny jsou statistiky) nebo
k označení souhrnu údajů
(např. zdravotnická statistika je souhrn údajů popisujících
zdravotní stav obyvatelstva). Samo jméno statistika vzniklo
k označení metod popisujících a shrnujících údaje potřebné k
řízení státu.
Jedna část statistiky se nazývá
popisná statistika nebo deskriptivní statistika.
Zabývá se sběrem údajů, jejich zpracováním a vyhodnocováním.
Statistiku lze členit takto:
-
Statistiku deskriptivní, zabývající se numerickým nebo grafickým popisem získaných dat
-
Statistiku inferenční neboli induktivní, která se používá k vyhledávání zákonitostí v datech naměřených na vzorku jedinců nebo objektů a zobecňováním těchto zákonitostí na skupinu, z níž byl vzorek vybrán. Inferenční statistika vychází z počtu pravděpodobnosti.
Základní statistické pojmy
Zde budeme definovat tyto nové pojmy:
-
základní soubor,
-
statistický znak,
-
statistická jednotka.
Základní soubor
je určitá věcně, prostorově a časově vymezená množina všech zkoumaných prvků,
u kterých zjišťujeme hodnoty jisté sledované veličiny.
Sledovaná veličina se pak nazývá
statistický znak.
Prvky základního souboru se nazývají
statistické jednotky.
Jsou nositeli vlastností daného souboru.
Poznamenejme, že statistické znaky lze ještě dělit na
-
kvantitativní,
-
kvalitativní.
Nyní zavedeme následující označení:
-
\(X\) - veličina představující statistický znak
-
\(x_i\) - konkrétní hodnoty, kterých může statistický znak nabývat
-
\(N\) - počet prvků tvořících základní soubor
-
\(n_i\) - počet prvků základního souboru, majících statistický znak \(x_i\in X\).
Nyní platí tyto vztahy:
\[0\le n_i\le N\ \textrm{ a }\ \sum_i n_i=N.\]
Pokud pro každé \(i\) utvoříme podíl \(p_i=\frac{n_i}{N}\), potom se ukáže, že platí:
\[0\le p_i\le 1\ \textrm{ a }\ \sum_i p_i=1.\]
Tímto jsme přiřadili hodnotám statistického znaku čísla \(p_i\), která mají charakter pravděpodobnosti.
Veličinu \(X\) pak můžeme považovat za tzv. náhodnou veličinu, jejíž rozdělení pravděpodobností je definováno vztahem:
\[p(x_i)=p_i\]
Říkáme, že základní
soubor je reprezentovaný
náhodnou veličinou \(X\) s příslušným rozdělením pravděpodobností. Rozdělení pravděpodobností náhodné veličiny \(X\) nazýváme
rozdělením pravděpodobností příslušného základního souboru.
Na základní soubor se pak díváme jako na náhodnou veličinu s příslušným rozdělením pravděpodobností.
Náhodný výběr
Náhodným výběrem o rozsahu \(n\),
utvořeným ze základního souboru, reprezentovaného náhodnou veličinou \(X\), budeme rozumět \(n-\)tici nezávislých náhodných veličin \((X_1,X_2,\ldots,X_n)\), majících stejné rozdělení pravděpodobností jako náhodná veličina \(X\).
Poznámka: rozlišujme dále mezi pojmy náhodný výběr a pojmem
realizace náhodného výběru,
což je n-tice konkrétních naměřených hodnot statistického znaku.
Formy zápisu náhodného výběru
Uveďme zde dva příklady třídění a zápisu náhodného výběru:
-
Seskupování údajů do tříd
-
Seskupení statistického znaku do intervalů
1. Seskupování údajů do tříd:
Proveďme statistický experiment v němž jsme vybrali náhodně 30 maturujících v předmětu matematika. Sledovanou náhodnou veličinou byla známka z tohoto předmětu. Známky jsou zapsány v seznamu:
\[
(2,2,3,3,3,1,2,4,1,2,2,5,3,4,4,3,3,3,5,3,2,2,1,1,4,2,4,3,4,4)
\]
Tyto hodnoty lze seskupit do tříd podle četnosti výskytu a zapsat do tabulky:
\(x_i\) |
1 |
2 |
3 |
4 |
5 |
\(n_i\) |
4 |
8 |
9 |
7 |
2 |
Hodnoty náhodné proměnné jsme seřadili vzestupně a \(n_i\) vyjadřuje
třídní četnost znaku \(x_i\).
Platí samozřejmě rovnost: \(\sum_i n_i=N=30.\) Číslo \(N\) je rozsah zkoumaného souboru.
2. Seskupení hodnot statistického znaku do intervalů, které představují třídy
Za tím účelem uvažujme opět soubor 30 studentů a tentokrát sledujme průměr v matematice na pololetním vysvědčení ze 4. ročníku:
\(x_i-x_{i+1}\) |
\(\langle 1,1.5)\) |
\(\langle 1.5,2)\) |
\(\langle 2,2.5)\) |
\(\langle 2.5,3)\) |
\(\langle 3,3.5)\) |
\(\langle 3.5,4)\) |
\(\langle 4,4.5)\) |
\(\langle 4.5,5)\) |
\(n_i\) |
6 |
6 |
7 |
6 |
3 |
1 |
1 |
0 |
Na určení počtu intervalů existuje řada metod. Jedno z pravidel je
Sturgesovo pravidlo.
Počet intervalů se spočítá dosazením do výrazu: \(1+3.3\log(n)\).