Statistički model: suština metode, konstrukcije i analize

Statistički model je matematička projekcija koja utjelovljuje skup različitih pretpostavki o stvaranju nekih podataka uzorka. Ovaj pojam se često predstavlja u značajno idealiziranom obliku.

Pretpostavke izražene u statističkom modelu pokazuju skup distribucija vjerovatnoće. Mnogi od njih, kako se podrazumijeva, tačno aproksimiraju distribuciju iz koje je odabran određeni skup informacija. , raspodjela vjerovatnoće karakteristična za statističke modele su ono što razlikuje projekciju od drugih matematičkih modifikacija.

Opšta projekcija

statistički modeli procesa

Matematički model je opis sistema koji koristi određene koncepte i jezik. Korišćeni su u prirodnim naukama (kao što su Fizika, Biologija, nauka o zemlji, hemija) i inženjerskim disciplinama (kao što su računarstvo, elektrotehnika), kao i u društvenim naukama (kao što su Ekonomija, Psihologija, Sociologija, političke nauke).

Model može pomoći u objašnjenju sistema i proučavanju uticaja različitih komponenti, kao i u predviđanju ponašanja.

Matematički modeli mogu imati različite oblike, uključujući dinamičke sisteme, statističke projekcije, diferencijalne jednačine ili teorijske parametre igre. Ovi i drugi tipovi se mogu preklapati, a ovaj model uključuje mnoge apstraktne strukture. Općenito, matematičke projekcije mogu uključivati logičke komponente. U mnogim slučajevima, kvalitet naučnog polja zavisi od toga koliko se dobro matematički modeli razvijeni sa teorijske strane slažu sa rezultatima ponovljenih eksperimenata. Nedostatak dogovora između teorijskih procesa i eksperimentalnih mjerenja često dovodi do važnih dostignuća kao naprednijih teorija.

U fizičkim naukama tradicionalni matematički model sadrži veliki broj sljedećih elemenata:

  • Kontrolne jednačine.
  • Dodatni podmodeli.
  • Definicija jednačina.
  • Konstitutivne jednačine.
  • Pretpostavke i ograničenja.
  • Početni i granični uslovi.
  • Klasična ograničenja i kinematičke jednačine.

Formula

Statistički model se obično definiše matematičkim jednačinama koje kombinuju jednu ili više slučajnih varijabli i, eventualno, druge prirodne varijable. Slično tome, projekcija se smatra "formalnim konceptom koncepta".

Svi testovi statističkih hipoteza i statističke procjene zarađuju se iz matematičkih modela.

Uvod

statistički matematički modeli

Neformalno, statistički model se može smatrati pretpostavkom (ili skupom pretpostavki) sa određenim svojstvom: omogućava vam da izračunate vjerovatnoću bilo kojeg događaja. Kao primjer možemo uzeti u obzir par običnih šesterokutnih kocki. Potrebno je proučiti dvije različite statističke pretpostavke o kocki.

Prva pretpostavka je sljedeća:

Za svaku od kockica vjerovatnoća pada jednog od brojeva(1, 2, 3, 4, 5, i 6) je: 1/6.

Iz ove pretpostavke možemo izračunati vjerovatnoću obje kocke: 1:1/6×1/6=1/36.

Općenito, moguće je izračunati vjerovatnoću bilo kojeg događaja. Međutim, treba shvatiti da je nemoguće izračunati vjerovatnoću bilo kojeg drugog netrivijalnog događaja.

Samo prvo mišljenje prikuplja statistički matematički model: zbog činjenice da je samo uz jednu pretpostavku moguće odrediti vjerovatnoću svake radnje.

U gornjem uzorku sa inicijalnom dozvolom, lako je odrediti mogućnost događaja. Sa nekim drugim primjerima, proračun može biti težak ili čak nerealan (na primjer, može zahtijevati mnogo godina proračuna). Za osobu koja sastavlja model statističke analize, takva složenost se smatra neprihvatljivom: implementacija proračuna ne bi trebala biti zapravo neizvodljiva i teoretski nemoguća.

Formalna definicija

U matematičkom smislu, statistički model sistema se obično smatra parom (S, P), gdje je S skup mogućih zapažanja, odnosno prostor uzorka, A P je skup distribucija vjerovatnoće na S.

Intuicija ove definicije je sljedeća. Pretpostavlja se da postoji" prava " distribucija vjerovatnoće uzrokovana procesom koji generiše određene podatke.

Neprovidan

On je taj koji određuje parametre modela. Parametrizacija obično zahtijeva da različite vrijednosti vode različitim distribucijama,. tj.

posljedica modela

mora se držati(drugim riječima, mora biti injektivna). Parametrizacija koja ispunjava uslov naziva se prepoznatljiva.

Primjer

Grafikon statistike

Pretpostavimo da postoji određeni broj školaraca različitog uzrasta. Rast djeteta bit će stohastički povezan s godinom rođenja: na primjer, kada učenik ima 7 godina, to utječe na vjerovatnoću rasta, samo tako da će osoba biti iznad 3 centimetra.

Ovaj pristup možete formalizirati u model linearne regresije, na primjer, na ovaj način: visina i = b 0 + b 1agei + εi su razvijeni, gdje je b 0 raskrsnica, b 1 je parametar kojim se starost množi prilikom praćenja nadmorske visine. Ovo je termin greške. Odnosno, pretpostavlja se da se rast predviđa po godinama sa određenom greškom.

Važeći obrazac mora ispunjavati sve informativne tačke. Dakle, pravolinijski pravac (nivo i = b 0 + b 1agei) nije u stanju da bude jednačina za model podataka — ako ne ispunjava jasno apsolutno sve tačke. Odnosno, bez izuzetka, sve informacije besprijekorno leže na liniji. Učesnik greškeεmoram se uvesti u jednakost tako da oblik odgovara apsolutno svim tačkama informacija.

Da biste napravili statistički zaključak, prvo morate uzeti neke distribucije vjerovatnoće za ε i. Na primjer, možemo pretpostaviti da su distribucije ε imam Gaussov oblik sa nultom sredinom. U ovom slučaju, model će imati 3 parametra: b 0, b 1 i varijansu Gaussove distribucije.

Možete formalno odrediti model u obliku (S, P).

U ovom primjeru, model je definisan specificiranjem S i stoga je moguće napraviti neke pretpostavke vezane za P. Postoje dvije opcije:

Ovaj rast se može aproksimirati linearnom funkcijom starosti;

Da su greške u aproksimaciji raspoređene kao unutar Gaussa.

Opšte napomene

Statistički parametri modela su posebna klasa matematičke projekcije. Šta razlikuje jednu vrstu od druge? Dakle, da li je statistički model nedeterministički. Dakle, u njemu, za razliku od matematičkih jednačina, određene varijable nemaju određene vrijednosti, već imaju distribuciju mogućnosti. , odnosno, pojedinačne varijable se smatraju stohastičkim. U primjeru datom ranije ε je stohastička varijabla. Bez toga, projekcija bi bila deterministička.

Konstrukcije statističkih modela se često koriste čak i ako se materijalni proces smatra determinističkim. Na primjer, bacanje novčića je u osnovi predodređena akcija. Međutim, u većini slučajeva modeliran je kao stohastički (kroz Bernoullijev proces).

Prema Konishiju i Kitagawi, postoje tri cilja za statistički model:

  • Predviđanja.
  • Informaciono rudarstvo.
  • Opis stohastičkih struktura.

Veličina Projekcije

Pretpostavimo da postoji model statističkog predviđanja,

Model se zove parametarski ako O ima konačnu dimenziju. U rješenju je potrebno to napisati

Razlika u modelu

gdje je k pozitivan cijeli broj (R označava sve realne brojeve). Ovdje se k zove dimenzija modela.

Kao primjer, možemo pretpostaviti da svi podaci proizlaze iz jednodimenzionalne gaussove distribucije:

Formula statistike

U ovom primjeru, dimenzija k je 2.

I kao drugi primjer, možemo pretpostaviti da se podaci sastoje od tačaka (x, y), za koje se pretpostavlja da su raspoređene u pravoj liniji sa Gausovim ostacima (sa nultom srednjom vrijednošću). Tada je dimenzija statističkog ekonomskog modela 3: presjek linije, njen nagib i varijansa raspodjele ostataka. Trebalo bi imajte na umu, da u geometriji prava linija ima dimenziju 1.

Iako je gornja vrijednost formalno jedini parametar koji ima dimenziju k, ponekad se smatra da sadrži K zasebne vrijednosti. Na primjer, s jednodimenzionalnom gaussovom distribucijom, O je jedini parametar s veličinom 2, ali se ponekad smatra da sadrži dva odvojena parametra - srednju vrijednost i standardnu devijaciju.

Statistički model procesa je neparametrijski ako je skup vrijednosti oko beskonačno-dimenzionalan. Takođe je polu-parametarski ako ima i konačne i beskonačne dimenzionalne parametre. Formalno, ako je k dimenzija O, a n broj uzoraka, poluparametrijski i neparametrijski modeli imaju

Formula modela

tada je model polu-parametarski. U suprotnom, projekcija je neparametrijska.

Parametarski modeli su najčešće korišteni statistički podaci. Što se tiče polu-parametarskih i neparametarskih projekcija, izjavio je Sir David Cox:

"U pravilu podrazumijevaju najmanji broj hipoteza o teksturi i obliku distribucije, međutim, uključuju moćne teorije o nezavisnosti ".

Ugniježđeni modeli

Ne brkajte ih sa projekcijama na više nivoa.

Dva statistička modela su ugniježđena ako se prvi može pretvoriti u drugi nametanjem ograničenja parametara prvog. Na primjer, skup svih gaussovih distribucija ima ugniježđeni skup distribucija sa nultom srednjom vrijednošću:

Odnosno, morate ograničiti srednju vrijednost u skupu svih gaussovih distribucija da biste dobili distribucije sa nultom srednjom vrijednošću. Kao drugi primjer, kvadratni model y = b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ2 ima li linearni model ugrađen u njega y = b0 + b1x + ε, ε ~ N (0, σ2)- odnosno parametar b2 is 0.

U oba ova primjera, prvi model ima veću dimenziju od drugog modela. To se dešava često, ali ne uvijek. Kao još jedan primjer, možemo dati skup gaussovih distribucija sa pozitivnom srednjom vrijednošću, koja ima dimenziju 2.

Poređenje modela

statistički model

Pretpostavlja se da postoji" prava " distribucija vjerovatnoće u osnovi posmatranih podataka izazvanih procesom koji ih je generirao.

i modeli se također mogu porediti jedni s drugima, koristeći istraživačku analizu ili potvrdnu. U analizi istraživanja formulisani su različiti modeli i vrši se procjena koliko dobro svaki od njih opisuje podatke. U potvrdnoj analizi, prethodno formulisana hipoteza se poredi sa originalnom. Uobičajeni kriteriji za to uključuju P2, Bayesov faktor i relativna vjerovatnoća.

Konishijeva i Kitagawina misao

"Većina problema statističkog matematičkog modela može se smatrati pitanjima vezanim za predviđanje. Obično se formulišu kao poređenja nekoliko faktora".

Pored toga, Sir David Cox je rekao: "kao prevod iz teme, problem u statističkom modelu najčešće je najviše važan deo analize".