Edellinen | Seuraava |
Todennäköisyyslaskennan kurssin aihepiiristä täytyy koota vielä yksi juttu, nimittäin erilaisista todennäköisyysjakaumista. Jakaumien tehtävät ovat yleensä pitkälle käsiteltyä ja valmisteltua asiaa, joten tavallaan ne ovat helpompia tai ainakin kaavamaisempia ja sikäli selkeämpiä. Aion ottaa mukaan myös jatkuvat jakaumat, mutta aloittelen kirjoitella tätä tekstiä jo kurssin diskreettien jakaumien läpikäynnin aikaan. Tästä ei tokikaan ole tarkoitus muodostaa täydellistä jakaumien esittelyä, ainoastaan kevyt pintasukellus aiheeseen. Tosin juttu on viikkojen kuluessa paisunut aiottua laajemmaksi ja paikkailua on tehty jonkin verran. Toivottavasti lopputulos kuitenkin on suhteellisen koherentti, ristiriidaton ja johdonmukainen.
Yritän nyt Joulun aikaan vihdoin saada tämän työmaan pois käsistäni. Myönnän silti auliisti nöyränä poikana että puutteita, erheitä ja epätarkkuuksia voi tähän tekstiin edelleen jäädä. Eikä nykyisin voi vierittää syytä edes painovirhepaholaisen kapoisille harteille kun painomustetta ei käytetä. Täydellisyyden korkea ihanne osoittautuu lähemmässä tarkastelussa olevan pelkkä petollinen kangastus ja kavala harhakuva, joka silkkaa ilkeyttään kusee erämaassa nelinkontin eteenpäin ryömivää janoon nääntyvää totuuden etsijää suoraan silmään.
Todennäköisyyslaskentaa en ole sinänsä pitänyt erittäin keskeisenä tekniikan miehelle. Jotakin siitä on silti hyvä tietää. Tosin voihan olla että joudun vielä myöhemmin hienosäätämään tätä ennakkoasennettani ja mielipidettäni muuttuneiden realiteettien mukaiseksi. Tekniikkaan liittyviä sovelluksia pukkaa. Ja kun se kerran nyt on ammattikorkeakoulun 4-osaisen uudistuneen matematiikka-moduulin kolmas osa, niin onhan sitä pakko käsitellä. Matematiikka-moduulin varsinainen idea ja rooli on tarjota tavan inssille väylä yliopisto-opintoihin, diplomi-insinöörin tutkintoon (ainakin toivottavasti) johtavalle opintielle. Diplomi-insinööreiltä - tai ainakin heidän parhaimmistoltaan - lie lupa edellyttää kohtalaisen korkeaa matemaattista sivistystä. Varsinaisesta matematiikasta puhtaana tieteenä tai yliopiston pääaineena ei silti tässäkään ole kyse, vaan tavoitteet ovat käytännöllisiä.
Statistiikka eli tilastomatematiikka ei SAMK:issa sisälly meidän moduuliimme, vaikka Walpolen netistä löytyvä ilmainen kirja (Probability and Statistics for Engineers and Scientists) sitäkin käsitellee ja kurssin johtopaikkaa pitävän TTY:n Porin laitoksen kannalta tämä kurssi on valmistautumista juurikin tilastomatikkaan.
En usko enää myöhemmin juurikaan olevani tekemisissä todennäköisyyslaskennan kanssa, joten tämä jäänee toistaiseksi viimeiseksi uroteokseni tällä saralla.
Kiinnostus tähän matematiikka-moduulin kolmanteen osaan ei vaikuta kovinkaan suurelta SAMK:issa. Näin karua kieltä kertoo SoleOPS. Matematiikka 1 eli lineaaarialgebran eka kurssi keräsi syyslukukaudella 2016-2017 kaikkiaan peräti 46 ilmoittautumista SAMK:issa yhteensä Porissa (vanhalla Vähärauman kampuksella) ja Raumalla. Matematiikka 2 eli lineaarialgebran toka kurssi sai sekin kevätlukukaudella 2016-2017 yhteensä 31 ilmoittautumista Porissa ja Raumalla, joista 29 on vahvistettu. Uusi matematiikka 3 eli todennäköisyyslaskenta on saanut syksyllä 2017 saaliikseen Porissa vain 9 ilmoittautumista (uudella Asemanaukion kampuksella) ja Raumalla vaivaiset 6 sielua. Kolmoskurssille on Porille ja Raumalle erilliset opintojaksoselosteet (vaikkakin ne molemmat on virallisesti nakitettu Raumalle jossa sijaitsee SAMK:in matematiikan eräänlainen pääkallonpaikka), yhteensä 15 todennäköisyyslaskennan kurssille ilmoittautunutta, tosin yksi oli vahvistamatta vaikka hän on ilmoittautunut määräaikaan mennessä.
Puuvillassa eli Tampereen Teknillisen Yliopiston (TTY) Porin laitoksella mielenkiinto epäilemättä on laajempaa. Todennäköisyyslaskennan Moodle-ryhmässä oli kaikkiaan 84 osallistujaa, mutta en tiedä monenko kurssin ihmiset siinä on mukana ja moniko oikeasti osallistuu laskuharjoituksiin ja moniko saa hyväksytyn arvosanan eli suorittaa kurssin hyväksytysti.
Ensi vuoden 2018 kevätlukukaudelle sijoittuvalle matematiikka-moduulin neljännelle kurssille (diffis) on Joulun aikaan olemassa vain 1 opintojaksoseloste ja vain 2 kurssille ilmoittautunutta, raumalainen naishenkilö ja porilainen mieshenkilö joiden paikkakunta paljastuu ryhmän tunnuksesta. Saapa nähdä jatkuuko kahden erillisen opintojaksoselosteen linja vai onko se yhteinen Porille ja Raumalle, kuten aiemmin. En uskalla vielä ilmoittautua ettei turhaan joudu samaan ryhmään raumalaisten kanssa. Oletettavasti Matte 4 eli diffiksen kurssi tulee kuitenkin olemaan melkoisen suosittu, vaikka aiempien Matte kurssien ilmoittautumisten määrän trendi 46 ... 31/29 ... 15 viittaisi ehkä vain muutamaan ilmoittautumiseen neloskurssille yhteensä SAMK:issa. Veikkaan optimistisesti että ilmoittautuneita tulee ainakin 30, varsinkin jos kurssista vaivaudutaan ilmoittamaan kuten on normaalisti ollut tapana. Stydi diffis se takuuvarmasti soittelee vannoutuneen tekniikan miehen (ja naisenkin) sielun kanteleen kaikki sävelalat läpi upeasti resonoiden. Ennen diffis oli matematiikka-moduulin 3. kurssi, mutta todennäköisyyslaskenta kiilasi väliin.
Matte 4 -kurssin tietojen päivitys 05.01.2018: Matematiikka-moduulin tilanne elää. Porilaisia opiskelijoita alkoi kertyä neloskurssin Rauman toteutukseen huolestuttavassa määrin, joten täytyi varmistaa tilanne.
Olen antanut itselleni kertoa että Matematiikka 4 on HILL-toteutus Raumalta käsin, eikä erillistä porilaista toteutusta tule. Kurssia käydään siis netin välityksellä tietokoneavusteisesti. Tosiaikainen videokuva ja ääni kulkevat netin piuhoja pitkin ja suoritettuja kotitehtäviä ehkä palautetaan opettajalle sähköpostissa (tai Moodle-ryhmään?) Periaatteessa yhteys voi olla kaksisuuntainen, mutta eri opettajat käyttävät sitä Webex-systeemiä eri tyyleillä. Toki myös opiskelijoiden käyttötavat poikkeavat, kaikilla ei ole kameraa käytössä, laite saattaa olla älypuhelin, kaikilla ei ole mikrofoni käytössä. Hill-sessioiden nauhoitteitakin on voinut tutkiskella jälkikäteen. Tenttiä ei tokikaan voi suorittaa verkossa, mutta (väli)kokeita mahdollisesti järjestetään Porissakin, jolloin Raumalla ei ehkä tarvitse fyysisesti vierailla. Matematiikka-moduulin paljon mainostettu yhteistyö "Puuvillan" eli TTY:n kanssa vaikuttaa valitettavasti täten päättyneen.
Niinpä sitten ilmoittauduin tähän Rauman toteutukseen kun muutakaan ei ole tulossa. Sääli että matematiikan arvostus SAMK:issa on näin vähäistä, mutta tähän on nyt tyytyminen. Tämähän ei ole hetikään ensimmäinen epäkohta SAMK:issa. Vektorianalyysin ja Maxwell:in yhtälöiden saloja tämä toteutus ei hätyyttele. Kyse on yhden muuttujan laskennasta eli peruskaurasta. Tosin peruskauraankin saa lisää potkua ja uusia valaisevia näkökohtia.
Matte 4 -kurssin tietojen päivitys 16.01.2018: Kurssi on jo päässyt onnellisesti alkamaan Hill-toteutuksena Raumalta käsin. Tavoite on varmistaa opiskelijoille se tietotaitotaso jota korkeakoulussa lähtötasona edellytetään. Osallistujia Raumalta ja Porista kurssille oli ilmoittautunut yhteensä 11 kpl. Ei siis sen suurempaa tunkua.
Näistä matematiikka-moduulin kursseista kun ei enää ilmoiteta sähköpostiin, kuten ennen oli tapana ja kuten aiheellista olisi jos halutaan että uudet opiskelijat aloittaisivat 4-osaisen moduulin suorittamisen. Tietoyhteiskunnan perusidea onnahtelee, sillä tieto ei kulje. Voisi myös spekuloida että ehkäpä koulun vaitonaisuus on tahallista ja johtuu siitä että moduuliin ei todellakaan enää haluta uusia aloittajia?
Ollaankohan Satakunnan ammattikorkeakoulun matematiikka-moduulia ajamassa vaivihkaa alas? Moduulin jatko vaikuttaa joka tapauksessa tässä vaiheessa epävarmalta. Sääli, sillä matematiikka-moduuli on ehdottomasti ollut SAMK:in kurssitarjonnan arvokkaimpia osia. Vaikka eipä tuo olisi eka kerta kun helmet viskataan sikojen laariin ja lapset dumpataan pesuveden mukana viemäriin.
Mutta palataanpa todennäköisyyslaskentaan ja kurssiin Matte 3. Arvaankin nyt SoleOPSia tarkkaan tutkittuani miksi samalle kurssille tarvittiin 2 erillistä opintojaksoselostetta. Aikataulut ovat erilaiset Porissa ja Raumalla. Opintojaksoselosteesta on linkki TimeEdit-lukujärjestykseen ja Raumalla laskuharjoitukset ovat eri viikonpäivänä ja eri kellonaikaan kuin Porissa. Raumalla kurssi on ollut tiistaisin, Porissa torstai-iltaisin. Tietysti myös luokkahuoneiden tunnukset ovat erilaisia. TimeEdit-lukujärjestykseen kirjataan toki myös luokka jota laskuharjoituksissa käytetään. Toteutukset erottaa siitä että raumalaisessa on kirjain R (esimerkiksi -/117RA) ja porilaisessa kirjain P (esimerkiksi -/117PA).
Itse asiassa todennäköisyyslaskennan kurssin alussa oli aistittavissa pientä skismaa TTY:n Porin laitoksen ja SAMK:in välillä. Matematiikka-moduulin vanhat yhteydet eivät tuntuneet pelittävän totuttuun tapaan. Ennen matematiikka-moduulin kursseista on tiedotettu näyttävästi, mutta nyt tiedot joutui itse kaivamaan hohtimilla esiin. Toivottavasti oppilaitosten väliset henkilökemiat kuitenkin palautuvat normaaleiksi diffiksen alkuun mennessä. Sotakirveet on haudattava takaisin maahan. Se olisi opiskelijoiden etu. Tietoyhteiskunnassa tiedon tulisi kulkea jouhevasti ja nähdäkseni oppilaitosten tehtävä on palvella opiskelua ja opiskelijoita.
Matte-kursseilla olisi edullista jos pystyisi ottamaan paperitulosteita luentokalvoista. Papereita voi Matte-kursseilla kertyä melkoinen määrä. Todennäköisyyslaskennassa on peräti kaksi sarjaa opetusvideoita joiden sisältö olisi kiva saada paperille, Tantun on-line videot vuodelta 2016 ja Cameronin off-line videot vuodelta 2015. Tosin niistä uudemmista on-line videoista (Echo) koko luennon sisältö ei ole tiedostossa, vaan tarkoitus on tehdä niihin "nuotteihin" myös omia muistiinpanoja. En ole on-line videoiden suuri ystävä koska niitä ei voi tallentaa omalle koneelle ja katsella myöhemmin. Sitäpaitsi Tekunkorven 2mbit/s talolaajakaistaa käyttäen oli ongelmia Echo-videoiden kanssa. Vasta erinäisiä kertoja nopeamman mobiililaajakaistan kanssa karmeasti kaistaa vaativa on-line video pelittää.
Paperitulosteita olisi ehkä saatavissa uudelta kampukselta jollakin tavalla, mutta en ole niin nöyrä ihminen ettäkö olisin lähtenyt niitä papereita erikseen kerjäämään ja anelemaan joltakin BYOD-byrokraatilta. En ole niin nöyrä niskoistani. Enkä pidä byrokraateista muutenkaan. Voihan noita muistiinpanoja itsekin kirjoitella videoiden ja luentokalvojen pohjalta. BYOD eli Bring Your Own Device on pelkkää kusetusta joka tekee koulun WLANin käytön ja paperitulostuksen hankalaksi. Painukoot Helvettiin koko BYOD.
Opintojaksoselosteen perusteella matematiikka-moduulia ei virallisesti voisi legitiimisti aloittaa tällä todennäköisyyslaskennan kurssilla, joka on minusta hiukan epäreilua, koska matematiikka-moduulia ei voi myöskään aloittaa sen toisella kurssilla. Myönnän oitis että toinen kurssi on huono kohta aloittaa, koska se on suoraa jatkoa ensimmäiselle lineaarialgebran kurssille ja vaatii lineaarialgebran perustietoja, mutta mielestäni todennäköisyyslaskennan kurssissa ei vaadita niin ihmeellisiä MatLab-ohjelman käyttötaitoja etteikö myös kolmas kurssi sen puolesta voisi olla sopiva aloituskohta. Koko moduulin suorittaminen sentään kestää 4 lukukautta eli 2 lukuvuotta vähintäänkin, joten sopiville aloituskohdille varmaankin on tarvetta muulloinkin kuin joka toinen vuosi.
Matikan peruskurssithan on joka tapauksessa oltava suoritettu jo aiemmin, joten ihan ensi töikseen upo-uusi innokas AMK-opiskelija ei voi matematiikka-moduulin kurssille ilmoittautua. Kyllä hänen integraaleista täytyy jotakin tietää siinä vaiheessa kun tulee todennäköisyyslaskennan kurssille. Lukion suorittaneille asia voi jo olla osin tuttua muutenkin, mutta lukion tai ylioppilastutkinnon perusteella ei tietääkseni tässä saa mitään helpotuksia vaan ne AMK:n peruskurssit on suoritettava. Jotkut todennäköisyyslaskennan todistusten ja johtojen integroinnit ovat melko vaativia, mutta niitä ei välttämättä tarvitse osata hyvin. Muistaakseni harjoituksissa ei ole ainakaan mitään vaikeita todistustehtäviä. Symbolista laskinta saa käyttää apuna laskuharjoituksissa.
Kokeita todennäköisyyslaskennassa ei ole ollut, mutta Tanttu halusi kylläkin pitää myös sellaista uhkakuvaa eräänä optiona jos tähtitehtävien ratkaisuja selvästikin luvatta kopioidaan opiskelijalta toiselle. Tähtitehtävien vastausten kuuluu olla puhtaita yksilösuorituksia - ei ryhmätöitä - jotka paljastavat opiskelijan mahdolliset perustason ylittävät henkilökohtaiset taidot. Tarkempi arvosana määräytyy tähtitehtävien perusteella, joten niiden kanssa ei saisi harjoittaa filunkia. Kokeet tulee jos vilppiä havaitaan! Pelkkä lopputulos vastauksena ei tokikaan riitä, vaan vastauksesta on käytävä ilmi myös perusteet ja käytetty ratkaisumenetelmä. Jos useamman opiskelijan vastauspaperi (Tanttu kuulemma ei lue ruudulta vaan tulostaa paperille ja joka paperin yläreunassa on oltava opiskelijan tiedot, siltä varalta että paperit menevät sekaisin) vaikuttaa olevan matikka-sisällöltään täsmälleen sama, niin tähtitehtävien yksilöllisen suorituksen toteutumista voinee epäillä perustelluin syin.
On merkittävä ylös myös SAMK:in virallisen raumalaisen matematiikka-gurun näkökanta jonka mukaan menestyminen matematiikka-moduulissa on vaikeaa jos arvosana AMK:n matikan peruskursseista jäi kolmosen alapuolelle (vai olisko ollut - en muista varmasti - että korkeintaan kolmoseen?). Kaiketi hänellä aktiivisena alan toimijana on mielipiteelleen jonkinlainen vankka empiirinen eli kokemusperäinen pohja. Tämän perusteella voisi arvella että parhaiten AMK-opiskelija voi matematiikka-moduulissa menestyä jos arvosanat matematiikan peruskursseista - insinöörimatematiikan perusteita, algebra, geometria, differentiaali- ja integraalilaskennan perusteet ja mitä näitä olikaan - ovat nelosia eli nelkkuja tai viitosia eli viduraisia. Differentiaaliyhtälöistä ei sentään tarvitse tietää mitään ennen matte-moduulia.
Tjaah, mitä me tästä ajatella? Kukaan ei tietenkään kiellä ilmoittautumasta Matte-moduulin kurssille vaikka aiemmat arvosanat olisivatkin heikkoja. En ole mikään sen suurempi pedagogi enkä opetusalan auktoriteetti, mutta ehkä voisi diplomaattisuuteen pyrkien ilmaista niin että matematiikka-moduuli ei ehkä ole ihan kaikkein paras idea jos sentään aika helpoilla matematiikan peruskursseilla oikeasti yritti parhaansa ja ne silti menivät aivan penkin alle, tuloksena hyväksytyn rimaa hipova arvosana. Matematiikka-moduulin vaatimustaso on kuitenkin kertaluokkaa korkeampi kuin mihin AMK:ssa on totuttauduttu, joten on vaikea uskoa että moduulin pystyisi kunnialla suorittamaan jos peruskurssit eivät motivoineet tai kokeissa ei syntynyt tulosta. Onhan tässä maailmassa herrajjumala sentään muitakin mahdollisuuksia kuin matematiikka.
MatLab on sinänsä monipuolinen ohjelma, mutta peruskäytössä se ei ole niin ihmeellinen värkki etteikö sitä normaali ihminen muka oppisi. Kaikkia ohjelman ihmeellisyyksiä ei tarvitse hallita kattavasti pystyäkseen ratkomaan todennäköisyyslaskennan perustehtäviä. Suurin työmaa on joka tapauksessa tehtävien oikeassa hahmottamisessa ja aiheen omaksumisessa. Ratkaisun koodaaminen on tämän jälkeen pikkujuttu. Sikäli en ymmärrä miksi SAMK:in todennäköisyyslaskennassa muka pitäisi tuntea MATLAB jo entuudestaan.
Väitän että paremmilla laskimilla pystyy ratkomaan ainakin tämän todennäköisyyslaskennan kurssin perustehtävät siinä kuin henkilökohtaisessa tietokoneessa pyörivällä tyrnevällä MatLab-ohjelmallakin. Meillä ei SAMK:issa ole MatLab:ia opiskelijoiden omassa käytössä, vaan ainoastaan tietokoneluokassa, joten parempien arvosanojen saaminen todennäköisyyslaskennan kurssista voi sikäli olla hankalaa. Uudet hintavammat laskimet pystyvät kuitenkin sentään aika temppuihin ja aion sen tässä jutussa osoittaa. Toki silti kannustan tutustumaan MATLAB-mahdollisuuksiin jos siihen suinkin pystyy, sillä tilastomatematiikassa ilman sitä ei ehkä pärjää.
Tosin täytyy myöntää että peruskaavojen avulla laskimella ratkaisu voi joutua suuriin vaikeuksiin jos kaavaan sisältyy vaikkapa iso kertoma joka ylittää laskimen lukualueen. Esimerkiksi ei-kovinkaan-isolta vaikuttavan luvun 70 kertoma eli 70! ( = 70·69·68· ... ·3·2·1 = 1,198·10100 suunnilleen, sellainen satanumeroinen kokonaisluku) ylittänee jo tavallisen laskimen lukualueen, jolloin laskenta katkeaa virheeseen.
Walpolen kirjaa olen oikeastaan lukenut aika vähän. Opetusvideoita kurssilla on käytettävissä peräti kaksi eri sarjaa ja ne ovat hyödyllisiä. Oman työ osuus on aika merkittävä tekijä. Ohjatut laskuharjoitukset ovat hyödyksi vaikka olisikin ratkonut tehtäviä jo kotona (kuten kannattaa tehdä koska aika ei ehkä muuten riitä), sillä opettaja voi nostaa esiin tehtäviin liittyviä merkittäviä näkökohtia, jolloin opiskelija voi oppia lisää.
Juu, uutisissa on kannettu huolta erikoisesti murkku-poikien koulumenestyksestä matemaattisissa aineissa. On kai sopivaa sitäkin aihetta tässä yhteydessä sivuta, tässä jo piankin maailmoja syleilevässä artikkelissa. Tunnen lukion matematiikan sisällön, vaikka en tunne nykyaikaista peruskoulua sen paremmin kuin lukiotakaan. Itse asiassa en ole koskaan käynyt peruskoulua, vaan siirryin kansakoulun 4:nnen luokan jälkeen 5-luokkaiseen keskikouluun ja sieltä 2-vuotiseen ammattikouluun. Kieltämättä lukion ja ylioppilastutkinnon puute jäi aikoinaan hiukan kirvelemään sielussa, mutta olen kylläkin sittemmin omaksunut sen näkökannan että lukio ei mitään ratkaise. Ruotsissa lukiosta voi valmistua insinöörejä (ja Upsalasta jopa ekonomeja), mutta tietääkseni Suomessa lukiosta ei kukaan valmistu mihinkään ammattiin.
Matematiikkaa voi oppia vaikka ei ole lukiota käynytkään. Varsinaiseksi ongelmaksi koin sen että keskikoulun toisella, kolmannella ja neljännellä luokalla matematiikka oli varsin heikosti motivoivaa, vastaten ehkä suunnilleen nykyisen peruskoulun luokkia 6, 7 ja 8 ja ikähaarukkaa 12 ... 14 vuotta? Algebra oli todella tylsää, aivan tajuttoman puuduttavaa, kuin kidutusta, loputonta epätoivoista erämaavaellusta ilman taskumattia, kurkku kuivana. Ihme ettei se kokonaan onnistunut tappamaan kiinnostusta aiheeseen. Toivottavasti sille ongelmalle on jo jotakin tehty. Luulisi koululaitoksen kykenevän edes jonkinlaiseen itsekritiikkiin. Koululainenkin tarvitsee hiukan laajempia näköaloja ja kokonaisuuksien ymmärtämistä, edes jonkinlaista kytkentää hyödyllisen matikan todellisuuteen ja käytännön merkityksiin. Matte on sinänsä kiinnostavaa, mutta siitä ei pitäisi tehdä tappavan tylsää.
Tarkastellaanpa esimerkin kautta erään diskreetin jakauman tehtävää. Kyseessä on koripallon Playoff-pelit, "paras seitsemästä" eli pudotuspelikierros, johon voi sisältyä korkeintaan 7 peliä. Pudotuspelikierros päättyy kun voittaja selviää. Pudotuspelikierroksen voittaa voittamalla 4 peliä, sillä se on yli puolet peleistä. Pelejä siis pelataan vähintään 4 ja enintään 7 ja vastustaja on sama koko kierroksen ajan. Koripallossa ei voi tulla tasapeliä.
Oletetaan että tietyn joukkueen todennäköisyys voittaa yksittäinen peli tiettyä vastustajaa vastaan on vakio p = 0,69 eli 69% ja tuo todennäköisyys on täysin riippumaton pelitilanteesta ja siitä onko kyseessä koti- vaiko vierasottelu. (Ehkäpä käytännössä aavistuksen verran epärealistinen oletus? Mutta sota on julmaa ja ratsuväki raakaa, eikä todennäköisyyslaskenta häviä niille paljoakaan!)
Tehtävän a)-kohdassa kysytään mikä on todennäköisyys että ko. joukkue voittaa pudotuspelikierroksen suoraan, siis tuloksella 4 - 0? Se toinen joukkuehan ei periaatteessa jäljellä olevissa kolmessa pelissä pystyisi enää voittamaan kierrosta, vaikka voittaisi kaikki ne 3 peliä, joten kierros loppuu siihen.
Tämä on esimerkki negatiivisesta binomijakaumasta. Pelataan kunnes jokin tietty tapahtuma tapahtuu. Tässä tapauksessa satunnaismuuttuja X on se pelien lukumäärä joka tarvitaan että joukkue voittaa 4 peliä, eli pudotuspelikierros ratkeaa. Kun joukkueen olisi tässä kohdassa voitettava suoraan neljällä pelillä tuloksella "neljä-nolla", täytyy onnistumisten määrä olla k = 4.
Tämä tapaus voitaisiin merkitä todennäköisyyslaskennan merkinnöin P(X=4) = b*(X=4, k=4, p=0,69)
jonka voisi lukea tähän tapaan: "todennäköisyys P (kuten Probability) sille että satunnaismuuttujan X arvo on tasan 4 on yhtä kuin negatiivisen binomijakauman todennäköisyysfunktion arvo argumentille X=4 ja parametrein onnistumisten määrä k=4 ja yhden kerran onnistumisen todennäköisyydelle p=0,69".
MatLab-ohjelma laskisi tuloksen funktiokutsulla nbinpdf(4-k, k, p)
saaden tuloksen noin 0,2267 eli vastaus, kysytty todennäköisyys on 22,67%. MatLab -funktiokutsussa argumentti (4-k) = 4 - 4 = 0
on hiukan epäloogisen tuntuisesti tarvittavien "ylimääräisten kertojen" määrä. Tässä niitä ylimääräisiä kertoja ei ole, eli arvo on nolla, koska joukkue voittaa kaikki 4 peliä. Voisi myös sanoa että MatLab-kutsun argumentti on tappioiden määrä (0) ja ensimmäinen parametri k=4 on voittojen määrä.
Tehtävän pystyy helposti ratkaisemaan myös laskimella. Kun laskimen funktio nCr(n, k)
tarkoittaa kombinatoriikasta tuttua kaavaa "n yli k:n", eli "miten monella eri tavalla n:stä objektista voi valita k objektia" (kun järjestyksellä ei ole väliä), niin sama tulos saadaan laskimella arvoille x = 4, k = 4, p = 0.69
laskien nCr(x-1, k-1) * p^k * (1 - p)^(x-k)
eli siis nCr(3, 3) * 0.69^4 * 0.31^0
. Tuo viimeinen kerrottavahan on vain ykkönen, "jotakin potenssiin nolla" on tasan 1, eikä ykkösellä kertominen muuta tulosta. Ja kolmesta voi toki kolme valita vain yhdellä ainoalla tavalla, joten nCr(3, 3) = 1
eikä tästä laskusta jää jäljelle muuta kuin 0.69^4 = 0.22667...
joka juurikin on se haettu vastaus 22,67%.
Monille jakaumille laskimesta löytyy myös oma funktio jolla tuloksen voi laskea suoraan, mutta negatiiviselle binomijakaumalle en ole sellaista löytänyt.
Tehtävän b)-kohta kysyy todennäköisyyttä että ko. joukkue voittaa koko sen pudotuspelikierroksen. Joukkuehan voisi voittaa pudotuspelikierroksen edellä käsitellyn suoran voiton 4 - 0 (kaikkiaan 4 peliä) lisäksi vaihtoehtoisesti myös tuloksilla 4 - 1 (kaikkiaan 5 peliä), 4 - 2 (kaikkiaan 6 peliä) ja 4 - 3 (kaikkiaan 7 peliä).
Nyt ei siis olekaan kyse vain yhdestä mahdollisesta tapauksesta. Niinpä tässä kohdassa tarvitaan negatiivisen binomijakauman kertymäfunktiota. Koska kyseessä on diskreetti tapaus, voimme ajatella että on summattava neljä toisensa poissulkevaa todennäköisyysfunktion arvoa: kierroksen voitto 4:ssä pelissä, kierroksen voitto 5:ssä pelissä, kierroksen voitto 6:ssa pelissä ja kierroksen voitto 7:ssä pelissä. Nämä todella ovat toisensa poissulkevia tapauksia, sillä jos pudotuspelikierros ratkeaa esim. neljännessä pelissä, niin viidettä ottelua ei pelata, eikä kierros siten siinä tapauksessa voi ratketa 5:nnessä, 6:nnessa tai 7:nnessä pelissä. Jos taas kierros ratkeaa vasta esim. 7:nnessä pelissä, niin onhan selvää ettei se kierros ole ratkennut vielä aiemmissa peleissä.
MatLab ratkaisee tehtävän funktiokutsulla nbincdf(3, 4, 0.69)
jossa on argumenttina 3 tappiota ja parametrina 4 voittoa. Tulokseksi saadaan 0.8606, eli vastaus, kysytty todennäköisyys on 86,06%. Kannattaa havaita että kertymäfunktion nimi nbincdf()
on hiukan erilainen kuin a) -kohdassa käytetty todennäköisyysfunktio nbinpdf()
.
Jos siis joukkue voittaa yksittäisen pelin todennäköisyydellä 69% (täysin olosuhteista riippumatta), niin "paras seitsemästä" pudotuspelikierroksen se voittaa todennäköisyydellä 86%, eli huomattavasti suuremmalla todennäköisyydellä kuin yksittäisen pelin.
Tässä lasketaan todennäköisyys P(4 <= X <= 7)
eli "todennäköisyys P että satunnaismuuttujan X arvo on vähintään 4 mutta korkeintaan 7". Ja satunnaismuuttuja X siis tarkoittaa edelleen niiden pelien lukumäärää, jotka korkeintaan 7 peliä sisältävän kierroksen voittoon tarvitaan.
|
Laskimella tällainen on nätisti laskettavissa negatiivisen binomijakauman määritelmän mukaisena summana. Summaamme negatiivisen binomijakauman todennäköisyysfunktion arvot b*(X, 4, p)
kun satunnaismuuttuja X kulkee kokonaislukuarvot neljästä seitsemään. Tavalliseen tapaan käytämme summan merkkinä isoa kreikkalaista kirjainta jonka nimi on sigma. Hiukan tyyriimpi laskin ratkaisee tehtävän kuten kuva näyttää.
Tässä on käytössä vanhempi kosketusnäyttöinen Casio ClassPad 330 PLUS jossa ei ole taustavaloa eikä näytön kontrasti ole kovin hyvä. Kuvaustulokset hiukan vaihtelevat, kuten jutun jatkossa voi havaita. Koko rivi ei tässä mahdu näyttöön kerralla, joten saman rivin alusta ja lopusta on omat kuvansa.
Selkeämmin ilmaisten tässä X-arvoin 4:stä 7:ään summattava lauseke on nCr(x-1, k-1) * pk * (1 - p)x-k
kun vaadittava onnistumisten määrä k = 4
ja yksittäisen onnistumisen todennäköisyys p = 0.69
Laskin tuottaa siis saman tuloksen noin 0,86 eli 86% todennäköisyydelle että joukkue voittaa pudotuspelikierroksen.
Tehtävän c)-kohta kysyy todennäköisyyttä että ko. joukkue häviää pudotuspelikierroksen. Tämähän on helppoa kunhan osaa hiukan ajatella. Joukkue joko voittaa kierroksen tai häviää sen. Ei ole muita vaihtoehtoja. Koko otosavaruuden todennäköisyys on tasan 1. Kaikkien mahdollisten vaihtoehtojen todennäköisyyksien summa on tasan 1, eli 100%. Voittamisen todennäköisyydeksi on edellä laskettu noin 0,86 joten sen ainoan vaihtoehdon eli häviön todennäköisyys täytyy olla tämän komplementti 1 - 0,86 = 0,14 eli noin 14%.
Parempi joukkue siis voittaa "paras seitsemästä" pudotuspelikierroksen todennäköisyydellä 86% ja häviää kierroksen todennäköisyydellä 14% jos sen todennäköisyys voittaa yksittäinen peli on vakio 69%. Jos pelejä pelattaisiin "ääretön" tai hyvin suuri määrä, niin parempi joukkue voittaisi aivan varmasti, mutta lyhyehkössä pudotuspelikierrroksessa sillä on nollaa suurempi häviämisen riski.
Juttu on vielä kesken, mutta karavaani jatkaa vielä tästä.
Todennäköisyyslaskennan kurssin läpäisy luultavasti vaatii joidenkin "tähtitehtävien" (tehtävien joukossa tähdellä merkittyjen) ratkaisemista, joten täytynee kokeilla kättään niihin. Tenttejä tällä kurssilla poikkeuksellisesti ei olekaan, vaan se suoritetaan pääsääntöisesti esittämällä joitakin tehtävien ratkaisuja opettajalle, normaalisti 6 tehtävää kahden viikon jaksossa. Tavalliset tehtävät saa tehdä parityönäkin, mutta "Puuvillan" eli Tampereen Teknillisen Yliopiston Porin laitoksen oppimisjärjestelmä Moodleen pdf-muotoisina tiedostoina palautettavat hiukan vaativammat tähtitehtävät ovat yksilösuorituksia. Tanttu ei suostu avaamaan Word-muotoisia dokumentteja lainkaan. Onko hänellä ehkä jotakin Good old Bill Gatesia vastaan?
Ohessa kuvattu vaikuttaa periaatteessa binomijakauman tehtävältä, jossa on kuitenkin myös hiukan lisävääntöä mukana. Kolikon heitto ihan huutaa korvaan että BINOMIJAKAUMA! kun sitä on kurssilla niin paljon treenattu.
Ilmaisu "reilu kolikko" (engl "fair coin") tarkoittaa todennäköisyyslaskennassa sellaista tasapainoista metallirahaa jossa kruunan (engl. Heads eli H) todennäköisyys on tasan puoli kun kolikkoa heitetään yhden kerran, eli P(H) = 0,5. Klaavan (engl. Tails eli T) todennäköisyys on silloin siis myös tasan puoli, yhdessä heitossa, eli P(T) = ½. Muita vaihtoehtojahan ei ole. Jos raha jää pystyyn niin se heitto hylätään ja heitetään uudelleen.
Ihmiset kai yleensä olettavat luonnostaan että esimerkiksi euron kolikolla on satunnaisessa heitossa täsmälleen yhtä suuri todennäköisyys päätyä kruuna ylöspäin kuin on sen todennäköisyys päätyä klaava ylöspäin, mutta eihän asian tarvitse oikeasti olla tarkalleen niin. Satunnaisuus on käytännössä hiukka komplisoitu juttu.
Sanallisesti voinee ilmaista että olisi löydettävä ala- ja yläraja siten että sekä alarajan alapuolella että ylärajan yläpuolella satunnaismuuttujan X arvoa vastaava kertymäfunktion arvo on noin 2½ % jakauman ala- tai yläpäässä. Miksi tehtävä ei ratkea tarkasti? Arvaan kyllä että aivan täsmällistä täsmäystä lie vaikea saavuttaa koska tehtävän diskreetin luonteen vuoksi X täytyy olla kokonaisluku. Mikään kokonaisluku ei välttämättä päädy todennäköisyydeltään täsmälleen kohtaan 0,025 tai kohtaan 1 - 0,025 = 0,975.
Tehtävänanto saattaa olla hiukan hämäävä ellei ole tottunut tidennäköisyyslaskennassa käytettyihin merkintöihin. Lukisin tehtävänannon mieluiten näin: "todennäköisyys P satunnaismuuttujan X arvolle joka on pienempi kuin alaraja nL on likimain 0,025 ja todennäköisyys P satunnaismuuttujan X arvolle joka on suurempi kuin yläraja nU on likimain 0,025".
Fiksu tapa aloittaa on määritellä selkeästi että satunnaismuuttuja X on kruunien lukumäärä heittokokeessa, joka tosin kyllä näkyy jo tehtävänannossakin. Koska rahaa heitetään tässä 50 kertaa, voi X olla arvoltaan välillä 0 (ei yhtään kruunaa) ... 50 (kaikki kruunia).
Ensin ehkä kannattaisi koettaa ratkaista alaraja nL siten että todennäköisyys P(X < nL)
on suunnilleen 0,025. Oletetaan että rajat ovat kokonaislukuja koska myös satunnaismuuttujan arvo on kokonaisluku. Niinpä X < nL
tarkoittaa X <= nL-1
elikkä toisinsanoen X+1 <= nL
joten kun löydämme sopivan X-arvon, haluamme lisätä siihen ykkösen saadaksemme alarajan nL.
Binomijakauma perustuu Bernoullin prosessiin. Binomijakauman todennäköisyysfunktio antaa todennäköisyyden sille että satunnaismuuttujalla X on jokin tietty arvo x.
n! P(X=x) = ----------- · px · (1-p)n-x x! (n-x)!
Tässä todennäköisyys p = P(H) = 0,5
ja kun reilun kolikon tapauksessa p = 0,5
niin tietenkin on myös (1-p) = 0,5
, joten itse asiassa potenssiopin lahjomattomien sääntöjen mukaan px · (1-p)n-x = 0.5x · 0.5n-x = 0.5x+n-x = 0.5n
joka sievennys merkittävästi yksinkertaistaa laskentaa.
Tunnus n on rahan heittojen määrä kokeessa eli 50. Tyrnevän näköinen osamäärä on kertomin ilmaistuna vanha tuttu "n yli x:n" eli permutaatioiden lukumäärä jota laskimissa kutsutaan funktion nimellä nCr(n, x)
. Voisi siis lyhentää että laskimelle todennäköisyysfunktio on tässä tapauksessa yksinkertaisesti P(X=x) = nCr(n, x) · 0,5n
ja lisäksi vakio n = 50. Tosin onhan 0,550
myöskin vakio jonka voisi ratkaista ja voisi käyttää ratkaistua arvoa laskennassa suoraan, mutta havainnollisuuden vuoksi jätetään se ratkaisemattomaan muotooon että muistetaan mistä on tultu.
Tarvitsemme tässä tehtävässä kuitenkin vastaavan kertymäfunktion, koska on summattava monien satunnaismuuttujan eri arvojen yhteistä todennäköisyyttä. Summaamisen voimme tehdä aiemmin esitetyn sigma-tunnuksen avulla. Nollaa pienempiä X-arvoja ei tarvitse tutkia koska kruunien määrä ei voi olla negatiivinen. Viidessäkymmenessä heitossa voi tulla korkeintaan 50 kruunaa, joten sen suurempia arvoja satunnaismuuttujalle X ei tarvitse tutkia.
Kertymäfunktion arvo P(X <= x) = F(x)
on todennäköisyyksien summa X-arvosta 0 (nolla) tutkittavaan arvoon x saakka, kyseinen arvo x mukaan lukien. Satunnaismuuttujan pienimmälle arvolle X=0 on kertymäfunktion arvo F(0) = P(X <= 0)
yksinkertaisesti sama kuin todennäköisyysfunktion arvo f(X=0)
.
Odotusarvo lienee 24,5 kruunaa reilulle kolikolle koska jakauma lie symmetrinen ja erilaisia X-arvoja on 51 kpl, siis pariton määrä. Tosin sellaista määrää 24½ ei kokeessa tietenkään voi koskaan tulla. Kolikkoa heitettäessä ei tule tulokseksi puolikkaita kruunia. Satunnaismuuttujan odotusarvo voi joskus olla sellainen että diskreetti satunnaismuuttuja X ei sitä käytännössä koskaan saa.
Voisi koettaa yksinkertaisesti kokeilla kertymäfunktion X-arvoja nollasta ylöspäin kunnes löytää sopivan kertyvän todennäköisyyden mahdollisimman läheltä arvoa 0,025. Pieniä X-arvoja vastaavat kertymän arvot ovat kovin pieniä, koska on aika epätodennäköistä että 50 kolikon heittoa tuottaisi vain muutaman kruunan.
X-arvon 17 kohdalla alkaa kuitenkin ns. Lyyti kirjoitella. Näyttää siltä että kertymäfunktion F kiinnostavat arvot satunnaismuuttujan arvoille X=17 ja X=18 eli F(X=17) ja F(X=18) ovat:
F(17) = P(X <= 17) = 0,01642 F(18) = P(X <= 18) = 0,03245
Etsitty alarajaa vastaava arvo 0,025 on tuolla välillä. Suurempi arvo on sinänsä lähempänä koska |0,03245 - 0,02500| = 0,00745
kun ero pienempään arvoon on aavistuksen verran suurempi |0,01642 - 0,02500| = 0,00858
Tehtävän vaatimus alarajalle oli se että todennäköisyys P(X < nL)
olisi mahdollisimman hyvin 0,025 ja kysytään alarajaa nL. Mielestäni nL voisi olla 19 koska silloin X = 18 on sitä pykälällä pienempi kuten täytyy olla ja F(18) on mahdollisimman lähellä haluttua todennäköisyyden arvoa 0,025.
Entäpä sitten yläraja nU? Satunnaismuuttujan X arvon pitäisi olla sitä suurempi. Pitäisi olla todennäköisyys P(X > nU)
suunnilleen 0,025. Tämä tarkoittaa että X >= nU + 1
eli X - 1 >= nU
joten kun sopiva arvo X löytyy, olisi siitä vähennettävä yksi että saadaan haluttu yläraja nU joka on kokonaisluku.
Kyse on kertymäfunktiosta ja ylärajasta, joten olisi ehkä tiukan oikeaoppisesti etsittävä loppupäästä kertyvää todennäköisyyttä 1 - 0,025 = 0,975.
Siispä voimme summata edellä käytettyyn tapaan kokeillen erilaisia satunnaismuuttujan X arvoja nollasta sinne loppupään lupaaviin todennäköisyysarvoihin n-arvon 50 ja kertyvän todennäköisyyden 0,975:n läheisyydessä.
Tai kenties voisimme etsiä sitä kertyvää todennäköisyyden osuutta 0,025 suoraan binomijakauman yläpäästä summaamalla satunnaismuuttujan suurimpia arvoja vain siellä 50:n läheisyydessä?
Vaikuttaa siltä että kun summataan todennäköisyyksien arvot satunnaismuuttujan X kulkiessa kokonaislukuarvot nollasta 31:een, saadaan kertyvä todennäköisyys 0,96755. Kun summataan jakauman häntäpäässä satunnaismuuttujan X arvoja 32:sta 50:een vastaavat todennäköisyydet, saadaan kertyvä todennäköisyys 0,032454 joka on sama kuin 1 - 0,96755.
Kun summataan todennäköisyyksien arvot satunnaismuuttujan X kulkiessa kokonaislukuarvot nollasta 32:een, saadaan kertyvä todennäköisyys 0,98358. Kun summataan jakauman häntäpäässä satunnaismuuttujan X arvoja 33:sta 50:een vastaavat todennäköisyydet, saadaan kertyvä todennäköisyys 0,01642 joka on sama kuin 1 - 0,98358.
Minusta näyttää että molemmat menettelyt skulaavat.
Mutta mikä on kysytty yläraja nU? Sen tulisi olla yhdellä suurempi kuin se satunnaismuuttujan X arvo jolla päästään lähimmäksi kertyvän todennäköisyyden häntäosan suuruutta 0,025. Parhaaksi X-arvoksi arvaan 31 tai 32. Kumpi on lähempänä arvoa 0,025, olisiko se 0,032454 vaiko 0,01642? Edellinen on aiemman perusteella lähempänä, joten ... öööh ... nyt täytyy oikein miettiä.
Paras täsmäys diskreetissä tapauksessa tavoitteeseen 0,025 on P(X > nU) = 0,032454
ja siinä on satunnaismuutujan arvo X = 32
koska juuri alueen yläpäässä todennäköisyyden kertymä X-arvoista 32 ... 50 tuottaa sen tuloksen. Satunnaismuuttujan X arvo täytyy kuitenkin olla pykälää suurempi kuin etsitty yläraja, joten nU = X - 1 = 31
ja tällä perusteella luulen että X = 32 ja nU = 31. Eli P(X > 31) = P(X >= 32) = 1 - P(X <= 31) = 1 - P(X < 32) = 0,032454
joka diskreetissä tapauksessa on niin lähellä vaadittua arvoa 0,025 kuin on inhimillisesti katsoen mahdollista.
MatLab-ohjelman kanssa ratkaisussa voitaisiin ehkä käyttää binomijakauman funktioita todennäköisyysfunktio binopdf()
ja kertymäfunktio binocdf()
, mutta en voi nyt testata MatLabin kanssa, enkä muista missä järjestyksessä funktioiden argumenttien tulisi olla. Vaikka voihan olla että MatLab-ohjelman laajassa funktiorepertuaarissa on jokin suorakin menetelmä?
Tässä on sensijaan nimenomaan tarkoitus osoittaa että laskimella pärjää aika hyvin. Ja samalla tämä on paluu todennäköisyyslaskennan juurille, perusasioiden äärelle.
Kun olemme jo tutkineet alkuvoimaisia ja ylevän kirkasotsaisia määritelmän mukaisia ratkaisuja, voimme tiedostaa seikan sellaisen että tosin kyllähän laskimissa on MatLab:in funktioiden kaltaisia funktioita joiden kanssa pääsee vähemmällä naputtelulla. Mitä nyt parametrit järjestykseltään hiukan vaihtelevat eri järjestelmissä, sillä niistä ei ole olemassa minkäänlaista standardia.
Casion valikkokomento Interactive | Distribution | binomialCDf
tuo esiin vizardin jossa voi antaa arvot binomijakaumalle. Huomaa että kyseessä on nimenomaan kertymäfunktio "...CDf" eikä todennäköisyysfunktio "...PDf".
Alarajan nL ratkaisua arvolla X=18 luotaava funktiokutsu binomialCDf(0,18,50,0.5)
tuottaa tutun tuloksen 0,03245.
Taasen ylärajaa nU kohdasta X=32 etsivä kutsu binomialCDf(0,32,50,0.5)
tuottaa tuloksen 0,98358 joka on etäisyydellä 0,01642 ykkösestä. Pykälällä pienemmän arvon X=31 kutsun binomialCDf(0,31,50,0.5)
tulos olisi 0,96755 eli etäisyydellä 0,03245 ykkösestä, ja siis aavistuksen verran lähempänä tavoiteltua arvoa 1 - 0,025 = 0,975.
Laskimen kertymäfunktioiden 4-argumenttiset funktiokutsut ehkä säästävät työtä tapauksissa jossa on laskettava kertymä joka ei ala ihan nollasta. Muistelen että MatLab ei sisällä vastaavia diskreettejä funktioita joilla voisi laskea suoraan kertymäfunktion arvon joka ei ala aivan alusta. Todennäköisyyslaskennassa on normaalia että kertymäfunktio aloittaa satunnaismuuttujan pienimmistä arvoista koska sitä normaalilla kertymäfunktiolla juuri tarkoitetaan ; P(X <= x) = F(X)
eli kertymäfunktion arvo F(X) tarkoittaa nimenomaan sitä todennäköisyyttä että satunnaismuuttujan X arvo on pienempi tai yhtäsuuri kuin annettu x. Niinpä laskin on tässä hiukan horjahtanut syrjään tiukan oikeaoppiselta kaidalta polulta? Tai ainakin käyttäjän on oivallettava missä mennään.
Vizardit ovat siitä mukavia että funktion argumenttien järjestystä ei joudu arvailemaan niin paljon kun lomakkeella on edes jotakin ohjetekstiä. Ja vizardeja on siis laskimissakin. MatLabissa on helppi-ikkuna joka tarjoaa apua esim. komennolla doc binocdf
eli täytyy tietää funktion nimi, tässä esimerkissä binocdf
ja onhan siellä työkaluvihjeet jotka tyrkyttävät tosiajassa syntaksia kun funktion nimeä ja argumentteja näpyttelee.
Noissa ylläolevissa ratkaisutavoissa joutuu etsimään oikeaa ratkaisua kokeilemalla. Nyt menee paremman ohjeen puutteessa hiukan arvailun puolelle, mutta väittäisin että laskimessa on suorempikin menetelmä. Nimittäisin sitä henkilökohtaisen persoonallisen innovatiivisesti "käänteiseksi binomijakauman funktioksi". No joo, eiköhän oikea nimi sittenkin olisi "binomijakauman kertymäfunktion käänteisfunktio".
Siis idea on senkaltainen että tavalliset binomijakauman funktiot tuottavat todennäköisyyden tai kertyvän todennäköisyyden joka vastaa tiettyä satunnaismuuttujan arvoa, tietyn yhden kerran todenäköisyysarvon p ja kokeiden lukumäärän n kanssa. Funktion argumenttina on siis satunnaismuuttujan arvo. Tulos on todennäköisyys.
Käänteiset funktiot toimivat päinvastaiseen suuntaan. Käänteisillä funktioilla koetetaan selvittää se satunnaismuuttujan arvo joka mahdollisimman hyvin vastaa haluttua kertyvää todennäköisyyttä, kun yhden kerran todennäköisyys on p ja kokeiden määrä n. Funktion argumenttina on siis etsitty kertyvä todennäköisyys. Tulos on satunnaismuuttujan arvo.
Taulukoiden käyttöä ei enää suositella, mutta todennäköisyyslaskennan taulukoiden kanssa harjoittelemalla tähän asiaan saa ehkä parhaiten havainnollisen tuntuman.
Käänteinen binomijakauman funktio luullakseni tuottaa ainakin melko hyvän arvion diskreetin satunnaismuuttujan arvosta jonka kohdalla kertyvä todennäköisyys on halutun suuruinen. Kokeillaanpa sitä. Emme tarvitse dokumentointia, olemme rohkeita suomalaisia.
Casion valikkokomento Interactive | Inv. Distribution | invBinomialCDf
tuo esiin vizardin jossa voinee syöttää käänteistä binomijakaumaa vastaavat arvot.
Alarajan kertyvää todennäköisyyttä 0,025 etsivä fuktiokutsu invBinomialCDf(0.025, 50, 0.5)
tuottaa vastauksen 18 ja ylärajan kertyvää todennäköisyyttä 1 - 0,025 = 0,975
etsivä kutsu invBinomialCDf(0.975, 50, 0.5)
tuottaa vastauksen 32. Näin siis pitäisi saada etsityt vastaukset suoraan ilman sen enempää kokeilua.
Hmmmm, edellä olen spekuloinut että arvolla X=32 tulos olisi hiukan lähempänä tähdättyä arvoa. Epäilemättä voisi olla hyödyllistä konsultoida laskimen dokumentointia ja selvittää mitä nuo käänteiset jakauman funktiot varsinaisesti diskreetissä tapauksessa tuottavat ja miten niitä täsmälleen tulisi käyttää. Onko se esim. tarkoitettu tuottamaan tuloksena satunnaismuuttujan arvo jolla todennäköisyys on lähimpänä etsittyä tai ehkä arvo joka on lähellä, mutta kauempana odotusarvosta? Olen aivan liian laiska etsiäkseni vastausta.
Käytännössä toimiva menetelmä diskreetissä tapauksessa voisi olla sellainen että ensin etsitään haluttua satunnaismuuttujan arvoa kertyvän todennäköisyyden perusteella käyttäen käänteistä jakauman funktiota. Vastauksen tulisi olla ainakin lähellä oikeaa. Sitten voidaan tehdä pari haku-ammuntakertaa tavallisella jakauman funktiolla tuon ainakin likimääräisesti oikean diskreetin arvon kohdalla ja varmistaa mikä satunnaismuuttujan arvo parhaiten tulokseltaan vastaa etsittyä.
Edellä käsitellystä tehtävästä opimme siis sen että todennäköisyys sille että viisikymmentä reilun kolikon satunnaista heittoa tuottaisi tulokseksi yhteensä vähemmän kuin 19 kruunaa on vain noin 2,5%. Vastaavasti tuloksen joka on yli ... öööh ... oliko se nyt 31 vai 32? ... kruunaa todennäköisyys on myös vain noin 2,5%. Todennäköisin tulos 50:ssä reilun kolikon heitossa on jossakin välin 20 ... 30 kruunaa puolivälissä. Minulla tuloksena tuli 28 kruunaa kun heittelin kahden euron kolikkoa 50 kertaa kurssin laskuharjoituksissa. En siis heittänyt sitä menemään kauas pois, koska sellaiseen 100€ kustannukseen ei ollut varaa, vaan käsittelin jatkuvasti samaa kolikkoa jonka lopuksi palautin omaan lompakkooni.
Juttu paisuu kuin pullataikina aiottua laajemmaksi, mutta dikreeteistä jakaumista on ehdottomasti esiteltävä myös hypergeometrinen todennäköisyysjakauma. Komea nimi. Sitä ehkä parhaiten kuvataan oheisen havainnollisen piirroksen avulla. Esitellään hypergeometrinen koe:
On isohko, mutta kooltaan äärellinen populaatio, jossa on yhteensä N kappaletta objekteja. Tästä isohkosta populaatiosta otetaan satunnaisesti pienehkö satunnaisotos jonka suuruus on n kappaletta. On siis N > n.
Satunnaisotos otetaan "yhdellä kerrralla" niin että populaatiosta otettuja objekteja ei pistetä takaisin. Populaation objektien määrä kuvassa vasemmalla siis pienenee kun otos otetaan. Muuttuja N säilyttää kuitenkin alkuperäisen arvonsa.
Populaation yhteensä N objektia sisältää alunperin k kappaletta objekteja joita pidetään "onnistumisina", eli ne kuvaavat sellaisia objekteja joita tässä kokeessa seurataan. Populaation loput alkiot joita on N - k kappaletta, ovat "epäonnistumisia" eli vähemmän mielenkiintoisia.
Satunnaismuuttuja X tarkoittaa "onnistumisten" määrää satunnaisotoksessa jossa on yhteensä n objektia. "Epäonnistumisia" otoksessa on siten n - x kappaletta.
Tyypillisesti "onnistuminen" on käytännössä viallinen tuote, joka voi tuntua aluksi hiukan kummalliselta. Haluamme kuitenkin ehdottomasti löytää vialliset tuotteet tutkittavasta erästä jos niitä siinä on, joten viallisen tuotteen löytäminen on onnistumista laadunvalvonnan näkökannalta.
Satunnaismuuttuja X on siis "onnistumisten" määrä satunnaisotoksessa jonka suuruus on n ja X noudattaa hypergeometrista jakaumaa. Käyttäen paremman puutteessa laskimen merkintää nCr(n, k) sille kombinaatioiden määrälle kun valitaan k alkiota n-joukosta, eli "n yli k:n", voidaan hypergeometrisen jakauman todennäköisyysfunktio esittää näin:
nCr(k, x)· nCr(N-k, n-x) h(x; N, n, k) = ------------------------ nCr(N, n)
Tässä siis k on "onnistumisten" kokonaismäärä, X on satunnaismuuttuja joka merkitsee "onnistumisten" määrä otoksessa, N on koko populaation koko ja n on otoksen koko.
Sanallisesti voisimme kuvata hypergeometrisen jakauman todennäköisyysfunktiota näin: Todennäköisyys että satunnaismuuttujalla X on arvo x on osamäärä, jonka osoittajassa on kahden kombinaation tulo. Osoittajan tulontekijöistä ensimmäinen on se määrä miten monella eri tavalla voidaan valita x objektia k:sta objektista (kun järjestyksellä ei ole merkitystä). Osoittajan toinen tulontekijä on se määrä miten monella eri tavalla voidaan valita n-x objektia N-k objektin joukosta. Osamäärän nimittäjässä on se määrä miten monella eri tavalla voi valita n objektia N objektin joukosta.
Saattaa vaatia hiukan pohdiskelua, mutta tavallaan tuossa on järkeä. Esimerkiksi nimittäjän nCr(N, n) on se lukumäärä miten monella eri tavalla otoksen n objektia voidaan valita populaation N objektin joukosta kun järjestyksellä ei ole väliä. Osoittajan nCr(k, x) on se määrä miten monella eri tavalla voi valita otoksen x "onnistumista" populaation "onnistumisten" kokonaismäärästä k. Osoittajan nCr(N-k, n-x) on se määrä miten monella eri tavalla voi valita otoksen n-x "epäonnistumista" populaation N-k "epäonnistuneiden" kokonaismäärästä.
Oikein brutaalisti ja epämääräisesti tiivistäen voisi yrittää selventää:
(otoksen x populaation k:sta) * (otoksen epäonniset n-x kaikista epäonnisista N-k) P(X=x) = ---------------------------------------------------------------------------------- (otos n populaatiosta N)
Ja ei kuin laskentaesimerkkiä perään.
Populaation koko on N = 40. Tiedetään (jollakin ihmeen keinolla...) että viallisia komponentteja populaatiossa on kaikkiaan k = 3. Otetaan satunnaisesti otos jonka suuruus on n = 5. Kysymys kuuluu, millä todennäköisyydellä otoksesta löytyy X = 1 tai useampi viallinen komponentti.
Viallisia komponentteja voisi löytyä viiden otoksesta 0, 1, 2 tai 3 kappaletta koska viallisiahan on kaikkiaan vain 3. Meitä kiinnostaa nuo kolme jälkimmäistä tapahtumaa. Haluamme tietää todennäköisyyden P(X >= 1) = P(X = 1) + P(X = 2) + P(X = 3)
, mutta helpoiten tämä lasketaan komplementin kautta, vähentämällä ykkösestä todennäköisyys sille että viallisia ei löydy yhtään, eli X = 0. Niinpä P(X >= 1) = 1 - P(X < 1) = 1 - P(X = 0)
MatLabissa voisi käyttää funktiota hygepdf
ja onhan laskimessakin hypergeometrinen jakauma, mutta ihan määritelmän mukaiseen perustyyliin voimme ratkaista vetreästi:
nCr(3, 0)· nCr(40-3, 5-0) 1 · nCr(37, 5) 453897 h(0; 40, 5, 3) = ------------------------- = -------------- = ------ = 0,66245 nCr(40, 5) 658008 658008
Tuo ylläoleva tulos P(X = 0)
on kuitenkin vielä vähennettävä ykkösestä koska se on todennäköisyys ettei yhtään viallista löydy otoksesta ja tässä lasketaan sen komplementtia, joten tulos eli todennäköisyys ainakin yhden viallisen löytymiselle erästä on P(X >= 1) = 1 - P(X = 0) = 0,33755
jos koko 40 komponentin populaatiossa on 3 viallista komponenttia.
Voisi ehkä kainosti kysäistä miksi ylipäätään testataan yhtään mitään jos jo alkutilanteessa valmiiksi tiedetään viallisten kokonaismäärä k populaatiossa? No juu, varmaan on ajateltava että tämä on vain eräs peruspalikka ja elementti jossakin korkeamman tarkoituksen todennäköisyyskuviossa. Hypoteesin testauksen apuväline?
Diskreetin jakauman vastakohta on jatkuva jakauma. Karkeasti voinee sanoa että diskreetissä tapauksessa satunnaismuuttuja on kokonaisluku ja jatkuvassa tapauksessa satunnaismuuttuja on desimaaliluku. Jatkuva jakauma eroaa diskreetistä radikaalisti siinä että satunnaismuuttujan jonkin aivan tietyn arvon todennäköisyys on - hämmästyttävästi - aina nolla, eli ei ole laskettavissa vaikka kertymäfunktion arvo kasvaakin ko. kohdassa. Tämä paradoksi juontaa reaalilukujen perusolemuksesta. Millä tahansa nollaa suuremmalla reaalilukujen välillä on periaatteessa ääretön määrä reaalilukuja. Lukujen täsmällinen yhtäsuuruus onkin reaalilukualueessa aika toivotonta. Reaalilukujen arvojen täsmälliseen ilmaisemiseen käytetty numeroiden määrä ei voi rajoittua esimerkiksi tietokoneiden rajallisen pituisiin numeerisiin tietotyyppeihin. Matematiikka ei tässä suhteessa nöyrry tekniikkavetoisen markkinatalouden edessä.
Jatkuvien jakaumien yhteydessä käytetään diskreetin tapauksen todennäköisyysfunktion asemesta nimitystä tiheysfunktio. Kertymäfunktion ratkaisemisessa tarvitaan edellä isolla kreikkalaisella sigma-merkillä ( Σ
) esitellyn summan asemesta - ainakin periaatteessa - integraalia. On aika tyhmää kysyä mikä olisi ei-diskreetissä tapauksessa jotakin tiettyä desimaalilukua vastaava todennäköisyyden arvo, koska se on aina nolla. Todennäköisyys täytyy ajatella pinta-alaksi joka jää tiheysfunktion kuvaajan alle. Täytyy ajatella että yksittäistä satunnaismuuttujan arvoa vastaava pylväs on tiheysfunktiossa äärettömän ohut. Mielekkäämpää olisi kysyä jotakin kapeahkoa, mutta nollaa suurempaa täsmällisesti esitettyä satunnaismuuttujien arvojen väliä vastaavaa todennäköisyyttä. Se laskettaisiin periaatteessa kertymänä eli tiheysfunktion integraalina.
Diskreetillä puolella argumenttia voi ajatella kokonaislukuina. Jos kysytään vaikkapa todennäköisyyttä satunnaismuuttujan X arvolle joka on vähemmän kuin 5, silloin tarkoitetaan X-arvoja jotka ovat korkeintaan 4, siis yhtäsuuri kuin 4 tai vähemmän ; P(X < 5) = P(X <= 4)
eli "todennäköisyys P sille että satunnaismuutujalla X on arvo joka on vähemmän kuin 5, on yhtä kuin todennäköisyys että satunnaismuuttujan arvo on yhtäsuuri tai pienempi kuin 4". Viitonen ei käy koska X on oltava pienempi ja seuraavaksi pienempi kokonaisluku on 4.
Jos diskreetillä puolella kysytään todennäköisyyttä satunnaismuuttujan arvolle joka on enemmän kuin 5, tarkoitetaan todennäköisyyttä X-arvoille 6 tai enemmän ; P(X > 5) = P(X >= 6)
eli "Todennäköisyys että satunnaismuuttujan X arvo on suurempi kuin 5, on yhtä kuin todennäköisyys että X on yhtäsuuri tai suurempi kuin 6". Viitonen ei käy koska X on oltava suurempi ja seuraavaksi suurempi kokonaisluku on 6.
Kertymäfunktio monasti lasketaan alarajasta kuten negatiivisesta äärettömyydestä tai nollasta johonkin tiettyyn ylärajan arvoon. Tuo yläraja saattaa olla jopa ääretön. Niinpä jos tehtävässä kysytään kertymäfunktion arvoa jonkin rajan yläpuolella, on monasti helpointa laskea komplementin kautta koska kertymäfunktio luontevasti lasketaan alarajasta ja koko otosavaruuden todennäköisyys on tasan 1. Esimerkiksi voitaisiin kysyä diskreetissä tapauksessa mitä on P(X > 1). Tämä olisi P(X > 1) = P(X >= 2) = 1 - P(X <= 1) = 1 - P(X < 2)
jossa lasketaan satunnaismuuttujan X arvosta 2 alkavaa kertymän pitkää "häntäosaa" joka saattaa ulottua vaikkapa äärettömyyteen, mutta se lasketaan satunnaismuuttujan alarajasta arvoon 1 ulottuvan kertymän komplementtina. Diskreetissä tapauksessa P(X <= 1) + P(X >= 2) = 1
koska arvojen X=1 ja X=2 välissä ei ole mitään todennäköisyyttä ; diskreetti satunnaismuuttuja ei saa muita kuin kokonaislukuarvoja.
Noin siis toimitaan diskreetillä puolella, mutta jatkuvissa jakaumissa yhtäsuuruuden merkitys on epämääräinen. Niinpä jatkuvassa tapauksessa P(X <= 5) = P(X < 5)
ja toisaalta P(X >= 5) = P(X > 5)
eli näissä pareissa ei ole eroa. Käytännössä jatkuvalla puolella "suurempi tai yhtäsuuri" tarkoittaa samaa kuin "suurempi" ja myöskin "pienempi tai yhtäsuuri" tarkoittaa samaa kuin "pienempi". Tavallaan helpompaa. Täytyy muistaa että ei-diskreetissä tapauksessa tiheysfunktion pylväät ovat äärettömän ohuita ja satunnaismuuttujan arvon täsmällisellä yhtäsuuruudella kuten P(X = 5)
saivartelu on aika mieletöntä koska tiheysfunktioiden arvot ovat infinitesimaalisia, ei-diskreetissä tapauksessa P(X = 5) = 0
.
Kuvaelman tässä vaiheessa haluamme varmaankin kokea suuren valaistumisen, joten ymppäämpä tähän väliin syvämietteisiä totuuksia todennäköisyyslaskennasta ja tilastomatematiikasta, liittyen jakaumiiin. Tilastomatematiikkaa ei tietenkään suoraan käsitellä todennäköisyyslaskennan kurssilla, mutta näillä on yhteys joka syntyy todennäköisyyden jakaumien kautta.
Erilaisia jakaumia on paljon. Tässä joitakin graafisia esimerkkejä jotka olen törkeästi pöllinyt MATLAB:in avulla kuvitetusta kurssimateriaalista. Kaikki nämä kuvaajat esittävät nimenomaan jakauman tiheysfunktioita. Ensimmäiset kuvat esittävät gammajakauman tiheysfunktion kuvaajia eri parametreilla:
Gammajakaumaa käytetään kuvaamaan mm. laitteen huoltoon kuluvaa aikaa ja vikaantumisväliä. Eksponenttijakauma on eräs gammajakauman erikoistapaus. Kun gammajakauman parametri α = 1
, niin on itse asiassa kyse eksponenttijakaumasta, joten vasemmalla ylhäällä on juurikin eksponenttijakauman tiheysfunktio parametrilla β = 1
.
Tuossa yllähän on tiheysfunktio, joka on kertymäfunktion derivaatta, mutta jos siitä integroitaisiin kertymäfunktio niin nähtäisiin miten todennäköisyys kertyy. Laskentaesimerkissä alla kokeilemme kerrytellä todennäköisyyttä.
Eksponenttijakaumaa voitaisiin käyttää kuvaamaan laitteiden vikaantumisen todennäköisyyttä ajan kuluessa. Tosin eksponenttijakauma ei välttämättä kuvaa vian todennäköisyyttä aivan tarkasti. Ajatellaanpa 15 vuotta vanhaa pesukonetta tai jääkaappia. Onko sen vikaantumisen todennäköisyys sama kuin uutena? Takaraivooni on jäänyt sellainen väite että jos vikaantumisen todennäköisyys noudattaa tarkasti eksponenttijakaumaa, niin voisi ehkä tulkita että sen vanhan romun vikaantumistodennäköisyys olisi 15:ntenä käyttövuonna sama kuin ensimmäisenä käyttövuonna ... tai niin ainakin kuvittelen.
Laitteiden vikaantumistodennäköisyyttä ajan kuluessa luonnehtii parhaiten jonkinlainen alussa jyrkästi nouseva käyrä joka tasaantuu ja alkaa sitten hitaasti laskea muodostaen oikealla pitkän vaaka-akselia lähestyvän hännän. Tiheysfunktion kuvaaja on ei-negatiivinen, epäsymmetrinen ja oikealle vino. Käytön aluksi laitteessa ilmenee lastentauteja ja vikaantumistodennäköisyys on siksi korkea. Myöhemmin käyttöiän aikana lastentaudit karsiutuvat pois, vikaantumisen käyrä kääntyy laskuun kun tapahtuu vain vähittäistä kulumista joka aiheuttaa vikaantumista. Jos laite kestää pitkään, on sen vikaantumistodennäköisyys jo melko pieni.
On kuitenkin epärealistista kuvitella että mikään laite voisi kestää käyttökunnossa loputtomiin. Raja tulee joskus vastaan. Egyptin suuret pyramidit ovat kestäneet melko hyvin tuhansia vuosia helpoissa olosuhteissa ja kevyessä käytössä, mutta mitään teknistä laitetta tuskin voidaan rakentaa kestämään edes muutamia satoja vuosia jatkuvaa käyttöä. Sitäpaitsi tekniikka edistyy koko ajan ja vanha tekniikka vanhenee nopeasti, joten ei ole järkeä edes yrittää rakentaa monimutkaista laitetta kestämään satoja vuosia. Nuoremmat vehkeet piankin näyttäisivät sille närhen munat.
Gammajakauman tiheysfunktio satunnaismuuttujan X arvolle ( täytyy olla X > 0
ja Γ()
on gammafunktio ) sekä parametreille α
ja β
on integroitavaksi hiukan ikävähkön näköinen lauseke :
1 gamma( X ; α, β ) = -------- xα-1 e-X/β βα Γ(α)
Kun parametri α = 1
niin tämä sieventyy huomattavasti kun β1 = β
, Γ(1) = 1
, x1-1 = x0 = 1
ja niinpä eksponenttijakauman tiheysfunktio expo( X ; β )
näyttää huomattavasti inhimillisemmältä, parametrina on enää vain β
: expo( X ; β ) = 1/β e-X/β
Yritän seuraavassa ymmärtää mitä Frank Cameron eksponenttijakauman tehtävän yhteydessä oikein tarkoitti puheillaan vanhasta pesukoneesta ja sen vikaantumistodennäköisyydestä. Ei kai hän vaan pitänyt minua pilkkanaan? Oletetaan että ekponenttijakauman tiheysfunktion parametri on helppo β = 2
ja katsotaan kahta opettavaista kuvaa Casio-laskimen näytöstä:
Vasemmalla on integroitu eksponenttijakauman tiheysfunktio nollasta ylärajaan 1 ja saatu tulos 0,393469 sekä integroinnissa alarajasta 1 ylärajaan 2 on saatu tulos 0,238651. Näiden suhde on 0,393469 / 0,238651 = 1,6487
Oikealla on integroitu eksponenttijakauman tiheysfunktio alarajasta 14 ylärajaan 15 ja saatu tulos 0,0003587976 sekä integroinnissa alarajasta 15 ylärajaan 16 on saatu tulos 0,0002176217. Näiden suhde on 0,0003587976 / 0,0002176217 = 1,6487
.
Hämmästyttävää? Nuo tiheysfunktioiden integroinnithan kuvaavat todennäköisyyden eli kertymäfunktion kertymistä. Jos tuo olisi pesukone niin vasemmanpuoleiset integroinnit kuvaavat hajoamisen todennäköisyyttä ensimmäisenä ja toisena käyttövuotena. Oikeanpuoleiset integroinnit kuvaavat pesukoneen hajoamisen todennäköisyyttä 15:ntenä ja 16:ntena käyttövuonna. Tämän mukaan pesukoneen ekan käyttövuoden vikaantumisen todennäköisyyden suhde saman masiinan toisen käyttövuoden vikaantumisen todennäköisyyteen on täsmälleen sama kuin viidennnentoista ja kuudennentoista käyttövuoden vikaantumisten todennäköisyyksien välinen suhde.
Voiko tästä päätellä että ellei pesumasiina hajoa käytön ensimmäisenä vuonna, niin se ei hajoa koskaan? Eikun ... oikeesti piti kommentoida että kyllä siinä pesumasiinassa käytännössä vanhemmiten elinkaarensa lopuksi alkaa ilmetä sellaisia vaivoja joiden todennäköisyydet eivät noudata samaa alkuperäistä siistiä eksponenttijakaumaa.
Voisihan tuon saman tosin ratkaista elegantimminkin, integroimalla tiheysfunktion kertymäfunktion kaavaksi. Olkoon tällä kertaa vaihtelun vuoksi parametrilla erilainen arvo β = 3
jolloin eksponenttijakauman tiheysfunktioksi tulee f( X ) = 1/β e-X/β = 1/3 e-X/3
ja symbolinen laskin integroi tämän käden käänteessä ylärajaan Y saakka valmiiksi kertymäfunktion F(Y) kaavaksi - vaikkakin vanha Casio vaati lisäksi myös hiukan tuloksen siistimistä.
Eksponenttijakauman kertymäfunktion kaava on siis tässä tapauksessa F(Y) = 1 - e-Y/3
kun parametri on β = 3
ja kaikki tarvittavat integroinnit on jo tehty.
Ensimmäisen käyttövuoden vikaantumisen todennäköisyys olisi periaatteessa F(1) - F(0), mutta F(0) täytyy olla nolla koska eihän nollahetkellä vielä mitään vikaantumistodennäköisyyttä ole ehtinyt kertyä. Vikaantumisen todennäköisyys käytön ekana vuonna saadaan sijoittamalla X = 1 edellä ratkaistuun kertymäfunktion kaavaan F(X) = 1 - e-X/3
joka tuottaa tuloksen 0,283468689. Toisen vuoden loppuun saakka vikaantumisen todennäköisyys on F(2), mutta vikaantumistodennäköisyys pelkästään toisen vuoden aikana lasketaan vähentämällä tuosta ekan vuoden vikatodennäköisyys eli vain toisena vuonna vikariski on F(2) - F(1) = 0,48658288 - 0,283468689 = 0,203114 ja lopputulos eli suhdeluku ekan ja tokan vuoden vian todennäköisyyksien välillä on siten F(1) / (F(2) - F(1)) = 0,283469 / 0,203114 = 1,3956
Vastaavasti voidaan kertymäfunktiosta laskea että F(14) = 0,99059644, F(15) = 0,99326205 ja F(16) = 0,99517205 jotka ovat alusta saakka käyttövuosien 14, 15 ja 16 loppuun mennessä kertyviä vian todennäköisyyksiä. Tässä joutuu valitettavasti arveluttavasti vähentelemään toisistaan lähes yhtä suuria lukuja laskutarkkuutta vaarantaen, mutta näistä lasketaan vian todennäköisyys pelkästään 15. vuoden aikana F(15) - F(14) = 0,99326205 - 0,99059644 = 0,00266561 ja vian todennäköisyys pelkästään 16. vuoden aikana F(16) - F(15) = 0,99517205 - 0,99326205 = 0,00191000. Niinpä suhdeluku 15. ja 16. vuoden todennäköisyyksien välillä (F(15) - F(14)) / (F(16) - F(15)) = 0,00266561 / 0,00191000 = 1,3956
Siis tälläkin tavalla saatiin periaatteessa sama tulos, eksponenttijakaumalla peräkkäisten vuosien vikatodennäköisyyksien suhde säilyy samana, vaikkakin numeroarvot ovat erilaisia aiempaan menettelytapaan verraten koska parametrin β suuruus oli eri.
Seuraavaksi vilkaistaan erilaisia khii2- eli χ2
-jakaumia:
Tämä on eräänlainen gammajakauman erikoistapaus. Todennäköisyyslaskennassa sille on vähemmän käyttöä, mutta tilastomatematiikassa se on tärkeä. Jos satunnaismuuttuja X noudattaa χ2
-jakaumaa ("khii toiseen") niin tätä jakaumaa voidaan hyödyntää esim. tilastollisessa päätöksenteossa. Parametri v on vapausasteiden määrä.
Jos tuosta jotakin fiksua yrittäisi lausahtaa, niin normaalijakauman satunnaismuuttujan neliö noudattaa juuri tätä χ2
-jakaumaa ja tuo "toiseen potenssiin" nimessä juontanee juuri siitä. En tiedä mistä khi on peräisin. Oikeastaan osakuvassa oikealla ylhäällä on eksponenttijakauma koska tuo tapaus v=2 on tulkittavissa gamma-jakaumaksi gamma(x ; v/2, 2) = gamma(x ; 1, 2)
joka on sama kuin eksponenttijakauma expo(x ; β = 2)
.
Nämä kurssilla käytetyt jakaumien nimet kuten expo ovat hiukan originelleja, eivätkä ne noudata mitään standardia. Ne hiukan mukailevat MATLAB:in nimeämiskäytäntöä, mutta ainakin uudemmassa MATLAB:issa eksponenttijakauman funktion nimet alkavat exp... eikä expo... siis esim. exppdf(), expcdf(), expinv(), expstat()
joista viimeinen ...stat loppuinen tuottaa odotusarvon ja keskihajonnan.
Seuraavat kuvaajat edustavat erilaisten log-normaalien jakaumien tiheysfunktioita:
Satunnaismuuttuja X noudattaa log-normaalia jakaumaa jos siitä laskettu erilainen satunnaismuuttuja Y = ln(X)
on normaalijakautunut eli Y noudattaa normaalijakaumaa. Tässä ln
tarkoittaa luonnollista logaritmia. Log-normaalia jakaumaa voidaan käyttää esimerkiksi tehtävän suorittamisen vaatiman ajan mallintamiseen. Kuten kuvaajista näkyy, ovat tiheysfunktiot ei-negatiivisia, epäsymmetrisiä ja oikealle vinoja. Tämän voisi ajatella vaikkapa niin että useimmat tehtävät kuten laitteen korjaamisen tai asiakkaan palvelemisen pystyy suorittamaan nopeasti, mutta jotkut tehtävät voivat viedä paljonkin aikaa.
Tantun mukaan "eräs kotimainen kännykkäfirma" on käyttänyt runsaasti log-normaalia jakaumaa, joten varmaankin ainakin Nokian kännyköiden vikaantumistodennäköisyys on mallinnettavissa log-normaalilla jakaumalla, joillakin parametreilla joita en tunne. Eri parametreillahan jakaumista saadaan aikaan mitä erilaisimpia käppyröitä.
Vielä esitämme Weibull-jakauman [vaibul] tiheysfunktioita. Weibull-jakauma ei kuulu gamma-jakaumien laajaan perheeseen, vaan se on määritelty eri tavalla. Kuitenkin kaiketikin vasemman puoleinen ylempi osakuva parametrein α = 1, β = 1
yllättäen esittää entuudestaan tuttua ekponenttijakaumaa, joka on eräs gamma-jakauman erikoistapaus.
Tantun mukaan puumateriaalin oksakohtien välimatka noudattaa Weibull:in jakaumaa. Hän on ymmärtääkseni joskus aikoinaan Vähäraumassa (SAMK?) työskennellessään saanut suuren todennäköisyyslaskennan gurun maineen, koska pystyi lonkalta heittämään vastauksena tällaisen kallisarvoisen tiedonjyväsen puurakenteita suosivan ja puupalkkeja tutkiskelevan rakennusalan auktoriteetin esittämään kysymykseen. Kyseisen minulle tuntemattoman heebon nimi löytyy lähdekoodista kommenttina TÄSTÄ > < VÄLISTÄ. (Tanttu muuten videoillaan järkiään lausuu jakauman nimen "jakautuma", vaikka kaikissa hänen papereissa lukee "jakauma").
Jakaumia on siis aivan sairaan paljon erilaisia. Todennäköisyyslaskennassa näitä voidaan kuvata tiheysfunktion avulla.
Entäpä yhteys tilastomatematiikkaan? Ymmärtääkseni tilastomatematiikassa lähdetään tilastoista eli käytännön havainnoista. Niistä tiedoista voidaan laskea esimerkiksi valitun satunnaismuuttujan tiheysfunktio ja sitten laatia histogrammi eli eräänlainen graafinen kuvaaja ja koetetaan sovittaa tuohon histogrammiin jokin jakauma joka tunnetaan todennäköisyyslaskennan pohjalta. Kun havainnot voidaan kuvata tietyllä jakaumalla, niin ilmiö on matemaattisesti paremmin hanskassa. Huonompi juttu jos histogrammi muistuttaa kaksikyttyräistä kamelia, sillä sellaista jakaumaa todennäköisyyslaskenta tuskin tuntee.
Tantun mukaan todennäköisyyslaskennan kurssin arvosanojen jakaumat juurikin näyttävät kahdelta kyttyrältä. Ykkösen eli alhaisimman hyväksyttävän arvosanan kohdalla on korkea pylväs. Monelle riittää jos kurssin saa suoritettua rimaa hipoen. Nelosen ja viitosen eli korkeimpien arvosanojen kohdalla on myös korkea pylväs, "koska jos on valmis tekemään töitä kolmosen eteen, niin on valmis tekemään töitä enemmänkin". Keskimmäisen arvosanan eli kolmosen kohdalla on kuoppa, vaikka normaalijakauman mukaan juuri siinä pitäisi olla kaikkein korkein huippu.
Minä kuitenkin sain todennäköisyyslaskennasta arvosanaksi juurikin 3 johon nimenomaan tähtäsin. En hyväksy kamelijakaumaa, vaan pyrin tietoisesti kannattamaan normaalijakaumaa. No joo, myönnän reilusti että jotkut tähtitehtävistä olivat minulle todella aivan oikeasti liian vaikeita, esimerkiksi konvoluutiointegraali. Lineaarialgebran kursseista sain arvosanaksi vitoset, mutta realistisesti luultavasti olen matemaatikkona vain sellaista luokkaa 3 tai 4 viisiportaisella asteikolla. Lapsi-insinöörien AMK-matematiikan peruskursseista toki selviydyin hyvin arvosanoin, mutta tavallinen AMK-matikka ei ole todellista matikkaa. Matematiikka-moduulin neljännestä osasta eli Matte nelosesta yritän kuitenkin saada arvosanaksi 4 tai 5 jos opiskeluoikeus jatkuu ja jos on mahdollista osallistua siihen kurssiin.
Kuuluisin jatkuva jakauma on epäilemättä normaalijakauma, se suunnattoman kuuluisaa "Gaussin kellokäyrää" noudattava symmetrinen todennäköisyysjakauma. Gaussin käyrä on kuin kirkonkellon halkileikkaus, kapea ylhäältä keskeltä ja leviää kauniisti kaareutuen alas molempiin suuntiin. Haluamme ajatella monien luonnollisten ilmiöiden noudattavan normaalijakaumaa.
Antaa normaalijakauman toistaiseksi levätä omassa rauhassaan. Katsotaan sen asemesta esimerkin kautta erästä toista jakaumaa, beta-jakaumaa. Pienet kreikkalaiset kirjaimet "alfa" eli α ja "beta" eli β ovat sen parametreja.
Sementin seassa voidaan sietää sinänsä liian suuria kappaleita kunhan niitä ei ole suhteessa liian paljon. Arvattavasti liian suuret rakeet heikentävät sementin laatua jos niitä on tiettyä rajaa enemmän. En tiedä miten realistinen tämä tehtävä on, mutta olettaisin että osuus tarkoittaa osuutta nimenomaan sementin painosta. Siis liian suurten rakeiden suhteellinen osuus koko erän painosta on se satunnaismuuttuja. Esimerkiksi satunnaismuuttujan arvo Y = 0,10 tarkoittaa että liian suurien rakeiden massa on 10% koko sementtierän massasta.
Tehtävän a) kohta kysyy satunnaismuuttujan odotusarvoa ja keskihajontaa. Niille löytyy valmiit kaavat ja todettakoon selkeyden vuoksi että odotusarvo μ = α / ( α + β ) = 1/4 = 0,25
ja varianssi σ2 = ( α β ) / ( (α + β)2 (α + β + 1) ) = 0,0375
joten sen positiivinen neliöjuuri eli keskihajonta σ = 0,19365
. Yksikkönä odotusarvossa ja keskihajonnassa on sama kuin satunnaismuuttujalla, eli ne edustavat liian suurten rakeiden suhteellista massaosuutta.
Voisi siis ylimalkaisesti sanoa että liian karkeitten partikkelien tyypillinen osuus erässä on noin 0,25 eli 25%. Vaihtelua epäilemättä on. Keskihajonnan perusteella voisi ylimalkaisesti arvioida että välillä μ ± σ
on paljon sisältöä. Eli satunnaismuuttujan arvojen 0,25 - 0,19 .... 0,25 + 0,19
eli liian suurien partikkelien osuuksien arvojen 0,06 ... 0,44
tulisi jakaumassa olla melkoisen runsaasti edustettuina. Tämä vain karkeana nyrkkisääntönä, tarkemmin ei voi tällä perusteella sanoa.
Odotusarvo on oikeastaan satunnaismuuttujan arvolla painotettu keskiarvo ja tällä epäsymmetrisellä jakaumalla sillä on taipumusta olla jonkin verran suurempi kuin mediaani, koska isot satunnaismuuttujan arvot "painavat" enemmän kuin pienet arvot.
Tehtävän b) -kohdalle MatLab antaisi eleettömästi nopean vastauksen betainv(0.5, 1, 3) = 0.2063
käyttäen apuna valmista beta-jakauman kertymäfunktion käänteisfunktiota joka etsii annettua kertymää 0.5 vastaavan satunnaismuuttujan arvon 0.2063 kun beta-jakauman parametrit ovat α = 1, β = 3
.
Laskimen käyttäjälle ei lie tarjolla suoraa keinoa tuon tuloksen saamiseksi. Mutta onhan paljon autuaampaa ja opettavaisempaa ymmärtää miksi ja miten, kuin vain saada valmis vastaus eteensä kuin Manun illallinen. En edes yritä tarjota tässä yleispätevää ratkaisua, vaan ratkaisu on pelkästään tässä tehtävässä esitetylle tapaukselle jossa beta-jakauman parametrit ovat vakioita : α = 1, β = 3
.
Beta-jakauma on eräänlainen tasaisen jakauman yleistys ja se perustuu beta-funktioon B(α, β)
. Sopivilla parametrien arvoilla beta-jakaumasta todella tulisi tasainen, mutta tämä ei sellainen tapaus ole. Koko komeudessaan beta-jakauman tiheysfunktion määritelmä satunnaismuuttujan X arvoille välillä 0 < X < 1
on seuraava:
1 beta(x ; α, β) = -------- Xα - 1 (1 - X)β - 1 B(α, β)
Parametrien α
ja β
arvojen täytyy olla nollaa suurempia ja satunnaismuuttujan X arvojen täytyy todella olla välillä 0 ... 1 koska kyse on osuudesta 0 ... 100%. Urheilussa voidaan ehkä vaatia esimerkiksi 125% suoritustasoa, mutta todennäköisyyslaskennassa sellainen ei käy päinsä.
Beta-funktion ( B ) arvo puolestaan voidaan määritellä eräänä ilkeänä integraalina, mutta se voidaan myös laskea gamma-funktion ( Γ
) avulla.
Γ(α)· Γ(β) B(α, β) = ----------- Γ(α + β)
Gamma-funktion arvot taas ovat helppoja silloin kun argumentti (n > 0) on kokonaisluku : Γ(n) = (n-1)!
joten muun muassa seuraavat helposti laskettavat arvot pätevät:
Γ(1) = (1-1)! = 0! = 1 Γ(2) = (2-1)! = 1! = 1 Γ(3) = (3-1)! = 2! = 1·2 = 2 Γ(4) = (4-1)! = 3! = 1·2·3 = 6 Γ(5) = (5-1)! = 4! = 1·2·3·4 = 24
Jos gamma-funktion argumentit eivät olisi kokonaislukuja joille funktion arvo saadaan kertoman avulla kuten yllä, olisi gamma-funktion arvo laskettava äärettömänä integraalina. Kertoma on määritelty vain kokonaisluvuille.
Oheinen kuva esittää miten argumentille 4 laskettaisiin gamma-funktion arvo Γ(4) = 6
integraalina. Tällainen integrointi ei ole tässä tapauksessa tarpeen, mutta ehkä periaate on silti hyvä osata.
Tässähän α ja β ovat kokonaislukuja ja vakioita : α = 1, β = 3
, joten voimme helposti laskea niitä vastaavan beta-funktion arvon gamma-funktion arvojen avulla kertomia käyttäen :
Γ(1)· Γ(3) 1· 2 2 1 B(α, β) = B(1, 3) = ----------- = ------ = --- = --- Γ(1 + 3) Γ(4) 6 3
Kun tiedämme että B(α, β) = B(1, 3) = 1/3
, on beta-jakauman tiheysfunktio helppo ratkaista tässä erikoistapauksessa. Käytetään satunnaismuuttujaa Y koska se mainitaan tehtävässä.
1 beta(y ; α, β) = beta(y ; 1, 3) = ----- y1-1 (1 - y)3-1 = 3· y0· (1 - y)2 1/3
Tässä tapauksessa aluksi mutkikkaan näköinen beta-jakauman tiheysfunktio siis pelkistyy suhteellisen yksinkertaiseen muotoon beta(y ; 1, 3) = 3·(1 - y)2
eli siinä on eksponentti 2 ja muuttuja on siis toista astetta. Niinpä vastaavassa kertymäfunktiossa muuttuja tulee olemaan kolmatta astetta koska kertymäfunktio on tiheysfunktion integraali. Jos on helpompi ajatella toisin päin niin sanotaan että tiheysfunktio on kertymäfunktion derivaatta.
Hyvä, nyt tiedämme että tiheysfunktio on sittenkin suhteellisen simppeli. Ja kyllähän sen herrajjumala on syytäkin olla simppeli jos aiomme integroida sen!
Mutta mitä tehtävän b)-kohdassa oikeastaan kysytään? Kysytään satunnaismuuttujan mediaania. Satunnaismuuttujan mediaani on se satunnaismuuttujan arvo jota vastaava kertymäfunktion arvo on tasan puoli. Mediaaniin saakka nollasta tultaessa tiheysfunktiosta kertyvä todennäköisyys on kerännyt todennäköisyyttä tasan 50% edestä. Mediaanin kohdalla tilanne on siis fifty-fifty.
Meillä on siis jo tälle erikoistapaukselle pätevä beta-jakauman tiheysfunktio, mutta tarvitsemme vastaavan kertymäfunktion. Sen saamme integroimalla tiheysfunktion. Symbolinen laskin on tässä kovasti kätevä. Tehtävän b) -kohdassa haluamme oikeastaan ratkaista beta-jakauman kertymäfunktion käänteisfunktion arvon siten että kertynyt todennäköisyys on tasan 0.5, eli haluamme löytää sen satunnaismuuttujan Y arvon jolla todennäköisyys on tasan fifty-fifty. Mutta ensin ratkaistaan kertymäfunktio analyyttisesti eli selvitetään millainen yhtälö kuvaa kertymäfunktiota.
Symbolisen laskennan hanskaava CAS-laskin (Computer Algebra System) kertoo helposti että integroimalla tiheysfunktion lauseke f(Y) = 3·(1 - y)2
alkuarvosta nolla (0) aina johonkin tarkemmin määrittelemättömään ylärajaan X saakka saadaan tuloksena kertymäfunktio F(X) = (X - 1)3 + 1
ja beta-jakauman kertymäfunktio siis tässä tapauksessa on tämän kaavan mukainen.
Mediaanin kohdalla kertymäfunktion arvo on puoli, eli F(X) = (X - 1)3 + 1 = 0.5
. Tuhannen taalan kysymys kuuluukin, mikä on satunnaismuuttujan arvo X siten että edellinen yhtälö toteutuisi. No juu, tässä on kolmannen asteen yhtälö, joka on ehkä hiukan ronkeli ratkaista käsin, mutta laskimen solve-toiminto auttaa (Casiossa valikkokomento Interactive | Advanced | solve
). Laskimen solve-toiminto kertoo meille että:
solve((y - 1)3 + 1 = 0.5, y) = { y = 0.2062995 }
Eli tässä näkyy suoraan se b) -kohdan etsitty vastaus, satunnaismuuttujan Y mediaanin arvo 0.2062995. Kun karkeitten partikkelien osuus on 20,6% massasta niin kertymäfunktiolla on arvo 50%. Mediaani 20,6% on siis tässä pienempi kuin odotusarvo 25%, josta voinee siitäkin päätellä että jakauma on vino ja epäsymmetrinen. Jos sementtierässä voitaisiin hyväksyä niinkin suuri liian karkeitten rakeiden osuus kuin 20,6% massasta niin erän hyväksymisen todennäköisyys olisi fifty-fifty, eli säätötekniikan kannalta hiinä-ja-hiinä.
Kolmannen asteen yhtälöllä on oikeastaan aina kolme juurta, mutta tämä on tässä tapauksessa niistä ainoa reaalinen. Jos olisi muita reaalisia juuria, haluttaisiin se joka on arvojen 0 ja 1 välissä. Beta-jakaumassa satunnaismuuttujan arvon nimittäin täytyy olla suurempi kuin nolla ja pienempi kuin 1. Tiheysfunktion kaava ei päde muilla arvoilla. Tässä tapauksessa muut juuret ovat kompleksisia, joten ne eivät tässä yhteydessä kiinnosta. Laskin osaisi kyllä ne ratkoa, mutta se ei vaivaudu niitä esittelemään, ellei asetuksissa ole nimenomaan sitä vaadittu.
Entä tehtävän kohta c)? Mikä on todennäköisyys sementtierän hyväksymiselle annetun beta-jakauman pohjalta? Liian suurien partikkelien suuruus noudattaa tiettyä beta-jakaumaa ja halutaan tietää todennäköisyys että liian karkeitten partikkelien osuus on alle 10%. Ensi näkemältä aika paljon pyydetty kun satunnaismuuttujan mediaanikin on 20,6% eli huomattavasti suurempi.
Halutaan todennäköisyys P(Y < 0.10)
joka voidaan ratkaista edellä selvitetyn kertymäfunktion avulla P(Y < 0.10) = F(Y = 0.10)
, koska väkänen on tuossa juuri oikeaan suuntaan, todennäköisyys että Y on pienempi kuin 0,10. Jatkuvan jakauman kertymäfunktiolla nimenomaan lasketaan todennäköisyys sille että satunnaismuuuttujan arvo on pienempi kuin jokin tietty vakio. Jos halutaan laskea todennäköisyys että satunnaismuuttujan arvo on suurempi kuin jokin vakio, on laskettava komplementin kautta P(Y > 0.10) = 1 - P(Y < 0.10) = 1 - F(Y = 0.10)
mutta tässähän ei niin tarvitse tehdä. Tässä halutaan siis todennäköisyys sille että satunnaismuuttujan Y arvo on pienempi kuin 0.1, eli karkeitten rakeitten massaosuus betonierässä on korkeintaan 10%, joka on edellä ratkaistun beta-jakauman kertymäfunktion arvo kun satunnaismuuttuja Y = 0.10
Tämä on siis suoraan laskemalla P(Y < 0.10) = F(Y = 0.10) = (Y - 1)3 + 1 = (0.1 - 1)3 + 1 = (-0.9)3 + 1 = 0.271
joten sementtierän hyväksymisen todennäköisyys on melko masentavan alhainen 0.271 eli 27,1%. Luultavammalta sikäli tuntuu että erä on hylättävä koska hyväksymisen todennäköisyys on selvästi alle 50%.
MatLab antaisi ilmeenkään värähtämättä saman tuloksen funktiokutsulla betacdf(0.1, 1, 3) = 0.2710
käyttäen valmista beta-jakauman kertymäfunktiota.
MatLab-ohjelmalla on helppo tehdä havainnollistavia piirroksia, joten saanen vielä aikaiseksi muutaman sellaisen tähän päätteeksi koulun tietokoneluokan koneen MATLAB-ohjelmasta.
Ensimmäinen kuva esittää gamma-funktiota argumentin arvoilla lähes nollasta 5:een saakka. Kokonaisluku-argumentteja vastaavat arvot Γ(1), Γ(2), Γ(3), Γ(4), Γ(5)
on ympyröity käyrässä punaisin ympyröin. Tämä kuvaaja ei siis esitä gamma-jakaumaa, vaan pelkkää gamma-funktiota jota yllä hyödynsimme beta-funktion arvon laskemisessa. Gamma-funktio on kertoman yleistys reaaliluvuille. Tavallinen kertomahan koskee ainoastaan kokonaislukuja.
Ylläoleva piirros saadaan MATLAB-ohjelmassa aikaiseksi seuraavalla koodinpätkällä jossa käytetään funktiota gamma laskemaan käyrän tärkeät arvot:
F_size = 16; x = [0.05:0.01:5.0]'; xn = [1:5]'; y = gamma(x); yn = gamma(xn); figure(1) hold on plot(x,y) plot(xn,yn,'ro') set(gca, 'FontSize', F_size); title('gammafunktio')
Tuossa on ehkä hiukan kryptisiä merkintöjä. Esimerkiksi [1:5]'
luo taulukon eli MATLABiksi vaakavektorin jossa on kokonaisluvut [1 2 3 4 5]
ja perässä oleva hipsu transponoi sen pystyvektoriksi. Tosin pystyvektoriksi muuttamisella ei tässä ole merkitystä, ilman hipsua se toimisi yhtä hyvin. Vastaavasti [0.05:0.01:5.0]'
luo paljon isomman vektorin jossa on desimaalilukuja alkaen 0,05:stä aina 5,00:aan saakka, 0,01 yksikön välein, siis lähes 500 desimaalilukua. Tätä käytetään kuvassa vaakasuuntaisen X-akselin arvoina. Hipsu perässä ei haittaa, mutta ei myöskään hyödytä. Puolipiste perässä vain estää arvoja tulostumasta.
Tuo kirjoitustapa pystyvektoreiksi on kuitenkin ymmärrettävissä sikäli että yhteenkuuluvia plotattavia tietoja voisi tarkistaa kätevästi muodostamalla niistä matriisin [x y']
tai [xn yn']
jossa pystyvektorit ovat matriisin sarakkeina. Siis edellyttäen että myös y ja yn on käännetty hipsulla pystyvektoreiksi. Matriisin numerot tulostuisivat silloin niin että yhteen kuuluvat argumentin ja funktion arvot näkyvät vierekkäin samalla rivillä. Esimerkiksi nuo kokonaislukuvektorit [ xn yn' ]
näyttäisivät matriisina ruudulla suunnilleen seuraavalta kun yn siis edustaa gamma-funktion arvoja argumenteista jotka ovat vektorissa xn:
[ xn yn' ] 1 1 2 1 3 2 4 6 5 24
Kun muuttuja x sisältää tuon hurjan ison vektorin, niin viattoman näköinen lause y = gamma(x);
muodostaa myös yhtä ison vektorin jossa kunkin x-vektorin arvon kohdalla (sen kanssa samassa indeksissä) on vastaava gamma-funktion arvo. Vaikka sitä ei olekaan missään erikseen esitelty taulukkona, tällainen järkyttää vanhan koodarin maailmankuvaa. Vektorit x ja y ovat yhtä pitkiä. Vektori y sisältää X-arvoja vastaavat funktion arvot eli pystysuuntaisen Y-akselin mukaiset arvot. X- ja Y-arvot syötetään muodostamaan kuvaaja lauseella plot(x, y)
ja hold on
mahdollistaa useamman plottauksen samaan kaavioon. Toinen plottaus on noiden kokonaislukuargumentteja vastaavien punapalluroiden piirto.
Tuon salakavalan taulukoiden synnytyksen luulisin olevan eräs suurimmista kynnyksistä MATLAB-koodin ymmärtämisessä.
Seuraava kuva esittää yllä käsiteltyä beta-jakauman tiheysfunktiota satunnaismuuttujan arvojen välillä 0 ... 1 kun parametrit ovat α = 1, β = 3
. Käyrässä on esitetty punaisin ympyröin kohdat joissa tehtävästä tuttu satunnaismuuttujan arvo on 0.10 (tehtävässä mainittu arvo), 0.2063 (satunnaismuuttujan mediaani) ja 0.25 (satunnaismuuttujan odotusarvo). Mediaanin kohdalla on punainen katkoviiva pystyssä.
Piirrosta vastaava MATLAB-koodi joka käyttää beta-jakauman tiheysfunktiota betapdf :
alfa = 1; beta = 3; x = [0.01:0.01:1.0]; xn = [0.1, 0.2063, 0.25]; y = betapdf(x, alfa, beta); yn = betapdf(xn, alfa, beta); figure(1) hold on plot(x,y) plot(xn,yn,'ro') set(gca, 'FontSize', 14); title('Beta-jakauman tiheysfunktio, \alpha = 1, \beta = 3') plot([0.2063, 0.2063], [0, betapdf(0.2063, alfa, beta)], '--rs') % mediaanin kohtaan pystyviiva
Seuraava kuva esittää beta-jakauman kertymäfunktion arvon kertymistä satunnaismuuttujan arvojen välillä 0 ... 1.
Piirrosta vastaava MATLAB-koodi joka käyttää beta-jakauman kertymäfunktiota betacdf :
alfa = 1; beta = 3; x = [0.01:0.01:1.0]; xn = [0.10, 0.2063, 0.25]; y = betacdf(x, alfa, beta); yn = betacdf(xn, alfa, beta); figure(1) hold on plot(x,y) plot(xn,yn,'ro') set(gca, 'FontSize', 12); title('Beta-jakauman kertymäfunktio, \alpha = 1, \beta = 3')
Lisäyksenä kertymäfunktion kuvaajaan olen piirtänyt tehtävän kohtien b) ja c) periaatteellisen ratkaisutavan. Vihreä nuoli näyttää miten c) kohdassa päädytään vaaka-akselin satunnaismuuttujan arvosta 0,10 kertymäfunktion käyrän kautta pystyakselilla olevaan todennäköisyyden arvoon noin 0,27 käyttäen tavallista beta-jakauman kertymäfunktiota. Punainen nuoli näyttää miten käänteinen probleema ratkaistaan tehtävän b) kohdassa. Siinä tarvitaan kertymäfunktion käänteisfunktiota. Lähdetään pystyakselilta todennäköisyyden arvosta 0,50 ja päädytään kertymäfunktion käyrän kautta vaaka-akselille satunnaismuuttujan arvoon noin 0,206 käyttäen beta-jakauman kertymäfunktion käänteisfunktiota.
En tiedä miten MATLAB laskee kertymäfunktion käänteisfunktion. Arvojen plottaushan on kyllä tuossa kuvassa tehty tavallisen kertymäfunktion betacdf
eikä sitä vastaavan käänteisen funktion betainv
avulla.
Ylläolevassa laskimella yksityiskohtaisesti ratkaisemisessa lähdimme tiheysfunktion yhtälöstä ja integroimme siitä analyyttisesti vastaavan kertymäfunktion yhtälön. Sitten ratkaisimme kertymäfunktion tuntemattoman satunnaismuuttujan arvon kun kertymäfunktiolla on jokin tietty arvo. Ja kappas vaan, tuloksena on todennäköisyyttä vastaava satunnaismuuttujan arvo. Ylläolevassa voimme ajatella että satunnaismuuttuja Y on vaaka-akselilla ja pystyakselilla on vastaava todennäköisyys P. Näitä merkintöjä käyttäen tiheysfunktion käyrä on yhtälön P = 3·(1 - Y)2
mukainen ja siitä integroitu kertymäfunktion käyrä on yhtälön P(Y) = (Y - 1)3 + 1
mukainen. Kun kertymäfunktion todennäköisyydellä P on tietty numeerinen arvo (Y - 1)3 + 1 = 0,50
niin haluttu Y saadaan ratkaisemalla tuo kolmannen asteen yhtälö muuttujan Y suhteen.
Hiukan temppuilemalla beta-jakauman tiheysfunktion ja kertymäfunktion saa myös samaan kuvaan. Olen hiukan venyttänyt piirrosta pystyssuunnassa niin että kertymäfunktio ei jää kovin pieneksi. Tiheysfunktio saa alussa hurjia arvoja joten sitä täytyy hillitä. Niinpä en tässä esitä tiheysfunktion arvoa satunnaismuuttujan arvolle 0,10.
Mitä näistä sitten opimme? Beta-jakauman tiheysfunktiolla (sininen käyrä) on pienillä satunnaismuuttujan arvoilla melko suuria arvoja. Niinpä kertymäfunktion (punainen käyrä) arvot lähtevät aluksi rivakkaan nousuun. Mediaanin kohdalla, satunnaismuuttujan arvo noin 0,2 vaaka-akselilla, kertymäfunktio on jo saavuttanut arvon 0,5 eli puolet siitä mitä se koskaan tulee saavuttamaankaan. Jos pystyisimme laskemaan sen pinta-alan joka tiheysfunktiossa on tällä kohdalla vaaka-akselin ja sinisen käyrän välissä nollasta alkaen, niin sekin olisi puolet koko pinta-alasta ykköseen saakka.
Kertymäfunktio käyrän kolmannen punaisen palluran kohdalla satunnaismuuttujan arvo on 0,25 ja siinä on satunnaismuuttujan odotusarvo. Symmetrisessä jakaumassa satunnaismuuttujan odotusarvo ja mediaani olisivat täsmälleen samassa kohdassa, mutta tässähän tiheysfunktio ei ole symmetrinen.
Suuremmilla satunnaismuuttujan arvoilla tiheysfunktio alkaa hiipua kohti nollaa ja kertymäfunktion kertyminen vastaavasti hidastuu. Lopuksi kertymäfunktion arvo saavuttaa arvon 1 ja siitä se ei enää kasva, sen paremmin kuin pienenekään, sillä se ykkönen tarkoittaa että 100% todennäköisyyttä on kertynyt. Urheilupiirien ulkopuolella sen enempi on mahdotonta.
Beta-jakauman tiheysfunktion arvo menee tasan nollaan kun satunnaismuuttuja on 1. Normaalijakaumassa eli siinä äärimmäisen kuuluisassa Gaussin kellokäyrässä tiheysfunktion arvo vaan loputtomasti lähenee nollaa odotusarvosta etäännyttäessä, mutta beta-jakaumassa tiheysfunktion arvo on tasan nolla välin 0 ... 1 ulkopuolella.
Voi ajatella että tiheysfunktio on kertymäfunktion derivaatta ja ilmaisee siten kertymäfunktion kuvaajan kulmakertoimen. Tosin X- ja Y- akseleiden mitta-asteikot pitäisi skaalata samalla tavalla että tämä näyttäisi ihan oikealta. Kun tiheysfunktiolla on arvo 1 (satunnaismuuttujan arvo noin 0,4) niin kertymäfunktion pitäisi nousta 45° kulmassa koska sellaisen kulman tangentti on 1. Mutta eihän se oletusarvoin oikein näytä siltä koska pystysuuntaisen Y-akselin mitta on suurempi vaakasuuntaiseen X-akseliin verrattuna. Niinpä tässä on piirrosta venytetty pystysuunnassa.
Huomattakoon että tiheysfunktion arvot ovat aina positiivisia tai ainakin ei-negatiivisia, vaikka tiheysfunktion käyrä onkin tässä laskeva. Niinpä kertymäfunktion käyrä ei koskaan laske alaspäin oikealle mentäessä. Kertymäfunktion arvo voi vain kasvaa tai pysyä samana satunnaismuuttujan arvon kasvaessa.
Normaalijakauma on varmaan sinänsä aivan hieno jakauma. Ikävänä puolena siinä on että vaikka sen tiheysfunktio onkin moitteettoman siistin näköinen, niin sillä ei ole äärellisen pituisessa suljetussa muodossa ilmaistavaa kertymäfunktiota. Normaalijakauman tiheysfunktiolle ei ole olemassa siistiä analyyttistä integraalia. Tokihan kertymäfunktion arvoja silti pystyy laskemaan numeerisesti, raakaa voimaa käyttäen. Ja tokihan niitä on laskettu valmiiksi taulukoihin vuosien mittaan, mutta taulukkoja nykyisin tuskin käytetään, havainnollisuudestaan huolimatta. Tietotekniikka se on kun nykypäivänä rikuneeraa. Ei nykyisin enää tarvitse ymmärtää, riittää kunhan painaa nappulaa!
Tosin pienenä kauneusvirheenä normaalijakauma ulottuu "äärettömyyteen" saakka molemmissa suunnissa. Odotusarvosta etäännyttäessä satunnaismuuttujan todennäköisyys pienenee, mutta se ei oikeastaan missään mene aivan nollaan. Jos väitetään että ihmisten pituus noudattaa normaalijakaumaa, silloin pitäisi parametreista riippumatta hyväksyä se periaatteellinen - vaikkakin hyvin pieni - todennäköisyys että joidenkin ihmisten pituus on negatiivinen ja joidenkin pituus ylittää 3 metriä. Joten normaalijakauma ei aivan täsmällisesti kuitenkaan ääritapauksissa kuvaa todellisuutta vaikka näyttääkin hyvältä odotusarvon lähellä. Negatiivinen pituus ei ole edes fysikaalisesti mahdollinen.
On kiva plotata vertailun vuoksi myös normaalijakauman tiheys- ja kertymäfunktiot. Ne ovat hyvin erilaisia kuin beta-jakauman vastaavat. Normaalijakauma voidaan sijoittaa mihin tahansa odotusarvoon ja se voidaan levittää minkä levyiseksi halutaan. Perusominaisuudet säilyvät tällaisessa käsittelyssä samoina, toisin kuin monilla muilla jakaumilla.
Normaalijakauman tiheysfunktio on symmetrinen ja sen satunnaismuuttujan keskiarvo on sama kuin odotusarvo ja myös sama kuin mediaani ja moodi. Normaalijakauman tiheysfunktion parametrit ovat samat kuin sen tunnusarvot odotusarvo ja keskihajonta. Normaalijakauman tiheysfunktio on äärimmäisen sileä ja se derivoituu miten monta kertaa tahansa, sillä funktio jolle se oleellisesti perustuu, ex on samalla sekä oma integraalinsa että oma derivaattansa. Matemaattisesti hieno juttu, mutta käytännön elämää ajatellen ehkä liiankin hieno.
Siispä kuvataan seuraavaksi normaalijakauman tiheysfunktio eli se kuuluisa "Gaussin kellokäyrä" (vaikka todellisuudessa sen lie keksinyt de Moivre) käyttäen MATLAB-funktiota normpdf
. Tässä on kuvattu ns. standardi-normaalijakauma jonka odotusarvo on (pieni kreikkalainen kirjain "myy") μ = 0 eli se keskittyy nollan ympärille ja keskihajonta on (pieni kreikkalainen kirjain "sigma") σ = 1.
Tässä on kuvattu normaalijakauma vain välillä μ - 3·σ ... μ + 3·σ
, eli kolminkertainen keskihajonta ±3·σ
odotusarvon μ = 0
molemmin puolin, mutta tiheysfunktion arvo ei varsinaisesti mene missään aivan tasan nollaan. Satunnaismuuttujan arvot ylettyvät negatiivisesta äärettömyydestä positiiviseen äärettömyyteen, mutta tiheysfunktion arvot toki ovat siellä kaukana jo aika pieniä. Odotusarvosta etäännyttäessä tiheysfunktion arvo lähenee asymptoottisesti nolla. Tällaisessa graafisessa esityksessä vain noin kolmen merkitsevän numeron esitystarkkuus on mahdollista, joten kolmea keskihajontaa kauemmaksi käyrää ei juurikaan kannata samassa lineaarisessa pystymittakaavassa esittää.
Satunnaismuuttujan odotusarvo μ = 0 on siis vaaka-akselilla keskellä ja keskihajonta σ = 1 yltää siitä yhden yksikön päähän kumpaankin suuntaan. Vihrein nuolin on kuvattu satunnaismuuttujan arvoalue kaksi keskihajontaa odotusarvon molemmin puolin. Keskihajonnan päässä odotusarvosta eli satunnaismuuttujan arvoilla μ-σ
ja μ+σ
tapahtuu jotakin dramaattista : tiheysfunktion käyrän kaarevuuden suunta muuttuu.
Seurataan tiheysfunktion kuvaajaa vasemmalta oikealle, kasvavan satunnaismuuttujan arvon suuntaan. Odotusarvoa pienemmillä satunnaismuuttujan arvoilla tiheysfunktion derivaatta on positiivinen koska käyrä nousee. Odotusarvoa edeltävää keskihajonnan pistettä pienemmillä arvoilla tiheysfunktion toinen derivaatta on positiivinen koska käyrä kaartuu ylöspäin. Keskihajonnan pisteen jälkeen funktion derivaatta on edelleen positiivinen, mutta toinen derivaatta on negatiivinen koska käyrä kaartuu alaspäin vaikka se edelleen kulkeekin ylöspäin.
Odotusarvon kohdalla tiheysfunktiolla on maksimi ja derivaatta on siinä nolla. Tämän jälkeen käyrä lähtee laskuun, joten derivaatta on negatiivinen. Aluksi toinen derivaatta on myös negatiivinen, koska käyrä kaartuu alaspäin. Keskihajonnan päässä odotusarvosta toinen derivaatta on nolla ja tämän jälkeen se muuttuu positiiviseksi koska käyrä kaartuu ylöspäin vaikka käyrä onkin edelleen laskeva.
Pinta-alojen tarkka arviointi on ehkä hiukan hankalahkoa, mutta tavanomaista on esittää todennäköisyydet pinta-aloina jotka jäävät tiheysfunktion käyrän ja vaaka-akselin väliin. Todennäköisyyden integrointi pitäisi oikeastaan aloittaa negatiivisesta äärettömyydestä. Mietitään harjoituksen vuoksi todennäköisyyttä satunnaismuuttujan arvojen välillä μ-2σ
ja μ+2σ
eli siis kahden yksikön päässä odotusarvon molemmin puolin. Karu nyrkkisääntö kertoo että normaalijakaumassa tuolle välille kuuluu 95% koko todennäköisyydestä. Siis ajatellaan että tiheysfunktion käyrän alle välillä μ-2σ
ja μ+2σ
jää noin 95% koko tiheysfunktion käyrän alle jäävästä pinta-alasta.
Standardinormaalijakauman tiheysfunktio on sentään vielä aika simppeli, joten voisimme laskea tuon tuloksen laskimella integroiden standardin normaalijakauman tiheysfunktion arvoja satunnaismuuttujan arvoihin μ+2σ
ja μ-2σ
sekä vähentämällä jälkimmäisen tuloksen edellisestä. Integroitavassa kaavassa esiintyvät päättymättömät ja dimensiottomat eli laaduttomat vakiot e = 2,71828...
joka on luonnollisen logaritmijärjestelmän kantaluku ja pieni kreikkalainen kirjain "pii", π = 3,14159...
joka on ympyrän kehän pituuden ja halkaisijan pituuden välinen suhdeluku. X on satunnaismuuttuja jonka suhteen integroidaan.
Kuten näkyy, on standardinormaalijakauman kertymäfunktion arvo F(2) eli tiheysfunktion integraali negatiivisesta äärettömyydestä arvoon +2 saakka noin F(2) = 0,97725
ja kertymäfunktion arvo F(-2) eli tiheysfunktion integraali negatiivisesta äärettömyydestä arvoon -2 saakka noin F(-2) = 0,02275
. Näiden erotus F(2) - F(-2) = 0,97725 - 0,02275 = 0,95450
joka on juurikin tuo yllä mainittu noin 95%. Nyrkkisääntö siis pätee normaalijakaumalle, myös muille kuin standardijakaumalle kunhan huomioidaan täsmällinen odotusarvo ja keskihajonta.
Laskimella voisimme kylläkin laskea tiheysfunktion integraalin suoraan satunnaismuuttujan arvojen välillä -2:sta +2:een ja saisimme yhdellä kerralla saman tuloksen. MATLAB ei tietääkseni tee tällaista mahdolliseksi, vaan sen kanssa täytyy käyttää ylempää menettelytapaa, eli tyyli on F(b) - F(a) = normcdf(b, ...) - normcdf(a, ...)
jossa olen ylimielisesti kuitannut funktion parametrit vain kolmella pisteellä ja täytyy olla a < b eli a on pienempi kuin b.
Tiheysfunktio on todennäköisyyslaskennassa lähtökohta, mutta kertymäfunktio on se tärkeämpi kun lasketaan todennäköisyyksiä. Vaikka eihän normaalijakauman kertymäfunktion arvoja tavallisesti integroida tuolla tavalla, vaan niiden laskemiseen on laskimessakin omat toimintonsa. Ennen kertymäfunktion arvoja on laskettu taulukoihin, mutta taulukkoja enää tuskin käytetään. Tietotekniikka rulaa.
Casio-laskimessa normaalijakauman kertymäfunktion vizardi löytyy (ylhäältä) valikkopolulta Interactive | Distribution | normCDf
. Seuraavassa on laskettu todennäköisyydet standardinormaalijakaumalle μ = 0, σ = 1
yhden, kahden ja kolmen keskihajonnan päähän odotusarvosta μ = 0
kumpaankin suuntaan.
Auki kirjoittaen ekalla rivillä lasketaan standardin normaalijakauman kertymäfunktion arvo satunnaismuuttujan arvosta -1 arvoon +1 saakka ja tulos kertoo että todennäköisyys odotusarvon ympärillä välillä μ - σ
... μ + σ
on noin 68,27%, joten siis jo yhden keskihajonnan etäisyydellä odotusarvon molemmin puolin on yli 2/3 normaalijakauman koko todennäköisyyden massasta.
Toisella rivillä on sama tehtävä jota jo edellä ratkoimmekin integroiden. Todennäköisyys odotusarvon ympärillä välillä μ-2σ
... μ+2σ
on noin 95,45%
Kolmannella rivillä mennään vielä yksi keskihajonta kauemmas odotusarvosta ja saadaan tulos että todennäköisyys välillä μ-3σ
... μ+3σ
on noin 99,73%, eli aika lähellä sataa prosenttia, mutta kauempanakin odotusarvosta on vielä noin 0,27% todennäköisyyden massasta kahteen äärettömän pitkään kapeaan häntäosaan jakautuneena.
Huomattakoon että normaalisti kertymäfunktio lasketaan äärimmäisen kaukaa vasemmalta eli negatiivisesta äärettömyydestä alkaen. Esimerkiksi todennäköisyys P(X <= 0)
on normaali todenäköisyyslaskennassa tarkoitettu kertymäfunktion arvo argumentilla 0 eli F(0) ja se lasketaan integraalina negatiivisesta äärettömyydestä alkaen. Tuo todennäköisyys on tietenkin standardin normaalijakauman tapauksessa tasan ½ eli puoli, koska nollan kohdassa oleva odotusarvo on standardin normaalijakauman symmetria-akseli joka jakaa koko tiheysfunktion alle jäävän pinta-alan ja sitä myöten myös todennäköisyyden kahtia.
Siispä laskimessa alkuarvoksi on nimenomaan annettava se negatiivinen äärettömyys jos halutaan se mitä tavallisella kertymäfunktion F(X) arvolla todennäköisyyslaskennassa yleensä tarkoitetaan eli todennäköisyys P(X < x) = F(X)
.
Alla on Casio-laskimen vizardit normaalijakauman kertymäfunktiolle ja kertymäfunktion käänteisfunktiolle. Näillä lasketaan ne ylempänä vasemmalla näkyvät "itsestäänselvät" tulokset että standardin normaalijakauman μ = 0, σ = 1
kertymäfunktion arvo miinus äärettömästä odotusarvoon 0 saakka on tasan puoli ja vastaavalla kertymäfunktion käänteisfunktiolla todennäköisyys 0,5 eli 50% saavutetaan kun satunnaismuuttujan arvo on nolla, eli odotusarvon kohdalla.
Normaalijakauman kertymäfunktion kuvaajaa ei yleensä esitetä erikseen, vaan ajatellaan sitä pinta-ala joka jää tiheysfunktion kuvaajan alle. Ei ehkä mahdollisimman havainnollista? Ehkä tämä johtuu siitä että normaalijakauman kertymäfunktiolle ei ole analyyttistä ratkaisua? Kun funktiota ei voi pelkistää lyhyeksi suljetuksi kaavaksi, niin sen kuvaajan esitys on hiukan takkuista perinteisin menetelmin, mutta tietotekniikan kannalta homma etenee helposti. Kaiken uhallakin esitän seuraavaksi normaalijakauman kertymäfunktion havainnollisena käyränä. Sehän voidaan toki numeerisesti laskea vaikka sitä ei voikaan esittää tarkasti äärellisen pituisena kaavana. Käytän MATLAB-funktiota normcdf
.
Tässäkin on kyseessä standardi-normaalijakauma jonka satunnaismuuttujan odotusarvo on nolla ja keskihajonta yksi ja se on kuvattu satunnaismuuttujan arvojen välillä μ-3·σ ... μ+3·σ
Odotusarvon 0 kohdalla todennäköisyyttä on kertynyt tasan 0,50 eli 50% negatiivisesta äärettömyydestä saakka integroiden. Satunnaismuuttujan arvolla μ+3·σ todennäköisyys on melkoisen lähellä arvoa 1 eli 100%, mutta ei aivan yllä siihen kuin vasta positiivisessa äärettömyydessä. Ainoastaan huippu-urheilussa arvon 100% ylitys on mahdollista, varsinkin jos Kanerva käskee. Matematiikassa se ei onnaa.
Kertymäfunktion avulla voi ratkaista haluttua satunnaismuuttujan X maksimiarvoa x vastaavan todennäköisyyden P(X < x), eli todennäköisyyden satunnaismuuttujan X niille arvoille jotka ovat korkeintaan annetun satunnaismuuttujan arvon x suuruisia. Käänteinen tehtävä eli annettua todennäköisyyttä vastaavan satunnaismuuttujan arvon laskenta tehdään kertymäfunktion käänteisfunktiolla. Tätä esittävän esimerkin olen piirtänyt käsin ylläolevaan kuvaan. Huomaa vihreiden nuolien suunta.
Esimerkkinä haluamme selvittää mikä satunnaismuuttujan X arvo x vastaa todennäköisyyttä P(X < x) = 0,69 standardinormaalijakaumassa. MATLAB-ohjelmassa käyttäisimme funktiota norminv
.
Casio-laskimen kanssa voimme käyttää käänteisen normaalijakauman sopivan funktion vizardia jolle syötämme arvot. Siellä on jo oletuksena standardinormaalijakauma eli μ = 0 ja σ = 1. Kuten oheinen kuva paljastaa, olen oikeastaan hiukan fuskannut laskemalla ensin että satunnaismuuttujan arvoa X=0,5 vastaava todennäköisyys on noin 0,69. Joka tapauksessa kertymäfunktion käänteisfunktio tuottaa todennäköisyydelle 0,69 tuloksen P(X < 0,50) = 0,69
eli etsitty satunnaismuuttujan arvo on 0,50.
Kertymäfunktion kuvaajan perusteella voisi joutua kiusaukseen väittää että satunnaismuuttujan arvojen μ-3σ ... μ+3σ
välillä on täydet 100% todennäköisyydestä, mutta ei se ihan niin ole. Siinä lie noin 99,73% koko todennäköisyydestä. Kertymäfuktion arvo ei negatiivisella puolella mene aivan nollaan missään eikä positiivisella puolella saavuta aivan tasan ykköstä, vaan se lähestyy asymptoottisesti näitä arvoja. Siksi ei välttämättä ole hyvä ajatus väittää että jokin satunnaismuuttuja noudattaa normaalijakaumaa aivan matemaattisen pilkuntarkasti ja kirjaimellisesti. Aika harvat satunnaismuuttujat kuitenkaan voivat koskaan saada negatiivista tai positiivista äärettömyyttä hipovia arvoja ja monille negatiivinen arvo on aivan mahdotonta fysikaalisestikin, esimerkiksi pituus ei voi koskaan olla negatiivinen edes periaatteessa, koska pituus on itseisarvo.
Casio-laskimen käänteisen kertymäfunktion vizardi löytyy valikkopolulta Interactive | Inv. Distribution | invNormCDf
ja siinä on eräs kulmakarvojen kohauttelua aiheuttava erikoisuus pudotusvalikkona jossa on kolme vaihtoehtoa.
Nimittäin "Tail setting", eli "probability value tail specification" voi olla arvoltaan joko "Left", "Right" tai "Center". Alla vasemmassa kuvassa on laskettu kullakin näillä arvoilla "L", "R" ja "C" standardin normaalijakauman kertymäfunktion käänteisfunktion arvo argumentilla 0,25 eli valittu todennäköisyys on 25% ja halutaan selvittää sitä vastaava satunnaismuuttujan arvo.
Lomakkeella valmiina oleva "Tail setting"-oletusarvo "L(eft)" on se mitä kertymäfunktion käänteisfunktion arvolla yleensä tarkoitetaan. Tulos -0,674... tarkoittaa että vasemmalta negatiivisesta äärettömyydestä alkaen standardinormaalijakauman kertyvää todennäköisyyttä 0,25 eli 25% vastaa satunnaismuuttujan arvo -0,674... eli ollaan edelleen odotusarvon nolla vasemmalla puolella kuten pitääkin koska todennäköisyys on alle 50%.
Normaalisti tulisi siis käyttää juurikin tätä oletusasetusta "Left" koska se vastaa kertymäfunktion F(X) normaalia määritelmää P(X < x) = F(X)
eli miinus äärettömyydestä vasemmalta integroiden todennäköisyyttä sille että satunnaismuuttujan X arvo on pienempi kuin annettu vakio. Nuo muut asetukset ovat ... hmmm ... hiukan arveluttavia kirkasotsaisen todennäköisyyslaskennan katsantokannalta.
Toisella rivillä lasketaan odotusarvon 0 oikealla puolella "R(ight)" olevaa satunnaismuuttujaa annetun todennäköisyyden perusteella. Tämän mukaan oikealla puolella positiiviseen äärettömyyteen ulottuvan hännän todennäköisyyttä 25% vastaa satunnaismuuttujan arvo +0,674... eli tuosta satunnaismuuttujan arvosta alkava ja äärettömyyteen ulottuva todennäköisyyden pitkä häntäosa edustaa todennäköisyyttä 25% ja normaalistihan tuollaisessa laskettaisiin komplementtia. Tässä ollaan siis odotusarvon oikealla puolelle, vaikka todennäköisyys on vain 25% eli pienempi kuin 50%, joten tarkoitetaan oikealla puolella äärettömyyteen ylettyvän häntäosan todennäköisyyttä ja satunnaismuuttuja on suurempi kuin odotusarvo.
Kolmas vaihtoehto "C(enter)" ilmeisesti laskee todennäköisyyttä odotusarvon molemmin puolin. Ilmeisesti tulos -0,3186... on tulkittava niin että 25% todennäköisyydestä on odotusarvon ympärillä satunnaismuuttujan arvoilla -0,3186 ... +0,3186 vaikka laskin antaakin vain näistä ensimmäisen. Hmm, voisi olla hiukkasen epähavainnollista ellei olisi standardi normaalijakauma.
Oikeanpuoleisessa kuvassa olen yrittänyt osua kertymäfunktion käänteisfunktion avulla edellä käsiteltyihin satunnaismuuttujan arvoihin μ±1σ
, μ±2σ
ja μ±3σ
syöttämällä suunnilleen sopivan todennäköisyyden eli noin 0.6827 (68,27%), 0.9545 (95,45%), 0.9973 (99,73%) ja päätynyt lähelle standardin normaalijakauman keskihajonnan arvoja ±1, ±2 ja ±3, mutta laskin antaa tuloksena vain negatiivisen arvon ja jättää (hienotunteisesti?) kertomatta että satunnaismuuttujan toinen raja on odotusarvon toisella puolella yhtä kaukana. Tämä kuitenkin mielestäni todistaa että tulkinta asetuksen "C" merkityksestä on oikea.
Omituinen toiminto joka tapauksessa, lähes paheksun sitä.
Koetetaanpa esittää standardin normaalijakauman tiheys- ja kertymäfunktiot samassa kuvassa. Olen hiukan venyttänyt kuvaa pystysuunnassa ettei tiheysfunktio näyttäisi niin snadilta. Tässähän ei ole paljoakaan järkeä sinänsä. On aivan turha yrittää etsiä tästä mitään käyrien leikkauskohtia ja kuvitella sillä olevan jokin syvällinen merkitys, koska vaikka pystysuuntainen numeerinen asteikko onkin yhteinen, niin tiheys- ja kertymäfunktiot kuvaavat aivan eri asioita.
Ylläoleva piirros kokee vain havainnollistaa sitä että normaalijakauman kertymäfunktion (violetti käyrä) arvo kasvaa rivakimmin kun tiheysfunktiolla (sininen käyrä) on maksiminsa. Näkee myös että satunnaismuuttujan mediaani eli todennäköisyyden 50-50 piste on tiheysfunktion maksimin eli odotusarvon kohdalla.
MATLAB-ohjelmalla on helppo piirrellä tietynlaisia kuvia. Ihan kateeksi käy. Esimerkkinä tästä seuraava 3D-kuva joka syntyy seuraavalla hyvin lyhyellä koodin pätkällä, joka kuvaa kahden muuttujan (vaaka-suunnan koordinaatit) funktion arvoja (pystysuunta) pintana kolmessa ulottuvuudessa. Tällä tuskin kuitenkaan on mitään tekemistä todennäköisyyslaskennan kanssa, onpahan vain hauskaa kuvitusta.
[X,Y] = meshgrid(-2:0.2:2); Z = X.*exp(-X.^2-Y.^2); surf(X, Y, Z)
Tämän tekstitiedoston koko kasvaa jo yli 64 kilotavun. Pistää vähän hirvittämään vanhaa CP/M -miestä. Voiko niin suurta tiedostoa olla edes olemassa! Kylmä hiki kertyy pyllyrei'än ympärille. Juu, itse asiassa mennään jo yli sadan kilotavun.
Ah, satunnaisuus, se on ylen ihmeellistä. Oma panokseni satunnaisuuden alttarille tulee ikuisiksi ajoiksi jäämään perin vaatimattomaksi, mutta kun oikein pinnistän aivonystyröitäni, saan puristettu ulos sellaisen syvämietteisyyteen pyrkivän lausahduksen joka kokee kuvata mikä ei ainakaan voi olla aidosti satunnaista: Jos on täysin mahdotonta että riippumaton diskreetti satunnaismuuttuja saisi 239 kertaa peräkkäin saman arvon, niin kyseessä ei ole aidosti satunnainen ilmiö. Siinäpä se. Sen voi nimetä vaikka Vesa Veikon teoreemaksi ... tai joksikin. Sen soveltaminen tosin voi olla hankalaa, sen oitis myönnän.