Probability and Statistics for Engineers & Scientists ... tai ainakin melkein

Edellinen Seuraava

Todennäköisyyslaskennan kurssin aihepiiristä täytyy tehdä vielä yksi juttu, nimittäin erilaisista todennäköisyysjakaumista. Aion ottaa mukaan myös jatkuvat jakaumat, mutta aloittelen kirjoitella tätä jo diskreettien jakaumien läpikäynnin aikaan. Tästä ei tokikaan tule muodostumaan täydellistä jakaumien esittelyä, ainoastaan kevyt pintasukellus aiheeseen. Todennäköisyysjakaumien tehtävät ovat yleensä pitkälle käsiteltyä ja valmisteltua asiaa, joten tavallaan ne ovat helpompia.

Todennäköisyyslaskentaa en sinänsä pidä erittäin keskeisenä tekniikan miehelle. Jotakin siitä on silti hyvä tietää. Ja kun se kerran nyt on ammattikorkeakoulun 4-osaisen uudistuneen matematiikka-moduulin kolmas osa, niin onhan sitä pakko käsitellä. Statistiikka ei SAMK:issa sisälly meidän moduuliimme, vaikka Walpolen netistä löytyvä ilmainen kirja (Probability and Statistics for Engineers and Scientists) sitäkin käsitellee ja kurssin johtopaikkaa pitävän TTY:n Porin laitoksen kannalta tämä kurssi on valmistautumista juurikin tilastomatikkaan. En usko enää myöhemmin juurikaan olevani tekemisissä todennäköisyyslaskennan kanssa, joten tämä jäänee viimeiseksi uroteokseni tällä saralla.

Kiinnostus tähän matematiikka-moduulin kolmanteen osaan ei vaikuta kovinkaan suurelta SAMK:issa. Näin karua kieltä kertoo SoleOPS. Matematiikka 1 eli lineaaarialgebran eka kurssi keräsi syyslukukaudella 2016-2017 kaikkiaan peräti 46 ilmoittautumista SAMK:issa yhteensä Porissa (vanhalla Vähärauman kampuksella) ja Raumalla. Matematiikka 2 eli lineaarialgebran toka kurssi sai sekin kevätlukukaudella 2016-2017 yhteensä 31 ilmoittautumista Porissa ja Raumalla, joista 29 on vahvistettu. Uusi matematiikka 3 eli todennäköisyyslaskenta on saanut syksyllä 2017 saaliikseen Porissa vain 9 ilmoittautumista (uudella Asemanaukion kampuksella) ja Raumalla vaivaiset 6 sielua. Jostakin kumman syystä kolmoskurssille on Porille ja Raumalle erilliset opintojaksoselosteet (vaikkakin ne molemmat on nakitettu Raumalle), yhteensä 15 todennäköisyyslaskennan kurssille ilmoittautunutta, tosin yksi on vielä vahvistamatta vaikka hän on ilmoittautunut määräaikaan mennessä. Puuvillassa mielenkiinto epäilemättä on laajempaa.

Ensi vuoden 2018 kevätlukukaudelle sijoittuvalle matematiikka-moduulin neljännelle kurssille (diffis) on toistaiseksi olemassa vain 1 opintojaksoseloste ja vain 1 kurssille ilmoittautunut raumalainen naishenkilö. Saapa nähdä jatkuuko kahden erillisen opintojaksoselosteen linja vai onko se yhteinen Porille ja Raumalle, kuten aiemmin. En uskalla vielä ilmoittautua ettei turhaan joudu samaan ryhmään raumalaisten kanssa. Oletettavasti Matte 4 eli diffiksen kurssi tulee kuitenkin olemaan melkoisen suosittu, vaikka aiempien Matte kurssien ilmoittautumisten määrän trendi 46 ... 31/29 ... 15 viittaisi ehkä vain muutamaan ilmoittautumiseen neloskurssille yhteensä SAMK:issa. Veikkaan optimistisesti että ilmoittautuneita tulee ainakin 30, varsinkin jos kurssista vaivaudutaan ilmoittamaan kuten on normaalisti ollut tapana. Stydi diffis se takuuvarmasti soittelee vannoutuneen tekniikan miehen (ja naisenkin) sielun kanteleen kaikki sävelalat läpi upeasti resonoiden. Ennen diffis oli matematiikka-moduulin 3. kurssi, mutta todennäköisyyslaskenta kiilasi väliin.

Jaaha, arvaankin nyt SoleOPSia tarkkaan tutkittuani miksi samalle kurssille tarvitaan 2 erillistä opintojaksoselostetta. Aikataulut ovat erilaiset Porissa ja Raumalla. Opintojaksoselosteesta on linkki TimeEdit-lukujärjestykseen ja Raumalla laskuharjoitukset ovat eri viikonpäivänä ja eri kellonaikaan kuin Porissa. Raumalla kurssi on ollut tiistaisin, Porissa torstai-iltaisin. Tietysti myös luokkahuoneiden tunnukset ovat erilaisia. TimeEdit-lukujärjestykseen kirjataan toki myös luokka jota tunneilla käytetään. Toteutukset erottaa siitä että raumalaisessa on kirjain R (esimerkiksi -/117RA) ja porilaisessa kirjain P (esimerkiksi -/117PA). Olipa hyvä etten erehtynyt ilmoittautumaan raumalaisten joukkoon, USSHHH sentään, ihan puistattaa! Olenhan sentään jo kolmatta vuotta aito porilainen kaikilla mausteilla!

Itse asiassa todennäköisyyslaskennan kurssin alussa oli aistittavissa pientä skismaa TTY:n Porin laitoksen ja SAMK:in välillä. Matematiikka-moduulin vanhat yhteydet eivät tuntuneet pelittävän totuttuun tapaan. Ennen matematiikka-moduulin kursseista on tiedotettu näyttävästi, nyt tiedot joutui itse kaivamaan hohtimilla esiin. Toivottavasti oppilaitosten väliset henkilökemiat kuitenkin palautuvat normaaleiksi diffiksen alkuun mennessä. Se olisi opiskelijoiden etu. Tiedon tulisi kulkea tietoyhteiskunnassa.

Matte-kursseilla olisi edullista jos pystyisi ottamaan paperitulosteita luentokalvoista. Papereita voi Matte-kursseilla kertyä melkoinen määrä. Todennäköisyyslaskennassa on peräti kaksi sarjaa opetusvideoita joiden sisältö olisi kiva saada paperille, Tantun on-line videot vuodelta 2016 ja Cameronin off-line videot vuodelta 2015. Tosin niistä uudemmista on-line videoista koko luennon sisältö ei ole tiedostossa, vaan tarkoitus on tehdä niihin papereihin myös omia muistiinpanoja. En ole on-line videoiden suuri ystävä koska niitä ei voi tallentaa ja katsella myöhemmin. Paperitulosteita olisi ehkä saatavissa uudelta kampukselta jollakin tavalla, mutta en ole niin nöyrä ihminen ettäkö olisin lähtenyt niitä papereita anelemaan joltakin BYOD-byrokraatilta. En ole niin nöyrä niskoistani. Enkä pidä byrokraateista muutenkaan. Voihan noita muistiinpanoja itsekin kirjoitella videoiden pohjalta.

Opintojaksoselosteen perusteella matematiikka-moduulia ei virallisesti voisi legitiimisti aloittaa tällä todennäköisyyslaskennan kurssilla, joka on minusta hiukan epäreilua, koska matematiikka-moduulia ei voi myöskään aloittaa sen toisella kurssilla. Myönnän että toinen kurssi on huono kohta aloittaa, koska se on suoraa jatkoa ensimmäiselle lineaarialgebran kurssille ja vaatii lineaarialgebran perustietoja, mutta mielestäni todennäköisyyslaskennan kurssissa ei vaadita niin ihmeellisiä MatLab-ohjelman käyttötaitoja etteikö myös kolmas kurssi sen puolesta voisi olla sopiva aloituskohta. Koko moduulin suorittaminen sentään kestää 4 lukukautta eli 2 lukuvuotta, joten sopiville aloituskohdille varmaankin on tarvetta muulloinkin kuin joka toinen vuosi. Matikan peruskurssithan on joka tapauksessa oltava suoritettu jo aiemmin, joten ihan ensi töikseen upo-uusi innokas opiskelija ei voi matematiikka-moduuliin ilmoittautua. Kyllä hän integaaleista jotakin tietää siinä vaiheessa kun tulee Matte-kurssille.

MatLab on sinänsä monipuolinen ohjelma, mutta peruskäytössä se ei ole niin ihmeellinen värkki etteikö sitä normaali ihminen muka oppisi. Kaikkia ohjelman ihmeellisyyksiä ei tarvitse hallita kattavasti pystyäkseen ratkomaan todennäköisyyslaskennan perustehtäviä. Suurin työmaa on joka tapauksessa tehtävien oikeassa hahmottamisessa ja aiheen omaksumisessa. Ratkaisun koodaaminen on tämän jälkeen pikkujuttu.

Väitän että paremmilla laskimilla pystyy ratkomaan ainakin tämän todennäköisyyslaskennan kurssin perustehtävät siinä kuin henkilökohtaisessa tietokoneessa pyörivällä tyrnevällä MatLab-ohjelmallakin. Meillä ei SAMK:issa ole MatLab:ia opiskelijoiden omassa käytössä, joten parempien arvosanojen saaminen todennäköisyyslaskennan kurssista voi sikäli olla hankalaa. Uudet hintavammat laskimet pystyvät kuitenkin sentään aika temppuihin ja aion sen tässä osoittaa.

Tosin täytyy myöntää että peruskaavojen avulla laskimella ratkaisu voi joutua suuriin vaikeuksiin jos kaavaan sisältyy vaikkapa iso kertoma joka ylittää laskimen lukualueen. Esimerkiksi ei-kovinkaan-isolta vaikuttavan luvun 70 kertoma eli 70! ylittänee jo tavallisen laskimen lukualueen.

Walpolen kirjaa olen oikeastaan lukenut aika vähän. Opetusvideoita kurssilla on käytettävissä peräti kaksi eri sarjaa ja ne ovat hyödyllisiä. Oman työ osuus on aika merkittävä tekijä.

Diskreetti todennäköisyysjakauma

Tarkastellaanpa esimerkin kautta erään diskreetin jakauman tehtävää. Kyseessä on koripallon Playoff-pelit, "paras seitsemästä" eli pudotuspelikierros, johon voi sisältyä korkeintaan 7 peliä. Pudotuspelikierros päättyy kun voittaja selviää. Pudotuspelikierroksen voittaa voittamalla 4 peliä, sillä se on yli puolet peleistä. Pelejä siis pelataan vähintään 4 ja enintään 7 ja vastustaja on sama koko kierroksen ajan. Koripallossa ei voi tulla tasapeliä.

Oletetaan että tietyn joukkueen todennäköisyys voittaa yksittäinen peli tiettyä vastustajaa vastaan on vakio p = 0,69 eli 69% ja tuo todennäköisyys on täysin riippumaton pelitilanteesta ja siitä onko kyseessä koti- vaiko vierasottelu. (Ehkäpä käytännössä aavistuksen verran epärealistinen oletus? Mutta sota on julmaa ja ratsuväki raakaa, eikä todennäköisyyslaskenta häviä niille paljoakaan!)

Tehtävän a)-kohdassa kysytään mikä on todennäköisyys että ko. joukkue voittaa pudotuspelikierroksen suoraan, siis tuloksella 4 - 0? Se toinen joukkuehan ei periaatteessa jäljellä olevissa kolmessa pelissä pystyisi enää voittamaan kierrosta, vaikka voittaisi kaikki ne 3 peliä, joten kierros loppuu siihen.

Tämä on esimerkki negatiivisesta binomijakaumasta. Pelataan kunnes jokin tietty tapahtuma tapahtuu. Tässä tapauksessa satunnaismuuttuja X on se pelien lukumäärä joka tarvitaan että joukkue voittaa 4 peliä, eli pudotuspelikierros ratkeaa. Kun joukkueen olisi tässä kohdassa voitettava suoraan neljällä pelillä tuloksella "neljä-nolla", täytyy onnistumisten määrä olla k = 4.

Tämä tapaus voitaisiin merkitä todennäköisyyslaskennan merkinnöin P(X=4) = b*(X=4, k=4, p=0,69) jonka voisi lukea tähän tapaan: "todennäköisyys P (kuten Probability) sille että satunnaismuuttujan X arvo on tasan 4 on yhtä kuin negatiivisen binomijakauman todennäköisyysfunktion arvo argumentille X=4 ja parametrein onnistumisten määrä k=4 ja yhden kerran onnistumisen todennäköisyydelle p=0,69".

MatLab-ohjelma laskisi tuloksen funktiokutsulla nbinpdf(4-k, k, p) saaden tuloksen noin 0,2267 eli vastaus, kysytty todennäköisyys on 22,67%. MatLab -funktiokutsussa argumentti (4-k) = 4 - 4 = 0 on hiukan epäloogisen tuntuisesti tarvittavien "ylimääräisten kertojen" määrä. Tässä niitä ylimääräisiä kertoja ei ole, eli arvo on nolla, koska joukkue voittaa kaikki 4 peliä. Voisi myös sanoa että MatLab-kutsun argumentti on tappioiden määrä (0) ja ensimmäinen parametri k=4 on voittojen määrä.

Tehtävän pystyy helposti ratkaisemaan myös laskimella. Kun laskimen funktio nCr(n, k) tarkoittaa kombinatoriikasta tuttua kaavaa "n yli k:n", eli "miten monella eri tavalla n:stä objektista voi valita k objektia" (kun järjestyksellä ei ole väliä), niin sama tulos saadaan laskimella arvoille x = 4, k = 4, p = 0.69 laskien nCr(x-1, k-1) * p^k * (1 - p)^(x-k) eli siis nCr(3, 3) * 0.69^4 * 0.31^0 . Tuo viimeinen kerrottavahan on vain ykkönen, "jotakin potenssiin nolla" on tasan 1, eikä ykkösellä kertominen muuta tulosta. Ja kolmesta voi toki kolme valita vain yhdellä ainoalla tavalla, joten nCr(3, 3) = 1 eikä tästä laskusta jää jäljelle muuta kuin 0.69^4 = 0.22667... joka juurikin on se haettu vastaus 22,67%.

Monille jakaumille laskimesta löytyy myös oma funktio jolla tuloksen voi laskea suoraan, mutta negatiiviselle binomijakaumalle en ole sellaista löytänyt.

Tehtävän b)-kohta kysyy todennäköisyyttä että ko. joukkue voittaa koko sen pudotuspelikierroksen. Joukkuehan voisi voittaa pudotuspelikierroksen edellä käsitellyn suoran voiton 4 - 0 (kaikkiaan 4 peliä) lisäksi vaihtoehtoisesti myös tuloksilla 4 - 1 (kaikkiaan 5 peliä), 4 - 2 (kaikkiaan 6 peliä) ja 4 - 3 (kaikkiaan 7 peliä).

Nyt ei siis olekaan kyse vain yhdestä mahdollisesta tapauksesta. Niinpä tässä kohdassa tarvitaan negatiivisen binomijakauman kertymäfunktiota. Koska kyseessä on diskreetti tapaus, voimme ajatella että on summattava neljä toisensa poissulkevaa todennäköisyysfunktion arvoa: kierroksen voitto 4:ssä pelissä, kierroksen voitto 5:ssä pelissä, kierroksen voitto 6:ssa pelissä ja kierroksen voitto 7:ssä pelissä. Nämä todella ovat toisensa poissulkevia tapauksia, sillä jos pudotuspelikierros ratkeaa esim. neljännessä pelissä, niin viidettä ottelua ei pelata, eikä kierros siten siinä tapauksessa voi ratketa 5:nnessä, 6:nnessa tai 7:nnessä pelissä. Jos taas kierros ratkeaa vasta esim. 7:nnessä pelissä, niin onhan selvää ettei se kierros ole ratkennut vielä aiemmissa peleissä.

MatLab ratkaisee tehtävän funktiokutsulla nbincdf(3, 4, 0.69) jossa on argumenttina 3 tappiota ja parametrina 4 voittoa. Tulokseksi saadaan 0.8606, eli vastaus, kysytty todennäköisyys on 86,06%. Kannattaa havaita että kertymäfunktion nimi nbincdf() on hiukan erilainen kuin a) -kohdassa käytetty todennäköisyysfunktio nbinpdf() .

Jos siis joukkue voittaa yksittäisen pelin todennäköisyydellä 69% (täysin olosuhteista riippumatta), niin "paras seitsemästä" pudotuspelikierroksen se voittaa todennäköisyydellä 86%, eli huomattavasti suuremmalla todennäköisyydellä kuin yksittäisen pelin.

Tässä lasketaan todennäköisyys P(4 <= X <= 7) eli "todennäköisyys P että satunnaismuuttujan X arvo on vähintään 4 mutta korkeintaan 7". Ja satunnaismuuttuja X siis tarkoittaa edelleen niiden pelien lukumäärää, jotka korkeintaan 7 peliä sisältävän kierroksen voittoon tarvitaan.

Laskimella tällainen on nätisti laskettavissa negatiivisen binomijakauman määritelmän mukaisena summana. Summaamme negatiivisen binomijakauman todennäköisyysfunktion arvot b*(X, 4, p) kun satunnaismuuttuja X kulkee kokonaislukuarvot neljästä seitsemään. Tavalliseen tapaan käytämme summan merkkinä isoa kreikkalaista kirjainta jonka nimi on sigma. Hiukan tyyriimpi laskin ratkaisee tehtävän kuten kuva näyttää.

Tässä on käytössä vanhempi kosketusnäyttöinen Casio ClassPad 330 PLUS jossa ei ole taustavaloa eikä näytön kontrasti ole kovin hyvä. Koko rivi ei mahdu näyttöön kerralla, joten saman rivin alusta ja lopusta on omat kuvansa.

Selkeämmin ilmaisten tässä X-arvoin 4:stä 7:ään summattava lauseke on nCr(x-1, k-1) * pk * (1 - p)x-k kun vaadittava onnistumisten määrä k = 4 ja yksittäisen onnistumisen todennäköisyys p = 0.69

Laskin tuottaa siis saman tuloksen noin 0,86 eli 86% todennäköisyydelle että joukkue voittaa pudotuspelikierroksen.

Tehtävän c)-kohta kysyy todennäköisyyttä että ko. joukkue häviää pudotuspelikierroksen. Tämähän on helppoa kunhan osaa hiukan ajatella. Joukkue joko voittaa kierroksen tai häviää sen. Ei ole muita vaihtoehtoja. Koko otosavaruuden todennäköisyys on tasan 1. Kaikkien mahdollisten vaihtoehtojen todennäköisyyksien summa on tasan 1, eli 100%. Voittamisen todennäköisyydeksi on edellä laskettu noin 0,86 joten sen ainoan vaihtoehdon eli häviön todennäköisyys täytyy olla tämän komplementti 1 - 0,86 = 0,14 eli noin 14%.

Parempi joukkue siis voittaa "paras seitsemästä" pudotuspelikierroksen todennäköisyydellä 86% ja häviää kierroksen todennäköisyydellä 14% jos sen todennäköisyys voittaa yksittäinen peli on vakio 69%. Jos pelejä pelattaisiin ääretön määrä, niin parempi joukkue voittaisi aivan varmasti, mutta lyhyehkössä pudotuspelikierrroksessa sillä on nollaa suurempi häviämisen riski.

Juttu on vielä kesken, mutta karavaani jatkaa vielä tästä.

Ratkaistaisiinko diskreetin todennäköisyysjakauman jokin "tähtitehtävä"?

Todennäköisyyslaskennan kurssin läpäisy luultavasti vaatii joidenkin "tähtitehtävien" (tehtävien joukossa tähdellä merkittyjen) ratkaisemista, joten täytynee kokeilla kättään niihin. Tenttejä tällä kurssilla poikkeuksellisesti ei olekaan, vaan se suoritetaan pääsääntöisesti esittämällä joitakin tehtävien ratkaisuja opettajalle, normaalisti 6 tehtävää kahden viikon jaksossa. Tavalliset tehtävät saa tehdä parityönäkin, mutta "Puuvillan" eli Tampereen Teknillisen Yliopiston Porin laitoksen oppimisjärjestelmä Moodleen pdf-muotoisina tiedostoina palautettavat hiukan vaativammat tähtitehtävät ovat yksilösuorituksia.

Ohessa kuvattu vaikuttaa periaatteessa binomijakauman tehtävältä, jossa on kuitenkin myös hiukan lisävääntöä mukana. Kolikon heitto ihan huutaa korvaan että BINOMIJAKAUMA! kun sitä on kurssilla niin paljon treenattu.

Ilmaisu "reilu kolikko" (engl "fair coin") tarkoittaa todennäköisyyslaskennassa sellaista tasapainoista metallirahaa jossa kruunan (engl. Heads eli H) todennäköisyys on tasan puoli kun kolikkoa heitetään yhden kerran, eli P(H) = 0,5. Klaavan (engl. Tails eli T) todennäköisyys on silloin siis myös tasan puoli, yhdessä heitossa, eli P(T) = ½. Muita vaihtoehtojahan ei ole. Jos raha jää pystyyn niin se heitto hylätään ja heitetään uudelleen.

Ihmiset kai yleensä olettavat luonnostaan että esimerkiksi euron kolikolla on satunnaisessa heitossa täsmälleen yhtä suuri todennäköisyys päätyä kruuna ylöspäin kuin on sen todennäköisyys päätyä klaava ylöspäin, mutta eihän asian tarvitse oikeasti olla tarkalleen niin. Satunnaisuus on käytännössä hiukka komplisoitu juttu.

Sanallisesti voinee ilmaista että olisi löydettävä ala- ja yläraja siten että sekä alarajan alapuolella että ylärajan yläpuolella satunnaismuuttujan X arvoa vastaava kertymäfunktion arvo on noin 2½ % jakauman ala- tai yläpäässä. Miksi tehtävä ei ratkea tarkasti? Arvaan kyllä että aivan täsmällistä täsmäystä lie vaikea saavuttaa koska tehtävän diskreetin luonteen vuoksi X täytyy olla kokonaisluku. Mikään kokonaisluku ei välttämättä päädy todennäköisyydeltään täsmälleen kohtaan 0,025 tai kohtaan 1 - 0,025 = 0,975.

Tehtävää ei suinkaan pidä ymmärtää niin ettäkö muka etsittäisiin esim. todennäköisyyttä sille että satunnaismuuttuja X on pienempi kuin alaraja ... Lukisin sen mieluummin "todennäköisyys P satunnaismuuttujan X arvolle joka on pienempi kuin alaraja nL on likimain 0,025 ja " ...

Fiksu tapa aloittaa on määritellä selkeästi että satunnaismuuttuja X on kruunien lukumäärä heittokokeessa, joka tosin kyllä näkyy jo tehtävänannossakin. Koska rahaa heitetään tässä 50 kertaa, voi X olla arvoltaan välillä 0 (ei yhtään kruunaa) ... 50 (kaikki kruunia).

Ensin ehkä kannattaisi koettaa ratkaista alaraja nL siten että todennäköisyys P(X < nL) on suunnilleen 0,025. Oletetaan että rajat ovat kokonaislukuja koska myös satunnaismuuttujan arvo on kokonaisluku. Niinpä X < nL tarkoittaa X <= nL-1 elikkä toisinsanoen X+1 <= nL joten kun löydämme sopivan X-arvon, haluamme lisätä siihen ykkösen saadaksemme alarajan nL.

Binomijakauma perustuu Bernoullin prosessiin. Binomijakauman todennäköisyysfunktio antaa todennäköisyyden sille että satunnaismuuttujalla X on jokin tietty arvo x.

               n!
P(X=x)  =  ----------- · px · (1-p)n-x
            x! (n-x)!

Tässä todennäköisyys p = P(H) = 0,5 ja kun reilun kolikon tapauksessa p = 0,5 niin tietenkin on myös (1-p) = 0,5, joten itse asiassa potenssiopin lahjomattomien sääntöjen mukaan px · (1-p)n-x = 0.5x · 0.5n-x = 0.5x+n-x = 0.5n joka sievennys merkittävästi yksinkertaistaa laskentaa.

Tunnus n on rahan heittojen määrä kokeessa eli 50. Tyrnevän näköinen osamäärä on kertomin ilmaistuna vanha tuttu "n yli x:n" eli permutaatioiden lukumäärä jota laskimissa kutsutaan funktion nimellä nCr(n, x). Voisi siis lyhentää että laskimelle todennäköisyysfunktio on tässä tapauksessa yksinkertaisesti P(X=x) = nCr(n, x) · 0,5n ja lisäksi vakio n = 50. Tosin onhan 0,550 myöskin vakio jonka voisi ratkaista ja voisi käyttää ratkaistua arvoa laskennassa suoraan, mutta havainnollisuuden vuoksi jätetään se ratkaisemattomaan muotooon että muistetaan mistä on tultu.

Tarvitsemme tässä tehtävässä kuitenkin vastaavan kertymäfunktion, koska on summattava monien satunnaismuuttujan eri arvojen yhteistä todennäköisyyttä. Summaamisen voimme tehdä aiemmin esitetyn sigma-tunnuksen avulla. Nollaa pienempiä X-arvoja ei tarvitse tutkia koska kruunien määrä ei voi olla negatiivinen. Viidessäkymmenessä heitossa voi tulla korkeintaan 50 kruunaa, joten sen suurempia arvoja satunnaismuuttujalle X ei tarvitse tutkia.

Kertymäfunktion arvo P(X <= x) = F(x) on todennäköisyyksien summa X-arvosta 0 (nolla) tutkittavaan arvoon x saakka, kyseinen arvo x mukaan lukien. Satunnaismuuttujan pienimmälle arvolle X=0 on kertymäfunktion arvo F(0) = P(X <= 0) yksinkertaisesti sama kuin todennäköisyysfunktion arvo f(X=0).

Odotusarvo lienee 24,5 kruunaa reilulle kolikolle koska jakauma lie symmetrinen ja erilaisia X-arvoja on 51 kpl, siis pariton määrä. Tosin sellaista määrää 24½ ei kokeessa tietenkään voi koskaan tulla. Kolikkoa heitettäessä ei tule tulokseksi puolikkaita kruunia. Satunnaismuuttujan odotusarvo voi joskus olla sellainen että diskreetti satunnaismuuttuja X ei sitä käytännössä koskaan saa.

Voisi koettaa yksinkertaisesti kokeilla kertymäfunktion X-arvoja nollasta ylöspäin kunnes löytää sopivan kertyvän todennäköisyyden mahdollisimman läheltä arvoa 0,025. Pieniä X-arvoja vastaavat kertymän arvot ovat kovin pieniä, koska on aika epätodennäköistä että 50 kolikon heittoa tuottaisi vain muutaman kruunan.

X-arvon 17 kohdalla alkaa kuitenkin ns. Lyyti kirjoitella. Näyttää siltä että kertymäfunktion F kiinnostavat arvot satunnaismuuttujan arvoille X=17 ja X=18 eli F(X=17) ja F(X=18) ovat:

F(17)  =  P(X <= 17)  =  0,01642
F(18)  =  P(X <= 18)  =  0,03245

Etsitty alarajaa vastaava arvo 0,025 on tuolla välillä. Suurempi arvo on sinänsä lähempänä koska |0,03245 - 0,02500| = 0,00745 kun ero pienempään arvoon on aavistuksen verran suurempi |0,01642 - 0,02500| = 0,00858

Tehtävän vaatimus alarajalle oli se että todennäköisyys P(X < nL) olisi mahdollisimman hyvin 0,025 ja kysytään alarajaa nL. Mielestäni nL voisi olla 19 koska silloin X = 18 on sitä pykälällä pienempi kuten täytyy olla ja F(18) on mahdollisimman lähellä haluttua todennäköisyyden arvoa 0,025.

Entäpä sitten yläraja nU? Satunnaismuuttujan X arvon pitäisi olla sitä suurempi. Pitäisi olla todennäköisyys P(X > nU) suunnilleen 0,025. Tämä tarkoittaa että X >= nU + 1 eli X - 1 >= nU joten kun sopiva arvo X löytyy, olisi siitä vähennettävä yksi että saadaan haluttu yläraja nU joka on kokonaisluku.

Kyse on kertymäfunktiosta ja ylärajasta, joten olisi ehkä tiukan oikeaoppisesti etsittävä loppupäästä kertyvää todennäköisyyttä 1 - 0,025 = 0,975.

Siispä voimme summata edellä käytettyyn tapaan kokeillen erilaisia satunnaismuuttujan X arvoja nollasta sinne loppupään lupaaviin todennäköisyysarvoihin n-arvon 50 ja kertyvän todennäköisyyden 0,975:n läheisyydessä.

Tai kenties voisimme etsiä sitä kertyvää todennäköisyyden osuutta 0,025 suoraan binomijakauman yläpäästä summaamalla satunnaismuuttujan suurimpia arvoja vain siellä 50:n läheisyydessä?

Vaikuttaa siltä että kun summataan todennäköisyyksien arvot satunnaismuuttujan X kulkiessa kokonaislukuarvot nollasta 31:een, saadaan kertyvä todennäköisyys 0,96755. Kun summataan jakauman häntäpäässä satunnaismuuttujan X arvoja 32:sta 50:een vastaavat todennäköisyydet, saadaan kertyvä todennäköisyys 0,032454 joka on sama kuin 1 - 0,96755.

Kun summataan todennäköisyyksien arvot satunnaismuuttujan X kulkiessa kokonaislukuarvot nollasta 32:een, saadaan kertyvä todennäköisyys 0,98358. Kun summataan jakauman häntäpäässä satunnaismuuttujan X arvoja 33:sta 50:een vastaavat todennäköisyydet, saadaan kertyvä todennäköisyys 0,01642 joka on sama kuin 1 - 0,98358.

Minusta näyttää että molemmat menettelyt skulaavat.

Mutta mikä on kysytty yläraja nU? Sen tulisi olla yhdellä suurempi kuin se satunnaismuuttujan X arvo jolla päästään lähimmäksi kertyvän todennäköisyyden häntäosan suuruutta 0,025. Parhaaksi X-arvoksi arvaan 31 tai 32. Kumpi on lähempänä arvoa 0,025, olisiko se 0,032454 vaiko 0,01642? Edellinen on aiemman perusteella lähempänä, joten ... ööh ... luulen että X = 31.

MatLab-ohjelman kanssa ratkaisussa voitaisiin ehkä käyttää binomijakauman funktioita todennäköisyysfunktio binopdf() ja kertymäfunktio binocdf(), mutta en voi nyt testata MatLabin kanssa, enkä muista missä järjestyksessä funktioiden argumenttien tulisi olla. Vaikka voihan olla että MatLab-ohjelman laajassa funktiorepertuaarissa on jokin suorakin menetelmä?

Tässä on sensijaan nimenomaan tarkoitus osoittaa että laskimella pärjää aika hyvin. Ja samalla tämä on paluu todennäköisyyslaskennan juurille, perusasioiden äärelle.

Kun olemme jo tutkineet alkuvoimaisia ja ylevän kirkasotsaisia määritelmän mukaisia ratkaisuja, voimme tiedostaa seikan sellaisen että tosin kyllähän laskimissa on MatLab:in funktioiden kaltaisia funktioita joiden kanssa pääsee vähemmällä naputtelulla.

Casion valikkokomento Interactive | Distribution | binomialCDf tuo esiin vizardin jossa voi antaa arvot binomijakaumalle. Huomaa että kyseessä on nimenomaan kertymäfunktio "...CDf" eikä todennäköisyysfunktio "...PDf".

Alarajan nL ratkaisua arvolla X=18 luotaava funktiokutsu binomialCDf(0,18,50,0.5) tuottaa tutun tuloksen 0,03245.

Taasen ylärajaa nU kohdasta X=32 etsivä kutsu binomialCDf(0,32,50,0.5) tuottaa tuloksen 0,98358 joka on etäisyydellä 0,01642 ykkösestä. Pykälällä pienemmän arvon X=31 kutsun binomialCDf(0,31,50,0.5) tulos olisi 0,96755 eli etäisyydellä 0,03245 ykkösestä, ja siis aavistuksen verran lähempänä tavoiteltua arvoa 1 - 0,025 = 0,975.

Laskimen kertymäfunktioiden 4-argumenttiset funktiokutsut ehkä säästävät työtä tapauksissa jossa on laskettava kertymä joka ei ala ihan nollasta. Muistelen että MatLab ei sisällä vastaavia diskreettejä funktioita joilla voisi laskea suoraan kertymäfunktion arvon joka ei ala aivan alusta.

Vizardit ovat siitä mukavia että funktion argumenttien järjestystä ei joudu arvailemaan niin paljon kun lomakkeella on edes jotakin ohjetekstiä. Ja vizardeja on siis laskimissakin.

Noissa ylläolevissa ratkaisutavoissa joutuu etsimään oikeaa ratkaisua kokeilemalla. Nyt menee paremman ohjeen puutteessa hiukan arvailun puolelle, mutta väittäisin että laskimessa on suorempikin menetelmä. Nimittäisin sitä henkilökohtaisen persoonallisen innovatiivisesti "käänteiseksi binomijakauman funktioksi".

Siis idea on senkaltainen että tavalliset binomijakauman funktiot tuottavat todennäköisyyden tai kertyvän todennäköisyyden joka vastaa tiettyä satunnaismuuttujan arvoa, tietyn yhden kerran todenäköisyysarvon p ja kokeiden lukumäärän n kanssa. Funktion argumenttina on siis satunnaismuuttujan arvo. Tulos on todennäköisyys.

Käänteiset funktiot toimivat päinvastaiseen suuntaan. Käänteisillä funktioilla koetetaan selvittää se satunnaismuuttujan arvo joka mahdollisimman hyvin vastaa haluttua kertyvää todennäköisyyttä, kun yhden kerran todennäköisyys on p ja kokeiden määrä n. Funktion argumenttina on siis etsitty kertyvä todennäköisyys. Tulos on satunnaismuuttujan arvo.

Taulukoiden käyttöä ei enää suositella, mutta todennäköisyyslaskennan taulukoiden kanssa harjoittelemalla tähän asiaan saa ehkä parhaiten havainnollisen tuntuman.

Käänteinen binomijakauman funktio luullakseni tuottaa ainakin melko hyvän arvion diskreetin satunnaismuuttujan arvosta jonka kohdalla kertyvä todennäköisyys on halutun suuruinen. Kokeillaanpa sitä. Emme tarvitse dokumentointia, olemme rohkeita suomalaisia.

Casion valikkokomento Interactive | Inv. Distribution | invBinomialCDf tuo esiin vizardin jossa voinee syöttää käänteistä binomijakaumaa vastaavat arvot.

Alarajan kertyvää todennäköisyyttä 0,025 etsivä fuktiokutsu invBinomialCDf(0.025, 50, 0.5) tuottaa vastauksen 18 ja ylärajan kertyvää todennäköisyyttä 1 - 0,025 = 0,975 etsivä kutsu invBinomialCDf(0.975, 50, 0.5) tuottaa vastauksen 32. Näin siis pitäisi saada etsityt vastaukset suoraan ilman sen enempää kokeilua.

Hmmmm, tosin edellä olen spekuloinut että arvolla X=31 tulos olisi hiukan lähempänä tähdättyä arvoa. Epäilemättä voisi olla hyödyllistä konsultoida laskimen dokumentointia ja selvittää mitä nuo käänteiset jakauman funktiot varsinaisesti diskreetissä tapauksessa tuottavat ja miten niitä täsmälleen tulisi käyttää. Onko se esim. tarkoitettu tuottamaan tuloksena satunnaismuuttujan arvo jolla todennäköisyys on lähimpänä etsittyä tai ehkä arvo joka on lähellä, mutta kauempana odotusarvosta? Olen aivan liian laiska etsiäkseni vastausta.

Käytännössä toimiva menetelmä diskreetissä tapauksessa voisi olla sellainen että ensin etsitään haluttua satunnaismuuttujan arvoa kertyvän todennäköisyyden perusteella käyttäen käänteistä jakauman funktiota. Vastauksen tulisi olla ainakin lähellä oikeaa. Sitten voidaan tehdä pari haku-ammuntakertaa tavallisella jakauman funktiolla tuon ainakin likimääräisesti oikean diskreetin arvon kohdalla ja varmistaa mikä satunnaismuuttujan arvo parhaiten tulokseltaan vastaa etsittyä.

Edellä käsitellystä tehtävästä opimme siis sen että todennäköisyys sille että viisikymmentä reilun kolikon satunnaista heittoa tuottaisi tulokseksi yhteensä vähemmän kuin 19 kruunaa on vain noin 2,5%. Vastaavasti tuloksen joka on yli ... ööh ... oliko se nyt 31 vai 32? ... kruunaa todennäköisyys on myös vain noin 2,5%. Todennäköisin tulos 50:ssä reilun kolikon heitossa on jossakin välin 20 ... 30 kruunaa puolivälissä. Minulla tuloksena tuli 28 kruunaa kun heittelin kahden euron kolikkoa 50 kertaa kurssin laskuharjoituksissa.

Hypergeometrinen jakauma

Juttu paisuu kuin pullataikina aiottua laajemmaksi, mutta dikreeteistä jakaumista on ehdottomasti esiteltävä myös hypergeometrinen todennäköisyysjakauma. Komea nimi. Sitä ehkä parhaiten kuvataan oheisen havainnollisen piirroksen avulla. Esitellään hypergeometrinen koe:

On iso, mutta kooltaan äärellinen populaatio, jossa on yhteensä N kappaletta objekteja. Tästä isosta populaatiosta otetaan satunnaisesti pienehkö satunnaisotos jonka suuruus on n kappaletta. On siis N > n.

Satunnaisotos otetaan "yhdellä kerrralla" niin että populaatiosta otettuja objekteja ei pistetä takaisin. Populaation objektien määrä siis pienenee kun otos otetaan.

Populaation yhteensä N objektia sisältää alunperin k kappaletta objekteja joita pidetään "onnistumisina", eli ne kuvaavat sellaisia objekteja joita tässä kokeessa seurataan. Populaation loput alkiot joita on N - k kappaletta, ovat "epäonnistumisia" eli vähemmän mielenkiintoisia.

Satunnaismuuttuja X tarkoittaa "onnistumisten" määrää satunnaisotoksessa jossa on yhteensä n objektia. "Epäonnistumisia" otoksessa on siten n - x kappaletta.

Tyypillisesti "onnistuminen" on käytännössä viallinen tuote, joka voi tuntua aluksi hiukan kummalliselta. Haluamme kuitenkin ehdottomasti löytää vialliset tuotteet tutkittavasta erästä jos niitä siinä on, joten viallisen tuotteen löytäminen on onnistumista laadunvalvonnan näkökannalta.

Satunnaismuuttuja X on siis "onnistumisten" määrä satunnaisotoksessa jonka suuruus on n ja X noudattaa hypergeometrista jakaumaa. Käyttäen paremman puutteessa laskimen merkintää nCr(n, k) sille kombinaatioiden määrälle kun valitaan k alkiota n-joukosta, eli "n yli k:n", voidaan hypergeometrisen jakauman todennäköisyysfunktio esittää näin:

                  nCr(k, x)· nCr(N-k, n-x)
h(x; N, n, k)  =  ------------------------
                        nCr(N, n)

Tässä siis k on "onnistumisten" kokonaismäärä, X on satunnaismuuttuja joka merkitsee "onnistumisten" määrä otoksessa, N on koko populaation koko ja n on otoksen koko.

Sanallisesti voisimme kuvata hypergeometrisen jakauman todennäköisyysfunktiota näin: Todennäköisyys että satunnaismuuttujalla X on arvo x on osamäärä, jonka osoittajassa on kahden kombinaation tulo. Osoittajan tulontekijöistä ensimmäinen on se määrä miten monella eri tavalla voidaan valita x objektia k:sta objektista (kun järjestyksellä ei ole merkitystä). Osoittajan toinen tulontekijä on se määrä miten monella eri tavalla voidaan valita n-x objektia N-k objektin joukosta. Osamäärän nimittäjässä on se määrä miten monella eri tavalla voi valita n objektia N objektin joukosta.

Saattaa vaatia hiukan pohdiskelua, mutta tavallaan tuossa on järkeä. Esimerkiksi nimittäjän nCr(N, n) on se lukumäärä miten monella eri tavalla otoksen n objektia voidaan valita populaation N objektin joukosta kun järjestyksellä ei ole väliä. Osoittajan nCr(k, x) on se määrä miten monella eri tavalla voi valita otoksen x "onnistumista" populaation "onnistumisten" kokonaismäärästä k. Osoittajan nCr(N-k, n-x) on se määrä miten monella eri tavalla voi valita otoksen n-x "epäonnistumista" populaation N-k "epäonnistuneiden" kokonaismäärästä.

Oikein brutaalisti ja epämääräisesti tiivistäen voisi yrittää selventää:

           (otoksen x populaation k:sta) * (otoksen epäonniset n-x kaikista epäonnisista N-k)
P(X=x)  =  ----------------------------------------------------------------------------------
                              (otos n populaatiosta N)

Ja ei kuin laskentaesimerkkiä perään.

Populaation koko on N = 40. Tiedetään (jollakin ihmeen keinolla...) että viallisia komponentteja populaatiossa on kaikkiaan k = 3. Otetaan satunnaisesti otos jonka suuruus on n = 5. Kysymys kuuluu, millä todennäköisyydellä otoksesta löytyy X = 1 tai useampi viallinen komponentti.

Viallisia komponentteja voisi löytyä viiden otoksesta 0, 1, 2 tai 3 kappaletta koska viallisiahan on kaikkiaan vain 3. Meitä kiinnostaa nuo kolme jälkimmäistä tapahtumaa. Haluamme tietää todennäköisyyden P(X >= 1) = P(X = 1) + P(X = 2) + P(X = 3) , mutta helpoiten tämä lasketaan komplementin kautta, vähentämällä ykkösestä todennäköisyys sille että viallisia ei löydy yhtään, eli X = 0. Niinpä P(X >= 1) = 1 - P(X < 1) = 1 - P(X = 0)

MatLabissa voisi käyttää funktiota hygepdf ja onhan laskimessakin hypergeometrinen jakauma, mutta ihan määritelmän mukaiseen perustyyliin voimme ratkaista vetreästi:

                   nCr(3, 0)· nCr(40-3, 5-0)     1 · nCr(37, 5)     453897
h(0; 40, 5, 3)  =  -------------------------  =  --------------  =  ------  =  0,66245
                        nCr(40, 5)                   658008         658008

Tuo ylläoleva tulos P(X = 0) on kuitenkin vielä vähennettävä ykkösestä koska se on todennäköisyys ettei yhtään viallista löydy otoksesta ja tässä lasketaan sen komplementtia, joten tulos eli todennäköisyys ainakin yhden viallisen löytymiselle erästä on P(X >= 1) = 1 - P(X = 0) = 0,33755 jos koko 40 komponentin populaatiossa on 3 viallista komponenttia.

Voisi ehkä kainosti kysäistä miksi ylipäätään testataan yhtään mitään jos jo alkutilanteessa valmiiksi tiedetään viallisten kokonaismäärä k populaatiossa? No juu, varmaan on ajateltava että tämä on vain eräs peruspalikka ja elementti jossakin korkeamman tarkoituksen todennäköisyyskuviossa.

Jatkuvan todennäköisyysjakauman tehtäviä

Diskreetin jakauman vastakohta on jatkuva jakauma. Karkeasti voinee sanoa että diskreetissä tapauksessa satunnaismuuttuja on kokonaisluku ja jatkuvassa tapauksessa satunnaismuuttuja on desimaaliluku. Jatkuva jakauma eroaa diskreetistä radikaalisti siinä että satunnaismuuttujan jonkin aivan tietyn arvon todennäköisyys on hämmästyttävästi aina nolla, eli ei ole laskettavissa vaikka kertymäfunktion arvo kasvaakin ko. kohdassa. Tämä paradoksi juontaa reaalilukujen perusolemuksesta. Millä tahansa nollaa suuremmalla reaalilukujen välillä on periaatteessa ääretön määrä reaalilukuja. Lukujen täsmällinen yhtäsuuruus onkin reaalilukualueessa aika toivotonta. Reaalilukujen arvojen täsmälliseen ilmaisemiseen käytetty numeroiden määrä ei voi rajoittua esimerkiksi tietokoneiden rajallisen pituisiin numeerisiin tietotyyppeihin. Matematiikka ei tässä suhteessa nöyrry tekniikkavetoisen markkinatalouden edessä.

Jatkuvien jakaumien yhteydessä käytetään diskreetin tapauksen todennäköisyysfunktion asemesta nimitystä tiheysfunktio. Kertymäfunktion ratkaisemisessa tarvitaan edellä sigma-merkillä esitellyn summan asemesta integraalia. On aika tyhmää kysyä mikä olisi ei-diskreetissä tapauksessa jotakin tiettyä desimaalilukua vastaava tiheysfunktion arvo, koska se on aina nolla. Todennäköisyys täytyy ajatella pinta-alaksi. Täytyy ajatella että yksittäistä satunnaismuuttujan arvoa vastaava pylväs on tiheysfunktiossa äärettömän ohut. Mielekkäämpää olisi kysyä jotakin kapeahkoa, mutta nollaa suurempaa täsmällisesti esitettyä satunnaismuuttujien arvojen väliä vastaavaa todennäköisyyttä. Se laskettaisiin periaatteessa kertymänä eli integraalina.

Diskreetillä puolella argumenttia voi ajatella kokonaislukuina. Jos kysytään vaikkapa todennäköisyyttä satunnaismuuttujan X arvolle joka on vähemmän kuin 5, silloin tarkoitetaan X-arvoja jotka ovat korkeintaan 4, siis yhtäsuuri kuin 4 tai vähemmän ; P(X<5) = P(X <= 4) eli "todennäköisyys P sille että satunnaismuutujalla X on arvo joka on vähemmän kuin 5, on yhtä kuin todennäköisyys että satunnaismuuttujan arvo on yhtäsuuri tai pienempi kuin 4". Viitonen ei käy koska X on oltava pienempi.

Jos diskreetillä puolella kysytään todennäköisyyttä satunnaismuuttujan arvolle joka on enemmän kuin 5, tarkoitetaan todennäköisyyttä X-arvoille 6 tai enemmän ; P(X>5) = P(X >= 6) eli "Todennäköisyys että satunnaismuuttujan X arvo on suurempi kuin 5, on yhtä kuin todennäköisyys että X on yhtäsuuri tai suurempi kuin 6". Viitonen ei käy koska X on oltava suurempi.

Kertymäfunktio monasti lasketaan alarajasta kuten nollasta johonkin tiettyyn ylärajan arvoon. Tuo yläraja saattaa olla jopa ääretön. Niinpä jos tehtävässä kysytään kertymäfunktion arvoa jonkin rajan yläpuolella, on monasti helpointa laskea komplementin kautta koska kertymäfunktio luontevasti lasketaan alarajasta ja koko otosavaruuden todennäköisyys on tasan 1. Esimerkiksi voitaisiin kysyä diskreetissä tapauksessa mitä on P(X>1). Tämä olisi P(X>1) = P(X >= 2) = 1 - P(X <= 1) jossa lasketaan satunnaismuuttujan X arvosta 2 alkavaa kertymän pitkää "häntäosaa" joka saattaa ulottua vaikkapa äärettömyyteen, mutta se lasketaan satunnaismuuttujan alarajasta arvoon 1 ulottuvan kertymän komplementtina. Diskreetissä tapauksessa P(X <= 1) + P(X >= 2) = 1 koska arvojen X=1 ja X=2 välissä ei ole mitään todennäköisyyttä.

Noin siis toimitaan diskreetillä puolella, mutta jatkuvissa todennäköisyysjakaumissa yhtäsuuruuden merkitys on epämääräinen. Niinpä jatkuvassa tapauksessa P(X <= 5) = P(X<5) ja toisaalta P(X >= 5) = P(X>5) eli näissä pareissa ei ole eroa. Käytännössä jatkuvalla puolella "suurempi tai yhtäsuuri" tarkoittaa samaa kuin "suurempi" ja myöskin "pienempi tai yhtäsuuri" tarkoittaa samaa kuin "pienempi". Tavallaan helpompaa. Täytyy muistaa että ei-diskreetissä tapauksessa tiheysfunktion pylväät ovat äärettömän ohuita ja satunnaismuuttujan arvon täsmällisellä yhtäsuuruudella kuten P(X=5) saivartelu on aika mieletöntä koska tiheysfunktioiden arvot ovat infinitesimaalisia, ei-diskreetissä tapauksessa P(X=5) = 0 .

Beta-jakauman tehtävä

Kuuluisin jatkuva jakauma on epäilemättä normaalijakauma, se suunnattoman kuuluisaa "Gaussin kellokäyrää" noudattava symmetrinen todennäköisyysjakauma. Gaussin käyrä on kuin kirkonkellon halkileikkaus, kapea ylhäältä keskeltä ja leviää kauniisti kaareutuen alas molempiin suuntiin. Haluamme ajatella monien luonnollisten ilmiöiden noudattavan normaalijakaumaa.

Normaalijakauma on varmaan sinänsä aivan hieno jakauma. Ikävänä puolena siinä on että vaikka sen tiheysfunktio onkin moitteettoman siistin näköinen, niin sillä ei ole äärellisen pituisessa suljetussa muodossa ilmaistavaa kertymäfunktiota. Normaalijakauman tiheysfunktiolle ei ole olemassa siistiä analyyttistä integraalia. Tokihan kertymäfunktion arvoja silti pystyy laskemaan numeerisesti, raakaa voimaa käyttäen. Ja tokihan niitä on laskettu valmiiksi taulukoihin vuosien mittaan, mutta taulukkoja nykyisin tuskin käytetään, havainnollisuudestaan huolimatta. Tietotekniikka se on kun nykypäivänä rikuneeraa. Ei nykyisin enää tarvitse ymmärtää, riittää kunhan painaa nappulaa!

Tosin pienenä kauneusvirheenä normaalijakauma ulottuu "äärettömyyteen" saakka molemmissa suunnissa. Odotusarvosta etäännyttäessä satunnaismuuttujan todennäköisyys pienenee, mutta se ei oikeastaan missään mene aivan nollaan. Jos väitetään että ihmisten pituus noudattaa normaalijakaumaa, silloin pitäisi parametreista riippumatta hyväksyä se periaatteellinen - vaikkakin hyvin pieni - todennäköisyys että joidenkin ihmisten pituus on negatiivinen ja joidenkin pituus ylittää 3 metriä. Joten normaalijakauma ei aivan täsmällisesti kuitenkaan ääritapauksissa kuvaa todellisuutta vaikka näyttääkin hyvältä odotusarvon lähellä. Negatiivinen pituus ei ole edes fysikaalisesti mahdollinen.

Antaa kuitenkin normaalijakauman nyt olla. Katsotaan sen asemesta esimerkin kautta erästä toista jakaumaa, beta-jakaumaa.

Sementin seassa voidaan sietää sinänsä liian suuria kappaleita kunhan niitä ei ole suhteessa liian paljon. Arvattavasti liian suuret rakeet heikentävät sementin laatua jos niitä on tiettyä rajaa enemmän. En tiedä miten realistinen tämä tehtävä on, mutta olettaisin että osuus tarkoittaa osuutta nimenomaan sementin painosta. Siis liian suurten rakeiden suhteellinen osuus koko erän painosta on se satunnaismuuttuja. Esimerkiksi satunnaismuuttujan arvo Y = 0,10 tarkoittaa että liian suurien rakeiden massa on 10% koko sementtierän massasta.

Tehtävän a) kohta kysyy satunnaismuuttujan odotusarvoa ja keskihajontaa. Niille löytyy valmiit kaavat ja todettakoon selkeyden vuoksi että odotusarvo μ = α / ( α + β ) = 1/4 = 0,25 ja varianssi σ2 = ( α β ) / ( (α + β)2 (α + β + 1) ) = 0,0375 joten sen positiivinen neliöjuuri eli keskihajonta σ = 0,19365 . Yksikkönä odotusarvossa ja keskihajonnassa on sama kuin satunnaismuuttujalla, eli ne edustavat liian suurten rakeiden suhteellista massaosuutta.

Voisi siis ylimalkaisesti sanoa että liian karkeitten partikkelien tyypillinen osuus erässä on noin 0,25 eli 25%. Vaihtelua epäilemättä on. Keskihajonnan perusteella voisi ylimalkaisesti arvioida että välillä μ ± σ on paljon sisältöä. Eli satunnaismuuttujan arvojen 0,25 - 0,19 .... 0,25 + 0,19 eli liian suurien partikkelien osuuksien arvojen 0,06 ... 0,44 tulisi jakaumassa olla melkoisen runsaasti edustettuina. Tämä vain karkeana nyrkkisääntönä, tarkemmin ei voi tällä perusteella sanoa.

Odotusarvo on oikeastaan satunnaismuuttujan arvolla painotettu keskiarvo ja tällä epäsymmetrisellä jakaumalla sillä on taipumusta olla jonkin verran suurempi kuin mediaani, koska isot satunnaismuuttujan arvot "painavat" enemmän kuin pienet arvot.

Tehtävän b) -kohdalle MatLab antaisi eleettömästi nopean vastauksen betainv(0.5, 1, 3) = 0.2063 käyttäen apuna valmista beta-jakauman kertymäfunktion käänteisfunktiota joka etsii annettua kertymää 0.5 vastaavan satunnaismuuttujan arvon 0.2063 kun beta-jakauman parametrit ovat α = 1, β = 3 .

Laskimen käyttäjälle ei lie tarjolla suoraa keinoa tuon tuloksen saamiseksi. Mutta onhan paljon autuaampaa ja opettavaisempaa ymmärtää miksi ja miten, kuin vain saada valmis vastaus eteensä kuin Manun illallinen. En edes yritä tarjota tässä yleispätevää ratkaisua, vaan ratkaisu on pelkästään tässä tehtävässä esitetylle tapaukselle jossa beta-jakauman parametrit ovat vakioita : α = 1, β = 3 .

Beta-jakauma on eräänlainen tasaisen jakauman yleistys ja se perustuu beta-funktioon B(α, β). Sopivilla parametrien arvoilla beta-jakaumasta todella tulisi tasainen, mutta tämä ei sellainen tapaus ole. Koko komeudessaan beta-jakauman tiheysfunktion määritelmä satunnaismuuttujan X arvoille välillä 0 < X < 1 on seuraava:

                        1
beta(x ; α, β)  =   -------- Xα - 1 (1 - X)β - 1
                     B(α, β)

Parametrien α ja β arvojen täytyy olla nollaa suurempia ja satunnaismuuttujan X arvojen täytyy todella olla välillä 0 ... 1 koska kyse on osuudesta 0 ... 100%. Urheilussa voidaan ehkä vaatia esimerkiksi 125% suoritustasoa, mutta todennäköisyyslaskennassa sellainen ei käy päinsä.

Beta-funktion ( B ) arvo puolestaan voidaan määritellä eräänä ilkeänä integraalina, mutta se voidaan myös laskea gamma-funktion ( Γ ) avulla.

             Γ(α)· Γ(β)
B(α, β)  =  -----------
              Γ(α + β)

Gamma-funktion arvot taas ovat helppoja silloin kun argumentti (n > 0) on kokonaisluku : Γ(n) = (n-1)! joten muun muassa seuraavat helposti laskettavat arvot pätevät:

Γ(1)  =  (1-1)!  =  0!  =  1
Γ(2)  =  (2-1)!  =  1!  =  1
Γ(3)  =  (3-1)!  =  2!  =  1·2  =  2
Γ(4)  =  (4-1)!  =  3!  =  1·2·3  =  6
Γ(5)  =  (5-1)!  =  4!  =  1·2·3·4  =  24

Jos gamma-funktion argumentit eivät olisi kokonaislukuja joille funktion arvo saadaan kertoman avulla kuten yllä, olisi gamma-funktion arvo laskettava äärettömänä integraalina. Kertoma on määritelty vain kokonaisluvuille.

Oheinen kuva esittää miten argumentille 4 laskettaisiin gamma-funktion arvo Γ(4) = 6 integraalina. Tällainen integrointi ei ole tässä tapauksessa tarpeen, mutta ehkä periaate on silti hyvä osata.

Tässähän α ja β ovat kokonaislukuja ja vakioita : α = 1, β = 3 , joten voimme helposti laskea niitä vastaavan beta-funktion arvon gamma-funktion arvojen avulla kertomia käyttäen :

                         Γ(1)· Γ(3)      1· 2       2       1
B(α, β)  =  B(1, 3)  =  -----------  =  ------  =  ---  =  ---
                          Γ(1 + 3)       Γ(4)       6       3

Kun tiedämme että B(α, β) = B(1, 3) = 1/3 , on beta-jakauman tiheysfunktio helppo ratkaista tässä erikoistapauksessa. Käytetään satunnaismuuttujaa Y koska se mainitaan tehtävässä.

                                        1
beta(y ; α, β)  =  beta(y ; 1, 3)  =  ----- y1-1 (1 - y)3-1  =  3· y0· (1 - y)2
                                       1/3

Tässä tapauksessa aluksi mutkikkaan näköinen beta-jakauman tiheysfunktio siis pelkistyy suhteellisen yksinkertaiseen muotoon beta(y ; 1, 3) = 3·(1 - y)2 eli siinä on eksponentti 2 ja muuttuja on siis toista astetta. Niinpä vastaavassa kertymäfunktiossa muuttuja tulee olemaan kolmatta astetta koska kertymäfunktio on tiheysfunktion integraali. Jos on helpompi ajatella toisin päin niin sanotaan että tiheysfunktio on kertymäfunktion derivaatta.

Hyvä, nyt tiedämme että tiheysfunktio on sittenkin suhteellisen simppeli. Ja kyllähän sen herrajjumala on syytäkin olla simppeli jos aiomme integroida sen!

Mutta mitä tehtävän b)-kohdassa oikeastaan kysytään? Kysytään satunnaismuuttujan mediaania. Satunnaismuuttujan mediaani on se satunnaismuuttujan arvo jota vastaava kertymäfunktion arvo on tasan puoli. Mediaaniin saakka nollasta tultaessa tiheysfunktiosta kertyvä todennäköisyys on kerännyt todennäköisyyttä tasan 50% edestä. Mediaanin kohdalla tilanne on siis fifty-fifty.

Meillä on siis jo tälle erikoistapaukselle pätevä beta-jakauman tiheysfunktio, mutta tarvitsemme vastaavan kertymäfunktion. Sen saamme integroimalla tiheysfunktion. Symbolinen laskin on tässä kovasti kätevä. Tehtävän b) -kohdassa haluamme oikeastaan ratkaista beta-jakauman kertymäfunktion käänteisfunktion arvon siten että kertynyt todennäköisyys on tasan 0.5, eli haluamme löytää sen satunnaismuuttujan Y arvon jolla todennäköisyys on tasan fifty-fifty. Mutta ensin ratkaistaan kertymäfunktio analyyttisesti eli selvitetään millainen yhtälö kuvaa kertymäfunktiota.

Symbolisen laskennan hanskaava CAS-laskin (Computer Algebra System) kertoo helposti että integroimalla tiheysfunktion lauseke f(Y) = 3·(1 - y)2 alkuarvosta nolla (0) aina johonkin tarkemmin määrittelemättömään ylärajaan X saakka saadaan tuloksena kertymäfunktio F(X) = (X - 1)3 + 1 ja beta-jakauman kertymäfunktio siis tässä tapauksessa on tämän kaavan mukainen.

Mediaanin kohdalla kertymäfunktion arvo on puoli, eli F(X) = (X - 1)3 + 1 = 0.5 . Tuhannen taalan kysymys kuuluukin, mikä on satunnaismuuttujan arvo X siten että edellinen yhtälö toteutuisi. No juu, tässä on kolmannen asteen yhtälö, joka on ehkä hiukan ronkeli ratkaista käsin, mutta laskimen solve-toiminto auttaa (Casiossa valikkokomento Interactive | Advanced | solve ). Laskimen solve-toiminto kertoo meille että:

solve((y - 1)3 + 1 = 0.5, y) = { y = 0.2062995 }

Eli tässä näkyy suoraan se b) -kohdan etsitty vastaus, satunnaismuuttujan Y mediaanin arvo 0.2062995. Kun karkeitten partikkelien osuus on 20,6% massasta niin kertymäfunktiolla on arvo 50%. Mediaani 20,6% on siis tässä pienempi kuin odotusarvo 25%, josta voinee siitäkin päätellä että jakauma on vino ja epäsymmetrinen. Jos sementtierässä voitaisiin hyväksyä niinkin suuri liian karkeitten rakeiden osuus kuin 20,6% massasta niin erän hyväksymisen todennäköisyys olisi fifty-fifty, eli säätötekniikan kannalta hiinä-ja-hiinä.

Kolmannen asteen yhtälöllä on oikeastaan aina kolme juurta, mutta tämä on tässä tapauksessa niistä ainoa reaalinen. Jos olisi muita reaalisia juuria, haluttaisiin se joka on arvojen 0 ja 1 välissä. Beta-jakaumassa satunnaismuuttujan arvon nimittäin täytyy olla suurempi kuin nolla ja pienempi kuin 1. Tiheysfunktion kaava ei päde muilla arvoilla. Tässä tapauksessa muut juuret ovat kompleksisia, joten ne eivät tässä yhteydessä kiinnosta. Laskin osaisi kyllä ne ratkoa, mutta se ei vaivaudu niitä esittelemään, ellei asetuksissa ole nimenomaan sitä vaadittu.

Entä tehtävän kohta c)? Mikä on todennäköisyys sementtierän hyväksymiselle annetun beta-jakauman pohjalta? Liian suurien partikkelien suuruus noudattaa tiettyä beta-jakaumaa ja halutaan tietää todennäköisyys että liian karkeitten partikkelien osuus on alle 10%. Ensi näkemältä aika paljon pyydetty kun satunnaismuuttujan mediaanikin on 20,6% eli huomattavasti suurempi.

Halutaan todennäköisyys P(Y < 0.10) joka voidaan ratkaista edellä selvitetyn kertymäfunktion avulla P(Y < 0.10) = F(Y = 0.10) , koska väkänen on tuossa juuri oikeaan suuntaan, todennäköisyys että Y on pienempi kuin 0,10. Jatkuvan jakauman kertymäfunktiolla nimenomaan lasketaan todennäköisyys sille että satunnaismuuuttujan arvo on pienempi kuin jokin tietty vakio. Jos halutaan laskea todennäköisyys että satunnaismuuttujan arvo on suurempi kuin jokin vakio, on laskettava komplementin kautta P(Y > 0.10) = 1 - P(Y < 0.10) = 1 - F(Y = 0.10) mutta tässähän ei niin tarvitse tehdä. Tässä halutaan siis todennäköisyys sille että satunnaismuuttujan Y arvo on pienempi kuin 0.1, eli karkeitten rakeitten massaosuus betonierässä on korkeintaan 10%, joka on edellä ratkaistun beta-jakauman kertymäfunktion arvo kun satunnaismuuttuja Y = 0.10

Tämä on siis suoraan laskemalla P(Y < 0.10) = F(Y = 0.10) = (Y - 1)3 + 1 = (0.1 - 1)3 + 1 = (-0.9)3 + 1 = 0.271 joten sementtierän hyväksymisen todennäköisyys on melko masentavan alhainen 0.271 eli 27,1%. Luultavammalta sikäli tuntuu että erä on hylättävä koska hyväksymisen todennäköisyys on selvästi alle 50%.

MatLab antaisi ilmeenkään värähtämättä saman tuloksen funktiokutsulla betacdf(0.1, 1, 3) = 0.2710 käyttäen valmista beta-jakauman kertymäfunktiota.

Piirtäkäämme ihmiset koneaivon avustuksella

MatLab-ohjelmalla on helppo tehdä havainnollistavia piirroksia, joten saanen vielä aikaiseksi muutaman sellaisen tähän päätteeksi koulun tietokoneluokan koneen MATLAB-ohjelmasta.

Ensimmäinen kuva esittää gamma-funktiota argumentin arvoilla lähes nollasta 5:een saakka. Kokonaisluku-argumentteja vastaavat arvot Γ(1), Γ(2), Γ(3), Γ(4), Γ(5) on ympyröity käyrässä punaisin ympyröin. Tämä kuvaaja ei siis esitä gamma-jakaumaa, vaan pelkkää gamma-funktiota jota yllä hyödynsimme beta-funktion arvon laskemisessa.

Ylläoleva piirros saadaan MATLAB-ohjelmassa aikaiseksi seuraavalla koodinpätkällä jossa käytetään funktiota gamma laskemaan käyrän tärkeät arvot:

  F_size = 16; 
  x = [0.05:0.01:5.0]';    xn = [1:5]';
  y = gamma(x);            yn = gamma(xn);   
  figure(1)
  hold on
  plot(x,y) 
  plot(xn,yn,'ro')
  set(gca, 'FontSize', F_size);
  title('gammafunktio')

Seuraava kuva esittää yllä käsiteltyä beta-jakauman tiheysfunktiota satunnaismuuttujan arvojen välillä 0 ... 1 kun parametrit ovat α = 1, β = 3 . Käyrässä on esitetty punaisin ympyröin kohdat joissa tehtävästä tuttu satunnaismuuttujan arvo on 0.10, 0.2063 (mediaani) ja 0.25 (odotusarvo). Mediaanin kohdalla on punainen katkoviiva pystyssä.

Piirrosta vastaava MATLAB-koodi joka käyttää beta-jakauman tiheysfunktiota betapdf :

  alfa = 1; beta = 3; 
  x = [0.01:0.01:1.0];            xn = [0.1, 0.2063, 0.25];
  y = betapdf(x, alfa, beta);     yn = betapdf(xn, alfa, beta);
  figure(1)
  hold on
  plot(x,y) 
  plot(xn,yn,'ro')
  set(gca, 'FontSize', 14);
  title('Beta-jakauman tiheysfunktio, \alpha = 1, \beta = 3')
  plot([0.2063, 0.2063], [0, betapdf(0.2063, alfa, beta)], '--rs')	% mediaanin kohtaan pystyviiva

Seuraava kuva esittää beta-jakauman kertymäfunktion arvon kertymistä satunnaismuuttujan arvojen välillä 0 ... 1.

Piirrosta vastaava MATLAB-koodi joka käyttää beta-jakauman kertymäfunktiota betacdf :

  alfa = 1; beta = 3; 
  x = [0.01:0.01:1.0];             xn = [0.10, 0.2063, 0.25];
  y = betacdf(x, alfa, beta);      yn = betacdf(xn, alfa, beta);
  figure(1)
  hold on
  plot(x,y) 
  plot(xn,yn,'ro')
  set(gca, 'FontSize', 12);
  title('Beta-jakauman kertymäfunktio, \alpha = 1, \beta = 3')

Lisäyksenä kertymäfunktion kuvaajaan olen piirtänyt tehtävän kohtien b) ja c) periaatteellisen ratkaisutavan. Vihreä nuoli näyttää miten c) kohdassa päädytään vaaka-akselin satunnaismuuttujan arvosta 0,10 kertymäfunktion käyrän kautta pystyakselilla olevaan todennäköisyyden arvoon noin 0,27 käyttäen tavallista beta-jakauman kertymäfunktiota. Punainen nuoli näyttää miten käänteinen probleema ratkaistaan tehtävän b) kohdassa. Siinä tarvitaan kertymäfunktion käänteisfunktiota. Lähdetään pystyakselilta todennäköisyyden arvosta 0,50 ja päädytään kertymäfunktion käyrän kautta vaaka-akselille satunnaismuuttujan arvoon noin 0,206 käyttäen beta-jakauman kertymäfunktion käänteisfunktiota.

En tiedä miten MATLAB laskee kertymäfunktion käänteisfunktion. Arvojen plottaushan on kyllä tuossa kuvassa tehty tavallisen kertymäfunktion betacdf eikä sitä vastaavan käänteisen funktion betainv avulla.

Ylläolevassa laskimella yksityiskohtaisesti ratkaisemisessa lähdimme tiheysfunktion yhtälöstä ja integroimme siitä analyyttisesti vastaavan kertymäfunktion yhtälön. Sitten ratkaisimme kertymäfunktion tuntemattoman satunnaismuuttujan arvon kun kertymäfunktiolla on jokin tietty arvo. Ja kappas vaan, tuloksena on todennäköisyyttä vastaava satunnaismuuttujan arvo. Ylläolevassa voimme ajatella että satunnaismuuttuja Y on vaaka-akselilla ja pystyakselilla on vastaava todennäköisyys P. Näitä merkintöjä käyttäen tiheysfunktion käyrä on yhtälön P = 3·(1 - Y)2 mukainen ja siitä integroitu kertymäfunktion käyrä on yhtälön P(Y) = (Y - 1)3 + 1 mukainen. Kun kertymäfunktion todennäköisyydellä P on tietty numeerinen arvo (Y - 1)3 + 1 = 0,50 niin haluttu Y saadaan ratkaisemalla tuo kolmannen asteen yhtälö muuttujan Y suhteen.

Hiukan temppuilemalla beta-jakauman tiheysfunktion ja kertymäfunktion saa myös samaan kuvaan. Olen hiukan venyttänyt piirrosta pystyssuunnassa niin että kertymäfunktio ei jää kovin pieneksi. Tiheysfunktio saa alussa hurjia arvoja joten sitä täytyy hillitä. Niinpä en tässä esitä tiheysfunktion arvoa satunnaismuuttujan arvolle 0,10.

Mitä näistä sitten opimme? Beta-jakauman tiheysfunktiolla (sininen käyrä) on pienillä satunnaismuuttujan arvoilla melko suuria arvoja. Niinpä kertymäfunktion (punainen käyrä) arvot lähtevät aluksi rivakkaan nousuun. Mediaanin kohdalla, satunnaismuuttujan arvo noin 0,2 vaaka-akselilla, kertymäfunktio on jo saavuttanut arvon 0,5 eli puolet siitä mitä se koskaan tulee saavuttamaankaan. Jos pystyisimme laskemaan sen pinta-alan joka tiheysfunktiossa on tällä kohdalla vaaka-akselin ja sinisen käyrän välissä nollasta alkaen, niin sekin olisi puolet koko pinta-alasta ykköseen saakka.

Kertymäfunktio käyrän kolmannen punaisen palluran kohdalla satunnaismuuttujan arvo on 0,25 ja siinä on satunnaismuuttujan odotusarvo. Symmetrisessä jakaumassa satunnaismuuttujan odotusarvo ja mediaani olisivat täsmälleen samassa kohdassa, mutta tässähän tiheysfunktio ei ole symmetrinen.

Suuremmilla satunnaismuuttujan arvoilla tiheysfunktio alkaa hiipua kohti nollaa ja kertymäfunktion kertyminen vastaavasti hidastuu. Lopuksi kertymäfunktion arvo saavuttaa arvon 1 ja siitä se ei enää kasva, sen paremmin kuin pienenekään, sillä se ykkönen tarkoittaa että 100% todennäköisyyttä on kertynyt. Urheilupiirien ulkopuolella sen enempi on mahdotonta.

Beta-jakauman tiheysfunktion arvo menee tasan nollaan kun satunnaismuuttuja on 1. Normaalijakaumassa eli siinä äärimmäisen kuuluisassa Gaussin kellokäyrässä tiheysfunktion arvo vaan loputtomasti lähenee nollaa odotusarvosta etäännyttäessä, mutta beta-jakaumassa tiheysfunktion arvo on tasan nolla välin 0 ... 1 ulkopuolella.

Voi ajatella että tiheysfunktio on kertymäfunktion derivaatta ja ilmaisee siten kertymäfunktion kuvaajan kulmakertoimen. Tosin X- ja Y- akseleiden mitta-asteikot pitäisi skaalata samalla tavalla että tämä näyttäisi ihan oikealta. Kun tiheysfunktiolla on arvo 1 (satunnaismuuttujan arvo noin 0,4) niin kertymäfunktion pitäisi nousta 45° kulmassa koska sellaisen kulman tangentti on 1. Mutta eihän se oletusarvoin oikein näytä siltä koska pystysuuntaisen Y-akselin mitta on suurempi vaakasuuntaiseen X-akseliin verrattuna. Niinpä tässä on piirrosta venytetty pystysuunnassa.

Huomattakoon että tiheysfunktion arvot ovat aina positiivisia tai ainakin ei-negatiivisia, vaikka tiheysfunktion käyrä onkin tässä laskeva. Niinpä kertymäfunktion käyrä ei koskaan laske alaspäin oikealle mentäessä. Kertymäfunktion arvo voi vain kasvaa tai pysyä samana satunnaismuuttujan arvon kasvaessa.

Entäs (standardi) normaalijakauma

On kiva plotata vertailun vuoksi myös normaalijakauman tiheys- ja kertymäfunktiot. Ne ovat hyvin erilaisia kuin beta-jakauman vastaavat. Normaalijakauma voidaan sijoittaa mihin tahansa odotusarvoon ja se voidaan levittää minkä levyiseksi halutaan. Perusominaisuudet säilyvät tällaisessa käsittelyssä samoina, toisin kuin monilla muilla jakaumilla.

Normaalijakauman tiheysfunktio on symmetrinen ja sen satunnaismuuttujan keskiarvo on sama kuin odotusarvo ja myös sama kuin mediaani ja moodi. Normaalijakauman tiheysfunktion parametrit ovat samat kuin sen tunnusarvot odotusarvo ja keskihajonta. Matemaattisesti hieno juttu, mutta käytännön elämää ajatellen ehkä liiankin hieno. Normaalijakauman tiheysfunktio voidaan derivoida miten monta kertaa tahansa, sillä funktio jolle se oleellisesti perustuu, ex on samalla sekä oma intergraalinsa että oma derivaattansa.

Siispä kuvataan seuraavaksi normaalijakauman tiheysfunktio eli se kuuluisa "Gaussin kellokäyrä" käyttäen MATLAB-funktiota normpdf. Tässä on kuvattu ns. standardi-normaalijakauma jonka odotusarvo on μ = 0 eli se keskittyy nollan ympärille ja keskihajonta on σ = 1. Tässä on kuvattu normaalijakauma vain välillä μ - 3·σ ... μ + 3·σ mutta tiheysfunktion arvo ei varsinaisesti mene missään aivan tasan nollaan. Satunnaismuuttujan arvot ylettyvät negatiivisesta äärettömyydestä positiiviseen äärettömyyteen, mutta tiheysfunktion arvot toki ovat siellä jo aika pieniä.

Satunnaismuuttujan odotusarvo nolla on siis vaaka-akselilla keskellä ja keskihajonta σ = 1 yltää siitä yhden yksikön päähän kumpaankin suuntaan. Keskihajonnan päässä odotusarvosta eli satunnaismuuttujan arvoilla μ-σ ja μ+σ tapahtuu jotakin dramaattista : tiheysfunktion käyrän kaarevuuden suunta muuttuu.

Odotusarvoa pienemmillä satunnaismuuttujan arvoilla tiheysfunktion derivaatta on positiivinen koska käyrä nousee. Odotusarvoa edeltävää keskihajonnan pistettä pienemmillä arvoilla tiheysfunktion toinen derivaatta on positiivinen koska käyrä kaartuu ylöspäin. Keskihajonnan pisteen jälkeen funktion derivaatta on edelleen positiivinen, mutta toinen derivaatta on negatiivinen koska käyrä kaartuu alaspäin.

Odotusarvon kohdalla tiheysfunktiolla on maksimi ja derivaatta on siinä nolla. Tämän jälkeen käyrä lähtee laskuun, joten derivaatta on negatiivinen. Aluksi toinen derivaatta on myös negatiivinen, koska käyrä kaartuu alaspäin. Keskihajonnan päässä odotusarvosta toinen derivaatta on nolla ja tämän jälkeen se muuttuu positiiviseksi koska käyrä kaartuu ylöspäin vaikka käyrä onkin edelleen laskeva.

Tavanomaista on esittää todennäköisyydet pinta-aloina jotka jäävät tiheysfunktion käyrän ja vaaka-akselin väliin. Todennäköisyyden integrointi pitäisi oikeastaan aloittaa negatiivisesta äärettömyydestä. Mietitään harjoituksen vuoksi todennäköisyyttä satunnaismuuttujan arvojen välillä μ-2σ ja μ+2σ eli siis kahden yksikön päässä odotusarvon molemmin puolin. Karu nyrkkisääntö kertoo että normaalijakaumassa tuolle välille kuuluu 95% koko todennäköisyydestä. Siis ajatellaan että tiheysfunktion käyrän alle välillä μ-2σ ja μ+2σ jää noin 95% koko tiheysfunktion käyrän alle jäävästä pinta-alasta.

Standardinormaalijakauman tiheysfunktio on sentään vielä aika simppeli, joten voisimme laskea tuon tuloksen laskimella integroiden standardin normaalijakauman tiheysfunktion arvoja satunnaismuuttujan arvoihin μ+2σ ja μ-2σ sekä vähentämällä jälkimmäisen tuloksen edellisestä. Integroitavassa kaavassa esiintyvät päättymättömät ja dimensiottomat eli laaduttomat vakiot e = 2,71828... joka on luonnollisen logaritmijärjestelmän kantaluku ja kreikkalainen kirjain "pii", π = 3,14159... joka on ympyrän kehän pituuden ja halkaisijan pituuden välinen suhdeluku. X on satunnaismuuttuja jonka suhteen integroidaan.

Kuten näkyy, on standardinormaalijakauman kertymäfunktion arvo F(2) eli tiheysfunktion integraali negatiivisesta äärettömyydestä arvoon +2 saakka noin F(2) = 0,97725 ja kertymäfunktion arvo F(-2) eli tiheysfunktion integraali negatiivisesta äärettömyydestä arvoon -2 saakka noin F(-2) = 0,02275. Näiden erotus F(2) - F(-2) = 0,97725 - 0,02275 = 0,95450 joka on juurikin tuo yllä mainittu noin 95%. Nyrkkisääntö siis pätee normaalijakaumalle, myös muille kuin standardijakaumalle.

Laskimella voisimme kylläkin laskea tiheysfunktion integraalin suoraan satunnaismuuttujan arvojen välillä -2:sta +2:een ja saisimme yhdellä kerralla saman tuloksen.

Tiheysfunktio on todennäköisyyslaskennassa lähtökohta, mutta kertymäfunktio on se tärkeämpi kun lasketaan todennäköisyyksiä. Vaikka eihän normaalijakauman kertymäfunktion arvoja tavallisesti integroida tuolla tavalla, vaan niiden laskemiseen on laskimessakin omat toimintonsa. Ennen kertymäfunktion arvoja on laskettu taulukoihin, mutta taulukkoja enää tuskin käytetään.

Normaalijakauman kertymäfunktion kuvaajaa ei yleensä esitetä erikseen, vaan ajatellaan sitä pinta-ala joka jää tiheysfunktion kuvaajan alle. Ei ehkä mahdollisimman havainnollista? Ehkä tämä johtuu siitä että normaalijakauman kertymäfunktiolle ei ole analyyttistä ratkaisua? Kaiken uhallakin esitän seuraavaksi normaalijakauman kertymäfunktion käyränä. Sehän voidaan toki numeerisesti laskea vaikka sitä ei voikaan esittää tarkasti äärellisen pituisena kaavana. Käytän MATLAB-funktiota normcdf.

Tässäkin on kyseessä standardi-normaalijakauma jonka satunnaismuuttujan odotusarvo on nolla ja keskihajonta yksi ja se on kuvattu satunnaismuuttujan arvojen välillä μ-3·σ ... μ+3·σ

Odotusarvon 0 kohdalla todennäköisyyttä on kertynyt tasan 0,50 eli 50% negatiivisesta äärettömyydestä saakka integroiden. Satunnaismuuttujan arvolla μ+3·σ todennäköisyys on melkoisen lähellä arvoa 1 eli 100%, mutta ei aivan yllä siihen kuin vasta positiivisessa äärettömyydessä. Ainoastaan huippu-urheilussa arvon 100% ylitys on mahdollista, varsinkin jos Kanerva käskee. Matematiikassa se ei onnaa.

Kertymäfunktion kuvaajan perusteella voisi joutua kiusaukseen väittää että satunnaismuuttujan arvojen μ-3σ ... μ+3σ välillä on täydet 100% todennäköisyydestä, mutta ei se ihan niin ole. Siinä lie noin 99% koko todennäköisyydestä. Kertymäfuktion arvo ei negatiivisella puolella mene aivan nollaan missään eikä positiivisella puolella saavuta aivan tasan ykköstä, vaan se lähestyy asymptoottisesti näitä arvoja. Siksi ei välttämättä ole hyvä ajatus väittää että jonkin satunnaismuuttujan arvo noudattaa normaalijakaumaa aivan pilkuntarkasti. Aika harvat satunnaismuuttujat kuitenkaan voivat koskaan saada negatiivista tai positiivista äärettömyyttä hipovia arvoja ja monille negatiivinen arvo on aivan mahdotonta fysikaalisestikin, esimerkiksi pituus ei voi koskaan olla negatiivinen.

Koetetaanpa esittää standardin normaalijakauman tiheys- ja kertymäfunktiot samassa kuvassa. Olen hiukan venyttänyt kuvaa pystysuunnassa ettei tiheysfunktio näyttäisi niin snadilta. Tässähän ei ole paljoakaan järkeä sinänsä. On aivan turha yrittää etsiä tästä mitään käyrien leikkauskohtia ja kuvitella sillä olevan jokin syvällinen merkitys, koska vaikka pystysuuntainen numeerinen asteikko onkin yhteinen, niin tiheys- ja kertymäfunktiot kuvaavat aivan eri asioita.

Ylläoleva piirros kokee vain havainnollistaa sitä että normaalijakauman kertymäfunktion (violetti käyrä) arvo kasvaa rivakimmin kun tiheysfunktiolla (sininen käyrä) on maksiminsa. Näkee myös että satunnaismuuttujan mediaani eli todennäköisyyden 50-50 piste on tiheysfunktion maksimin eli odotusarvon kohdalla.

MATLAB-ohjelmalla on helppo piirrellä tietynlaisia kuvia. Ihan kateeksi käy. Esimerkkinä tästä seuraava 3D-kuva joka syntyy seuraavalla hyvin lyhyellä koodin pätkällä, joka kuvaa kahden muuttujan (vaaka-suunnan koordinaatit) funktion arvoja (pystysuunta) pintana kolmessa ulottuvuudessa. Tällä tuskin kuitenkaan on mitään tekemistä todennäköisyyslaskennan kanssa, onpahan vain hauskaa kuvitusta.

  [X,Y] = meshgrid(-2:0.2:2);
  Z = X.*exp(-X.^2-Y.^2);
  surf(X, Y, Z)

Tämän tekstitiedoston koko kasvaa jo yli 64 kilotavun. Pistää vähän hirvittämään vanhaa CP/M -miestä. Voiko niin suurta tiedostoa olla edes olemassa! Kylmä hiki kertyy pyllyrei'än ympärille.

Ah, satunnaisuus, se on ylen ihmeellistä. Oma panokseni satunnaisuuden alttarille tulee ikuisiksi ajoiksi jäämään perin vaatimattomaksi, mutta kun oikein pinnistän aivonystyröitäni, saan puristettu ulos sellaisen syvämietteisyyteen pyrkivän lausahduksen joka kokee kuvata mikä ei ainakaan voi olla aidosti satunnaista: Jos on täysin mahdotonta että riippumaton diskreetti satunnaismuuttuja saisi 239 kertaa peräkkäin saman arvon, niin kyseessä ei ole aidosti satunnainen ilmiö. Siinäpä se. Sen voi nimetä vaikka Vesa Veikon teoreemaksi ... tai joksikin.


Galleria