01.08.2013 Views

Lektion 4.1: Sannolikhet - Stp

Lektion 4.1: Sannolikhet - Stp

Lektion 4.1: Sannolikhet - Stp

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

8. <strong>Sannolikhet</strong><br />

Detta kapitel behandlar grundläggande begrepp i sannolikhetsteori: enkel sannolikhet,<br />

betingad sannolikhet, lagen om total sannolikhet och Bayes lag.<br />

8.1. Enkel sannolikhet<br />

Den klassiska sannolikhetsteorin, som började utvecklas på 1600-talet, har sitt ursprung i<br />

tillämpningar på hasardspel. De frågor som man ville ha svar på var av typen<br />

Är det gynnsamt att, vid jämna odds, slå vad om att man vid fyra kast med<br />

en tärning får minst en sexa?<br />

Detta specifika problem kallas även för De Mérés problem. 1<br />

Fråga: Hur du skulle intuitivt svara på frågan? Hur skulle du kunna gå tillväga för<br />

att lösa problemet?<br />

8.1.1. Relativ frekvens<br />

Låt oss försöka att lösa detta problem empiriskt. I Figur 8.1 ser vi utdatan från ett program<br />

som kastar fyra tärningar åt oss och håller koll på antalet i sammanhanget gynnsamma<br />

utfall, dvs. antalet gånger där man kastat minst en sexa vid fyra kast. Programmet skriver<br />

även ut den relativa frekvensen av de gynnsamma utfallen: andelen som de gynnsamma<br />

utfallen har bland alla utfall. Som vi ser så är denna andel vid 60% efter tio försök.<br />

1 Efter Antoine Gombaud (1607–1684), som kallades Chevalier de Méré (även om han inte var riddare).<br />

68


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

Försök Tärningar Gynsamma Rel. frekvens<br />

1 3 3 4 3 0 0.000000<br />

2 4 5 1 6 1 0.500000<br />

3 4 4 3 5 1 0.333333<br />

4 2 3 5 5 1 0.250000<br />

5 5 5 6 2 2 0.400000<br />

6 6 4 5 2 3 0.500000<br />

7 5 5 3 5 3 0.428571<br />

8 4 6 6 3 4 0.500000<br />

9 2 6 5 2 5 0.555556<br />

10 4 2 6 1 6 0.600000<br />

Figur 8.1.: De Mérés problem.<br />

Fråga: Vilken konsekvens skulle du dra av detta experiment? Varför då?<br />

<strong>Sannolikhet</strong>steorin utvecklades för att man ville kunna förutsäga framtiden baserat på<br />

empiriska erfarenheter. Det hela bygger på antagandet att den relativa frekvensen av en<br />

given händelse (såsom att kasta minst en sexa vid fyra kast) så småningom stabiliseras<br />

kring ett värde. Detta värde kallas för händelsens sannolikhet. Det är viktigt att förstå<br />

att en händelses sannolikhet kan inte observeras; det kan bara skattas. (I det experiment<br />

som vi körde i Figur 8.1 observerade vi relativa frekvenser, inte sannolikheter.) Skattning<br />

kommer vi tillbaka till i nästa kapitel, som handlar om statistik.<br />

8.1.2. Utfall, händelser och sannolikhet<br />

För att lösa De Mérés problem med hjälp av sannolikhetsteorin börjar vi med en förenklad<br />

fråga:<br />

Är det gynnsamt att, vid jämna odds, slå vad om att man vid ett kast med<br />

en tärning får en sexa?<br />

Svaret på denna fråga är lätt. När man kastar en tärning finns det sex möjliga utfall:<br />

Tärningen kan visa en etta, en tvåa, en trea, en fyra, en femma eller en sexa. Mängden av<br />

69


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

alla möjliga utfall kallas för utfallsrum och betecknas med den grekiska bokstaven ⌦. I<br />

det här fallet har vi alltså<br />

⌦ = {1, 2, 3, 4, 5, 6}<br />

Vid jämna odds finns det alltså bara ett gynnsamt utfall (man kastar en sexa), men fem<br />

stycken ogynnsamma utfall (man kastar något annat). Det är alltså inte gynnsamt att slå<br />

vad om att man får en sexa.<br />

Fråga: Hur måste man argumentera om man istället är intresserad i frågan om det<br />

är gynnsamt att slå vad om att man vid ett kast med en tärning får ett jämt tal?<br />

Om man istället är intresserad i händelsen ”man kastar ett jämt tal” så finns det tre<br />

gynnsamma utfall: en tvåa, en fyra och en sexa.<br />

Det föregående exempel illustrerar skillnaden mellan begreppen utfall och händelse:<br />

Varje kast med tärningen kommer att ge exakt ett tal som utfall; men vissa relevanta<br />

händelser (”talet är jämt”, ”talet är större än 3”) kan bara beskrivas som kombinationer<br />

av sådana utfall. Allmänt definierar man därför en händelse som en mängd utfall. En<br />

händelse är därför en delmängd till utfallsrummet.<br />

<strong>Sannolikhet</strong>en för en händelse A är definierad som<br />

P (A) =<br />

antal utfall som leder till A<br />

antal möjliga utfall<br />

= |A|<br />

|⌦|<br />

(Kom ihåg att notationen |X| betecknar kardinaliteten eller storleken hos X.)<br />

Fråga: Vad för sorts händelser är ; och ⌦?<br />

Den tomma mängden representerar ”omöjlighet”: Det finns inget som helst utfall<br />

som kan leda till denna händelse; dess sannolikhet är 0. Den fullständiga mängden<br />

representerar ”nödvändighet”: Alla möjliga utfall leder till denna händelse; dess<br />

sannolikhet är 1.<br />

Nu kan vi gå tillbaka till De Mérés problem.<br />

70


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

⌦ A<br />

Figur 8.2.: Diagrammet visar att |A c | = |⌦ \ A| = |⌦| |⌦ \ A|.<br />

Fråga: Vilket utfallsrum får man för De Mérés problem? Vilken storlek har detta rum?<br />

Vilken händelse är man intresserad i? Hur stor är sannolikheten för den händelsen?<br />

Det nya utfallsrummet består av alla följder (tupler) av fyra tärningskast. Detta<br />

utfallsrum har kardinalitet 6 4 = 1296. Händelsen som man är intresserad i är mängden<br />

av alla följder som innehåller minst en sexa. Men det är inte så lätt att räkna ut<br />

sannolikheten för denna händelse . . . Närmare bestämt så är det svårt att räkna ut<br />

antalet utfall som leder till händelsen ”minst en sexa”.<br />

Ett begrepp som är mycket användbart i samband med De Mérés problem är begreppet<br />

komplementhändelse. Med komplementhändelsen till en händelse A menas händelsen<br />

att A inte inträffar. Eftersom varje händelse är en mängd är komplementhändelsen till A<br />

helt enkelt komplementmängden till A, relativt till universum ⌦. Det är inte svårt att se<br />

att sannolikheten för komplementhändelsen till en händelse A är<br />

På samma sätt får man P (A) =1 P (A c ).<br />

Fråga: Kan du bevisa detta?<br />

P (A c )=1 P (A)<br />

Mängden A c kan skrivas som ⌦ \ A. Enligt definitionen av sannolikhet gäller då att<br />

P (A c )=P (⌦ \ A) =<br />

71<br />

|⌦ \ A|<br />

|⌦|


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

När man ritar ett Venn-diagram som i Figur 8.2 ser man att |⌦ \ A| = |⌦| |⌦ \ A|.<br />

Men eftersom A ✓ ⌦ har man ⌦ \ A = A. Med detta:<br />

P (A c )=<br />

|⌦ \ A|<br />

|⌦|<br />

= |⌦| |⌦ \ A|<br />

|⌦|<br />

= |⌦| |A|<br />

|⌦|<br />

= |⌦|<br />

|⌦|<br />

|A|<br />

=1 P (A)<br />

|⌦|<br />

Det som gör begreppet ”komplementhändelsen” användbart i samband med De Mérés<br />

problem är att det är mycket lättare att räkna ut storleken på komplementhändelsen till<br />

”minst en sexa på fyra kast” än händelsen själv.<br />

Fråga: Vad är komplementhändelsen, hur stor är respektive mängd och hur sannolikt<br />

är komplementhändelsen?<br />

Komplementhändelsen är ”ingen sexa på fyra kast”; dess storlek är 5 4 = 625; och<br />

sannolikheten för komplementhändelsen är då 625/1296 = 48, 2%.<br />

Med detta vet vi alltså att sannolikheten att få minst en sexa på fyra kast (vilket är<br />

komplementhändelsen till komplementhändelsen, så att säga) är<br />

P (A) =1 P (A c )=1<br />

625<br />

' 51, 8%<br />

1296<br />

Detta betyder att man har större chans att vinna än att förlora när man slår vad om att<br />

man vid fyra kast med en tärning får minst en sexa.<br />

Fråga: Din kompis och du ska singla slant om vem som ska gå ut med soporna.<br />

Tyvärr har ingen av er några pengar, låt bli mynt. Din kompis föreslår att istället för<br />

att singla slant slå upp en bok på en slumpmässig sida, titta på det första ordet på<br />

denna sida och ta det som ”krona” om det börjar på en konsonant och som ”klave” om<br />

det börjar på en vokal. Vad tycker du om hens förslag? Motivera! Försök att tillämpa<br />

några av de sannolikhetsteoretiska begrepp som du har hittills sett.<br />

72


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

8.2. Betingad sannolikhet<br />

En mycket användbar generalisering av begreppet ”sannolikhet” är begreppet ”betingad<br />

sannolikhet”. Den betingade sannolikheten för händelsen A givet händelsen B är<br />

P (A|B) =<br />

|A \ B|<br />

|B|<br />

För att se att denna definition är en generalisering av vår tidigare definition av sannolikhet<br />

kan man notera att man får den vanliga (enkla) sannolikheten genom att sätta B = ⌦:<br />

P (A|⌦) =<br />

|A \ ⌦|<br />

|⌦|<br />

|A|<br />

= = P (A)<br />

|⌦|<br />

Sammanhanget mellan enkel sannolikhet och betingad sannolikhet kan beskrivas så att<br />

man ”zoomar in” på en delmängd av händelserna, nämligen de som är förenliga med B.<br />

Dessa händelser blir det nya utfallsrummet. Detta illustreras i följande exempel.<br />

Ett bigram är en sekvens av två ord. En korpus på engelska meningar med sammanlagt<br />

100 000 000 ord innehåller 35 förekomster av bigram som slutar på ordet amok.<br />

Fråga: Låt P (amok) vara sannolikheten för händelsen att man ser ordet amok när<br />

man läser engelsk text. Hur skulle du kunna använda dig av korpusen för att skatta<br />

P (amok)?<br />

Man skulle kunna skatta sannolikheten genom att anta att den motsvarar den relativa<br />

frekvensen av bigram som slutar på amok i korpusen. (Detta utgår ifrån att amok<br />

inte är det första ordet i korpusen.) På det sättet får man ett värde P (amok) =<br />

35/100 000 000 ' 0,000035%.<br />

Nu får du lite ny information: Korpusen innehåller 8,500 förekomster av bigram som<br />

börjar på run och 15 förekomster av bigrammet run amok.<br />

Fråga: Hur skulle du kunna använda denna information för att skatta sannolikheten<br />

att se ordet amok när du har just sett ordet run?<br />

73


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

A B<br />

Figur 8.3.: Venn-diagram för A \ B.<br />

Låt oss beteckna sannolikheten för att se amok efter run med P (amok|run). Då gäller<br />

P (amok|run) = 15/8 500 ' 0,18%. Det är alltså betydligt mera sannolikt att få amok<br />

efter run än att få amok i godtyckliga kontexter.<br />

Två händelser A och B kallas oberoende om P (A|B) =P (A). Detta betyder att den<br />

betingade sannolikheten för A givet B inte är större än den enkla sannolikheten för A;<br />

händelsen B händer har ingen påverkan på A.<br />

Fråga: Hur räknar man ut P (A \ B)? Vad gäller när A och B är oberoende?<br />

Genom att titta på Venn-diagrammet för A \ B (Figur 8.3) är det lätt att se att<br />

P (A \ B) =P (A) · P (B|A) =P (A|B) · P (B) =P (B \ A)<br />

Om nu A och B är oberoende gäller P (A|B) =P (A) och P (B|A) =P (B), så<br />

P (A \ B) =P (A) · P (B) =P (B \ A)<br />

74


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

8.3. Lagen om total sannolikhet<br />

Två händelser A och B kallas disjunkta om A \ B = ;.<br />

Fråga: Hur räknar man ut P (A [ B)? Vad gäller när A och B är disjunkta?<br />

Genom att använda oss av räknereglerna för kardinalitet får vi<br />

P (A [ B) =<br />

|A [ B|<br />

|⌦|<br />

|A| |B|<br />

= +<br />

|⌦| |⌦|<br />

|A \ B|<br />

|⌦|<br />

= P (A)+P (B) P (A \ B)<br />

Om nu A och B är disjunkta gäller P (A \ B) =0och P (A [ B) =P (A)+P (B).<br />

Fråga: I en fabrik tillverkas 40% av enheterna vid maskin 1 och 60% vid maskin 2.<br />

Maskinerna tillverkar en viss andel defekta enheter; denna andel är 2% för maskin 1<br />

och 5% för maskin 2. Hur stor är sannolikheten att en slumpmässigt vald enhet är<br />

defekt?<br />

Låt oss beteckna händelsen att en enhet tillverkas vid maskin 1 med M1 och händelsen<br />

att en enhet tillverkas vid maskin 2 med M2. Låt oss beteckna händelsen att en enhet<br />

är defekt med A. Eftersom varje enhet tillverkas av någon maskin kan vi skriva<br />

P (A) =P (A \ (M1 [ M2)) = P ((A \ M1) [ (A \ M2))<br />

Eftersom varje enhet tillverkas antingen vid maskin 1 eller vid maskin 2 är M1 och M2<br />

disjunkta händelser. Därför är även A \ M1 och A \ M2 disjunkta och vi får<br />

P (A) =P ((A \ M1) [ (A \ M2)) = P (A \ M1)+P (A \ M2)<br />

Genom att använda formlerna för P (A \ M1) och P (A \ M2) kan vi skriva<br />

P (A) =P (A \ M1)+P (A \ M2) =P (M1) · P (A|M1)+P (M2) · P (A|M2)<br />

Och nu är det bara att stoppa in värdena ur uppgiften:<br />

P (A) =P (M1) · P (A|M1)+P (M2) · P (A|M2) =0,4 · 0,02 + 0,6 · 0,05 = 0,038<br />

<strong>Sannolikhet</strong>en att en slumpmässigt vald enhet är defekt är alltså 3,8%.<br />

75


Matematik för språkteknologer (5LN445) 7 mars 2013<br />

Principen som vi använde oss av för att lösa denna uppgift kallas för lagen om total<br />

sannolikhet. Den lyder: Låt A och B vara händelser så att A [ B = ⌦ och A \ B = ;.<br />

Då gäller följande formel för varje händelse X:<br />

8.4. Bayes lag<br />

P (X) =P (A) · P (X|A)+P (B) · P (X|B)<br />

Bayes lag låter en vända på en betingad sannolikhet. Den kan fattas i följande formel<br />

där A och B är godtyckliga händelser:<br />

P (B|A) =<br />

P (A|B)P (B)<br />

P (A)<br />

Bayes lag är användbart eftersom det finns många situationer där vi är intresserade i<br />

P (B|A) men bara har tillgång till P (A|B). Ett exempel är medicinsk diagnos. Läkare vill<br />

gärna veta P (influensa|feber), men det är mycket enklare att skatta P (feber|influensa).<br />

Bayes lag låter en använda denna information för att dra slutsatser om den information<br />

man egentligen är intresserad i. Här är ett annat exempel:<br />

Fråga: Kom ihåg fabriken från förra frågan. En kund påträffar en defekt enhet. Hur<br />

stor är sannolikheten att den har tillverkats vid maskin 2?<br />

Vi är intresserade i sannolikheten P (M2|A). Enligt Bayes lag gäller:<br />

P (M2|A) = P (A|M2) · P (M2)<br />

P (A)<br />

= 0,05 · 0,60<br />

0,038<br />

' 0,789<br />

<strong>Sannolikhet</strong>en att den felaktiga enheten tillverkats är alltså ungefär 78,9%.<br />

76

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!