Mjukvarurealiserad bildtelefoni - Umeå universitet

Mjukvarurealiserad bildtelefoni 

Examensarbete 20p, Umeå Universitet 

P-O Östberg

Abstract 

With the ever–increasing popularity of the Internet a staggering increase in the number of 

computer users has followed the last five years. The daily lives and communication patterns of 

ordinary people have been forever altered by the presence of computers in the home as well as in 

the workplace. Today there are few people in the developed world who have not heard of the 

Internet or used it, the question is no longer if the internet will change the way we communicate – 

but how it has changed it and how it in the future will change it. 

This thesis, which has been produced at Umeå University, attempts to provide a glimpse of the 

theories and techniques used in construction of image based communication tools for use on the 

Internet. The focus has been directed toward image based telephony systems and how these can be 

produced without the support of dedicated hardware. 

The thesis consists of three main parts: it starts off with a short introduction to the field of image 

based telephony, continues with a theoretical overview of (image) compression and cryptography 

respectively, and concludes with a model for a software realised image based telephony system. 

Hopefully it will serve as a comprehensive introduction to the field for the interested reader. 

2

Innehållsförteckning 

Abstract 2 

Innehållsförteckning 3 

Inledning 4 

Bildtelefoni 6 

Komprimering och kryptering som företeelser 8 

Kryptering 9 

Symmetrisk kryptering 12 

Asymmetrisk kryptering 15 

Komprimering 21 

Redundans 23 

Förlustfri komprimering 24 

Dataförstörande komprimering 26 

Frekvensdomänanalys 30 

Transformbaserad komprimering 33 

Transformbaserad bildkompression med DCT 36 

Trunkering av transformkoefficienter 39 

Kvantifiering av transformkoefficienter 43 

Modellbaserad komprimering 44 

Spektral redundans 46 

Temporal redundans 48 

Ett bildtelefonisystem 51 

Bildkälla 53 

Komprimeringsmodul 57 

Krypteringssystem 62 

Kommunikationsstack 64 

Implementation 66 

Slutsatser 70 

Ordlista 73 

Källhänvisningar 75 

Appendix A – Systembeskrivning kompressionsmodul 77 

Appendix B – Interaktiva demonstrationer 86 

Pad Demo 87 

Block Demo 88 

DCT Demo 89 

Quantization Demo 90 

Frame Compression Demo 91 

Stream Compression Demo 93 

Animated Stream Compression Demo 94 

3

Inledning 

Detta examensarbete har utförts som en del av civilingenjörsutbildningen Teknisk Datavetenskap 

180p vid Umeå Universitet och omfattar 20 högskolepoäng, motsvarandes en termins heltidsstudier. 

Ämnesområdet har valts av författaren själv, efter personligt intresse för de involverade 

teknikerna och inte på uppdrag av någon extern organisation eller intressegrupp. 

Mål 

Detta arbete studerar i första hand de olika delar som ingår i mjukvarurealiserade applikationer för 

bildtelefoni, med fördjupning mot ämnesområdena bildbehandling (framförallt bildkompression) 

samt säkerhet. Målet med detta arbete har varit att studera och öka studentens förståelse för några 

av de metoder och komponenter som vanligen ingår i dagens system för visuell kommunikation. 

Arbetets fokus har medvetet förlagts mot studier av teorierna snarare än produktionen av en prototyp 

för ett sådant system. 

Metod 

I tidsdispositionen för detta arbete har en stor del av arbetstiden förlagts gentemot studier av 

teorier och implementationsdetaljer hos bildkomprimeringsalgoritmer och symmetriska 

krypteringsalgoritmer. Detta speglas inte alltid på ett rättvist sätt i redovisningen av detta arbete 

men motiveras av att dessa två områden är oerhört komplexa och beräkningsintensiva. Dessa 

måste sålunda implementeras på ett så effektivt sätt som möjligt för att kunna användas i rena 

mjukvarulösningar. Den naturliga (eller snarare industriella) ansatsen av detta problem är att 

realisera dessa delar i dedikerad hårdvara eftersom detta dels kommer att avlasta systemet och dels 

kommer att resultera i en fysisk produkt som är lättare att föra ekonomiskt. Undvikandet av detta 

har varit ett medvetet val – en av grundstenarna i detta examensarbete har hela tiden varit att 

undersöka vad som går att göra med endast de resurser som gemene datoranvändare har till sitt 

förfogande. 

Den praktiska delen av det här arbetet har bestått i att utveckla en modell för ett bildtelefonisystem 

samt att implementera delar av denna modell. Huvudsakligen har det gällt kompressionsdelarna, 

men även en symmetrisk krypteringsalgoritm (DES) samt en klient för bildanskaffning via 

TWAIN har implementerats. Andra implementationsdelar som studerats i detta arbete har varit 

alternativa metoder för bildanskaffning, överföring av bilddata på paketbaserade nät samt utbytesförhållanden 

mellan olika samverkande delar av arbetets mer komplicerade algoritmer. 

Det finns ett flertal naturliga förlängningar av detta arbete, exempelvis hur audiell information 

skulle inkorporeras i systemet eller hur systemet skulle kunna realiseras på en viss plattform. De 

verktyg som utvecklats i detta examensarbete har gjorts så i pedagogiskt syfte och står naturligtvis 

till andra studenter av ämnesområdets förfogande. 

Översikt 

Det här arbetet består huvudsakligen av tre delar, det inleds med en kortare introduktion till 

applikationsområdet bildtelefoni, där inledande definitioner och frågeställningar ställs upp. Efter 

detta följer en teoretisk genomgång av fälten kryptering och komprimering, var för sig och ur 

applikationsområdets synvinkel. Som tredje del finns sedan en diskussion av en modell för ett 

mjukvarurealiserat bildtelefonisystem, där vissa utbytesförhållanden demonstreras med hjälp av 

4

programvara som tagits fram för pedagogisk effekt. Avslutningsvis finns en sammanfattning där 

arbetets mest påtagliga slutsatser och resultat redovisas. 

Arbetets upplägg har varit att skriva översiktligt för en målgrupp med teknisk bakgrund och med 

detaljdjup för läsaren med intresse för bildtelefoni. Förhoppningen är att materialet skall kunna 

fungera som en introduktion till ämnesområdet för den intresserade. 

5

Bildtelefoni 

Kommunikation människor emellan handlar mycket om information som oftast är svår att 

förmedla med begränsade media. Exempelvis tillför det visuella elementet mycket i mänsklig 

kommunikation, det underlättar processen att ta till sig information och tolka densamma. 

Människor lär sig redan under sin uppväxt att tolka andra människors ansiktsuttryck för att extrapolera 

ytterligare information utöver vad som ligger i det sagda ordet. En icke föraktlig del av 

information överförs också via förmågan att avläsa dolda meningar eller undertoner förmedlade 

med kroppsspråk och gester. 

Forskning inom fältet Människa – Dator Interaktion konstaterar att en av de mest önskvärda 

egenskaper för kommunikationssystem är förmågan att förmedla en känsla av närvaro för de 

kommunicerande parterna. Det är viktigt att definiera kommunikation i termer av upplevelse 

snarare än i termer av de media som används. Tyvärr finns det dock kraftiga begränsningar i de 

tekniska möjligheter som står till hand för att implementera kommunikation och det är framförallt 

samtidens lösningar på dessa som detta arbete fokuserar på. Dagens bästa kompromisser (vilka 

givetvis utgörs av datorbaserade system) använder sig av kameror, mikrofoner och datornätverk 

för att förmedla olika former av koordinerade hypermedia (såsom data, audiell och videoinformation), 

oftast med ansatsen att erbjuda så fri och ohämmad kommunikation som möjligt. I 

detta arbete har den audiella biten medvetet valts bort, detta för att kunna bortse från svårigheterna 

involverade i att upprätthålla synkronisering av den presenterade informationen (vilket främst är 

en utmaning mellan audio och video). Givetvis ignoreras inte detta viktiga media, telefonen är 

förmodligen det mest utbredda distanskommunikationsverktyget i historien – här antas dock helt 

enkelt att den audiella informationen överförs via en icke här definierad separat kanal vars bruk 

inte inverkar på de komponenter som tas upp i detta arbete. 

Vad är bildtelefoni? 

Bildtelefoni är med lite välvilja i sig en gammal tanke som omnämnts i litteratur sedan åtminstone 

första halvan av 1800–talet och demonstrerades praktiskt av Bell Telephone Laboratories redan i 

början på 1930–talet. Det som diskuterades då var telefoni med en visuell komponent, d.v.s. att det 

utöver en audiell tvåvägskommunikation även fanns en visuell presentation av sin motpart. Den 

definition av bildtelefoni som används i det här arbetet har av praktiska skäl utöver detta även lagt 

till en del detaljer såsom att kameran är fixt monterad, att det är begränsad rörlighet i bilden samt 

att slutanvändaren är mänsklig. Denna utökning gör området bildtelefoni till ett förhållandevis 

tacksamt område att arbeta med eftersom detta gör det möjligt att anta en hel del om hur bilderna 

genereras och vad de innehåller. Detta innebär i praktiken betydligt mer effektiv kompression än 

då en godtycklig videosignal skall bearbetas. 

Omfattande forskning har utförts på detta område då det naturligt finner ett mycket brett spektra av 

användningsområden kring mänsklig kommunikation över avstånd, inte minst bland de hörselskadade 

vilka inte kan förlita sig på enbart audiell information för kommunikation. Verktygen 

inom detta fält finner också användningar bland närbesläktade områden såsom automatisering, 

övervakning och underhållning. 

6

Vad är ett bildtelefonisystem? 

Centralt i bildtelefonisystem är kommunikationsklienten, vilken utöver audiell och visuell 

information även också ofta erbjuder möjlighet att utbyta filer, textmeddelanden och att dela ett 

gemensamt ritblock. Ofta finns det även en eller flera former av katalogtjänster där användare av 

systemet kan presenteras sig själv, se vilka användare som använder systemet för tillfället samt gå 

med i diskussionskanaler orienterade efter ämnen. Vanligtvis fungerar kommunikationsklienten 

fristående från katalogtjänsters infrastruktur och går att använda fullt ut utan denna, men i en 

ständigt växande kommunikationsvärld är ofta dessa eller något motsvarande nödvändigt för att 

smidigt lokalisera ens kommunikationspart. 

Vad är säkerhet? 

Definitionen av säkerhet varierar stort från person till person, organisation till organisation samt 

(inte minst) från applikation till applikation. Det brukar sägas att säkerhet inte är en lösning utan 

ett pågående arbete, där hotbilder mot ens verksamhet kontinuerligt får identifieras och uppdateras. 

Viktigt är även att identifiera vilken nivå av säkerhet som är önskvärd – i en värld där ledningar 

kan kapas, radiovågor avlyssnas och krypteringar knäckas är absolut säkerhet en utopi. Vad som 

istället bör eftersträvas är att etablera den nivå av säkerhet som är rimlig för den kostnad som kan 

accepteras. 

Idiomet ”Det finns inget system som är idiotsäkert så länge det är människor som använder det” 

håller sant. Hur genialiskt ett system än är designat finns det alltid brister i det – ofta faller system 

genom att det oavsiktligt används på fel sätt eller helt enkelt medvetet korrumperas av dess 

användare. 

Det är viktigt att vara medveten om behovet av flera olika lager av säkerhet – ett företags virtuella 

privata nät (som krypterar kommunikationen mellan företagets kontor) skyddar exempelvis inte 

dess anställda mot arbetsgivarens egna försök att avlyssna dem. Varje enskild applikation bör 

utveckla sitt egna och självständiga säkerhetssystem då robust säkerhet eftersträvas. 

Vad är säkerhet inom bildtelefoni? 

Som i alla kommunikationssystem kan den information som överförs i bildtelefoni vara av privat 

eller i övrigt hemlig natur och bör skyddas mot de hot som finns vid överföring över Internet av 

idag. Exempel på dessa är avlyssning, identitetsförfalskning, sessionsövertagande med mycket 

mera. Det idag enda praktiska alternativet som erbjuder en lösning för de flesta av dessa problem 

består av en kombination av olika former av kryptering – asymmetrisk kryptering för autenticering, 

signering och utväxling av sessionssnycklar samt symmetrisk kryptering för skydd av 

kommunikationskanalen. Kryptering bör i ett bildtelefonisystem implementeras så transparent för 

slutanvändaren som möjligt – kommunikationsparternas identiteter är det enda som slutanvändaren 

behöver veta något om säkerhetsmässigt sätt. 

För de som har möjligheten och behovet av att göra så är det naturligtvis även möjligt att dra egna 

ledningar och skydda dessa mot dylika hot, men eftersom detta är en oerhört kostsam lösning så 

brukar detta endast göras då även bandbreddsbehoven kräver detta. Det är betydligt billigare att 

använda virtuella privata nät och andra krypteringslösningar för att undvika farorna med publika 

nät. Dras egna ledningar för att undvika avlyssning är för övrigt fiberledningar att föredra eftersom 

dessa är avsevärt svårare att avlyssna jämfört med vanliga kopparledningar (där ledningens 

inducerande magnetfält kan användas för avlyssning utan att störa datatrafiken eller på annat vis 

röja avlyssnaren). 

7

Komprimering och kryptering som företeelser 

Även om de vid första anblicken verkar vara två vitt skilda områden, så har komprimering och 

kryptering en hel del gemensamt. Båda är beräkningsintensiva, arbetar ofta på stora datamängder 

och strävar efter att reducera redundans i de datamängder de opererar på – dock för skilda syften. 

En komprimering strävar efter att identifiera strukturer hos data i syfte att kunna beskära eller 

representera detsamma på ett mer effektivt vis och därigenom minska storleken hos representationen. 

En kryptering strävar efter att eliminera redundans hos datamängden i syftet att obfuscera 

data till oigenkännlighet, oftast utan att förändra storleken på det producerade resultatet. 

Ifall båda dessa komponenter existerar i ett system så bör alltid kompressionen appliceras före 

krypteringen! Motivationen för detta ligger i att komprimeringsprocessen är beroende av den inneboende 

dataredundansens struktur för att kunna erbjuda någon effektiv kompression, men noteras 

bör även att säkerheten i ett krypteringssystem kan öka genom att applicera en komprimering på 

data före krypteringen. Detta eftersom komprimering i sig en reducerar redundansen, vilket 

försvårar en av de första metoderna för en attack mot systemet baserat på kryptoanalys – att 

försöka gissa sig till eller tolka innehållet i det skyddade materialet baserat på dess struktur. 

Som processer betraktat kan komprimering och kryptering båda ses som transformationer som 

översätter data mellan olika värdedomäner, men det ligger en viktig skillnad mellan de två även 

här. En kryptering måste per definition vara fullständigt reversibel 1 , d.v.s. med inga andra verktyg 

än dekrypteringsalgoritmen (och dess eventuella parametrar) skall det vara möjligt att återskapa 

ursprungsdata utan avvikelser. Detsamma gäller inte för komprimering då det finns klasser av 

komprimeringsalgoritmer som arbetar enligt hypotesen att det i data finns irrelevanta portioner 

som kan beskäras utan att introducera alltför stora fel i återskapat data. Dessa inriktar sig istället på 

att resultera i en, för den aktuella applikationen, acceptabel approximation av ursprungsdata. 

Kompressionsalgoritmer brukar på detta vis klassificeras i de två undergrupperna förlustfria och 

dataförstörande kompressionsalgoritmer, där de förstnämnda är reversibla och de övriga inte. 

Relationsmässigt kan detta ses som att förlustfri komprimering har en 1–1 relation mellan 

ursprungsdata och komprimerat data, medan dataförstörande algortimer har en n–1 relation (flera 

datauppsättningar kan resultera i samma komprimerade data givet samma algoritm). Krypteringar 

har med samma resonemang också en 1–1 relation mellan indata och utdata. 

1 Det finns en klass av krypteringsalgoritmer som kallas envägskrypteringar som inte är reversibla. 

Dessa är dock ämnade att användas som hashfunktioner och därför inte menade att kunna 

dekrypteras. 

8

Kryptering 

Motiv för kryptering 

Dagens kommunikationsnätverk går mer och mer mot användandet av paketbaserade nät, där slutanvändaren 

inte har någon kontroll över (eller sällan ens information om) vilken väg paketen tar. 

Det naturliga exemplet på detta är Internet, vilket till majoriteten består av IP–baserade nät, där 

avlyssning i olika former inte längre är en möjlighet utan snarare en realitet. Introduktionen av 

kryptering ger inte här enbart ett skydd mot avlyssning utan skapar även en hel rad andra 

funktioner såsom innehållsverifikation, användarautenticering och meddelandesignering. Dessa 

tekniska grundstenar möjliggör i sin tur förflyttandet av många av vardagliga mänskliga aktiviteter 

till det elektroniska mediet. Exempel på detta är kommunikation, handel, demokratiska val med 

mycket mer. De krypteringsmetoder som är allmänt tillgängliga idag erbjuder om än inte ett 

absolut skydd så väl garantin att den information som krypteras kommer att vara skyddad länge 

nog för att den skall hinna bli inaktuell innan någon knäcker din kryptering. Detta dessutom 

föresatt att den som vill knäcka en kryptering är intresserad nog av detta att lägga ner mycket 

pengar, tid och resurser på detta – oftast utan någon slags garanti att lyckas. Naturligtvis förutsätter 

alla dessa resonemang att kryptering används på ett korrekt vis, något som tyvärr har visat sig vara 

eftersatt i många stora applikationer av idag. 

För en utförligare överblick över kryptering och dess användning se [15], [19], [21], [22] och [23]. 

[13] och [14] erbjuder en god introduktion till det praktiska användandet av kryptering (sett ur 

Java–programmerarens perspektiv). 

Vad är en krypteringsalgoritm? 

Den definition av en krypteringsalgoritm som tidigare nämndes var en reversibel funktion som 

efter ett förbestämt mönster obfuscerade data och eliminerade redundans. Denna definition är dock 

på intet vis absolut och varierar ofta med tillämpningens krav på krypteringsalgoritmen. 

Några klassiska exempel på krypteringalgoritmer är Spartanernas scytales och romarnas Caesar– 

skiffer, vilka användes i antiken av militärer för att kryptera meddelanden som skulle överföras 

med kurir. 

Spartanernas scytale var en träkäpp vilken konstruerades till identiska dimensioner i två exemplar 

– en för avsändare och en för mottagare. Krypterade meddelanden skapades genom att en remsa 

lindades upp på käppen och meddelandet skrevs i käppens längdriktning (d.v.s. vinkelrätt mot 

remsans lindningsriktning med ett tecken per lindningsvarv och rad). När remsan sedan lindades 

av käppen så tedde den sig som en remsa med godtyckliga tecken och var oläslig utan mottagarens 

käpp. Scytalen är ett exempel på ett transpositionsschiffer, där tecknen i meddelandet ordnas om 

efter en i förväg given metod. Transpositionsschiffrens svaghet är att om metoden för hur meddelandet 

ordnats om röjs så röjs även meddelandet. 

Ett exempel på en liknande metod som kallas substitutionschiffer är romarnas Casear–skiffer. Ett 

substitutioneschiffer obfuscerar ett meddelande genom att varje tecken bytes mot ett annat efter en 

i förväg uppgjord mall. Caesar–skiffren skapade denna mall genom att cykliskt förskjuta bokstäverna 

i alfabetet ett visst antal steg. Exempelvis var Caesar +3 en kod som försköt dem tre steg – a 

byttes ut mot d, b mot e osv. Svagheten hos substitutionsschiffer är att det inte är en oöverkommelig 

svårighet att gissa sig fram till vilket tecken som byts ut mot vilket. En metod för att 

göra detta baserar sig på att studera tecknens relativa förekomst i meddelandets språk, vilken 

bevaras även om tecknen i sig bytes ut. Även tecknens grupperingar i meddelandet kan ge led- 

9

trådar till innehållets natur, exempelvis är ett tecken som förekommer två gånger efter varandra i 

det svenska språket med hög sannolikhet en konsonant. 

En lite mer modern ansats för att kryptera meddelanden som uppstod i slutet av första världskriget 

kallas engångsblock (One–Time Pads), vilket får sitt namn från att ett block av samma storlek som 

meddelandet och innehållande en sträng av godtyckliga tecken tas fram och används för att kryptera 

varje meddelande. Detta schiffer baseras på Vignere–schiffret (även känt som Le Chiffre Indechiffrable) 

och fungerar så att varje tecken i meddelandet bytes ut mot ett tecken som slås upp i en 

tabell med blocktecknets plats i alfabetet som tabellindex. Denna metod benämns ibland som den 

ideala krypteringen och är teoretiskt hållbar förbehållet att engångsblocken tagits fram fullständigt 

slumpmässigt! Detta (fullständig slumpmässighet) visar sig dock vara ett praktiskt problem eftersom 

det idag saknas matematiska metoder för att generera äkta slumptal – idag används istället 

matematiska talserier för att generera s.k. pseudoslumptal. Det stora praktiska problemet med 

denna ansats är dock distributionen av de i förväg konstruerade engångsblocken, vilka måste vara 

minst lika stora som meddelandet (vars storlek kanske inte är känd i förväg). 

Kryptering och kryptoanalys 

Historiskt sett har det förekommit många metoder för kryptering och minst lika många metoder för 

kryptoanalys, d.v.s. knäckande av kryptering. Klassisk kryptoanalys var en mycket tidsödande 

verksamhet där alla genvägar som gick att ta utforskades – en klassisk kryptoanalytiker studerade 

meddelandets avsändare, struktur, språk och krypteringsmetod för att få ledtrådar till meddelandets 

innehåll. Av denna och många andra anledningar använder sig därför dagens krypteringssystem av 

numeriska representationerna i det binära talsystemet av meddelanden, vilka krypteras på bitnivå 

istället för på teckennivå. Dessa metoder baserar sin säkerhet på matematiska egenskaper hos 

krypteringsalgoritmen snarare än försök att hemlighålla hur meddelandet framställts eller vad det 

innehåller. Kryptoanalys av idag består av försök att finna matematiska genvägar till dekryptering, 

vilket bedrivs som legitim akademisk och industriell forskning efter principen ”bevis genom avsaknaden 

av motbevis”, samt av (massivt parallella) försök att testa samtliga möjliga permutationer 

av krypteringsnyckeln för dekryptering. Denna senare metod kallas exhaustive key search eller 

brute force och förenklas stort ifall en del av meddelandet är känt. Den är dock även möjlig att 

använda om så inte är fallet genom att undersöka dekrypterat data och se om det är av något format 

som kan förväntas likna det som krypterats. 

Krypteringsstyrka 

Det antal olika krypteringsnycklar som maximalt måste testas i en brute force attack av en kryptering 

är 2 n , där n är antalet bitar i den binära representationen av krypteringsnyckeln. Matematiska 

krypteringars styrka brukar av denna anledning mätas i antal bitar i krypteringsnyckeln. Här bör 

noteras att krypteringens styrka beror på utbytesförhållandet mellan algoritmens exekveringshastighet 

(vilken förändras över tid med teknisk utveckling) och antal bitar i nyckeln, varför antal 

bitar i sig inte generellt kan användas som ett mått på önskad krypteringsstyrka. 256 bitars XOR 

kryptering kommer att vara mycket svagare än 256 bitars AES kryptering ända till dess AES kan 

beräknas lika snabbt som XOR. I vissa fall kan även matematiska svagheter i krypteringsalgoritmen 

användas för att reducera det antal permutationer som behövs testas i en brute force 

attack. Detta sägs då sänka krypteringens styrka. 

Noterbart för den tidigare nämnda metoden med engångsblock är att även om den har en mycket 

låg beräkningsintensitet (en XOR operation per byte) så är en brute force attack värdelös här – att 

testa varje möjlig permutation av krypteringsnyckel kommer att generera varje möjlig permutation 

av utdata eftersom nyckeln är fullständigt slumpmässig och lika lång som indata. 

10

Egenskaper hos en krypteringsalgoritm 

En mycket önskvärd egenskap hos en krypteringsalgoritm är förmågan att kunna använda nycklar 

av olika storlek – genom att förändra krypteringsnyckelns storlek kan en krypterings styrka 

anpassas för att förlänga dess livstid. Detta resonemang förutsätter dock att även algoritmens 

beräkningskomplexitet (läs exekveringshastighet) kan anpassas efter den hårdvara som finns tillgänglig 

när den skall användas. Beräkningsintensiteten hos en krypteringsalgoritm bör med andra 

ord (tillsammans med nyckelstorleken) vara anpassad sådan att den dels är så snabb att den går att 

använda transparent och dels ändå är så långsam att den tar opraktiskt lång tid att attackera med en 

brute force metod. På grund av detta (och andra matematiska anledningar) brukar krypteringsalgoritmer 

ibland designas till att vara mycket komplexa eftersom detta försvårar konstruktionen 

av specialiserad hårdvara som utför krypteringsoperationer i mycket hög hastighet (och därmed 

kan användas för attacker av algoritmen). 

I design av asymmetriska krypteringsalgoritmer kan ett liknande resonemang användas för att 

belysa ett annat utbytesförhållande. Där gäller att om krypteringsprocessen är (mycket) snabbare 

än dekrypteringsprocessen så ökas livslängden för algoritmen avsevärt av samma anledning. 

Viktigt att komma ihåg i de här resonemangen är att målet med en kryptering inte är att uppnå 

absolut säkerhet utan bara att fördröja när meddelandet blir känt tills dess det inte längre är av 

intresse för någon. 

En annan och mer matematisk egenskap som är önskvärd hos en krypteringsalgoritm är att den 

skall ha en hög lavineffekt. Med detta avses att förändring av ett litet antal bitar i indata skall ge en 

förändring av ett stort antal bitar i utdata för samma krypteringsnyckel. Idealiskt skall hälften av 

bitarna i utdata förändras när en av bitarna i indata ändras – matematiskt uttryckt maximerar detta 

variansen för utdata (eller minimerar redundansen i indata). 

Grundantagandet för en matematisk krypteringsalgoritm är att det är den enda (eller åtminstone 

den enklaste eller snabbaste) algoritm som givet indata och krypteringsnyckel genererar utdata. 

11

Symmetrisk kryptering 

Symmetrisk kryptering får sitt namn från att kryptering och dekryptering är symmetriska processer 

– dekryptering är ofta inversen av kryptering och samma nyckel används i båda fall. Symmetrisk 

kryptering kallas även av denna anledning för hemlig nyckel kryptering eftersom den använda 

nyckeln hålls hemlig av de parter som delar den. 

De flesta av dagens symmetriska krypteringsalgoritmer består av komplexa blockschiffer som 

opererar på binärt data och itererar flera operationer designade att göra det så svårt som möjligt att 

(utan krypteringsnyckel) återskapa indata från utdata. 

Blockskiffer 

Ett blockskiffer är en krypteringsfunktion som översätter ett givet indatablock till ett krypterat 

utdatablock av samma storlek. Storleken på dessa datablock är oftast fix för algoritmen och därför 

brukar större datablock delas upp i flera mindre block av den rätta storleken. Krypteras ett datablock 

som är mindre än algoritmens blockstorlek brukar något slags paddningschema användas för 

att se till att få ett jämt antal bitar i blocket. Vid dekryption av blocket så antas detta paddningsschema 

vara känt och dessa extra bitar tas bort vid återskapande av ursprungsmeddelandet. 

Typiska storlekar på datablock för dagens blockskiffer är 64 eller 128 bitar. 

Symmetrisk kryptering med blockskiffer illustreras med 

där 

C = E(K, M) 

M = D(K, C) 

E står för encryption eller kryptering 

D står för decryption eller dekryptering 

C är ciphertext eller krypterat data 

M är meddelande eller okrypterat data 

K står för key eller krypteringsnyckel 

För att ytterligare höja säkerheten i blockskiffer kan även olika former av kedjekodning användas 

för att försvåra attacker på individuella block i meddelandet. Om exempelvis alla block logiskt 

kombineras (via XOR) med föregående blocks krypterade motsvarighet (och det första blocket 

kombineras med ett i förväg bestämt block kalla initialiseringsvektor) innan kryptering, så skapas 

en blockkedja av meddelandet. I denna blockkedja är alla block beroende av tidigare block. För att 

läsa den första meningen i detta meddelande måste därför alla block i meddelandet dekrypteras 

(samt initialiseringsvektorn vara känd), från sista till första. Vore de inte kedjade så skulle det 

räcka med att dekryptera det första blocket för att läsa den första meningen i meddelandet. Denna 

specifika metod av kedjning kallas Cipher Block Chaining mode (CBC) och används ofta tillsammans 

med exempelvis DES kryptering. Kryptering av block utan kedjning kallas Electronic 

Code Book mode (ECB). 

Det går även att till viss del att höja säkerheten i ett krypteringssystem genom att upprepa kryptering 

av samma block flera gånger med olika nycklar. Detta ger dock inte säkerhetsmässigt samma 

resultat som att använda samma algoritm med en tre gånger så lång nyckel och kan resultera i 

svagare kryptering om en s.k. svag nyckelkombination används. Det är heller inte alla blockskiffer 

som går att använda på detta vis. Ett exempel på denna ansats är trippel DES (eller 3DES), vilken 

använder tre stycken nycklar för att kryptera, dekryptera och sedan återigen kryptera samma block. 

12

På samma vis illustreras detta med 

C = E(K3, D(K2, E(K1,M))) 

M = D(K1, E(K2, D(K3,C))) 

Där K1, K2 och K3 är de tre krypteringsnycklar som används 

Strömskiffer 

Ett strömskiffer är ett skiffer som designats till att vara mycket snabbt och arbeta på små datamängder 

(grupper av bitar) åt gången som extraherats ur dataströmmar. Till skillnad från blockskiffer 

där samma datablock alltid krypteras till samma kryptoblock för en given nyckel så är 

strömskiffers krypterade data även beroende av när i dataströmmen det krypterats. Strömskiffer 

krypterar vanligen genom att generera en nyckelström och sedan logiskt kombinera denna med 

dataströmmen med XOR eller någon liknande (snabb) funktion. 

Strömskiffer illustreras på samma vis som blockskiffer 

C = E(KS, M) 

M = D(KS, C) 

Med skillnaden att KS betecknar den nyckelström som används för kryptering istället för en fast 

nyckel. 

Engångsblock i strömskifferform erbjuder teoretiskt ideal kryptering men används sällan eftersom 

den är omständlig att använda i praktiken – nyckelströmmen skall genereras fullständigt slumpmässigt, 

vara lika lång som dataströmmen, användas endast en gång samt distribueras till alla 

mottagare fullständigt säkert. Dagens vanligaste strömskiffer är RC4 vilken erbjuder en mer praktisk 

lösning på dessa problem men samtidigt då tvingas göra avkall på säkerheten. 

Det finns även ett kedjekodningsschema kallat Cipher Feedback mode (CFB) vilket låter i stort 

vilket blockskiffer som helst att fungera som en nyckelgenerator för strömskiffer. Detta dock oftast 

utan den efterfrågade hastigheten i krypteringen. 

Data Encryption Standard (DES) 

ANSI standard nummer X9.32 (även känd som Federal Information Processing Standard (FIPS) 

46–3) definierar en algoritm som vanligen benämns the Data Encryption Standard, eller DES. 

Detta är en av världens mest kända och använda krypteringsalgoritmer som finns representerad i 

ett flertal standarder. DES tillkom när amerikanska myndighetsorgan i början av 1970–talet vidareutvecklade 

en algoritm från IBM som hette Lucifer. 

DES är ett blockskiffer som använder sig av 64 bitars datablock och 56 bitars nyckel (egentligen 

64 bitar där nyckelns paritetsbitar tagits bort). Innan kryptering påbörjas permuterar DES nyckeln 

till ett längre nyckelschema efter en algoritm bestående av rotationer och substitutionsboxar (vilka 

i dagligt tal kallas S–boxar). Eftersom en cyklisk rotation går att uttrycka som en substitution går 

denna algoritm att förenkla till kombinationen av nyckeln och en enda S–box per instans i nyckelschemat. 

Själva krypteringen i DES består av en initial permutation följd av 16 stycken iterationer av algoritmen 

nedan och avslutas sedan med en sista permutation (vilken är inversen av den initiala). 

13

1) dela det 64 bitar långa datablocket i två lika stora delar 

2) expandera den högra halvan av datablocket till 48 bitar 

3) kombinera dessa 48 bitar med en del av nyckelschemat (via XOR) 

4) dela in de 48 bitarna i 8 lika stora delar och applicera DES S–boxarna på dem 

5) konkatenera resultaten från S–boxarna till en 32 bitars sträng 

6) permutera dessa 32 bitar enligt ett givet schema 

7) kombinera de resulterande 32 bitarna slutligen med den vänstra halvan från 1) 

8) byt plats på högra och vänstra halvan av datablocket inför nästa permutation 

Dekryptering i DES går till på samma sätt som kryptering, med skillnaden att de 16 iterationerna 

utförs med nyckelschemat i omvänd ordning. 

DES säkerhet har under hela dess livstid debatterats och det har visats att DES är känslig för olika 

typer av matematiska attacker. Under januari 1999 bröts en generell DES–baserad kryptering på 

22 timmar med hjälp av exhaustive key search och DES betraktas nu som mer eller mindre 

föråldrad. 

För mer information om DES se [8], [19] och [22]. 

Advanced Encryption Standard (AES) 

1997 utlyste ett amerikanskt myndighetsorgan kallat the National Institute of Standards and Technology 

(NIST) något som kallades the AES initiative. Detta var en form av tävling, där forskare 

och privatpersoner världen över inbjöds till att konstruera en krypteringsalgoritm designad för att 

ersätta DES. Kriterierna var (förenklat) att tävlingsbidragen skulle gå att använda på samma vis 

som DES, kryptera med 128, 192 respektive 256 bitars nycklar samt operera på 128 bitars datablock. 

Under 2000 utsågs algoritmen Rijndael (dubbad så efter dess belgiska skapare Joan Daemen 

och Vincent Rijmen) som vinnare och har sedan dess etablerats som en standard för blockskiffer. 

AES består av ett linjärt substitutionsnätverk vilket itereras 10, 12 eller 14 gånger beroende på 

nyckelns storlek. AES arbetar på 128 bitars datablock och kan använda nycklar av storlek 128, 192 

eller 256 bitar. Ett datablock som skall krypteras med AES delas upp i byte–baserade matriser 

vilka sedan behandlas parallellt. Den interna del av AES som itereras består av fyra lager – en 8 · 8 

S–box, två lager där matrisens rader skiftas och kolumnerna blandas (genom en multiplikation 

med en konstantmatris) samt slutligen ett lager där matrisens element logiskt kombineras (via 

XOR) med cykliskt nyckeldata. Kolumnblandningen utförs ej under den sista iterationen. 

AES erbjuder för närvarande mycket god säkerhet med sina variabla nyckelstorlekar, är (ännu) 

inte känsliga för några matematiska attacker och är designad på ett vis som gör den lämplig för ett 

brett spektra av applikationer (vilka sträcker sig från generell datorbaserad kryptering till implementation 

på smartcards). AES kan använda, men är inte beroende av, alla DES operation modes. 

För mer information om AES se [7] och [19]. 

14

Asymmetrisk kryptering 

Asymmetrisk kryptering får sitt namn från att kryptering och dekryptering är asymmetriska processer 

– kryptering och dekryptering är matematiska funktioner och är inte besläktade annat än 

genom att dess resultat är varandras inverser. Man talar även om asymmetriska nycklar eller 

nyckelpar eftersom det inte är samma nyckel som används för dekryptering som för kryptering. 

Dessa nycklar benämns som publika / privata nyckelpar och krypteringen även därför som publik 

nyckel kryptering. 

Diffie–Hellman 

1976 lade Diffie och Hellman fram idén om att till skillnad från tidigare då en hemlig nyckel (som 

användes för både kryptering och dekryptering) istället ha en publik nyckel som sprids och en 

privat nyckel som hålls hemlig. Tanken var att båda nycklar skulle behövas i systemet, en för 

kryptering och den andra för dekryptering. Vad den här tankegången tillförde var två nya funktioner. 

Dels blev det nu möjligt att kryptera ett meddelande så att endast den tänkta mottagaren kunde 

läsa det och dels tillhandahölls en metod för att autenticera avsändaren genom att signera meddelandet! 

För att kryptera ett meddelande som endast mottagaren kan läsa så krypteras det med mottagarens 

publika nyckel. Endast mottagaren antas ha tillgång till sin privata nyckel och är därför ensam om 

att kunna dekryptera meddelandet. För att signera ett meddelande som endast kan ha skickats av 

avsändaren krypteras meddelandet med avsändarens privata nyckel. Meddelandet blir då endast 

läsbart om det dekrypteras med avsändarens publika nyckel, vilken alla mottagare antas ha tillgång 

till. För att verifiera en signatur behövs både meddelandets signatur och meddelandet själv – detta 

sker genom att dekryptera signaturen och se att resultatet (verifikatet) överensstämmer med det 

ursprungliga meddelandet. 

Asymmetrisk kryptering illustreras med 

Där 

C = E(KP, M) 

M = D(KS, C) 

S = E(KS, M) 

V = D(KP, S) 

E står för encryption eller kryptering 

D står för decryption eller dekryptering 

C är ciphertext eller krypterat data 

M är meddelande eller okrypterat data 

S är signaturen för meddelandet M 

V är verifikatet av S, V = M om M är oförändrat 

KP står för public key eller publik krypteringsnyckel 

KS står för secret key eller hemlig krypteringsnyckel 

(KS, KP) utgör tillsammans ett asymmetriskt nyckelpar 

Det är även möjligt att kombinera dessa funktioner för att skapa meddelanden som är både 

signerade och krypterade. Detta illustreras på motsvarande vis med 

C = E(KPB, E(KSA, M)) 

M = D(KSB, D(KPA, C)) 

15

där 

KPA är part As publika krypteringsnyckel 

KSA är part As hemliga krypteringsnyckel 

KPB är part Bs publika krypteringsnyckel 

KSB är part Bs hemliga krypteringsnyckel 

Notera att om en signatur skall användas för att verifiera att ett meddelande inte har förändrats så 

bör meddelandet även översändas tillsammans med signaturen. Alternativt kan en kryptologisk 

checksumma användas för detta. 

För mer information om RSA se [18], [21] och [22]. 

Hybridsystem 

Viktigt att notera är att symmetrisk och asymmetrisk kryptering är menade att komplettera, inte 

ersätta varandra. Asymmetrisk kryptering tillför många praktiska funktioner till krypteringssystem 

men är också svåra att implementera effektivt nog att använda i många applikationer. Symmetrisk 

kryptering är dock jämförelsevis oftast mycket snabb och av denna anledning brukar dessa båda 

användas i kombination i hybridsystem. 

Det stora problemet med symmetrisk kryptering är att både avsändare och mottagare av hemliga 

meddelanden i förväg måste enas om den nyckel som krypteringen skall använda, något som är 

känt som nyckelspridningsproblemet. Med asymmetrisk kryptering kan denna problematik övervinnas 

eftersom både sändare och mottagare kan utnyttja asymmetriskt krypterade och signerade 

meddelanden för att utväxla en temporär sessionsnyckel att använda för symmetrisk kryptering av 

en kommunikationskanal. 

Man in the middle 

Nyckelspridningsproblemet är dock inte fullständigt löst med asymmetrisk kryptering – det finns 

fortfarande risken att någon ställer sig mellan sändare och mottagare och inför båda utger sig att 

vara den andre. Detta kallas en man in the middle– eller en proxy–attack och är möjligt om avsändaren 

(som antas initiera kommunikationen) inte redan har mottagarens publika nyckel utan måste 

slå upp den i en publik katalog. Angriparen ser till att avsändaren då får angriparens publika 

nyckel istället för mottagarens och utger sig därefter för att vara mottagaren inför avsändaren. På 

samma vis, efter att ha dekrypterat, läst (möjligen ändrat) och krypterat om avsändarens meddelande, 

utger han sig sedan inför mottagaren att vara avsändaren. Eftersom angriparen har fullständig 

kontroll över kommunikationskanalen kan denna inte användas till att verifiera 

kommunikationspartens identitet. Man in the middle–attacker kan användas till avlyssning, 

sessionsövertagande, förfalskade meddelanden och i förlängningen även till att utföra fler liknande 

attacker mot andra (där angriparen förfalskar ett intyg från avsändaren eller mottagaren att han är 

någon annan). 

Avsändare Angripare Mottagare 

Figur 1. Man in the middle–attack 

16

Certifieringssystem 

Den mest spridda lösningen på den här problematiken är att använda certifieringssystem som 

består av pålitliga enheter kallade certifieringsenheter (Certificate Authority eller CA). 

Certifieringsenheter utfärdar certifikat som garanterar att en viss publik nyckel verkligen hör till en 

viss identitet. Dessa certifikat innehåller en kedja av publika nycklar, där varje nyckel är signerad 

av den föregående och den första i kedjan är certifieringsenhetens egna publika nyckel signerad av 

sig själv. Certifieringsenhetens publika nyckel antas vara känd av alla och i distribueras i praktiken 

med webläsare och andra programvarupaket för kommunikation. Denna lösning kräver dock att 

alla mottagare av sessionsinitieringar är kända hos någon certifieringsenhet, något som i praktiken 

ännu endast håller för större websiter och företag. Alternativa lösningar för spridning av publika 

nycklar som är populära hos privatpersoner inkluderar via signaturer i email, publicering på websidor 

samt via elektroniska visitkort. 

Implementation av asymmetrisk kryptering 

När Diffie och Hellman lade fram idén och designade grundläggande protokoll för asymmetrisk 

kryptering så specificerade de bara systemet i det abstrakta – de hade ingen färdig metod att implementera 

ett sådant system. System för asymmetrisk kryptering baserar sig på matematiska problem 

som är beräkningsmässigt svåra att lösa och har vissa specifika karaktäristika. Envägsfunktioner 

(one–way functions) är funktioner som är lätta att lösa åt ena hållet men avsevärt mycket svårare 

att lösa åt det andra är önskvärda. En underklass till dessa funktioner är lönndörrsfunktioner (trapdoor 

one–way functions), där det existerar en genväg (lönndörr) för lösningen från det svåra hållet 

– givet viss information om problemet går det enkelt att lösa även från det svåra hållet. Dagens 

system för asymmetrisk kryptering baserar sig på sådana lönndörrsfunktioner, där själva lönndörren 

utgör den privata nyckeln. Kryptering och signaturverifikation använder sig av den publika 

nyckeln medan dekryptering och signaturgeneration använder sig av den privata nyckeln, och 

därmed är mycket svårt att utföra utan lönndörren. 

Värt att notera är att de system som idag används för asymmetrisk kryptering baserar sig på 

problem som antas vara mycket svåra att lösa utan tillgång till lönndörr, avsaknaden av en 

”generell lönndörr” har dock vare sig bevisats eller motbevisats för dessa problem. Skulle en sådan 

upptäckas för ett specifikt problem (d.v.s. om ett sätt att lösa problemet utan lönndörr skulle upptäckas) 

skulle de system som baseras på det problemet omedelbart bli värdelösa för krypteringsapplikationer. 

RSA 

Rivest, Shamir och Adleman skapade och gav 1977 namn åt RSA, vilket idag är i det närmaste en 

de facto standard när det gäller val av algoritm för asymmetrisk kryptering. Det svåra problem de 

använde i algoritmen var primtalsfaktorisering, d.v.s. att givet produkten av två stora primtal finna 

dessa primtal. 

Nyckelgeneration i RSA fungerar enligt följande 

Välj två stora primtal, p och q, och beräkna deras produkt n = p · q. 

Välj sedan ett tal e som är mindre än n och relativt primt till (p – 1) · (q – 1), 

(d.v.s. att gcd (e, (p – 1) · (q – 1)) = 1). 

Finn nu ytterligare ett tal d så att (e · d) – 1 är jämnt delbart med (p – 1) · (q – 1). 

Den publika nyckeln är nu talparet (n, e) och den privata nyckeln är talparet (n, d). 

När sedan en nyckel är genererad så används den för av systemet enligt följande modell 

17

Kryptering: c = m e mod n 

Dekryptering: m = c d mod n 

Signering: s = m d mod n 

Verifiering av signatur: v = s e mod n 

Där m är ursprungsmeddelandet, c det krypterade meddelandet, s signaturen för meddelandet, v 

verifikatet för signaturen s samt mod och gcd de matematiska funktionerna modulo respektive 

största gemensamma nämnare. Givetvis i det signerade fallet måste avsändaren skicka både 

meddelandet och signaturen för meddelandet för att mottagaren skall kunna verifiera att signaturen 

stämmer (d.v.s. att meddelandet är oförändrat och verkligen kommer från avsändaren). 

Eftersom RSA använder sig av väldigt stora primtal (man brukar rekommendera primtal på 

åtminstone 512 bitar för p och q) så kan nyckelgeneration vara tidsödande. För att simulera en 

sannare slumpmässighet i denna process är det även brukligt att interaktivt låta användaren få 

bidra med ett fysiskt element, exempelvis genom att mäta rörelser och fördröjningar för datorns 

mus och använda dessa som initialvärden till slumpgeneratorn, för att assistera vid valet av dessa 

tal. 

Värt att nämna om RSA är också att det har rått viss debatt om huruvida speciell klass av primtal 

som kallas ”starka primtal” exklusivt bör användas för nycklar. Dessa starka primtal är primtal 

som matematiskt är svårare att faktorisera än andra, men den rådande uppfattningen i litteraturen 

brukar vara att det är viktigare att använda en tillräckligt stor nyckel än att bekymra sig för detta. 

Det har även tidigare funnits en del kritik mot RSAs säkerhet eftersom det varit svårt att avgöra 

om de stora talen p och q verkligen är primtal men på senare tid har det framkommit nya metoder 

för detta. 

För mer information om RSA se [19], [22] och [23]. 

Elliptiska kurvor 

Det finns även en del andra ansatser till asymmetrisk kryptering än RSA såsom ElGamal, Merkl– 

Hellman knapsack och LUC. De mest intressanta alternativen kallas dock elliptiska kurv–system, 

efter den geometriska problemklass de använder sig av för krypteringsfunktionen. System för 

asymmetrisk kryptering baserade på elliptiska kurvor delas vanligen in i två kategorier efter de 

problemklasser de använder sig av, primtalsfaktorisering och diskreta logaritm problemet för 

elliptiska kurvor. Den förstnämnda av dessa använde sig av samma typ av problem som RSA och 

har i stort därför jämförbar prestanda med densamma. Den senare av dessa två baserar sig på 

diskreta logaritm problemet för elliptiska kurvor som formuleras som givet två punkter X och Y på 

en elliptisk kurva, finn k sådant att Y = k · X. 

Dessa varianter har rönt mer och mer uppmärksamhet de senaste åren och framförallt då den andra 

kategorin eftersom den erbjuder samma nivå av säkerhet som likvärdiga system för asymmetrisk 

kryptering (läs RSA) för kortare nycklar. Det finns heller inte (ännu) någon mer effektiv attack på 

dessa system än brute force. System baserade på elliptiska kurvor är relativt nya och ännu inte lika 

etablerade som RSA. 

Kryptologiska funktioner 

Krypteringssystem av idag erbjuder betydligt mer än bara kryptering och dekryptering av data. 

18

Idag talas det om autenticering, certifiering och signering som naturliga delar av asymmetriska 

krypteringssystem eftersom dessa funktioner erbjuder systemets användare mycket mer än bara 

avlyssningsskydd. 

När man talar autenticering så talar man om möjligheten för användare av systemet att säkert 

kunna identifiera sig själva och andra kommunicerande parter. Involveras certifiering så innebär 

det att låta en (redan autenticerad) tredje part garantera identiteten för en annan användare. Signering 

innebär att en användare låter placera en digital signatur på en uppsättning data som visar att 

meddelandet verkligen kommer från den användaren och inte har förändrats. 

Dessa funktioner kan kombineras för att generera meddelanden som verkligen kommer från en 

viss avsändare, inte har förändrats och dessutom endast kan läsas av den tilltänkta mottagaren, 

samt givetvis att både avsändare och mottagare autenticerats av pålitliga tredje parter. Alla dessa 

funktioner skapar tillsammans en plattform för asymmetrisk kryptering som möjliggör en mängd 

tjänster för användare av systemet. Dessa tjänster är inte alltid beroende av en kring dem existerade 

infrastruktur, men de brukar storligen underlättas av det. Denna infrastruktur, som då består 

av servrar för certifierings– och autenticeringssystem brukar generellt benämnas Public Key Infrastructure 

(PKI). Huvuduppgiften för denna infrastruktur är då att på ett säkert vis distribuera 

publika nycklar. En PKI sätts ofta upp av egna företag och organisationer och kan betraktas topologiskt 

på samma vis som dagens nätverk är uppbyggda – som samverkande självständiga 

segment. 

Hashfunktioner 

Kryptologiska hashfunktioner (även kallade message digests) är funktioner som från en datamängd 

beräknar ett hashvärde vilket har egenskaperna att det är enkelt att beräkna, (betydligt) mindre än 

datamängden, är unikt för den speciella datauppsättningen samt att det inte går att återskapa den 

ursprungliga datamängden från hashvärdet. Inom kryptering brukar hashfunktioner ofta användas 

för signering av data eftersom det går mycket snabbare att beräkna en hashfunktion för en datamängd 

och signera hashvärdet än att istället signera hela datamängden. Vanligen använda exempel 

på kryptologiska hashfunktioner är MD5 och SHA1. 

En underklass till kryptologiska hashfunktioner är envägskrypteringar (one–way encryption), 

vilket är en typ av kryptering som är icke reversibel, d.v.s. inte går att dekryptera. Dessa funktioner 

är istället tänkta att användas i situationer där det (exempelvis för verifikation) är nödvändigt att 

lagra känsligt data i en opålitlig miljö. Exempel på detta är lösenord i UNIX, vilka lagras 

krypterade med en envägskryptering som kort och gott kallas crypt. När en användare skall autenticeras 

så krypteras det av användaren tillhandahållna lösenordet med samma envägs kryptering 

och jämförs med det lagrade för verifiering. 

Message Authentication Codes (MACS) 

En Message Authentication Code (MAC) är en checksumma associerad med en krypteringsnyckel. 

Det finns fyra typer av MACs – absolut säkra, hashfunktions baserade, strömskiffer baserade och 

blockskiffer baserade – där namnen antyder hur checksumman är anskaffad 2 . Eftersom checksumman 

i MACen är konstruerad med hjälp av den associerade krypteringsnyckeln så är det 

endast de som har tillgång till den nyckeln som kan skapa eller verifiera den, vilket erbjuder skydd 

mot att någon skulle förändra ett meddelande innan det når mottagaren. Ett exempel på en 

Message Authentication Code är DES–CBC MAC vilken beräknar en kedjekodad DES kryptering 

på meddelandet med den associerade krypteringsnyckeln och spar det sista krypterade blocket i 

2 

Absolut säkra MACs använder engångsblock eller asymmetriska engångsnycklar för att generera 

checksummor 

19

kedjan som checksumma. På samma vis kan för övrigt de flesta blockskiffer (inklusive AES) 

användas för att beräkna MACs. 

Lager av säkerhet 

Även om ett skyddande yttre lager av kryptering används för att omsluta protokolltrafik är det inte 

alltid önskvärt att i klartext översända autenticeringsdata (såsom par av användarnamn och 

lösenord eller fingeravtrycksavläsningar) över nätverk. Skulle en eventuell angripare lyckas 

kringgå, exempelvis genom att scanna av internminnet på måldatorn eller lyssna av nätverkstrafiken 

innanför ett virtuellt privat nätverk (VPN), knäcka eller på annat vis forcera det yttre 

krypteringslagret så skulle denna person då ha direkt tillgång till all information som krävs för att 

skaffa sig tillträde till systemet. Även om det är svårt att uppnå i vissa fall bör ett robust säkerhetssystem 

inte vara designat på ett vis som gör att systemet sammantagna säkerhet fullständigt 

kollapsar om en del av det gör så. Detta brukar benämnas av varandra oberoende lager av säkerhet 

och visualiseras ofta som lager av skal på en lök. Eftersom de antal olika attacker som finns är 

minst lika många som de olika former av säkerhetsscenarios som implementerats är det viktigt att i 

sammanhanget komma ihåg att olika lager skyddar mot olika saker och behöver kombineras för att 

uppnå högsta möjliga säkerhet. 

Challenge–Response 

Ett sätt att skydda delat data består av att använda envägskrypteringar för känslig information. 

Detta innebär i lagringsfallet att data är oläsbart för en utomstående betraktare, men i överföringsfallet 

erbjuder en sådan lösning möjligheter för repetitionsattacker (där attacken består av att 

repetera tidigare inspelad information i syfte att återetablera en session). Ett bättre vis att skydda 

känsligt data vid autenticeringar över nätverk är då att implementera ett Challenge–Response 

scenario i protokollet. Detta antar att systemet är uppbyggd så att användare av systemet 

autenticeras av en hemlig kod (lösenord, fingeravtrycksavläsning eller liknande) som kombineras 

med en användaridentitet för access till systemet. Scenariot initieras genom att klienten kontaktar 

servern och översänder data som unikt identifierar användaridentiteten (vanligen ett användarnamn) 

som skall användas. Servern svarar med en slumpmässigt framtagen datamängd (kallad 

challenge eller utmaning) vilken klienten konkatenerar med den hemliga koden och beräknar en 

kryptologisk hashsumma på (kallad response eller svar). När klienten överför denna hashsumma 

till servern så utför servern samma beräkning på den hemliga kod som den har lagrad. När de två 

hashsummorna sedan jämförs kan användaren autenticeras eller refuseras – överensstämmer hashsummorna 

så har klienten och servern samma hemliga kod associerad med det angivna användarnamnet. 

Eftersom den kryptologiska hashfunktionen per definition är unik och inte går att 

reversera för att ta fram ursprungsdata så har användaren autenticerats utan att känslig information 

överförts över nätverket. Det är även vanligt att på något vis kombinera en tidstämpel med 

utmaningen eller svaret för att på så vis ytterligare undvika upprepningsattacker, detta är dock i 

teorin onödigt ifall utmaningen är framtagen slumpmässigt. 

Sammanfattningsvis om kryptering 

Sammanfattningsvis om kryptering kan sägas att det största motivet för bruket av kryptering idag 

är att det är det flexibla alternativet för säkerhet. Bruket av kryptering är sällan beroende av någon 

speciell infrastruktur eller specialiserad hårdvara (även om sådana ofta används för att minska 

svarstider och höja säkerhet), kryptering kan implementeras som transparenta lager i de flesta 

system och krypteringens styrka kan skalas efter behov hos applikationer. Idag bör säkerhet i form 

av kryptering alltid vara en naturlig del vid design av en ny applikation eller ett nytt protokoll för 

kommunikation. 

20

Komprimering 

Komprimering syftar till att reducera storleken på en representation av en datamängd, oftast för att 

spara in på utrymme vid lagring eller bandbredd vid överföring av data. Sättet detta utföres på är 

genom att eliminera datamängdens inneboende redundans, d.v.s. genom att försöka finna den mest 

effektiva representationen av data. Observera att denna definition inte på något vis begränsar 

problemområdet till att söka och ersätta upprepningar, många av de mest effektiva 

kompressionerna uppnås genom att omformulera vilken information som skall lagras samt hur och 

till vilken noggrannhet ursprungsinformationen skall kunna återskapas. 

För information om generell komprimering se [5] och [20], om specifikt bildkompression se även 

[6], [9] och [10]. 

Motiv för komprimering 

Givet takten som dagens överförings– och lagringsmedia utvecklas i, borde inte då komprimering 

vara ett historiskt begrepp vid det här laget? Svaret är med besked nej – tillämpningarna och 

antalet användare växer med betydligt större hastighet. Ett populärt exempel vid motivation av 

bruket av kompression är överföring av en videosignal. Dagens digitala videoöverföringar sänder 

ett flertal stillbilder som sammansatta snabbare än vad det mänskliga ögat klarar av att uppfatta 

och simulerar därmed ett jämnt bildflöde. Om bilderna i systemet är av upplösningen 640 · 480 

pixlar, individuellt har 24 bitars färgdjup, så kommer en enda bild att uppta 7372800 bitar. 

640 ⋅ 480⋅ 

24 = 7372800 

Vidare skulle då en videosignal som sänds med 50 bildrutor per sekund (vilket ungefärligen motsvarar 

vanlig television och ligger något bortom den gräns som det mänskliga ögat klarar av att 

uppfatta enskilda stilbilder) så kommer en minut av icke komprimerad video att motsvara 

22118400000 bitar, eller lite drygt 20 gigabits. 

( 640⋅ 

480⋅ 

24) 

⋅50⋅ 

60 = 

21 

22118400000 

Skulle denna videosekvens lagras på en hårddisk skulle alltså denna minut av video kräva lite 

drygt 2,5 gigabyte av lagringsutrymme. 

( 640⋅ 

480⋅ 

24) 

⋅50⋅ 

60 

= 2, 

574920654296875 

8⋅1024⋅1024⋅1024 

Vid överföring över nätverk (där ideala protokoll, d.v.s. protokoll helt utan overhead eller 

bandbreddskrav från protokollets sida, förutsätts) krävs det av kommunikationskanalen att den 

klarar av att felfritt upprätthålla en kommunikationsbandbredd med ett minimum på 368 megabit 

per sekund. 

( 640⋅ 

480⋅ 

24) 

⋅50 

= 

1000⋅1000 

368, 

64 

I ljuset av detta och många liknande exempel ses snabbt värdet av effektiv komprimering – dagens 

videobaserade tillämpningar producerar i rask takt mer data än vad som omedelbart kan behandlas.

Komprimering finner sina naturliga tillämpningar inom framförallt två områden – lagring 

respektive överföring av data. Vid första anblicken kan det te sig naturligt att tro att dessa två 

tillämpningsområden skulle vara närbesläktade men olika tillämpningar av framförallt överföringar 

implicerar att detta inte är fallet. 

Kompression för lagring 

Lite grovt kan kompression för lagring kategoriseras som kompression av data som utförs utan 

specifika krav på svarstid. Här finns det ofta tid till att fullt ut analysera ursprungsdata och den 

mest effektiva metoden att applicera för kompressionen väljas. Den triviala ansatsen att prova flera 

olika algoritmer och välja den som minimerar storleken på resultatet kan vara användbar här. 

Kompression för lagring har också oftast andra typer av krav på sig än kompression för överföring 

– i överföringstillämpningar kan exempelvis systemet ibland ta stöd av användaren (i interaktiva 

tillämpningar) eller sända ofullständiga representationer av det efterfrågade data för verifikation 

(progressiva överföringar, något som ofta används för navigation i stora datamängder). Två vanligt 

förekommande epitet för kompression för lagring är generalitet och förlustfrihet. Med generalitet 

brukar antydas att algoritmen kan appliceras på de flesta typer av datamängder med liknande 

resultat. Förlustfrihet å sin sida betyder att ursprungsdata går att återskapa exakt, utan förluster i 

datakvalitet eller mängd. Eftersom de data som skall lagras per definition skall analyseras eller 

behandlas vid ett (inte nödvändigtvis specificerat) senare tillfälle så är det heller inte säkert att den 

tidpunktens krav på databeständighet är kända. Av denna anledning ter det sig påkallat att spara 

allt data. 

Kompression för överföring 

I fortsättningen av detta arbete har fokus legat på kompression för överföring (hädanefter refererat 

till endast som kompression eller komprimering) eftersom problemställningarna för detta arbete 

klart sorterat härunder. Överföringskompression är ett, om än inte bredare är kompression för 

lagring, område fyllt med svåra kravställningar och utmaningar. Det främsta problemet inom detta 

område följer av de bristfälligheter som dagens överföringsmetoder uppvisar – bandbredden är 

oftast starkt begränsad i förhållande till efterfrågad datamängd och sällan eller aldrig felfri. Paketbaserad 

datatrafik har upplevt en stark renässans de senaste åren på grund av dess dynamiska natur 

– den tillgängliga bandbredden kan omfördelas på ett mycket mer effektivt sätt än hos alternativen 

(diverse typer av virtuellt kretskopplade nät). Detta har funnit nya applikationsområden inom 

mobila nät utöver dess naturliga dominans på Internet. Inom många applikationsområden (där 

ibland video– och ljudöverföringar) är det dock önskvärt med vissa karaktäristika som uppvisas 

endast av kretskopplade nät, exempelvis garanterad bandbredd och ökad feltolerans. Paketbaserade 

nät har även (i större utsträckning) problem med bortfall av paket, vilket löses med omsändningar 

eller genom att ignorera det saknade data. Båda dessa ansatser orsakar svårigheter för vissa typer 

av komprimeringsmodeller. 

I försök att uppnå högre grad av komprimering så specialiserar sig ofta algoritmer inom området 

kompression för överföring till smala områden, där en viss typ av data eller en viss typ applikation 

förutsätts. Dock så är då (naturligtvis) de specialiserade algoritmerna endast effektiva inom sitt 

eget område, vilket medför antagandet att informationen som skall överföras kan klassificeras eller 

är av känd typ. 

22

Redundans 

Den generella definition av komprimering som tidigare nämndes var reduktion av redundans, men 

vad exakt är redundans och var finns den? Den definition som används i detta arbete definierar 

redundans som information som finns representerad i data upprepade gånger. Viktigt att observera 

är att denna definition inte begränsar redundans till att vara upprepningar av data (exempelvis då 

samma teckensekvens återfinns ett flertal gånger i en text), utan kan även återfinnas i ineffektiva 

datarepresentationer eller i icke utnyttjad kunskap om datakällan. Redundans är överflödig 

information helt enkelt. 

Redundans kan naturligtvis manifestera sig på flera sätt och oftast krävs det ett flertal angreppssätt 

och kompromisser som samverkar för att kunna uppnå den kompressionsgrad som applikationen 

finner acceptabel. Majoriteten av arbetet i designen av ett kompressionssystem ligger i att 

identifiera var redundans finns och skapa en datarepresentation som eliminerar denna. Detta består 

ofta i att studera systemets alla komponenter både för sig och som delar av helheten. Datakällan 

och slutanvändaren är viktiga komponenter i detta arbete som inte får ignoreras då deras begränsningar 

och egenskaper ofta är källor till stora möjligheter för kompression! 

Komprimering är ett oerhört stort och expansivt område, de metoder och ansatser som nämns här 

är på inget vis en komplett förteckning över de metoder som finns tillgängliga och ämnar heller 

inte till att vara detta. Denna förteckning finns med mer som en orientering för den till ämnet icke 

introducerade läsaren och beskriver en (väldigt) liten del av det arbete som gjorts inom fältet det 

senaste halvseklet. 

23

Förlustfri komprimering 

De flesta typer av förlustfri komprimering (lossless compression) baserar sig på ansatsen att finna 

ett mer effektivt sätt att representera informationen (till skillnad mot dataförstörande som väljer 

bort information efter en given strategi). Den maximala kompressionsnivån som kan uppnås av en 

förlustfri komprimering definieras av datamängdens inneboende entropi (energiinnehåll), vilken i 

runda ordalag definierar hur mycket information det egentligen finns i en datamängd och ger därigenom 

även indirekt ett mått på den mest effektiva representationens storlek. Vi skall här översiktligt 

gå igenom ett antal exempel på förlustfri kompression, vilka alla har förenklats en smula 

för läsarens intuitiva förståelses skull. De finns med här för att erbjuda läsaren en introduktion till 

komprimering och en bättre bild av hur olika tekniker för komprimering är uppbyggda. 

Run–Length Encoding 

Run–Length Encoding (hädanefter kallad RLE) är en av de enklaste varianterna av komprimering 

och baserar sig på antagandet att det i data finns återkommande sekvenser av samma värde (så 

kallade run–lengths). Dessa sekvenser kodas efter identifierandet i termer av tecken bestående av 

värdet och längden på sekvensen. RLE kan (och görs ofta) även med fördel appliceras på tvådimensionella 

datastrukturer och uppnår oftast sin högsta effektivitet på datamängder med enkel 

struktur. Ett vanligt förekommande exempel på sådana datamängder är text eller bilder med lågt 

färgdjup (lågt antal distinkta färger i bilden), varför RLE återfinns inom ett flertal standarder för 

telefax och liknande tillämpningar. 

Predictive coding 

Predictive coding kan ses som en utökning av RLE då denna variant fokuserar på att identifiera 

strukturer av vanligt förekommande data och kodar sedan informationen i termer av avvikelser 

från denna förutsägelse. Härledningsmässigt gäller dock inte detta släktskap då predictive coding 

egentligen baseras på statistiska analyser av tillämpningsmässigt data. Predictive coding finner 

sina tillämpningar främst inom överföringstillämpningar där det finns utförlig kunskap om vanligt 

förekommande datastrukturer i data, snarare än möjlighet att analysera det data som genereras i sin 

helhet. 

Dictionary based coding 

En till Predictive coding närbesläktad ansats är Dictionary based coding, vilken liksom den förstnämnda 

baseras på statistisk analys av data. Här fokuseras dock på att identifiera strukturer i data 

vilka lagras i speciella uppslagstabeller. Informationen kodas sedan om i termer av index in i dessa 

tabeller istället för som tidigare i termer av sekvensstorlekar. Rent generellt lämpar sig dessa algoritmer 

bättre för lagringstillämpningar snarare än överföringstillämpningar eftersom ett effektivt 

identifierande och uppbyggande av dessa tabeller baserar sig på en överblick över den fullständiga 

datamängden. Detta ställer i sin tur krav på tillgängligheten av data som inte alltid uppfylls av 

överföringstillämpningar, vilka oftast börjar överföra data innan allt data är genererat. Naturligt 

följer effekten att dessa algoritmer tenderar att ignorera kunskap om datakällan och istället fokusera 

på de strukturer som finns i tillgängligt data. Därmed har dessa algoritmer en generalitet som 

gör att de kan appliceras på godtyckligt data och de återfinns därför ofta i tillämpningar för kompression 

av godtyckliga datafiler (såsom verktygen pkzip och UNIX compress). Värt att notera är 

även att dessa algoritmer når en hög effektivitet vid kompression av homogena bilder (vilka exempelvis 

kan ha mycket bakgrund i sig) och därför även återfinns i många komprimeringsbaserade 

filformat för grafik, såsom GIF (Graphics Interchange Format). 

24

Huffman kodning 

Huffman kodning är (trots sin gedigna ålder) en av de absolut vanligast förekommande algoritmerna 

av idag och baseras även den på statistiska antaganden om data. Huffman kodning finns 

(av implementeringsmässiga skäl) i en hel del varianter som alla utnyttjar sin egen variant av 

representation av kompressionsinformationen. Den gemensamma och definierande idén är att på 

teckennivå representera informationen i koder vars storlek baseras på hur vanligen förekommande 

just det tecknet är. På grund av flexibiliteten i denna ansats kan detta användas både tillsammans 

med statistiska antaganden om en viss datakällas generella utdata och tillsammans med statistik 

om en viss datasekvens (utan information om datakällan). Den sista och otroligt användbara 

aspekten av denna ansats är att på grund av dess tidigare nämnda generalitet så kan den ofta 

använda tillsammans med andra godtyckligt valda kompressionsansatser, ofta då dataförstörande 

sådana. Detta möjliggör att i en slutfas erbjuda en lämplig bitkodning av data och då eliminera den 

eventuella redundans som introducerats som en bieffekt av de tidigare kompressionerna. Det är ju 

till sist och syvende så att det oftast är ett kombinerat system av olika kompressionsansatser som 

tillsammans genererar de bästa kompressionseffekterna – i ljuset av detta synes värdet av en algoritm 

som är generellt applicerbar tillsammans med andra algoritmer klart. Skulle utdata från en 

tidigare komponent i detta system inte passa en Huffman kodning så går det ofta att utan alltför 

stora beräkningsmässiga straff att anpassa dessa för att bättre för Huffmankodningen, en process 

som i kompressionslitteratur ibland brukar benämnas normalisering. Ett exempel på en applikation 

som utnyttjar exakt detta är JPEG standarden för kompression av stillbilder. 

Värt att notera är även att Huffman kodnings användande är skalbart i storleksavseende – den går 

lika bra att applicera på en högre generell objektnivå som nere på en lägre teckennivå, utan att 

påverka dess goda prestanda. Huffman kodning återfinnes ofta idag (just på grund av dess generalitet 

och goda prestanda) som ett sista steg i de flesta typer av tillämpningar som inkorporerar 

någon typ av kompression, inklusive bildkodningar, överföring av realtidsdata, textkompression 

med mera. 

Ett illustrativt om än något historiskt exempel på kompression av Huffman typ är Morse kod, som 

ursprungligen skapades för bruk på de manuella telegraferna. I Morse kod så representeras bokstäver 

av sekvenser av signaler (korta och långa) och för att minimera antalet nedslag telegrafisten 

behövdes göra för att sända ett meddelande (och därmed antalet signaler samt överföringstid för en 

genomsnittlig text) så gav Morse de mer vanligt förekommande tecknet i det engelska språket 

kortare representationer än de mindre vanlig förekommande. 

25

Dataförstörande komprimering 

Förlustfri komprimering har en stor teoretisk begränsning (vilken ofta är praktiskt kännbar) i det 

att den maximala kompressionsgraden som går att uppnå begränsas av datamängdens entropi. Av 

denna anledning används denna typ av algoritmer nästan uteslutande i de applikationer där dataförluster 

inte är acceptabla. Dataförstörande komprimering (lossy compression) finner sin 

motivering i det faktum att det existerar många fall där förlustfri komprimering inte räcker till för 

att tillfredsställa de krav som ställs på applikationen, ofta genom att det blir det för mycket beräkningar. 

Många förlustfria kompressioner inriktar sig på en utförlig analys av indata, något som är 

beräkningsintensivt och heller inte alltid är genomförbart i överföringsfallet. Det finns även flera 

situationer där det helt enkelt inte går att uppnå den sökta kompressionsgraden utan att göra avkall 

på datakvaliteten. Även om det initialt ligger nära till hands så skall dock inte dataförstörande 

komprimering ses som en kompromiss utan snarare som ett intelligent val som görs med begränsningar 

hos systemets slutanvändares uppfattningsförmåga i åtanke. Det är främst den information 

som bedöms vara överflödig för slutanvändarens behandling av data som förkastas i kompressionen. 

Dataförstörande algoritmer kan ofta uppnå väldigt höga grader av kompression utan att slutanvändaren 

ser en skymt av dem. 

Felmått 

När förlustfri komprimering diskuteras så är de intressanta kvalitetsmåtten kompressionsgrad och 

(i överföringstillämpningar) beräkningskomplexitet. När dataförstörande kompression diskuteras 

så introduceras en annan aspekt på ett naturligt sätt – distortion. Distortionen är måttet på hur 

mycket rekonstruktionen av det komprimerat data avviker från originaldata, med andra ord ett mått 

på hur stort det av systemet introducerade felet är. Tidigare nämndes att det för kompressionssystem 

är lyckosamt att människan är konstruerad med relativt svaga syn– och hörselorgan och 

istället kompenserar för detta med en stark signalbehandling. Nu dyker dock den andra sidan av 

det myntet upp. Eftersom vår uppfattning av syn– och hörselintryck till stor del styrs av hur vi 

individuellt behandlar dessa sinnesintryck är det oerhört svårt att skapa generella kvantitativa 

felmått för system där människan är slutanvändare. Eftersom olika personer uppfattar en viss färgnyans 

på olika sätt (både i termer av färgupplevelse och i termer av viktning – hur viktig den 

komponenten är för helhetsbilden) så kommer ett fel i den färgnyansen att upplevas som olika 

störande, detsamma gäller givetvis för kontraster, extremvärden med mycket mera. Till viss del 

kan detta modelleras matematiskt (exempelvis kan få människor höra ljud under 20Hz), men den 

effektivaste metoden för subjektiv felmodellering är fortfarande att låta slutanvändaren själv få 

avgöra hur störande olika fel är och vilka fel som är acceptabla eller ej. Ett exempel på detta är 

taligenkänningsapplikationer som måste kalibreras för varje enskild användare för att uppnå 

maximal prestanda. 

I de flesta tillämpningar som präglas av begränsad interaktivitet så är dock denna ansats inte 

möjlig och då satsas det istället på att genomföra denna process med en referensgrupp som är 

statistiskt representativ för slutanvändaren. Med denna metod nås naturligtvis inte samma resultat 

som om varje slutanvändare själv fick vikta felen men givet ett tillräckligt statistiskt underlag kan 

ofta generella slutsatser kring den genomsnittslige slutanvändaren dras. Ett exempel på sådana 

arbeten är när the Joint Photographers Expert Group (JPEG) tog fram bildstandarden JPEGs dataförstörande 

del. Då anlitades en stor statistisk urvalsgrupp för att rangordna hur störande de fann 

olika typer av fel i bilder. Denna kunskap användes senare för att konstruera viktningsmatriser 

vilka reducerar förekomsten av blockningsartefakter i komprimerade fotografier med naturliga 

motiv. 

Nackdelarna med denna ansats är uppenbara, även om denna process skulle generera ett felmått 

som är universellt acceptabelt så är det en dyr och tidskrävande metod som sällan är användbar för 

varje tillämpning. Det är även ofta svårt att teoretisera kring de feluppskattningar som fås från 

26

statistiska urval, oftast brukar arbetet pragmatiseras till att försöka identifiera och modellera de 

fysiska delarna av användaren snarare än de psykiska. De fysiska delarna av vår varelse har utvecklats 

evolutionsmässigt och skiljer sig betydligt mindre från individ till individ än vad de 

psykiska delarna (vilka snarare är ett resultat av anpassning gentemot våra individuella förutsättningar 

i kombination med vår miljö) gör. 

Alternativa metoder för feluppskattning (d.v.s. metoder som inte baserar sig på statistiskt urval) är 

av mer matematisk natur, exempelvis medelabsolutfel (Root Mean Square Error eller RMSE) eller 

medelkvadratsfel (Mean Square Error eller MSE). MSE mäter felet genom att ta medelvärdet av 

kvadraten på skillnaden mellan enskilda pixlar (var färgkanal för sig, före och efter kompressionen). 

MSE har fördelen att belysa stora fel (eftersom de kvadreras), vilket är lämpligt inom bildbehandling 

eftersom det (till viss del) motsvarar det mänskliga ögats konstruktion som gör det 

enklare för användare att detektera skarpa kontraster i bilder. RMSE mäter medelvärdet av den 

absoluta skillnaden mellan enskilda pixlar. Matematisk uttrycks detta som summan av absolutbeloppet 

på skillnaden mellan enskilda pixelvärden, men detta benämns RMSE eftersom detta 

även uttrycker kvadratroten av MSE för enskilda pixlar. RMSE är användbart eftersom det 

uttrycker den absoluta skillnaden i pixelvärden mellan två bilder. Dessa metoder uppnår inte 

samma grad av noggrannhet som statistiska metoder, men har istället fördelarna att de är billiga 

och snabba att använda, har ofta en stark teoretisk koppling till metoderna de modellerar och framförallt 

är de enkla att applicera på uppmätt data. Ett tredje mått som används ibland är absolutfel 

(Absolute Error eller AE). Detta är ett mått som summerar absolutbeloppen för skillnader mellan 

enskilda pixlar och ger en uppfattning om hur mycket en bild förändrats totalt. 

Med god kunskap om de fel som dyker upp i systemet kombinerat med kunskap om systemets 

användare kan det även ibland går att utnyttja de brister som existerar till sin fördel. Ett exempel 

på detta är en teori som benämns maskningsteoremet, vilket belyser möjligheten att välja in 

störning där defekter i mottagarsystemet ignorerar delar av informationsurvalet. Människans hörsel 

täcker exempelvis ett stort spann av ljudfrekvenser och kan snabbt ställa om sig från att uppfatta 

ljud i den ena änden av spektrat till ljud i den andra, men vi saknar möjligheten att höra dem båda 

samtidigt. Givet denna information om slutanvändaren kan då förutsägas att en hög ton som följs 

av en låg ton då kommer att maskera den efterföljande tonen (därav namnet maskningsteoremet) 

ifall de kommer i så snabb takt att örat inte hinner ställa om sig. I det fallet kan den andra tonen 

förkastas utan att påverka slutanvändarens upplevelse av signalen, något som besparar systemet 

både beräkningar och bandbredd. 

Dimensionering av distortion 

Hur mäts då prestanda för en dataförstörande kompressionsalgoritm? Vad är lämpliga förhållanden 

mellan det introducerade felet och resulterande bit rate (ett mått på kompressionsgrad)? Eftersom 

det i kompressionsdiskussioner handlar om mycket komplexa algoritmer är det är svårt att förutsäga 

hur en viss algoritm kommer att uppföra sig under vissa betingelser. I ett komplext system 

med flera integrerade kompressionskomponenter kan det snabbt bli oöverskådligt att se hur en 

enkel variation i bandbredd eller indata kommer att motsvaras i utdata. Betydligt enklare är det då 

att först identifiera vilka krav applikationsmiljön ställer på kompressionssystemet och sedan välja 

en passade algoritm på förkastningsbasis som håller sig inom dessa ramar. 

Ett lämpligt förfarande är med andra ord att se på applikationen, identifiera systemets krav för 

datakvalitet, bandbredd och beräkningskomplexitet, välja absoluta gränser för dessa och sedan 

försöka passa in de tekniker som finns tillgängliga inom dessa. 

Kraven på datakvalitet varierar stort från system till system och framförallt mellan olika 

applikationsområden. För övervakningskameror kan det vara viktigt att bildupplösningen är hög 

nog att kunna identifiera individer och för målsökningssystem kan det vara viktigare att ha en hög 

frame rate (bildfrekvens, mäts i fps eller bildrutor per sekund) för att kunna följa ett visst objekt 

27

när det väl identifierats. För interaktiva system kan det vara viktigt att låta användarens subjektiva 

bedömningar ligga till grund för hur datakvalitetsparametrarna skall sättas för systemet. Speciellt i 

fallet med bildtelefoni över Internet, där omständigheter bortom användarens kontroll (läs 

bristande bandbredd) sätter påtagliga begränsningar för datakvaliteten, kan möjligheten att själv få 

balansera bildstorlek, bildfrekvens och bildkvalitet göra mycket för användarens acceptans av 

systemet. 

När det talas om bandbredd inom bildtelefoni brukar maximal bandbredd och bibehållen bandbredd 

särskiljas. Maximal bandbredd betraktas som en övre gräns vilken inte skall överskridas ens 

om det innebär att (temporärt) sänka datakvaliteten. När bibehållen bandbredd nämns så avses 

storleken på en kontinuerlig dataström som skall bibehållas utan avbrott. Som bekant är detta endast 

möjligt för kretskopplade när och för paketbaserade (publika) nät så brukar systemen istället 

byggas så att de inte är beroende av en kontinuerlig dataström utan till och med inte berörs av att 

data saknas på grund av paketbortfall eller sådana fördröjningar att data blir irrelevant. Ofta väljs 

över paketbaserade nät en lösning där bildkvalitet och bandbreddkrav har ett tydligt utbytesförhållande 

så användaren själv kan styra sitt system till att använda en bildkvalitet som är lämplig 

för den tillgängliga bandbredden. Det märks tydligt för användaren genom drastiska sänkningar i 

datakvaliteten när han nått taket för bandbredden. 

Beräkningskomplexiteten brukar ofta begränsa datakvaliteten på ett liknande vis som bandbredden 

gör – när bandbredden begränsar hur mycket data som kan överföras så begränsar beräkningskomplexiteten 

hur mycket data som kan behandlas. Kompression är ofta en mycket beräkningsintensiv 

process och bildtelefoni genererar mycket data snabbt vilket gör bildtelefoni till ett av de 

tydligaste exemplen på när dedikerad hårdvara brukar användas idag. I avsaknad av sådan får dock 

andra utvägar sökas och oftast brukar då detta ske genom att göra avkall på kompressionskvaliteten 

i designfasen. 

Under systemets körning kan det även gå att använda matematiska mått för att finna en balans 

mellan kompressionsnivå och datakvalitet, lämpligen då RMSE och MSE. Målet brukar här då 

vara att finna en högsta möjliga kompressionsnivå för en viss nivå av störning (distortion), vilket 

med andra ord ger maximalt med data för det tillåtna felet. 

För utförligare information om matematiska felmått se [2] och [17] och dess användning se [9] och 

[18]. 

Hybridsystem 

När felmått diskuteras följer det smidigt att nämna en vanligt förekommande ansats som i stor 

utsträckning lever i gränslandet mellan dataförstörande och förlustfri komprimering – hybridsystem. 

Dessa utnyttjar felmått som ett sätt att styra kompressionen. Hybridsystem är system som 

implementerar flera av de komprimeringsansatser som här tas upp och gör sedan intelligenta val av 

vilka algoritmer som bäst passar det aktuella data. Givetvis utnyttjar majoriteten av dagens applikationer 

kombinationer av de tillgängliga typerna av kompressionsalgoritmer, det som skiljer 

hybridsystem från mängden är att strategin för valet av dessa är mer uttalat och kriterierna för detta 

urval mer raffinerade. En vanlig ansats när det gäller hybridsystem är att implementera ett flertal 

närbesläktade algoritmer (ofta helt enkelt genom att utnyttja samma algoritm med olika 

parametrar) och sedan välja den algoritm som minimerar felet för det data som systemet arbetar på 

för tillfället. Denna urvalsprocess kan med fördel skötas interaktivt av användaren (eftersom olika 

typer av fel upplevs olika störande) men går även att göra med automatiskt med kvantifierande 

metoder. MPEG4 kompressorer är exempel på interaktiva applikationer och the JPEG baseline 

algorithm är ett exempel på en kvantifierande anpassning. Observera att denna urvalsprocess (valet 

av vilken algoritm som skall användas) inte nödvändigtvis är permanent utan detta kan upprepas 

flera gånger under komprimeringens gång. 

28

Subband Coding 

En annan komprimeringsansats som ligger i gränslandet mellan förlustfri och dataförstörande 

komprimering är Subband Coding. Detta är som namnet antyder en ansats som ansätter 

komprimeringsproblematiken med antagandet att olika delar av insignalen uppvisar olika karaktäristika 

och därför kan, eller snarare bör, behandlas som flera separata och parallella insignaler. 

Signalen delas med andra ord upp i underband baserat på frekvens. Vikten lägges här vid att 

partitionera insignalen efter signalens karaktäristika på ett intelligent vis och ämnar därmed att 

reducera den sammanlagda komprimeringsproblematiken till ett flertal mindre och mer triviala 

komprimeringsproblem. De specifika metoderna för att partitionera signalen bestäms vanligen 

efter statistiska studier av representativt data, men det finns även metoder för att göra detta vid 

tillfället för behandlingen av den aktuella signalen – exempelvis system baserade på neurala nät 

för artificiell intelligens. Här bör även observeras att denna partitionering eller filtrering inte 

endast ger oss en partitionerad datamängd anpassad efter modellerna av (förväntat) data, utan även 

en hel del information om dess innehåll. Exempel på detta är hur väl förutsägelser kring detta datas 

natur stämmer samt vilka komprimeringsalgoritmer som senare bör prioriteras. Idag dyker denna 

typ av ansats vanligen upp i kombination med hybridsystem eller transformbaserade system, och 

ofta då i realtidssystem då denna ansats är relativt enkel och billig att realisera i elektronik. Detta 

arbetssätt kan dock givetvis med fördel även användas både inom förlustfri och dataförstörande 

komprimering. 

Det enklaste exemplet av subband coding är ett analogt insignalsfilter som tar bort frekvenser som 

ofta ger upphov till kraftiga störningar i en senare komprimeringsprocess. Mer avancerade system 

finns givetvis, exempelvis kan de använda sig av betydligt fler filter eller återkopplingsslingor som 

ger systemet information om hur framgångsrik partitioneringen är och konfigurerar om systemet 

för att uppnå en högre effektivitetsgrad. 

Avslutningsvis kan nämnas att det finns fall då bruket av subband coding är direkt olämpligt. 

Detta främst då någon annan form av komprimering senare förutsätter saker om eller försöker 

tolka insignalen. 

29

Frekvensdomänanalys 

Eftersom inte alla läsare av denna rapport förmodas vara familjära med frekvensdomänanalys ges 

här en kort definition av en del begrepp (sett ur det datavetenskapliga perspektivet). 

En (matematisk) funktion är en uppsättning beräkningar som tar ett antal parametrar och returnerar 

ett värde utifrån dessa, d.v.s. i det reella fallet mappar ett värde från R n till R 1 (där R är de reella 

talens värderum och n är antal parametrar som ges funktionen samt rummets dimension). Inom 

signalbehandling kallas (endimensionella) signaler ofta för funktioner och i detta arbete används 

uttrycken utbytbart. 

En transform är en uppsättning beräkningar som tar ett antal parametrar och mappar dessa till en 

ny värdemängd, d.v.s. för det reella fallet mappar alltså en transform från R n till R m (där m och n 

betecknar antal dimensioner för de reella värderummen). En transform kan även sägas vara reell 

eller komplex samt diskret eller kontinuerlig och då är det naturligtvis de värderum de arbetar på 

som avses i beskrivningen. 

Frekvensdomänen 

Fouriertransformens (liksom de flesta övriga transformer nämns här) värdemängd kallas frekvensdomänen, 

detta på grund av att den delar upp periodiska funktioner i sinusoida komponenter baserat 

på dessa signalers inneboende frekvenser (d.v.s. hur data förändras inom signalen). De värden 

som fås i transformkoefficienterna av en dylik transform uttrycker information om hur mycket den 

aktuella sinusoiden skall viktas i det givna avsnittet för att tillsammans med de andra koefficienterna 

approximera ursprungsfunktionen. Detta uttrycker även den komponentens relativa förekomst 

i funktionen och kan även användas som ett mått på förändring inom en signal. Frekvensdomänanalys 

är det samlingsnamn som används för att beteckna de metodiker som utnyttjar 

transformer av periodiska funktioner och arbetar på de resulterande transformkoefficienterna. 

Två egenskaper som kanske inte kommer läsaren intuitivt till sinnet men som är nödvändiga hos 

de transformer som används är att de dels är reversibla och dels (oftast) är separabla. 

Med reversibla menas att de i sig inte är dataförstörande – den ursprungliga signalen kan rekonstrueras 

till fullo från de resulterande transformkoefficienterna med hjälp av inversen av transformen. 

Mer matematiskt uttryckt så sägs dessa transformer vara ortonormala, vilket innebär att 

transformmatrisens invers är detsamma som transponatet av transformmatrisen. Eftersom transponatet 

av en matris alltid existerar och är enkel att beräkna så är det enkelt ta fram inversen för 

transformen från dess transformmatris. Skall en transform användas på en flerdimensionell signal 

kommer den andra nämnda egenskapen in i spel, med separabel menas att den flerdimensionella 

transformen kan beräknas utifrån den endimensionella transformen genom upprepade beräkningar 

(av den endimensionella transformen) på den givna signalen. 

Transformteori används mycket inom signalbehandling eftersom transformer erbjuder ett smidigt 

matematiskt verktyg för att beskriva en signals sammansättning på en specificerad detaljnivå. 

Försöks exempelvis vissa frekvenser i en ljudsignal isoleras till en viss upplösning kan detta göras 

genom att lokalisera dess motsvarande sinusoider i signalens transformrepresentation (för den 

sökta upplösningen), extrahera dessa och sedan beräkna inversen av transformen på dessa 

koefficienter. På motsvarande vis kan även färger i bilder bearbetas eller störningars i en signal 

motverkas. Dessa metoder finner med andra ord många naturliga tillämpningar hos filtrering, 

komprimering, signalrekonstruktion, med mycket mera. Subband coding och frekvensdomänanalys 

är inom kompression närbesläktade men har den skillnaden att Subband coding 

arbetar på (spatiella) frekvensband i ursprungssignalen medan frekvensdomänanalys delar upp den 

ursprungliga signalen i (viktade) frekvenskomponenter efter signalens förändringar. 

30

För utförligare introduktion till transformteori, matematiken däri och dess användning inom kompression 

och bildkodning se [2], [9], [17], [18] och [20]. 

Wavelets och Rum–Frekvensdomänen 

Något som inte tas upp mer än i det här arbetet men ändå för tydlighetens skull bör nämnas i det 

här sammanhanget är wavelets. Wavelets är en typ av transformer som ger en signalrepresentation 

i rum–frekvensdomänen, och ger utöver frekvensdomänens information (om hur signalen är 

sammansatt) även spatiell information om dessa signalkomponenter (i runda ordalag var de rumsligt 

befinner sig i signalen). Som ett förtydligande exempel inom bildbehandling (där en bild alltså 

betraktas som en tvådimensionell signal) skulle en Fourierrepresentation av bilden ge information 

om vilken typ av information som finns i bilden. Exempelvis skulle många höga frekvenskomponenter 

tala om att det finns snabba förändringar i bilden. En väldigt stark frekvenskomponent 

skulle då t.ex. kunna indikera ett periodiskt återkommande mönster i bilden. En 

wavelet representation av samma bild skulle då även utöver detta även kunna ge information om 

var någonstans i bilden som dessa snabba förändringar eller detta periodiska mönster befinner sig. 

Denna information uppnås genom att wavelets använder sig av en filterbank som anpassar den 

rumsliga storleken i representationen efter frekvensen för komponenten. Detta ter sig naturligt då 

förändringar som sker hastigt (och därmed har högre frekvens) ofta har låg rumslig utbredning till 

skillnad från förändringar som sker långsamt (och därmed har lägre frekvens) ofta har större 

rumslig utbredning. Wavelets är en relativt ny gren av matematiken (de skapades under andra 

halvan av föregående sekel) men kan för pedagogiska syften ses som en föregångare till frekvensdomänanalys. 

Fourierserier och Fouriertransformen 

För omkring 200 år sedan formulerade den franske ingenjören och matematikern Jean Baptiste 

Joseph Fourier (1768–1830) teorin om vad som idag är känt som Fourierserier. I sitt arbete med 

serier och transformer postulerade Fourier ett teorem som sade att en periodisk funktion (med 

period T) kan uttryckas som en serie av viktade sinusoider (d.v.s. periodiska funktioner som går att 

uttrycka som parameteriserade sinusvågor) på följande vis: 

a0 

f ( t) 

= + 

2 

∞ 

∑ 

n= 

1 

2π 

nt 

an 

cos + 

T 

där vikterna (koefficienterna) an och bn fås genom 

a 

b 

n 

n 

1 

= 

T 

1 

= 

T 

T 

∫ 

0 

T 

∫ 

0 

31 

∞ 

∑ 

n 

n= 

1 

2π 

nt 

f ( t) 

cos dt 

T 

2π 

nt 

f ( t) 

sin dt 

T 

2π 

nt 

b cos 

T 

En mycket användbar egenskap hos fourierserier är att det i förväg kan bestämmas till vilken noggrannhet 

som beräkningen skall utföras. Istället för att låta summorna i ovanstående ekvation gå 

från n=1 till oändligheten får de gå från n=1 till ett givet iterationstak x, och på det viset fås då en 

approximation av funktionen vars noggrannhet direkt korrelerar mot storleken på iterationstaket x. 

Skulle exempelvis en insignal ha en felfaktor av känd storlek så ter det ju sig onödigt att 

representera funktionen med fler sinusoider än så många som behövs för att representera

funktionen till den implicit givna noggrannheten. Med andra ord kan fourierserier i sin enklaste 

form erbjuda ett visst mått av kompression i sig. 

Fourierserier har även en komplex representation där funktioner uttrycks som en summa av komplexa 

exponenter på följande vis: 

= t f ( ) 

∑ ∞ nt 

i 

T 

n 

n= 

−∞ 

e c 

2π 

där i = −1 

och koefficienterna cn är komplexa tal som fås genom 

c 

n 

1 

= 

T 

T 

∫ 

0 

f ( t) 

e 

32 

−2π 

nt 

i 

T 

Icke periodiska funktioner kan ges en periodisk representation genom 

∑ ∞ 

k = −∞ 

dt 

f ( t) 

= f ( t − kT) 

p 

Vilket, då perioden T går mot oändligheten, ger en Fourier representation av funktionen f(t) vilken 

kallas Fouriertransformen av f(t). 

I dagens tillämpningar behandlas dock oftast digitala (kvantifierade) signaler, varför det primära 

intresset är riktat mot diskreta transformer. Koefficienterna för den Diskreta Fourier Transformen 

(DFT) ges av 

c 

k 

1 

= 

N 

N 

∑ −1 

xn 

n= 

0 

e 

−2π 

nk 

i 

N 

där {xn} är en diskret sekvens av en insignal av längden / perioden N (vilket även råkar vara antalet 

resulterande transformkoefficienter). Dess invers (beräkningen av {xn} från {ck}) fås genom 

x 

n 

= 

∑ − N 1 

ck 

k= 

0 

e 

2π 

nk 

i 

N 

För den oinvigde kan det vara lägligt att redan nu påpeka att Fouriertransformen för en signal kan 

vara mycket kostsam att beräkna. Även om den inte skulle innehålla komplexa tal så skulle det 

fortfarande handla om summering av exponenter utan möjlighet till utbrytning och förberäkning av 

komponenterna i särskilt stor utsträckning. Detta är speciellt aktuellt inom exempelvis bildbehandling 

och liknande områden som involverar flerdimensionella signaler, vilka olyckligtvis 

ofta ökar beräkningskomplexiteten med dimensionen som exponent. Till hjälp för att motverka 

beräkningsbelastningen finns det dock en hel del specialiserade transformer som funnit sina 

användningsområden efter sina egenskaper samt ett generellt verktyg i form av en algoritm som 

kallas the Fast Fourier Transform (FFT). FFT är en algoritm som beräknar den diskreta Fouriertransformen 

med hjälp av successiv dubblering och reducerar beräkningskomplexiteten för densamma 

så mycket att den i praktiken nästan alltid används i dagsläget. Noterbart är även att 

Fourier transformen ger transformationskoefficienter ordnade efter spatiell frekvens.

Transformbaserad komprimering 

Frekvensdomänanalys är ett mycket användbart verktyg inom komprimering eftersom det ger oss 

ett verktyg för att isolera och vikta signalens olika komponenter efter slutanvändarens perceptionsförmåga. 

Består exempelvis målgruppen för en signal av människor så vet vi dels att olika 

frekvenser uppfattas olika mycket de mänskliga sensorsystemen (primärt hörsel– och synorganen) 

men även att dessa system är konstruerade för att selektivt välja vilka frekvensområden som skall 

fokuseras på för tillfället. Exempel på detta är det mänskliga ögats vars mörkerseende temporärt 

sätts ur spel ifall det exponeras för starkt ljus eller det mänskliga örat som fokuserar på ett visst 

frekvensområde åt gången och därmed inte kan höra ljud ur olika ändar av det hörbara spektrumet 

samtidigt. Om frekvensdomänanalys av en signal kan bestämma att slutanvändaren förmodligen 

inte kommer att kunna uppfatta en viss del av signalen så har vi ju per definition lyckats identifiera 

en redundans i signalen. Frekvensdomänanalys är ett mycket användbart verktyg för signalbehandling 

och den kompression som kan uppnås genom kvantifiering och trunkering av 

transformkoefficienter brukar samlingsmässigt kallas transformbaserad komprimering. 

Karhunen–Loeve Transformen (KLT) 

Inom informationsteori används ett begrepp kallat entropi, vilket är ett mått på en signals energiinnehåll 

eller enklare uttryckt ett mått på hur mycket information en signal innehåller. Det kan 

visas att entropin för en signal är ett bra mått på en kompressionens effektivitet, här konstateras 

dock endast att entropin för en signal stiger när signalrepresentations varians stiger. Karhunen– 

Loeve Transformen (KLT) utnyttjar en datarepresentation som beror av signaldata (närmare 

bestämt beror baskoefficienterna i transformmatrisen av sagda signaldata) och maximerar med på 

detta sätt variansen i representationen av insignalen. Detta medför att informationen kompakteras 

till den för bildkompression optimala representationen. KLT kallas även av historiska skäl för the 

Hotelling Transform. 

Tyvärr medför denna representation att transformens baskoefficienter varierar med signalen när 

den förändras över tiden. Detta är ett problem framförallt inom kompression för överföring 

eftersom mottagaren inte har tillgång till signaldata som behövs för att konstruera transformmatrisen 

(med andra ord behöver mottagaren signalen för att konstruera transformmatrisen för att 

avkoda den nya representationen av signalen – moment 22). Detta resulterar även i ett annat 

problem som i praktiken också visar sig i oöverstigligt – att beräkna baskoefficienterna för 

transformen är en mycket beräkningsintensiv process som helt enkelt inte kan upprepas varje gång 

signalen förändrar sig. Dessa nackdelar gör att KLT i praktiken sällan eller aldrig används för 

bildkompressionen, men KLT utgör ändå ett mycket bra mått på den optimala prestanda som kan 

nås med transformbaserad kompression. 

Diskreta Cosinus Transformen (DCT) 

Den Diskreta Cosinus Transformen (DCT) är en i bildkompressionssammanhang mycket vanligt 

förekommande operation eftersom den väl approximerar den ideala KLTs varians utan att introducera 

samma typ av beräkningskomplexitet. DCTs baskoefficienter beror endast av (den 

kvadratiska) blockdimensionen och kan därför förberäknas när denna är känd. Blockdimensionen 

brukar i förväg väljas beroende på applikationen krav avseende acceptabla störningar, maximal 

beräkningsintensitet samt önskad grad av kompression. 

Geometriskt sett utgör DCT egentligen ett specialfall av DFT som fås genom att i den periodiska 

utökningen av DFTs insignal lägga till en spegelvänd version av serien och därigenom eliminera 

den diskontinuitet som annars uppstår. 

33

Figur 2. Periodisk utveckling av en sampling för DFT respektive DCT 

DCT har även (till skillnad från DFT) den beräkningsmässigt attraktiva egenskapen att den är helt 

reell. Faktum är att DCT av dessa anledningar idag är något av ett självklart val för de typer av 

tillämpningar som använder sig av (frekvensdomäns) transformbaserade kompressioner. DCT har 

idag representerats i ett flertal standarder (däribland standarderna för kompression av still– och 

rörliga bilder från JPEG och MPEG) och har implementerats i en myriad av hårdvarutillämpningar 

likväl som optimerats i dagens ledande processorertillverkares instruktionsuppsättningar. 

För den (kvadratiska) blockdimensionen N bestäms den tvådimensionella consinustransformen av 

C( 

u, 

v) 

= α ( u) 

α ( v) 

och har då motsvarande invers 

med 

Funktionen 

DFT 

DCT 

f ( x, 

y) 

= 

f b 

− N 1 N −1 

∑∑ 

u= 

0 v= 

0 

− N 1 N −1 

∑∑ 

x= 

0 y= 

0 

( 2x 

+ 1) 

uπ 

( 2y 

+ 1) 

vπ 

f ( x, 

y) 

cos cos 

2N 

2N 

( 2x 

+ 1) 

uπ 

( 2y 

+ 1) 

vπ 

α ( u) 

α( 

v) 

C( 

u, 

v) 

cos cos 

2N 

2N 

⎧ 

⎪ 

α ( u) 

= ⎨ 

⎪ 

⎪ 

⎩ 

1 

N 

2 

N 

för u = 0 

för u = 1, 

2 ... N −1 

( 2x 

+ 1) 

uπ 

( 2y 

+ 1) 

vπ 

( u, 

v, 

x, 

y) 

= α( 

u) 

α ( v) 

cos cos 

2N 

2N 

benämns en basfunktion för DCT och dess värde en baskoefficient för DCT. Inspektion ger att 

förberäkning av denna baskoefficient är möjlig eftersom dess värde endast beror av de diskreta 

iterationsvärdena u, v, x och y samt konstanten N. 

Med en i förväg känd blockdimension och förberäknade baskoefficienter reduceras med andra ord 

beräkningskomplexiteten för DCT till 

34

med motsvarande invers 

Beräkningen 

C ( u, 

v) 

= 

f ( x, 

y) 

= 

− N 1 N −1 

∑∑ 

x= 

0 y= 

0 

− N 1 N −1 

∑∑ 

u= 

0 v= 

0 

f b 

f ( x, 

y) 

f ( u, 

v, 

x, 

y) 

35 

b 

C( 

u, 

v) 

f ( u, 

v, 

x, 

y) 

( x, 

y) 

f ( u, 

v, 

x, 

y) 

benämns en DCT–operation (eller ett s.k. multiply–add par, efter de (flyttals)instruktionerna som 

en kompilator skulle generera för operationen). På detta vis kommer beräknandet av DCT (eller 

inversen av DCT) med andra ord att reduceras till cirka N 2 DCT–operationer. På samma vis 

kommer de förberäknade baskoefficienterna att kräva lagring av N 4 flyttal. 

Blockdimension 

b 

Antal DCT– Lagringsutrymme för 

operationer baskoefficienter (kB) 

4 16 2 

8 64 32 

12 144 162 

16 256 512 

20 400 1250 

24 576 2592 

28 784 4802 

32 1024 8192 

Figur 3. Antal DCT–operationer och lagringsutrymme som funktion av vanliga blockdimensioner 

(lagringsutrymme uttryckt i kilobytes (kB) för 8 bytes flyttal) 

Diskreta Sinus Transformen (DST) 

Den Diskreta Sinus Transformen (DST) använder sig som namnet antyder av sinustermer på 

liknande vis som DCT använder sig av cosinustermer. Då DCT erbjuder prestanda som ligger nära 

den optimala KLT för datamängder med hög korrelationskoefficient så erbjuder DST på samma 

vis motsvarande prestanda för datamängder med låg korrelationskoefficient. Av detta skäl används 

DST ibland som en kompletterande komponent till DCT vid bild– och ljudkompression. Naturliga 

avbildningar (d.v.s. avbildningar av den reella världen såsom fotografier) har dock ofta en mycket 

hög korrelationskoefficient eftersom närliggande pixlar i högupplösta bilder ofta avbildar samma 

objekt och därmed har närliggande värden, varför DCT är betydligt vanligare förekommande än 

DST i komprimeringssystem.

Transformbaserad bildkompression med DCT 

Indelning av bilder i block 

Transformbaserad kompression med DCT bygger på att det finns en stark korrelation i färgintensitetsvärdena 

mellan närliggande pixlar och för att dra större nytta av denna så delas bilden in 

i små kvadratiska block. Dessa block av pixlar extraheras sedan ur bilden varefter den tvådimensionella 

DCT beräknas på dem och slutligen komprimeras desamma genom att förkasta de 

transformkoefficienter som erbjuder minst relevant data för återrekonstruktionen av blocket. När 

fler och fler transformkoefficienter förkastas tenderar pixelvärden i det återskapade blocket att gå 

mot medelvärdet av alla pixlar i ursprungsblocket, vilket introducerar s.k. blockningsartefakter i 

den bild som sätts samman av de återskapade blocken. Dessa blockningsartefakter formar i den 

återskapade bilden skarpa kanter i gränserna mellan block och det visuella intrycket av pixelering, 

d.v.s. att bildens upplösning sjunker och större pixlar skapas. För att minimera dessa effekter 

brukar blockdimensionen väljas till att vara kvadratisk eftersom detta då minimerar avstånden 

mellan de pixlar som påverkas av DCTn. Detta är förövrigt något som även medför beräkningsmässiga 

fördelar i implementation av systemet. Blockningsartefakter kan även till viss del 

utjämnas i efterbehandling av bilden med riktade medelvärdesfilter, som då utjämnar dessa skarpa 

kanter. Eftersom indelningen av bilder i block sker efter samma mönster i bildruta efter bildruta så 

erbjuder detta möjligheter till prestandavinster genom parallell behandling av blocken. På multiprocessormaskiner 

kan detta exempelvis uppnås transparent genom trådning av kompressionssystemet. 

Original 

36 

Blockningsartefakter

Original, 

förstoringsfaktor 10 

Blockutjämning för bilder av udda storlek 

Figur 4. Blockningsartefakter 

37 

Blockningsartefakter, 

förstoringsfaktor 10 

En frågeställning som uppstår tidigt är hur kanterna i de bilder där bilddimensionerna inte är jämnt 

delbara med blockdimensionen skall behandlas. De vanligaste ansatserna här är att i förbehandling 

av bilden antingen klippa bort de överskjutande pixlarna eller att använda ett paddningsschema för 

att fylla ut de berörda kantblocken med pixlar. I det senare fallet är det lämpligt att då använda 

närliggande pixlar till detta eftersom DCT–kompressionens framgång beror på korrelationen 

mellan pixlarna inom blocken. Ett exempel på ett paddningschema som gör så är mirror–edge, 

vilket liksom namnet antyder speglar pixlar runt kanterna av bilden. Mirror–edge kan smidigt 

implementeras genom att använda indextabeller när blockens pixlar extraheras ur bilden. 

33 

2 

9 

− 6 

− 4 

1 

3 

4 

− 9 

− 7 

2 

−1 

6 

2 

1 

5 

⇒ 

33 

2 

9 

− 6 

− 6 

9 

−4 

1 

3 

4 

4 

3 

−9 

− 7 

2 

−1 

−1 

2 

6 

2 

1 

5 

5 

1 

6 

2 

1 

5 

5 

1 

−9 

− 7 

2 

−1 

−1 

2 

Figur 5. Mirror–edge pad av en godtycklig 4 · 4 matris, 

blockdimension 3, resulterande i en 6 · 6 matris 

Transformkärnan och transformkoefficienterna 

Implementationen av transformkärnan är viktig att optimera eftersom den är central för bildkompressionen 

och beräkningsintensiv. Metoder för att optimera denna går ut på att föreberäkna 

transformtermerna (vilka endast beror på blockdimensionen) samt att rulla ut den tvådimensionella

transformen till att beräknas som en sekvens av beräkningar av den endimensionella transformen 

(vilken i sig går att rulla ut, alternativt optimeras hårdvarunära). De transformkoefficienter som 

DCT resulterar i är spatiellt ordnade i ett tvådimensionellt block, med låga frekvenser centrerade 

mot det övre vänstra hörnet och de höga mot det nedre högra hörnet av transformspektrat. Den 

första (översta vänstra) transformkoefficienten har oftast ett större värde än de övriga och kallas av 

den anledningen ibland likströmskomponenten efter hur växelströmmar representeras på oscilloskop. 

De övriga transformkoefficienterna har positiva eller negativa värden vilket motsvarar att 

dess motsvarande sinusoid skall adderas till eller dras från den första. 

Normalisering av transformkoefficienterna 

Vid kompression av bilder genom trunkering av transformkoefficienter dyker det upp ett svårt val 

mellan motstridiga intressen. För kvalitetens skull är det önskvärt att behålla så många transformkoefficienter 

som möjligt men samtidigt för kompressionsgradens skull för bör så många som 

möjligt förkastas. Den lämpliga kompromissen här är att behålla de som är viktigast för slutanvändarens 

uppfattning av bilden, varför det är lämpligt att börja i den änden – genom att 

bestämma vilka de är samt hur de skall lokaliseras. Är slutanvändaren en industrirobot som inte 

klarar av att uppfatta förändringar över en viss frekvens görs detta enkelt men då slutanvändaren är 

en människa blir uppgiften betydligt svårare. I avsaknaden av matematiska formler eller uttryck 

som med tillförlitlighet kan avgöra till vilken noggrannhet en människa kan uppfatta specifika 

delar av en signal (vilket även är något som varierar stort från individ till individ) så är det bästa 

tillgängliga verktyget statistiska studier av slutanvändargruppen. En vanlig metod för att få data 

om hur olika bilder uppfattas av människor är att ta en referensgrupp människor (som är jämnt 

fördelad över kön, ålder och andra fysiska faktorer) och visa dem ett urval av bilder där olika typer 

av störningar av olika storlek introducerats och låta dem själva avgöra vilken bild som de uppfattar 

som tydligast. På detta vis kan exempelvis en uppfattning om huruvida suddighet uppfattas mer 

störande än grynighet i en bild bildas. Nackdelen med att använda statistiska metoder som denna 

är att det är tidsödande samt att resultaten kan vara mycket svårtolkade. Ett känt exempel på dylikt 

arbete som genomförts är de normaliseringsmatriser som JPEG konsortiet tagit fram inom JPEG 

standarden för kompression av stillbilder. 

När väl en uppfattning om vilken typ av fel som finns i systemet bildats är det möjligt att vikta de 

beräknade transformkoefficienterna före de trunkeras efter de egenskaper de förväntas ha. Denna 

process kallas normalisering och kan användas utan att introducera en alltför hög beräkningskomplexitet 

(eller implementationskomplexitet för den delen). Exempelvis är det möjligt att skala 

ner transformkoefficienter som bedöms generellt oviktiga för bildkvalitet så att de sällan tar sig 

genom trunkeringen. En annan möjlighet är att skala ner koefficienter som ofta har höga värden så 

att de är värdemässigt bättre anpassade för den kommande kvantifieringen för huffmankodning, 

detta då för att reducera storleken på huffmankodningens uppslagstabell. 

Detta steg implementeras enklast genom att multiplicera koefficientblocket med en viktningsmatris 

innan trunkeringen och på motsvarande vis multiplicerar med inversen av den matrisen i 

slutet av dekomprimeringsfasen. Notera att en stor del av blocket i dekomprimeringsfasen kommer 

att innehålla nollor varför en optimeringsvinst går att göra i implementationen genom hårdkodning 

och utrullning av den matrismultiplikationen. Om variansmetoden använts i trunkeringen gäller 

detta även i komprimeringsfasens skede. 

38

Trunkering av transformkoefficienter 

Det finns många ansatser och varianter på hur val av transformkoefficienter för förkastning skall 

göras, även hur mycket var och en av de kvarvarande skall användas är en viktig punkt här. 

Normalt sett brukar en enda del av systemet ha hand om både valet av vilka som skall förkastas 

och hur mycket de kvarvarande skall användas – här delas dessa val dock upp i två delar och 

benämns trunkering respektive kvantifiering av transformkoefficienter. 

Eftersom dessa, just valet och behandlingen av transformkoefficienter, är den största källan till 

kompression i transformbaserade kompressionssystem så anpassas oftast resten av systemet efter 

just dessa. Grundparametrarna för systemet (krav på kompressionsgrad, maximal beräknings 

intesitet och liknande) kan ju vara oföränderliga, men inom ramen för dessa är förändras gärna för 

att öka prestanda. 

Som en förtydligande fotnot kan påpekas att ofta används endast en kvantifieringsansats gentemot 

transformkoefficienterna och inte någon trunkering, detta eftersom en kvantifiering i kombination 

med en bitallokeringskodning i sig kan erbjuda tillräcklig trunkering. Trunkering är dock fristående 

medan kvantifiering ofta sker i samverkan med bitallokeringsprocessen. 

Trunkering efter magnitud 

Vid trunkering efter magnitud (även kallad n’th percent coding) så trunkeras transformkoefficienterna 

efter en viss önskad kompressionsgrad eller beräkningsintensitet. Som namnet 

antyder skall n procent bildinformation sparas och för varje block behålles de transformkoefficienter 

som har högst magnitud (och därmed innehåller mest information). Observera att 

eftersom transformkoefficienter kan vara negativa (vilket motsvarar att den sinusoiden skall 

subtraheras från totalsignalen istället för adderas) så används magnituden på koefficienten, d.v.s. 

storleken (i praktiken absolutbeloppet) och inte det aktuella värdet. Detta motsvaras geometriskt av 

att välja de sinusoider som kommer att påverka den rekonstruerade funktionen mest. Den uppenbara 

nackdelen med trunkering efter magnitud är att samtliga transformkoefficienter måste beräknas 

för att kunna avgöra vilka som är störst. Både detta och att lokalisera de n största är 

beräkningsintensiva operationer, varför denna ansats sällan används i praktiken. Denna ansats ger 

dock ett ganska bra mått på hur en viss generell kompressionsgrad kommer att påverka en bild, 

samt ger givetvis även möjligheten att se var det mesta av bildinformationen finns. 

33 

2 

9 

− 6 

−4 

1 

3 

4 

−9 

− 7 

2 

−1 

6 

2 

1 

5 

⇒ 

39 

33 

0 

9 

0 

0 

0 

0 

0 

−9 

− 7 

Figur 6. Trunkering efter magnitud av en godtycklig 4 · 4 matris, 

25 procent (4 av 16) transformkoefficienter sparas 

0 

0 

0 

0 

0 

0

Trunkering efter varians 

Trunkering efter varians (som även kallas zonal coding) innebär att ett fixt antal transformkoefficienter 

väljs för användning och övriga förkastas. Det som skiljer variansmetoden från 

magnitudmetoden är att här väljes vilka som skall sparas efter förväntade värden (signalens 

varians) och inte efter de faktiska värdena på transformkoefficienterna. Med denna ansats ges stora 

möjligheter till optimeringar – är det i förväg känt vilka koefficienter som kommer att användas så 

behöver ju endast dessa beräknas! Detta möjliggörs av att transformkoefficienterna endast är 

beroende av indata samt parametrar och inte av varandra. I den tvådimensionella transformen 

kommer de låga frekvenserna (vilka motsvarar långsamma förändringar i bilden vilka människor 

lättare kan uppfatta) att samlas mot den övre vänstra halvan i transformsspektrat. På grund av detta 

väljs vanligen väljs den zon av koefficienter i blocket som skall beräknas efter ett zick–zack 

mönster som går från den övre vänstra delen av transformspektrat mot det nedre högra. På samma 

vis samlas de höga frekvenserna (vilka motsvarar snabba förändringar i bilden) i transformspektrat 

mot det nedre högra hörnet. Som kuriosa kan även nämnas att vissa typer av fel och störningar i 

bilder, t.ex. extremvärdesfel orsakade av hårdvaruproblem eller fysiska störningar i överföring av 

signaler, ofta representeras av mycket höga frekvenser i frekvensspektrat och då dessa väljs bort i 

trunkeringen så agerar kompressionensystemet som ett lågpassfilter som tar bort dessa störningar. 

Det optimala viset för att konstruera zonfiltret (som skall avgöra vilka koefficienter som skall 

beräknas och sparas) är som tidigare statistiska studier av målgruppen och representativt indata. 

33 −4 

−9 

6 33 −4 

2 

9 

− 6 

1 

3 

4 

− 7 

2 

−1 

2 

1 

5 

⇒ 

Figur 7. Trunkering efter varians av en godtycklig 4 · 4 matris, 

25 procent (4 av 16) transformkoefficienter sparas 

Ett populärt argument för varianstrunkering är att människans ögon är konstruerade för att bättre 

uppfatta bilder med långsamma förändringar, varför det mesta av bildinformationen vi kan 

tillgodogöra oss kommer att representeras av transformkoefficienter med låga frekvenser. Snabba 

förändringar inom bilder (speciellt rörliga sådana) kan vara viktiga men också upplevas störande, 

speciellt då de utgörs av bildfel. Nackdelen med varianstrunkering är uppenbar – det är på inga vis 

garanterat att de transformkoefficienter som innehåller de för bildupplevelsen viktigaste bilddata 

kommer att beräknas. Vanliga fel som uppstår är att skarpa konturer och kontraster inom block 

”suddas ut” och blir ofokuserade eftersom den bildinformation som innehåller dem (transformkoefficienterna 

för de höga frekvenserna) förkastats. Förlusten av kontraster i bilden är extra 

kännbar eftersom dessa kan motverka upplevelsen av de tidigare nämna blockningsartefakterna. 

Trunkering efter varians största förtjänst ligger dock i dess optimeringsmöjligheter – är det i 

förväg känt vilka transformkoefficienter som kommer att förkastas behöver dessa inte beräknas! 

Genom att kombinera trunkering efter varians med trunkering efter magnitud är det även möjligt 

att få ett system som ger en avvägning mellan beräkningsintensitet och kvalitet. 

Tröskeltrunkering 

I Tröskeltrunkering (threshold coding) görs en avvägning som erbjuder en större grad av 

noggrannhet än variansmetoden men ändå inte introducerar riktigt lika mycket beräkningar som 

40 

2 

9 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0

magnitudmetoden. I Tröskeltrunkering beräknas samtliga transformkoefficienter men det är endast 

de över ett visst tröskelvärde som behålls. Med andra ord besparas systemet sorterings–sök 

komplexiteten i att lokalisera de n största. Den stora nackdelen med denna ansats är att någon 

absolut kompressionsgrad inte kan bestämmas i förväg eftersom indata kan variera mycket från 

bild till bild. I lösningar med fix bandbredd kan detta resultera i att hela bildrutor måste förkastas 

för att kompensera för detta. En annan nackdel är att det kan vara svårt att finna ett lämpligt 

tröskelvärde som gallrar bort de mindre intressanta koefficienterna men ändå behåller de mer intressanta. 

Denna anpassning kan dock göras adaptivt (genom att studera insignalen och anpassa 

tröskelvärdet), med eller utan assistans av slutanvändaren. Denna process kan även underlättas 

genom att anpassa en viktningsmatris till att producera värden som är enklare att tröskla. Den stora 

fördelen med denna ansats är dock att anpassningen mot kvalitet kan vara mycket god eftersom de 

block som innehåller mer bildinformation också kan få fler transformkoefficienter sparade. Detta 

kan göra mycket för att motverka blockningsartefakter och öka helhetsintrycket. 

33 

2 

9 

− 6 

−4 

1 

3 

4 

−9 

− 7 

2 

−1 

6 

2 

1 

5 

⇒ 

41 

33 

0 

9 

− 6 

0 

0 

0 

0 

−9 

− 7 

Figur 8. Tröskeltrunkering av en godtycklig 4 · 4 matris, 

tröskelvärde 5 

Det finns även ansatser som använder sig av än mer adaptiva system, där antalet koefficienter som 

sparas allokeras från block till block. Dessa uppnår naturligtvis en högre bildkvalitet för en given 

kompressionsgrad (speciellt för naturliga bilder såsom fotografier, vilka ofta innehåller många 

färger samt geometriskt oregelbundna former och texturer), men har ofta betydligt mer komplexa 

algoritmer. Detta är inte endast negativt vid implementation utan kan även påverka det övriga 

systemet när någon del skall bytas ut. När dessa mer adaptiva ansatser används interaktivt (i konjunktion 

med en slutanvändare som själv får välja vilka områden av bilden mer lagringsutrymme 

skall allokeras för) uppnås de subjektivt högsta grader av kompression som transformbaserade 

kompressionsystem kan uppnå. Inom bildtelefoni är dock automatiserade system mer intressanta 

eftersom kalibreringen av systemet kan störa kommunikationen. 

0 

0 

6 

0 

0 

5

Original 

Trunkering efter varians, RMSE = 20.84 

Figur 9. Jämförelse av olika former av trunkering, 

kompressionsgrad 90 procent 

42 

Trunkering efter magnitud, RMSE =15.26 

Tröskeltrunkering, RMSE = 11.94

Kvantifiering av transformkoefficienter 

Det finns ett antal olika sätt att göra valet av vilka transformkoefficienter som skall sparas och 

vilka som skall förkastas vid transformbaserad komprimering. Stor vikt bör läggas vid det här 

skedet av designen av kompressionssystem eftersom det här introduceras ett stort dataförstörande 

element. 

När de ointressanta delarna av bilden väl förkastats av trunkeringen följer processen att kvantifiera 

de kvarvarande transformkoefficienterna. Detta är givetvis även det en dataförstörande process 

men finner sin motivering i att detta storligen underlättar bitallokeringsfasen. Här kvantifieras de 

kvarvarande transformkoefficienterna till dem närliggande värden som är bättre representerade i 

det följande stegets komprimering. Detta är en process som vanligen är implementationmässigt 

nära förknippad med (eller rent ut en del av) den bitallokeringsalgoritm som valts för systemet, då 

värdena från kvantifieringen är direkt knutna till dess effektivitet. 

Huffmankodning, vilket är ett vanligt val för bitallokeringalgoritm, använder sig som tidigare 

nämnts av en slags uppslagstabell där mer vanligt förekommande värden ges en kortare bitrepresentation. 

Eftersom transformkoefficienterna till sin natur är flyttal så brukar kvantifieringen 

även involvera avrundning till en viss noggrannhet samt ofta (av effektivitetsskäl) en omvandling 

till heltal via heltalsförskjutning eller fixpunktsnotation. 

Bitallokering av transformkoefficienterna 

För att Huffmankodningen av transformkoefficienterna skall bli så effektiv som möjligt används 

lämpligen här återigen de statistiska metoder som tidigare nämnts, nämligen att för olika intressanta 

bildtyper gå igenom de olika värden på (nu kvantifierade) transformkoefficienter som kan 

uppstå och se vilka som är vanligast. Eftersom det i denna process innehas god uppfattning om 

vilka typer av värden som uppstår och även här finns möjlighet (genom kvantifiering) att anpassa 

de värden som skall lagras kan oftast en mycket god kompressionsgrad uppnås även för Huffmankodningen 

av den nya bildrepresentationen. 

Eftersom den första transformkoefficienten i varje block (den s.k. likströmskoefficienten) ofta har 

ett värde som är signifikant större än de övriga (som geometriskt adderas eller dras från denna för 

att anpassas mot ursprungsfunktionen) bör en separat Huffmantabell användas för att koda denna. 

Här bör noteras att det är trunkeringen (förkastandet av transformkoefficienter) samt kvantifieringen 

(behandlingen av kvarvarande transformkoefficienter) som introducerar dataförstörelse. 

Sparas samtliga transformkoefficienter utan kvantifiering så kan givetvis ursprungsbilden återskapas 

oberoende av både Huffmankodning och transformen. Detta är sant åtminstone teoretiskt, i 

praktiken introduceras en mängd kumulativa små räknefel genom dagens hårdvaras begränsade 

noggrannhet i flyttalsrepresentationer och cosinusutvecklingar. Dessa små räknefel är dock enkla 

att korrigera för (och försvinner i regel automatiskt när de värden man får av signaltransformens 

invers omvandlas tillbaka till diskreta färgvärden för pixlar igen). 

Avslutningsvis om trunkering och kvantifiering av transformkoefficienter kan nämnas att de flesta 

kompressionssystem använder sig av ett flertal kvantifierare som de växlar mellan. Detta sker 

vanligen efter ett till subband coding närbesläktat vis för att uppnå en god kompressionsgrad. 

43

Modellbaserad komprimering 

Modellbaserad komprimering kan ses som en utökning av den tidigare nämnda predictive coding, 

där tanken förts ett steg längre och en modell av datakällan (och ibland även slutanvändaren) 

skapats. Istället för att fokusera på statistisk analys av det data som genereras av datakällan kodas 

istället informationen som avvikelser från parametrarna för datakällans modell. Detta släktskap 

åsido så kan modellbaserad komprimering dimensioneras till att vara förlustfri (vanligen då med 

olika scheman som kompenserar för förlorad information parallellt med den vanliga datakanalen). 

Oftast är modellbaserad komprimering kraftigt dataförstörande och används då tillgänglig bandbredd 

är vida understigande mängden rådata som produceras av datakällan, som vid videokonferenser 

över telefonlinjer. 

Ett exempel på denna ansats, som även om den är av något krystad natur kan ses som en god bild 

av det ideala modellbaserade systemet, är många av dagens grafikintensiva 3D–datorspel. 

Vissa grafiskt intensiva datorspel genererar en grafisk vy över handlingen (till stor del i realtid) 

från en geometriskt uppbyggd modell av en virtuell värld. De flesta detaljer i denna virtuella värld 

är i förväg definierade ner på polygonnivå, lämnandes endast generationen av den grafiska vyn till 

realtidsberäkningarna. Detta ger möjligheten att när flera spelare skall spela tillsammans (och är 

sammanslutna av ett nätverk med begränsad bandbredd) överföra dem emellan de exakta data från 

världen som behövs för att själva generera grafiska vyer av sina mot/medspelare. Att göra detta, 

istället för att överföra de faktiska grafiska vyer som olika spelare erfar, sparar in enorma mängder 

överföringskapacitet. Skulle denna värld inte vara detaljerad och i förväg analyserad i den utsträckning 

den är så skulle informationsmängden som behöver överföras växa sig ohanterligt stor 

nästan omedelbart. 

Ett annat intressant område som är värt att ta upp som exempel av modell baserad kompression är 

röstkodning för telefoni, ett område som rönt stor uppmärksamhet på grund av de senaste årens 

växande popularitet hos mobila telefonisystem. Just denna mobilitet, vilken implementeras genom 

radiobaserade nätverksprotokoll, introducerar en begränsad överföringskanal och ställer därmed 

stora krav på kompression av den information som skall överföras. Den modell som används för 

kompression av mänskligt tal (vilket per definition för en majoritet av den överförda informationen 

inom telefoni) i detta fall är en modell av den fysiska del av människokroppen som genererar talet 

– talapparaten. Ljud i den mänskliga talapparaten skapas grundläggande när luft pressas från lungorna 

genom stämbanden, vilkas modulation kan användas för att skapa ljud av olika frekvenser. 

Genom att de håligheter (bronker, nasalgångar och liknande vilka kan modelleras efter deras 

fysiska utseende som semicylindriska rör) som detta ljud sedan resonerar fram genom är individuellt 

anpassade för olika individer skapas sedan en omfångsrik och karaktäristisk bild av en röst. 

Genom studier av denna modell av den mänskliga talapparaten har statistisk information om hur 

ljud av mänskligt tal genereras och vilka karaktäristika det uppvisar utvunnits. Data såsom 

frekvensavvikelser, temporala korrelationer i modellen och hur de olika parametrarna påverkar 

olika delar av den totala ljudbilden är senare till stor nytta vid talsyntes, vilken kan nyttjas för 

kompression eftersom informationen kan kodas som avvikelser från en statistiskt framtagen förutsägelse 

– i detta fall talsyntesen i sig själv. 

Inom området bildtelefoni utförs mycket forskning inom modellbaserad komprimering, bland 

annat inom olika sätt att överföra rörliga bilder med hjälp av starka antaganden kring miljön där 

bilderna skapats. Det har utvecklats modeller för det mänskliga ansiktet som till färg, form och 

beteende uttrycker oerhörda detaljnivåer för hur människor uttrycker sig. Dessa modeller studerar 

vilka ansiktsmuskler som används för tal, uttryckande av känslor eller annan typ av kommunikation. 

Vanliga färger på mänsklig hud, ögon och hår, geometriska förhållanden mellan olika 

ansiktsdrag och mycket mera har dokumenterats för olika åldrar och etniciteter. Dessa modeller 

kan genom denna kunskapsbas och detaljrikedom sedan erbjuda enorma kompressionsnivåer till 

acceptabel kvalitet. Som i de övriga fallen av modellbaserade system överförs modellen, olika 

individers statiska parametrar till modellen (olika geometriska mått på individers ansikten, 

44

segmenterade bilder som används som texturer för ansiktsytor) samt i slutändan de dynamiska 

parametrarna till modellen (data som uppstår då ett faktiskt samtal uppstår, vad de olika parterna 

säger och gör). 

Figur 10. Exempel på ansiktsmodell för modellbaserad kompression 

(Bild från [1]) 

Modellbaserad komprimering är den av ansatser av idag som genererar de mest effektiva komprimeringarna 

tillgängliga inom kompression för överföring. Det används vanligen inom tillämpningar 

där det går att identifiera och göra utförliga antaganden om datakällan, alternativt där det 

finns extrema kompressionskrav. Med mer och mer raffinerade modeller för fysisk modellering av 

datakällor (vilka i teorin erbjuder högre och högre grad av kompression) så ter sig modellbaserad 

komprimering som en metod för framtiden, åtminstone inom avgränsade applikationsområden. 

Nackdelen med modellbaserad komprimering är uppenbar, eftersom graden av kompression direkt 

beror på hur pass väl datakällan kan modelleras så erbjuder denna ansats bara kompression inom 

det specifika område modellen tagits fram för. Denna starkt begränsade generalitet bör ses i samband 

med faktumet att svårigheterna i att modellera datakällor är många och arbetet att ta fram 

dem tidskrävande. 

Som en avslutande kommentar om modellbaserad komprimering för bildtelefoni kan nämnas att 

detta ämnesområde egentligen förtjänar betydligt större utrymme i denna rapport men eftersom 

författarens personliga intressen och teoretiska bakgrund ligger mer åt det klassiska signalbehandlingshållet 

har detta arbete vinklats åt det hållet. För mer information om modellbaserade 

komprimeringsmetoder se [1], [10] och [20]. 

45

Spektral redundans 

På grund av hur det mänskliga ögat (och därför även dagens bildskärmar) är konstruerat så brukar 

bilder vanligen representeras som matriser av pixlar med färgvärden uttryckt i RGB komponenter. 

Detta medför den tekniska fördelen att bildskärmarna då kan använda pixelvärdet för varje färgkanal 

som ett intensitetsvärde för hur starkt det skall belysa varje pixel på skärmen. Det finns dock 

ett flertal andra färgrymder som representerar bildinformation på andra, mer lämpliga för den 

aktuella tillämpningen, vis. För kompression av färgbilder (bland annat för television) har det 

tagits fram ett flertal standarder där alternativa färgrepresentationer som är mer lämpliga för 

kompressionstillämpningar har valts. Exempel på sådana färgrymder är HSL, HSI, YUV, YIQ och 

YCbCr. I dessa färgrymder bestäms färger i termer av ljusintensitet (svart–vit komponenten i 

dagens television), luminans (eller färgstyrka) och kromatisitet (eller färgdjup). Fördelen inom 

komprimering med detta beror på att det mänskliga ögat är betydligt bättre på att uppfatta 

skiftningar i ljusintensitet än skillnader i färgkomponenter (det finns ca hundra miljoner tappar mot 

bara ca fem miljoner stavar i mänskliga ögon), vilket kan utgöra en källa för redundans i bilddata. 

Speciellt är det mänskliga ögat relativt okänsligt för förändringar i färger, varför färgkomponenterna 

med fördel kan trunkeras med variansmetoder (vilka då filtrerar bort de högfrekventa 

koefficienterna). Ett vanligt schema för kodning av färgbilder brukar vara 4:1:1, d.v.s. 

att fyra gånger mer intensitetsinformation än färginformation sparas. Med andra ord är det möjligt 

att på grund av det mänskliga ögats konstruktion komprimera färgsignalerna mer än intensitetssignalen 

utan att den mänskliga slutanvändaren märker det. Det är även möjligt att hårdare komprimera 

färgkomponenten i bilder utan att orsaka alltför kraftiga matematiska fel, kraftigare 

kompression än 4:1:1 tenderar dock att påverka den subjektiva upplevelsen av bilden negativt. 

Figur 11. MSE som funktion av kompressionsgrad för olika färgkodningsscheman. 

Bild Lena, blockdimension 16, trunkerad efter magnitud 

46

Att komma åt spektral redundans innebär implementationsmässigt att bilden omvandlas till den 

önskade färgrymden före kompression, och därför även måste omvandlas tillbaka till den 

ursprungliga färgrymden efter att ha dekomprimerats. Under komprimeringen utförs DCTn på 

varje enskild färgdimension för sig, detta är analogt med att betrakta en bild med tre färgkanaler 

som tre separata gråskalebilder. När bildens transformkoefficienter beräknats trunkeras slutligen 

de olika blocken olika mycket, närmare bestämt fyra gånger så hårt för färgkomponenterna som 

för intensitetskomponenten (i 4:1:1 schemat). Denna datadestruktion maskeras sedan för den 

mänskliga slutanvändaren till viss del när bilden åter omvandlas till den ursprungliga färgrymden – 

det slutanvändaren ser är inte den hårdare trunkeringen av färginformationen utan en bättre eller 

sämre approximation som baseras på både intensitets– och färgdimensionerna. 

Notera att omvandlingar mellan dessa färgrymder är en förlustfri process – det enda beräkningsmässiga 

fel som introduceras beror på den begränsade noggrannheten i dagens datorers flyttalsrepresentation. 

En implementationsmässig vinst som finns att göra vid spektral komprimering är 

att istället för att komprimera färgblocken hårdare så är det möjligt att representera färgkomponenterna 

med mindre block. Istället för att trunkera och kvantifiera tre stycken 8 · 8 block 

olika hårt går det med andra ord att sampla och komprimera ett 8 · 8 block och två 4 · 4 block lika 

hårt. Detta påverkar inte noggrannheten nämnvärt men ger fördelen med betydligt färre transformkoefficienter 

att arbeta med i signaltransformen (läs DCT). 

För mer information om spektral redundans se [9], [16] och [20]. 

47

Temporal redundans 

Hitintills har komprimering av stillbilder eller enskilda bildrutor i videosekvenser och de tekniker 

för detta som används diskuterats. Det finns dock stora effektivitetsvinster att göra i kompression 

av rörliga bilder genom att studera hur temporal redundans, d.v.s. överflödig och över tiden dåligt 

representerad information i bildsekvenser, kan reduceras. När det gäller kompression av videosekvenser 

finns det ett flertal olika format och tekniker att använda, både för lagring och för överföring 

av video. Vissa kan användas för båda områden men den stora skillnaden dem emellan 

brukar som tidigare vara att vid lagring är det möjligt att göra större antaganden om den klient som 

skall spela upp eller använda bildsekvensen. Inom bildtelefon avses naturligtvis överföring av 

bilder och noteras bör att de tekniker som används för detta ofta även kan användas för lagring 

även om det motsatta sällan är fallet. 

Ett enkelt och illustrativt exempel på temporal redundans är vid överföring av bilder – om övre 

halvan av en bild inte har förändrats sedan föregående bildruta så finns det ju ingen anledning att 

sända den delen av bilden igen, mottagaren instrueras helt enkelt istället att återanvända den övre 

halvan från föregående bildruta. Naturligtvis finns det en stor nackdel med denna typ av 

resonemang – förlitar systemet sig på att föregående bildruta verkligen nått fram till mottagaren 

intakta begränsas möjligheten till att återhämta sig från fel som beror på paketbortfall eller 

temporära förkastningar av hela bildrutor. Det senare (s.k. frame drops) är för övrigt ett vanligt 

problem även för användning av lokala filmsekvenser som dyker upp när den codec (kodare / 

avkodare) som används för att (av)koda filmsekvensen inte hinner med. Denna typ av fel, som 

uppstår när referenser till föregående bildrutor är ogiltiga, kan även fortplanta sig till efterföljande 

bildrutor i en kaskadeffekt av fel. För att motverka denna effekt är det därför brukligt att 

regelbundet sätta in s.k. reference frames som sänds i sin helhet och inte har några beroenden av 

tidigare bildrutor. 

Det är även viktigt att notera att det vid kompression för överföring finns stora skillnader i kraven 

på temporala komponenter inom systemet. Handlar det om envägskommunikation (exempelvis 

videoöverföring för television) så kan det i förväg läggas ner mycket tid på att identifiera temporal 

redundans och koda undan denna. Handlar det om tvåvägskommunikation så kommer svarstiden 

för kommunikationskanalen att stå för en stor del av användarnas uppfattning av systemets 

effektivitet. Eftersom temporal redundans kan vara mycket kostsam att identifiera men även samtidigt 

ge stora möjligheter till kompression så bör denna del designas noggrant. 

Som tidigare noterades beror den stora effektiviteten för transformbaserad kompression på den 

höga korrelationen mellan närliggande pixlar i naturliga bilder. Det är faktiskt även möjligt att 

använda en tredimensionell DCT för att komprimera en bild som förändras över tiden, d.v.s. en 

videosekvens. Framgången för denna metod beror då på att även korrelationen över den tredje 

dimensionen (tiden) för närliggande pixlar är hög. Detta är speciellt sant för bildsekvenser med 

hög bildfrekvens eftersom rörliga objekt i bilden då inte hinner förflytta sig lika långt i bilden som 

de skulle med en lägre bildfrekvens. Med andra ord tenderar rörelserna av objekt i bilden att 

minska när signalens bildfrekvens ökar. Detta ökar i sin tur korrelationen mellan pixlar i närliggande 

bildrutor. Denna observation är viktig även om metoden med tredimensionell DCT är 

olämplig för kompression för överföring (man skulle då behöva flera bilder innan det var möjligt 

att ens komprimera ett enda block i den första). Även för kompression för lagring är denna metod 

sällan använd, här dock eftersom det finns andra och mer effektiva metoder för elimination av 

temporal redundans. 

Det går även att öka den temporala redundansen i rörliga bilder med hjälp av förbehandling, ofta 

genom att modellera en fysisk störningskälla och kompensera för denna. Ett exempel på detta är de 

s.k. skakfilter som idag är vanliga på handhållna videokameror. Dessa är dock sällan med i bildtelefonisystem 

eftersom dess kameror (av just den anledningen) monteras fixt. När det generellt 

gäller system som utnyttjar temporal redundans är det värt att notera att en bildkälla av hög kvali- 

48

tet kan göra mycket för systemets totala effektivitet. En lätt störning som introduceras av bildkällan 

kan störa kompressionparametrarna mycket. Typiska exempel på detta är de billiga webkameror 

som idag ofta används för bildkommunikation över Internet. På grund av bristande optik 

och bildsensorer finns det ofta i dessa automatiska algoritmer för bildförbättring eller ljuskompensation 

inbyggda i drivrutinerna. I ett system för bildtelefoni vore det bättre om dessa algoritmer 

användes i mottagarens ände, efter att alla kompressionselement passerats. 

Att identifiera temporal redundans är ett oerhört effektivt sätt att komprimera rörliga bilder och 

mycket arbete läggs därför ner på den delen av kompressionssystemet. Notera speciellt att detta 

angreppssätt erbjuder möjlighet till effektiv förlustfri komprimering. Det finns många olika sätt att 

angripa temporal redundans, från det allra enklaste – att jämföra pixel för pixel vilka som förändrats 

sedan föregående bildruta – till de mest avancerade sätt att försöka identifiera objekt i bilden 

och sedan förutsäga hur de kommer att röra sig i framtida bildrutor. Vissa av dessa ansatser kan 

vara mycket oförutsägbara och beräkningsintensiva (och därmed variera mycket i exekveringstid). 

Av denna anledning är de mer avancerade varianterna populärare i system riktade mot kompression 

för lagring. 

Om kompression av rörliga bilder bör även nämnas att betraktandet av rörliga bilder som sekvenser 

av stillbilder inte är optimalt för mänskliga slutanvändare. Det mänskliga synsystemet är konstruerat 

för sanna rörliga bilder och kan i rörelse lättare detektera vissa fel som är osynliga i stillbilder 

(något som även ibland kan fungera till systemets fördel då vissa fel förminskas i rörelse). 

Interlaced frames 

En äldre metod för reduktion av temporal redundans som tidigare var vanlig inom television var att 

växelvis bara ta med varannan linje i bilden för varje bildruta, s.k. interlacing. Detta är svårt för 

det mänskliga ögat att uppfatta och ger en enkel form av komprimering. Tyvärr påverkar denna 

metod samtidigt bildens kvalitet och döljer mycket av den redundans som senare delar av 

kompressionssystemet hoppas kunna komma åt. 

Pixel coding 

En av de enklaste metoderna för att beskära temporal redundans är att jämföra bildrutor pixel för 

pixel och endast koda de som förändrats. Denna metod är effektiv för enklare animeringar och kan 

användas tillsammans med ett adaptivt filtervärde för naturliga bildsekvenser. Den är dock svår att 

kombinera med andra komprimeringsansatser och används därför mer sällan för videokodning. 

Motion prediction 

Motion prediction är en vanlig metod för att komma åt temporal redundans och bygger på 

antagandet att det i de flesta videosekvenser finns objekt som rör sig och inte förändras mycket 

mellan bildrutor. Denna metod söker därför att identifiera dessa objekt och koda s.k. rörelsevektorer 

för dem istället för att repetitivt koda själva bildinformationen för dem. Identifieringen av 

dessa objekt sker genom att dela in varje bildruta i block (observera att detta sker före en eventuell 

kompression av bilden och att dessa block inte är samma block som diskuterats i samband med 

DCT) och i efterföljande bildrutor söka och försöka identifiera hur dessa objekt rört sig. Parametrarna 

till denna metod är dels ett mått på hur mycket blocket förändrats (oftast med RMSE) och 

dels ett mått på hur mycket det förflyttat sig. Ifall dessa två mått skulle understiga gränserna för 

parametrarna anses blocket vara identifierat och en rörelsevektor för blocket kodas, om inte så 

anses blocket vara förlorat och den portionen av bilden kodas med sedvanlig bildkodning. En 

avancerad version av denna metod utnyttjar tanken att det från tidigare rörelser går att extrapolera 

49

hur ett identifierat block kommer att röra sig och då konstruera bildrutor i förväg när dataströmmen 

halkar efter (s.k. frame prediction). När dataströmmen sedan hinner ikapp systemet så 

kodas avvikelser från dessa förutsägelser. En teknik som kan användas för att öka objektidentifierings 

effektivitet är att genom interpolation skapa en mer högupplöst bild för efterföljande 

bildruta och sedan däri söka efter objektet. 

Bidirectional prediction 

En term som introducerades i MPEG–standarden var s.k. bi–direction predictive frames, vilket är 

bildrutor som skapas genom frame prediction utgående från både föregående och efterföljande 

bildruta. Givetvis kan denna ansats endast användas om efterföljande bildruta finns tillgänglig 

vilket sällan håller i överföringsfallet. Bidirectional prediction kan dock uppnå högre grader av 

kompression än vanlig frame prediction och kan användas då kommunikationskanalens genomströmning 

temporärt sänks eller i kompression för lagring. 

Progressive video coding 

Progressive video coding är liksom namnet antyder en progressiv ansats, där signalen kodas så att 

dess kvalitet ökar allteftersom mer data blir tillgängligt. Signalen har här delats in i flera lager som 

prioriteras olika mycket. Detta förfarande är extra användbart i applikationer där den tillgängliga 

bandbredden kan variera mycket över tiden (och mindre viktigt data kan förkastas till förmån för 

viktigare data i efterföljande bildruta). Inom bildtelefoni kan exempelvis bilddata klassifieras i 

lager som ansiktsdata, kroppsdata och bakgrund – vilka sedan kan behandlas efter prioritet. Denna 

indelning kan ske interaktivt (där användaren själv får bestämma vilka delar av bilden som skall 

prioriteras hur) eller per automatik på ett flertal olika vis (ofta baserade på hur ofta den regionen av 

bilden förändras). 

Blockbaserad kompression av temporal redundans 

En beräkningsmässigt jämförelsevis billigt (och framförallt konstant) metod att identifiera temporal 

redundans är att för varje bildruta använda de blivande DCT–blocken och jämföra dessa med 

föregående bildrutor motsvarande block. Detta implementeras genom att sätta en filtertröskel och 

sedan jämföra pixlarna i blocken en efter en. Skulle någon pixel ha förändrats mer än tröskelvärdet 

så bedöms hela blocket ha förändrats och passerar filtret. Detta skeende går även att optimera 

genom att endast jämföra pixlarna i blockets hörn. För bilder som avbildar rörliga objekt är det 

troligt att om blocket förändrats på något vis så har även minst en hörnpixel förändrats, speciellt då 

blocken är jämförelsevis små. Alternativt kan detta betraktas som att de block som förändrats utan 

att förändra sina hörnpixlar förmodligen innehåller så små förändringar att slutanvändaren ändå 

inte skulle notera dem. När blockdimensionen minskar så ökar antal block som måste kontrolleras 

per bildruta men samtidigt ökar sannolikt även antalet block som kan förkastas. Eftersom kompression 

av block är en så pass beräkningsmässigt dyr operation tjänas dessa extra jämförelser 

snabbt in. 

Arbetar systemet på blocknivå är det även möjligt att göra medvetna val för att bibehålla datakanalernas 

genomströmning. Detta kan ske genom att förkasta mindre viktiga regioner av bilder 

till fördel för viktigare regioner. Valet av vilka regioner av bilden som bedöms viktiga kan göras 

interaktivt, där slutanvändaren själv kan markera vad som är bakgrund och förgrund, eller på 

automatisk basis genom kontroll av hur ofta ett block förändras. Förgrund är per definition mer 

sannolikt att förändras mellan närliggande bildrutor än bakgrund. 

För mer information om temporal redundans inom bildkompression se [6] och [20]. 

50

Ett bildtelefonisystem 

Den modell av ett mjukvarurealiserat bildtelefonisystem som utvecklats i det här arbetet består av 

självständiga klienter och en serverbaserad infrastruktur vilka kommunicerar med varandra via 

TCP/IP över IP–baserade nät. Infrastrukturens servrar består av certifieringsenheter och katalogstrukturer. 

Katalogstrukturerna syftar till att erbjuda klienter ett sätt att söka efter vänner och andra 

kommunikationspartners, både baserat på personuppgifter samt orienterat efter ämnen och 

intressen. Certifieringsenheterna används för att via certifikat autenticera alla kommunicerande 

parter och alla klienter antas i förväg känna till certifieringsenheternas publika nycklar (vilka 

förslagsvis distribueras tillsammans med klienterna på säkert vis). Slutligen antas klienterna även 

(på ett för användaren transparent vis) registrera sig hos certifieringsenheterna när de ansluter sig 

till katalogstrukturer, detta för att garantera att alla användares publika nycklar skall vara kända av 

certifieringsenheterna. 

Klienten 

Klienten i systemet anses vara det centrala för användaren och innehåller en lokal adressbok för 

parter som den kommunicerat med tidigare. Detta så att dessa skall kunna kontaktas fler gånger 

utan att behöva upprepa certifieringsenhetens autenticering. Eftersom dynamiska IP–adresser blir 

vanligare och vanligare i takt med att adressutrymmet i för IPv4 börjar ta slut så sker vid initiering 

av kommunikation en uppslagning av mottagarens adress i katalogstrukturen. När väl detta har 

skett sköts all kommunikation av klienterna själva, utan vidare inblandning av den serverbaserade 

infrastrukturen. 

Klienten antas också erbjuda användaren mer än bara bild– och ljudbaserad kommunikation, 

såsom fildelning, gemensamma ritblock, guidning av webläsare med mera. Här diskuteras dock 

inte dessa perifera tjänster utan endast den visuella direktkommunikationen eftersom denna del är 

det centrala i applikationen. 

Utbytesförhållanden 

Vid design av en modell för kompression, kryptering och överföring av bilddata i en bildtelefoniklient 

finns det ett flertal komplexa utbytesförhållanden mellan de olika komponenterna i systemet. 

Det mest påtagliga av dessa är det som gäller för bildkvalitet – ju bättre kvalitet desto mer data att 

behandla och sända. Mängden rådata som skall behandlas stiger som en funktion av signalens 

upplösning (bildens pixelsrepresentation, bredd samt höjd) och bildfrekvens. Närmare bestämt är 

mängden rådata (i antal bits) produkten av alla dessa faktorer. 

Beräkningsbelastning är en avgörande faktor i helt mjukvarurealiserade system och den är även 

den beroende av bildkvaliteten, men även valen för typ av kompression, kompressionsgrad, typ av 

kryptering samt mängden data som skall krypteras spelar in. Det sistnämnda bestäms av mängden 

rådata från bildkällan i kombination med uppnådd kompressionsgrad. 

Även om ljudinformation skulle behandlas i detta system så skulle bildinformationen dominera 

både bandbreddskrav och beräkningsbelastning. Även för små bildstorlekar och låga bildfrekvenser 

kvarstår bildinformationen för majoriteten av det data som skall utbytas. 

En önskvärd kvalitet för den här typen av applikationer (telefoni) är att avståndet mellan de kommunicerande 

parterna skall vara irrelevant för kommunikationens kvalitet. 

Detta är något som uppnås inom vanlig rösttelefoni genom att använda kretskopplade nät, där en 

viss bandbredd (vilken i sin tur garanterar en viss datakvalitet) garanteras parterna emellan för hela 

51

samtalets längd. Kan denna bandbredd inte reserveras så kopplas samtalet helt enkelt aldrig fram. 

Tyvärr är detta resonemang inom bildtelefoni – att en i förväg bestämd datakvalitet är att eftersträva 

– orealistiskt eftersom bandsbreddskraven här är så mycket högre att infrastrukturen (dagens 

Internet) inte kan stödja den typen av koppling ens för kortare avstånd. Av denna anledning 

används paketbaserade nät (närmare bestämt IP–baserade nät), där bandbredden kan allokeras om 

dynamiskt under (de simulerade) uppkopplingarna för att låta fler användare använda samma överföringskanaler 

samtidigt. 

Finns det i förväg bestämda kvalitetskrav att utgå från är det är framförallt två faktorer att anpassa 

dessa kvalitetskrav mot – beräkningsprestanda hos klienterna samt överföringskapacitet dem 

emellan. Av dessa två är det oftare överföringskapaciteten som är den begränsande faktorn, vilket 

inte förutses ändras eftersom tillväxten på datorernas beräkningskapacitet idag stiger snabbare än 

den generella bandbreddstillgången över långa avstånd. 

I detta arbete antas slutanvändare att finna det acceptabelt att kompensera för de eventuella brister 

i beräkningsprestanda eller överföringskapacitet som kan dyka upp med sänkta kvalitetskrav. 

Klientens bildkommunikation 

De delar av klienten som sköter bildkommunikationen består tekniskt av bildkälla, 

komprimeringsmodul, krypteringssystem och kommunikationsstack. Var och en av dessa delar 

antas teoretiskt fungera självständigt, men i praktiken är parametrarna till dessa delar så beroende 

av varandra för att systemet skall fungera optimalt att de blir mycket hårt sammankopplade. De 

viktigaste utbytesförhållandena dem emellan är att komprimeringsmodulen måste känna till och 

kunna hantera bildformatet från bildkällan samt att komprimeringsmodulen måste leverera datapaket 

i lämplig storlek för överföring till krypteringssystemet. Det senare eftersom 

kommunikationsstacken inte antas kunna segmentera datapaket på lämpligt vis när de väl har 

komprimerats och krypterats (samt givetvis att krypteringssystemet inte antas förändra paketstorlekar 

väsentligt). 

52

Bildkälla 

Med klientens bildkälla avses den mjukvarukomponent som kapslar in den fysiska bildkällan 

(kameran) och erbjuder systemet ett sätt att anskaffa bilder. Det format som dessa bilder levereras i 

(bildupplösning, storlek, pixelmodell och färgrymd) antas vara i förväg bestämt och synkroniserat 

med komprimeringsmodulen. 

De flesta fysiska bildkällor har någon form av hårdvara som kan utnyttjas för att facilitera användandet 

av dem i bildtelefonisammanhang, exempelvis ofta någon form av hårdvarustöd för kompression 

eller liknande. Här antas att bildkällan inte använder eller till och med kompenserar för 

sådant och att det är obehandlade individuella bildrutor som levereras till kompressionsmodulen. 

Med andra ord – syftet med denna komponent är att erbjuda ett enkelt vis för övriga delar av 

klienten att anskaffa bilder i ett uniformt format för alla de typer av kameror eller andra fysiska 

bildkällor klienten kan tänkas använda. Den teoretiska vinst som går att göra med ett maximalt 

utnyttjande av den fysiska bildkällans hårdvarurepresentation av bilden går förlorad i utvecklingskomplexitet 

med behovet av att anpassa en generell kompressionsmotor för varje typ av bildkälla. 

Att istället välja en bildkälla som har en hårdvarurepresentation av bilddata som stämmer överens 

med den implementerade kompressionen är att föredra. 

TWAIN 

TWAIN är en standard för bildöverföring från digitala bildkällor som utvecklats av the TWAIN 

Working Group, en icke vinstdrivande organisation bildad av ett flertal företag som utvecklar 

bildkällor (bland andra Kodak, Hewlett–Packard och Adobe). Ursprungligen skapades TWAIN 

standarden för scanners men den har senare utvecklats till att användas för alla typer av bildkällor, 

vilket har medfört att den är oerhört bred. Centralt i TWAINs begreppsmodell är begreppet TWAIN 

capability eller kapabilitet. Detta betecknar en specifik funktionalitet hos en bildkälla, exempelvis 

förmåga att kunna anskaffa bilder utan att visa ett grafiskt användargränssnitt eller att kunna anskaffa 

bilder i en specifik upplösning. 

TWAIN bygger upp ett system för bildanskaffning bestående av tre delar – Data Source, Data 

Source Manager och Application. 

En TWAIN Data Source (DS eller TWAIN–bildkälla) är en mjukvara som utvecklas och underhålls 

av tillverkaren av (den fysiska) bildkällan och är oftast integrerad som en del av drivrutinen 

för bildkällan. Denna del ämnar till att kapsla in alla hårdvaruberoende delar av koden i systemet 

och är det enda av bildkällan som applikationen kan se. 

En TWAIN Data Source Manager (DSM) är en mjukvarukomponent som utvecklas av the TWAIN 

Working Group och distribueras tillsammans med de flesta stora operativsystem för hemanvändare. 

Denna ämnar till att administrera alla lokala TWAIN–bildkällor i ett client–server scenario 

där applikationer kan slå upp vilka kameror och motsvarande som finns tillgängliga. Operativsystemets 

DSM laddar vid uppstart alla TWAIN–kompatibla drivrutiner och kapslar in dessa för 

användning. 

En TWAIN Application (eller klientapplikation) ansluter på plattformens föredragna vis (oftast via 

COM eller TCP) transparent till systemets DSM och kommunicerar med denna via TWAIN API. 

Via detta API så förhör sig applikationen om vilka bildkällor som finns kopplade till systemet, vad 

de har för kapabiliteter, kopplar upp sig mot dessa, ställer in inställningar för dem och hämtar 

bilder från dem. Applikationer kommunicerar alltid via systemets DSM och aldrig direkt med 

bildkällan. 

53

Programmering i TWAIN API sker för genom anrop till en av de två funktionerna 

där de olika parametrarna är 

DSM_Entry (pOrigin, pDest, DG, DAT, MSG, pData) 

DS_Entry (pOrigin, pDest, DG, DAT, MSG, pData) 

pOrigin origin of message, meddelandets avsändare. Denna parameter 

innehåller vanligen en identifierare för applikationen. 

pDest destination of message, meddelandets mottagare. Vanligen är 

denna parameter antingen tom eller innehåller en identifierare för 

en datakälla, i vilket fall anropet skickas vidare till denna genom 

ett anrop till DS_Entry() av systemets DSM. 

DG data group, meddelandets data grupp. Meddelandets datagrupp 

specificerar vilken kategori av anrop som görs – kontroll, bild 

eller audio. 

DAT data argument type, meddelandets data typ. Meddelandets data 

typ anger formatet på funktionens argument (vilket utpekas av 

pData). 

MSG message id, identifierare för meddelandet. Meddelandets id är 

antingen get eller set och specificerar i vilken riktning data skall 

skickas (d.v.s. ifall data skall hämtas från eller skickas till datakällan). 

pData pointer to data, (lokal) pekare till data som anger en datastruktur 

för argument till systemets DSM eller den använda datakällan. 

Denna används typiskt för att specificera kapabiliteter eller 

minnesområdet där bilddata skall lagras vid bildanskaffning. 

Parametrarna DG, DAT och MSG utgör tillsammans en s.k. TWAIN operation triplet och specificerar 

unikt det aktuella anropets funktionalitet. DSM_Entry() används exklusivt av applikationsprogrammerare 

och DS_Entry() används exklusivt av systemets DSM för kommunikation med 

datakällor. När en applikationsprogrammerar skall kommunicera med en datakälla sker detta 

genom anrop via DSM_Entry() där parametern pDest angivits ett värde som identifierar datakällan. 

Dataflödet i TWAIN är en noga definierad tillståndsmaskin där samtliga transaktioner antingen 

sker explicit genom anrop från applikationen eller implicit som resultat av datakällans handlande. 

54

Figur 12. Tillståndsmaskinen för dataflödet i TWAIN 

(Bild från [25]) 

Fördelarna med TWAIN är uppenbara – för en klientapplikation ter sig alla bildkällor likadana, 

med endast kapabiliteter och inställningar som skillnader. Standarden är vitt spridd och stöds av de 

flesta av dagens bildkällor under de flesta av dagens operativsystem. Eftersom alla tre delar av 

TWAIN systemet exekveras på det lokala systemet och drivrutinen utvecklas av hårdvarutillverkaren 

kan ofta god prestanda nås. Detta är sant åtminstone så länge applikationen följer 

datakällans tillverkares anvisningar för hur (läs i vilka format) bilder skall anskaffas. Standarden 

erbjuder även möjligheter till hårdvarustöd för beräkningsintensiva operationer, exempelvis 

komprimering av bilder från videokällor. 

Nackdelarna med TWAIN är mer av det praktiska slaget – standarden är oerhört komplex och 

uppbyggd på ett relativt ålderdomligt vis vilket gör att implementationer av drivrutiner oftast är 

bristfälliga, speciellt för videobaserade bildkällor. De flesta mindre och billiga webkameror har en 

TWAIN drivrutin som medföljer, men detta är på inget vis en garanti för att den är användbar via 

TWAIN för bildtelefoniapplikationer eftersom de ofta endast stödjer en väldigt liten del av den 

funktionalitet som är önskvärd. 

Av effektivitetsskäl kan det i TWAIN vara naturligt att låta bildkällan själv välja hur bilddata skall 

representeras, exempelvis kan kamerans hårdvara föredra en specifik upplösning, pixelrepresentation 

eller färgmodell. Det som går att vinna i effektivitet här går dock i regel förlorat i 

komplexitet senare (i kompressionsfasen), där det då blir nödvändigt att kompensera för olika 

55

ildkällors skillnader i datarepresentationer. Av denna anledning är det i bildtelefoniapplikationer 

att föredra att instruera bildkällan (om möjligt) att leverera data i det efterfrågade formatet – på det 

viset utnyttjas eventualiteten att bildkällan har ett mer effektivt sätt att göra dessa omvandlingar än 

ren mjukvara. 

[24], [25], [26] och [27] erbjuder mer information om TWAIN. 

56

Komprimeringsmodul 

Komprimeringsmodulens uppgift i ett bildtelefonisystem är tvådelad – dels skall det komprimera 

utgående bilddata och dels dekomprimera inkommande bilddata. Dessa uppgifter kan te sig symmetriska 

men är sällan så eftersom komprimeringsprocessen involverar fler parametrar och betydligt 

mer beräkningsarbete. 

En typisk ansats för implementera mjukvarurealiserade bildkompressionssystem är att utnyttja 

dagens processorers utökade instruktionsuppsättningar, såsom Intels MMX och SSE. Om det 

skulle vara önskvärt att undvika assemblerprogrammering finns det även ett flertal Software 

Development Kits (SDKs) som erbjuder högt optimerade APIer för utveckling av bildkompressionsapplikationer. 

Dessa SDKs utnyttjar oftast dessa utökade instruktionsuppsättningar 

transparent men hämmar naturligtvis portabiliteten för applikationer som utvecklas därpå. 

I detta arbete har dock utvecklingen (för att öka förståelsen av systemets utbytesförhållanden) lagts 

på en högre nivå och de delar som implementerats har så gjorts i Java och från teori. 

Komprimeringsmodulen i detta arbete är uppbyggd med komponenter modellerade efter dataflödet 

för att komprimera och dekomprimera bildrutor i en bildström. I designen har dessa strukturerats 

på ett modulärt vis som gör att varje enskild del kan bytas ut utan att påverka de övriga. 

Bildanskaffningen, förbehandlingen, efterbehandlingen och presentationen av bilderna arbetar på 

vanliga bilder bestående av RGB–pixlar. De övriga delarna i systemet arbetar på bildblock bestående 

av en flyttalsmatris per dimension i den använda färgrymden. 

Dataflöde 

Den modell för dataflödet inom komprimeringsmodulen som används är följande 

Bildanskaffning 

Förbehandling 

Blockextraktion 

Färgrymdsomvandling 

Signaltransform 

Normalisering 

Trunkering 

Kvantifiering 

Bitallokering 

Paketering 

Kryptering 

Sändning 

Presentation 

Figur 13. Dataflöde i kompressionsmodulen, från komprimeringsfas till dekomprimeringsfas. 

Fyllda delar ingår inte i kompressionmodulen, delar med namnet i kursiv stil har implementerats 

57 

Bildrekonstruktion 

Efterbehandling 



Denormalisering 

Blockavkodning 

Dekryptering 

Mottagning

Vissa delar (bildanskaffning, dimensionering, kryptering och sändning av paket i komprimeringsfasen 

samt mottagande, dekryptering av paket och presentation av resulterande bild i 

dekomprimeringsfasen) hör egentligen inte till komprimeringsmodulen. Dessa delar tas dock med i 

denna bild för en mer pedagogisk överblick över dataflödet från avsändare till mottagare. 

Notera att bortsett från de delar som arbetar på hela bilder (bildanskaffning, för– och efterbehandling 

samt presentation av rekonstruerad bild) så lämpar sig alla delar väl för parallellisering. 

Detta implementeras genom att segmentera bilderna i olika regioner och behandla dessa i separata 

trådar. Skulle en prioritering av blocken användas för att behandla förgrundsblock före andra så 

skulle detta då kunna ske genom att ha denna prioritering som kriterium vid blockfördelning 

mellan trådarna. Detta används då i kombination med att sätta högre exekveringsprioriteter för de 

trådar som behandlar prioriterade block. Så länge alla trådar behandlar samma bildruta så påverkar 

en sådan parallellisering inte komprimeringsmodulens negativt eftersom blocken är oberoende av 

varandra. 

Komprimeringsfasen 

I komprimeringsfasen anskaffas en bild, dess representation omvandlas, komprimeras och delas 

upp i paket lämpligt stora för överföring. Dessa paket består av grupper av block och har en storlek 

som anpassas mot kommunikationsstackens inställningar för MTU. Då komprimeringsmodulen är 

den del av systemet som har intrikat kunskap om bilddata (samt skall rekonstruera de dekomprimerade 

bildblocken) är det naturligt att denna del i komprimeringsfasen även har hand om att 

segmentera bildrutor för parallell bearbetning och gruppering av datablock för överföring. 

1) Bildanskaffning från bildkälla 

Vid bildanskaffning anlitar kompressionsmodulen bildkällan för att anskaffa en bildruta i önskat 

format. Komprimeringsmodulen kan styra och avläsa bildkällans inställningar för bilddimensioner, 

färgdjup och pixeltyper. Bildströmmens aktuella bildfrekvens begränsas indirekt av hur många 

gånger per sekund som komprimeringsmodulen hämtar bilder från bildkällan. 

2) Förbehandling 

I förbehandlingsfasen anpassas bilden för användning av kompressionsmodulens senare delar. De 

mest påtagliga exemplen på förbehandling är att genom paddningsscheman anpassa bildens 

dimensioner till att vara jämt delbara med den använda blockdimensionen samt att med ett färgfilter 

kvantifiera bilder av för hög upplösning till färre antal färger. 

3) Blockextraktion 

Den tredje delen av komprimeringsmodulen identifierar vilka områden som skall användas i varje 

bildruta och extraherar dessa till att lagras som flyttalsbaserade block istället för som heltalsbaserade 

pixlar. Detta syftar till att underlätta en senare behandling av blocken men ger även den 

adderade bonusen (i system som exekverar utanför virtuell motorer) att reducera antalet cache– 

missar vid signaltransformens repetitiva användning av blockens värden. 

4) Färgrymdsomvandling 

58

Färgrymdsomvandlingen, som sker från RGB till någon vald färgrymd mer lämplig för komprimering, 

implementeras som multiplikationer med omvandlingsmatriser för vald färgrymd. Dessa 

matriser är etablerade för alla färgrymder och består av flyttal som specificerar en normaliserad 

översättning mellan färgrymderna för enskilda pixlar. Exempelvis skulle transformen mellan RGB 

och YUV ta tre block med R, G respektive B data som parameter och resultera i tre block med Y, 

U respektive V data. 

5) Signaltransform 

Den signaltransform som används för bildkompression är DCT, dennas goda utbytesförhållande 

mellan möjlighet till förberäkning och anpassning mot signalens varians gör den lämplig för bildkompression. 

Här förberäknas basfunktionerna för transformen när den använda blockdimensionen 

är känd. Dessas värden lagras sedan internt för användning i själva signaltransformen vilket kräver 

ett visst lagringsutrymme men också besparar systemet majoriteten av beräkningskomplexiteten 

för transformen. 

6) Normalisering (av transformkoefficienter) 

Normalisering av transformkoefficienterna utförs genom att vikta dem och lyfta fram de delar som 

påverkar mänsklig uppfattning av slutresultatet mer. Denna del är intimt förknippad med framförallt 

kvantifieringen och bitallokeringen, men påverkar även trunkeringens resultat. Detta utförs 

genom att blockens färgdimensioner multipliceras med en normaliseringsmatris. 

7) Trunkering (av transformkoefficienter) 

I trunkeringen av transformkoefficienterna avgörs vilka delar av blocket som skall användas och 

vilka som skall förkastas i kompressionen. Här introduceras det största dataförstörande elementet 

för kompression av enskilda bildrutor, men även (tillsammans med en effektiv kvantifiering och 

bitallokering) den största källan till kompression. 

8) Kvantifiering (av transformkoefficienter) 

I kvantifiering av transformkoefficienterna så anpassas dessas värden för en mer effektiv bitallokering. 

Denna process är viktig för att uppnå en god kompressionsgrad i bitallokeringen och 

dess detaljer baserar sig på statistiska studier av transformkoefficienterna värden. 

9) Bitallokering 

Bitallokeringen är den sista delen av transformkoefficienternas kompression. Här lagras dessa om 

på bitnivå med hjälp av en Huffmankodning och anses därefter färdigkomprimerade. Den här 

processen kallas även (tillsammans med en kvantifiering) för bitkodning. 

10) Paketering 

De färdigkomprimerade blocken av transformkoefficienter samlas nu i blockgrupper, vars storlek 

anpassas efter önskemål från kommunikationsstacken. Denna del måste naturligt ske före krypteringen 

av data (för att kunna skönja gränser mellan block) och sköts av komprimeringsmodulen 

eftersom denna har mycket kunskap om dessa blocks storlek och utseende. 

59

Den resulterande blockgruppen förses även här med ett index för den bildruta de tillhör innan de 

levereras till krypteringssystemet. Detta bildruteindex används senare (hos mottagaren) för att 

detektera block som blivit försenade så länge att det blivit obsoleta. 

Notera att alla färgdimensioner för ett block samlas i samma blockgrupp för översändning. Detta 

sker för att undvika att en del av ett block skulle försvinna och hela blocket därför skulle behöva 

förkastas. 

11) Kryptering (av paket) 

När blocken väl är samlade i blockgrupper krypteras dessa av krypteringssystemet (som befinner 

sig i en etablerad session) och levereras till kommunikationsstacken. 

12) Sändning (av paket) 

Kommunikationsstacken översänder slutligen de krypterade paketen till mottagaren. 

Dekomprimeringsfasen 

Dekomprimeringsfasen, där data dekomprimeras och presenteras, kan liknas vid att lägga ett 

pussel. Av (översändningens) effektivitetsanledningar delas bilden i komprimeringsfasen in i 

grupper av block vilka sänds var för sig. I dekomprimeringen, då dessa bitar har tagits emot och 

dekrypterats, så packas paketets blockgrupp upp och varje block sätts likt en pusselbit in i den 

slutliga bilden. Detta förutsatt att den bildruta som blocken tillhör fortfarande är aktuell hos mottagaren, 

i annat fall förkastas blocken. 

De parametrar som används i denna del av systemet är blockdimension samt trunkeringsmönster. 

Den senare för möjligheten att optimera signaltransformen invers (trunkeringsmönstret ger vilka 

transformkoefficienter som använts och därmed behöver beräknas). De algoritmer som används, 

d.v.s. normaliseringsmask, signaltransform samt färgrymd, antas också de vara kända. 

9) Mottagning (av paket) 

När ett nytt paket anländer till kommunikationsstacken så levererar denna det direkt till 

krypteringssystemet. 

8) Dekryptering (av paket) 

Krypteringssystemet dekrypterar det mottagna paketet och blockgruppen däri levereras till 

kompressionsmodulen. 

7) Blockavkodning 

Innan komprimeringssystemet gör något annat så kontrolleras att blocken som nu skall behandlas 

fortfarande är aktuella. Detta sker för att bespara systemet onödiga beräkningar och genom att 

blockens bildruteindex jämförs med det högsta bildruteindex som mottagits för tidigare block på 

motsvarande plats i bilden. 

60

När denna blockvalidering utförts så rekonstrueras de aktuella blocken ur blockgruppen till sina 

transformkoefficientsvärden från den bitkodning som de utsatts för i kompressionsfasen. 

6) Denormalisering (av transformkoefficienter) 

Innan vidare steg kan tas måste nu transformkoefficienterna denormaliseras tillbaka till de värden 

de hade innan normaliseringen. Detta sker genom multiplikation med inversen av den 

normaliseringsmatris som användes i komprimeringsfasen. 

5) (Invers) signaltransform 

Signaltransformen invers appliceras sedan på de denormaliserade transformkoefficienterna. Detta 

producerar ett nytt block bestående av en approximation av det ursprungliga datablocket. Är 

mönstret för trunkeringen av transformkoefficienterna känt kan detta användas för att optimera 

denna beräkning. 

4) (Invers) färgrymdsomvandling 

Slutligen omvandlas det nu dekomprimerade blocket tillbaka till RGB färgrymden. Detta sker 

genom multiplikation med inversen av färgrymdomvandlingens matris. När detta väl är gjort är 

blocket dekomprimerat och rekonstruerat så långt som är möjligt. 

3) Efterbehandling 

När blocket nu har dekomprimerats till fullo kan det medfölja en del icke önskvärda effekter från 

kompression och tidiga filtreringar av blocken. Här försöks dessa motverkas med en efterbehandling 

av blocket innan det sätts in i den resulterande bilden. 

2) Bildrekonstruktion 

Här sätts slutligen de nu färdigbehandlade blocken in i den rekonstruerade bilden. Först här återfår 

blockens pixlar sin ursprungliga heltalsbaserade RGB–representation (om än med andra värden) 

och då som en del av den resulterande bilden. 

Viss efterbehandlingen är möjlig att använda även här, exempelvis för att försöka dölja bildartefakter 

eller kanteffekter från förlorade block. Observera att detta då skulle ske på hela bilden, 

snarare än på ett enskilt block. 

1) Presentation (av bild) 

Närhelst ett block inkluderats i den resulterande bilden så uppdateras presentationen av denna för 

slutanvändaren. 

61

Krypteringssystem 

Krypteringssystemet i den modell som här används är ett hybridsystem, där asymmetrisk kryptering 

används för autenticering, certifiering och nyckelutväxling samt symmetrisk kryptering vilken 

(av effektivitetsskäl) används för sessionskryptering. De algoritmer som används är RSA respektive 

AES, vilka är bland dagens mest lämpliga val för asymmetrisk respektive symmetrisk kryptering. 

Den första delen av krypteringssystemet arbetar mot infrastrukturens servrar samt med att etablera 

sessioner med andra klienter. Det finns ett flertal standarder och protokoll för utväxling och 

utseende på certifikat, här används X.509 för certifikat och SSL 3 eller TLS 1 för 

kommunikationskanaler. Den adderade fördelen av att använda dessa etablerade protokoll (utöver 

det naturliga i att de redan är testade och säkra) är att de redan finns implementerade i de flesta 

existerande APIer för asymmetrisk kryptering, likväl som inkluderade i ett flera påbyggbara produkter 

(exempelvis webläsare och andra kommunikationsverktyg). 

Krypteringssystemets andra del handhar kryptering av kommunikationen klienter emellan när en 

session väl har etablerats. Denna del arbetar på datapaket som packats ihop av komprimeringsmodulen 

till lämplig storlek för överföring och krypterar dessa transparent med den tidigare överenskomna 

sessionsnyckeln. Eftersom komprimeringsmodulen är komplext sammansatt är 

krypteringssystemet designat på sådant vis att det inte inverkar på komprimeringsmodulens 

prestanda eller dataflöde. Denna design möjliggör även parallellism via trådning för krypteringslagret 

inom klienten. 

En alternativ ansats (till att explicit kapsla in kryptering av klienttrafik i applikationsprotokollet) 

som ofta används är att tunnla nätverkstrafiken genom SSL, något som avsevärt förenklar utveckling 

av system eftersom krypteringslagret då lägger sig transparent utanpå den övriga 

kommunikationsstacken. Användandet av SSL förutsätter dock att kommunikationsstacken endast 

använder sig av pålitliga transportprotokoll (läs TCP) varför denna ansats inte används här. 

Eftersom kommunikationen mot servrarna (för kataloguppslagning och certifiering) använder 

asymmetrisk kryptering explicit i sin funktionalitet är tunnling heller inte aktuellt där. 

Sessionsetablering 

För att ge en bild av hur krypteringssystemet är tänkt att fungera ges här en översikt av dataflödet 

vid etablerandet av en session mellan två klienter. De involverade parterna är C1 vilken är den 

klient som initierar sessionen, C2 som är den andra och passiva parten i sessionsetableringen, D 

som är en katalogtjänst samt CA som är en certifieringsenhet. 

Flöde för att C1 etablerar en session med C2 

1) C1 finner C2’s publika krypteringsnyckel 

Denna är antingen tidigare känd av C1 eller slås upp hos CA 

2) C1 finner C2’s IP–adress 

Är denna är tidigare känd provas denna, om så inte är faller eller om detta misslyckas slås denna 

upp hos D 

3) C1 kontaktar C2 

62

C1 kontaktar C2 och skickar C2 ett paket bestående av ett certifikat av sin egen publika nyckel 

samt ett förslag på (symmetrisk) krypteringsalgoritm för sessionen. Paketet är signerat med C1s 

privata nyckel samt krypterat med C2s publika nyckel. 

4) C2 verifierar C1s identitet & paketet 

C2 dekrypterar paketet med sin privata nyckel, verifierar certifikatet av C1s publika nyckel 

(antingen genom att kontrollera tidigare kända nycklar för C1 eller via uppslagning hos CA), samt 

verifierar paketets integritet genom att kontrollera signeringen av detsamma med C2s publika 

nyckel. 

5) C2 kvitterar sessionsinformation 

C2 kvitterar sedan sessionsinformationen genom att genererar och skicka C1 en sessionsnyckel för 

den aktuella krypteringsalgoritmen. Detta paket krypteras med C1s publika nyckel och signeras 

med C2s privata. Sessionsnyckeln är slumpmässigt framtagen och kan användas som en 

krypteringsnyckel av den indikerade (symmetriska) krypteringsalgoritmen. 

6) C1 initierar session 

C1 tar emot, dekrypterar och verifierar paketet samt initierar sedan sessionen med den aktuella 

sessionsnyckeln. 

För kommunikation mellan fler parter följes i stort sett samma schema, där den part som vill 

ansluta kontaktar någon av de inblandade parterna på samma vis och de inblandade parterna själva 

bestämmer ifall personen skall släppas in i sessionen eller ej. 

63

Kommunikationsstack 

För klientens kommunikation med infrastrukturen antas trafiken vara protokollbunden eller trivial. 

Den del av klientens kommunikationsstack som avses här är den del som överför bilddata mellan 

klienterna i etablerade sessioner. Denna del kan kanske även den betraktas som trivial eftersom 

data redan paketerats och krypterats innan de når hit, men det finns ett flertal avväganden att göra i 

designfasen av kommunikationsstacken. 

I alla applikationer för överföring via paketbaserade nät riskeras det fördröjningar i nätverket till 

följd av förstoppningar och omsändningar orsakade av förlorande (eller försenade) paket. Dessa 

fördröjningar kan givetvis även bero på lokala överbelastningar hos avsändande klient (i bildtelefonifallet 

mest troligt beroende på de beräkningsintensiva kompressions– eller krypteringsdelarna 

av systemet), men eftersom dessa är enkla att åtgärda (exempelvis i bildtelefonifallet 

genom att sänka bildkvaliteten) bortses från dessa anledningar här. 

För information om paketbaserade nät och system för datakommunikation se [3], [4] och [11]. 

Paketfragmentering 

Används ett pålitligt transportprotokoll såsom TCP är det brukligt att begränsa storleken på 

paketen som sänds till att vara mindre än minsta Maximum Transmission Unit (MTU) för alla 

nätverkssegment mellan avsändare och mottagare av paketen. Detta görs för att undvika förseningar 

orsakade av fragmentering av paketen – MTU är den storhet som avgör om ett paket skall 

fragmenteras (d.v.s. delas upp flera mindre paket) av en router eller ej. När ett icke pålitligt 

transportprotokoll såsom UDP används är detta ännu viktigare eftersom ett UDP–paket som tappat 

ett fragment (eller där ett fragment blivit tillräckligt försenat) förkastas i sin helhet. Fragmentering 

av paket påverkar nätens genomströmning negativt och bör undvikas om så är möjligt. Observera 

att MTUns värde jämförs med hela paketets storlek, inte endast mot paketets kropps storlek. 

För att finna minsta MTU (kallad Path MTU eller PMTU) mellan två kommunicerande parter på 

IP–baserade nät används en teknik som kallas Path MTU Discovery (PMTU–D). PMTU–D består 

av att itererativt sända större och större paket tills taket för någon MTU längs vägen är nådd. Eftersom 

en flagga satts i paketen (i IP–paketens header för att vara exakt) vilken förbjuder fragmentering 

av paketen resulterar detta i att ett ICMP–meddelande skickas till avsändaren med ett felmeddelande. 

I vissa fall innehåller dessutom detta felmeddelande storleken på den begränsande 

MTUn, men annars används det senast avsända paketets storlek som en indikation på den begränsande 

MTUn. Tyvärr filtreras ICMP trafik ofta bort vilket kan försvåra att denna teknik. Observera 

också att PMTU kan förändras över tiden eftersom vägen paketen routas kan förändras. 

Paketering 

De data som översänds i bildtelefonifallet är till den överväldigande majoriteten bilddata från 

bildrutor i videoströmmen från kameran. En speciell egenskap hos bilddata från videoströmmar är 

att pixlarna är tidsberoende – de överlappar varandra över tiden. Detta medför i praktiken att om 

en speciell pixel försenas så mycket att motsvarande pixel i en efterföljande bildruta anländer till 

mottagaren före den första, så är den förstnämnda pixeln värdelös och kan förkastas utan att 

behandlas. Detsamma håller sant även för de hela block av pixlar som bildrutor i denna modell har 

indelats i. 

Den största anledningen till förseningar inom TCP är omsändningar av paket som för fördröjts 

eller tappats bort, något som här undviks genom att använda UDP. UDP kan i praktiken vara upp 

mot 30 procent snabbare än TCP av denna anledning. Antaget att omsändningrelaterade förse- 

64

ningar i TCP är stora nog att orsaka att block förkastas när de omsändes så ter det sig självklart att 

då använda UDP för denna typ av trafik. Detta antagande motiveras av att TCPs omsändningar är 

triggade av time–outs samt att videoströmmar med rörliga bilder ofta har bildfrekvenser över 25 

fps. Utbytesförhållandet för antagandet blir att tiden mellan två olika bildrutor skall vara mindre än 

tiden för nätet att detektera och genomföra en omsändning. En separat TCP–kanal hålls öppen för 

synkroniseringar och uppdateringar av sessionsinformation. 

Notera även att eftersom bilddata indelas i av varandra oberoende paket så kan även överföringen 

av dessa transparent parallelliseras genom trådning. 

65

Implementation 

Bildkälla 

Initialt i arbetet implementerades en TWAIN–klient i C++ som bildkälla. Denna visade sig dock 

vara svåranvänd då drivrutinen för kameran systemet använde (Logitech Quickcam VC USB) inte 

stödde de kapabiliteter som krävdes. Senare byttes denna kamera ut mot en ny (Phillips ToUCam 

pro USB) vilken även den visade sig ha samma defekt i sin TWAIN implementation. Den 

kapabilitet som fattades var förmågan att kunna ta bilder utan att visa drivrutinens lokala GUI. 

Slutligen användes en Phillips ToUCam XS vilken stödde detta men tyvärr hade en annan defekt 

vilken resulterade i att applikationen var tvungen att återinitialisera kamerans tillstånd efter varje 

bild. Detta omöjliggjorde bildfrekvenser högre än 5 fps. Tilläggas bör att även om det senare 

problemet var en ren defekt så var det första snarare ett designval från tillverkarna. 

Efter problemen med TWAIN implementerades istället mjukvarukomponenter som simulerar 

bildkällor för användning i systemet. Dessa är implementerade kring färdiga bilder och 

videosekvenser som i förväg har inhämtats från bildkällor och ligger lagrade i lokala filer. Tanken 

har varit att simulera en bildkälla så väl att en fysisk bildkälla senare skall kunna sättas in och 

fungera med systemet utan att ändra gränssnittet. 

Kompressionsmodul 

Kompressionsmodulen har implementerats i Java med centrala ramverksklasser och gränssnitt 

(Java interface) som representerar de specifika delarna och dess funktionalitet. Denna design syftar 

till att låta varje komponent fungera självständigt och ändå vara utbytbar för att facilitera 

experimentation. En systembeskrivning för kompressionsmodulens implementation finns i 

Appendix A. 

Förbehandling 

Förbehandlingen som systemet implementerar består av två olika scheman för hur problemet med 

bilder med storlekar som inte är jämnt delbara med blockdimensionen skall hanteras. Dessa är 

mirror–edge pad respektive crop pad, vilka båda resulterar i nya bilder med jämnt delbara 

storlekar. Den förstnämnda förstorar om nödvändigt bilden till närmaste jämna blockmultipel och 

speglar därefter ut pixlar runt kanterna ut i de icke fyllda kantblocken. Det andra beskär istället 

bilden när detta är nödvändigt. Dessa scheman finns implementerade i det här arbetet eftersom de 

underlättar implementation av signaltransformen. 

Blockextraktion 

Processen att välja vilka block som skall användas baserar sig på ett filter vilket jämför varje block 

med motsvarande block i föregående bildruta. Ifall blocket bedöms ha förändrats mer än ett givet 

tröskelvärde passerar blocket filtret och extraheras. Det tröskelvärde som används specificeras i 

termer av pixelvärden och jämförs med varje pixel i blocket. Alternativt används för 

effektivitetsökning endast blockets hörnpixlar i filtreringen. Detta motiveras då av antagandet att 

förändringar små nog att rymmas inom ett block (och därmed inte påverka någon hörnpixel) 

tenderar att vara lokala fel snarare än avbildningar av reella objekt. Det är denna del (blockfiltret) i 

blockextraktionsfasen som står för komprimeringsmodulens temporala kompression. De block 

som inte passerar filtret förkastas och belastar inte systemet vidare beräkningsmässigt. Denna del 

kan med en god anpassning av tröskelvärdet för blockfiltreringen vara en stor källa för 

66

kompression men kan även resultera i visuella effekter som upplevs mycket störande. 

Utbytesförhållanden vid valet av tröskelvärde är motsträviga – för högt så förkastas för många 

block och för lågt ger låg kompressionsnivå och hög beräkningsbelastning på systemet. 

För att undvika kumulativa fel beroende på blockfiltret så sänds det regelbundet en reference 

frame, d.v.s. en bildruta vilken inte är beroende på föregående bildruta. I praktiken innebär detta 

en bildruta där samtliga block passerar blockfiltret. Generationen av reference frames styrs därför 

(via en intervallparameter) av denna del av kompressionensmodulen. 

I blockextraktionsfasen är de tidigare blockpaddningarna implementerade transparent med hjälp av 

(förgenererade) indextabeller för effektivitet. Eftersom själva blockextraktionen också är baserad 

på uppslagningar via indextabeller kan denna del adderas utan extra overhead. Samma 

indextabeller används även i dekomprimeringsfasen för att sätta in blocken i den resulterande 

bilden. I blockextraktionen omvandlas även pixelvärdena från heltal till flyttal eftersom detta 

effektiviserar efterföljande steg. 


Fyra färgrymder är implementerade för användning med kompressionsmodulen – RGB, YUV, 

YIQ och YCbCr. RGB finns med för att tydligare visa på trunkeringens effekter utan 

färgkodningsscheman samt för att kunna behandla gråskalebilder (vilka då omvandlas till RGB– 

bilder med samma värde för alla tre färgkanaler). YUV, YIQ och YCbCr lämpar sig alla för 

kompression av färgbilder efter scheman som baserar sig på att trunkera färgkomponenterna 

hårdare än intensitetskomponenten. 

Färgrymdsomvandlingen har implementerats som en transformmotor där blocken (vilka består av 

tre stycken matriser av samma kvadratiska dimensioner) multipliceras med en omvandlingsmatris. 

För att reversera denna process multipliceras blocken i dekompressionsfasen med samma 

omvandlingsmatrisens invers. 


Den signaltransform som används är DCT med förberäknade basfunktioner. Denna har 

implementerats som en transformmotor som arbetar på godtyckliga flyttalsmatriser och sedan 

expanderats till att arbeta på tripletter av matriser för att användas med de block som extraherats 

tidigare. Samma transforms invers har naturligt implementerats tillsammans med denna. 

Normalisering, kvantifiering och bitallokering 

I det här arbetet har valts att inte implementera någon normalisering, kvantifiering eller 

bitallokering av blocken. Detta framförallt eftersom dessa delars effektivitet baseras på statistiska 

studier (vilka har bedömts vara alltför tidsödande) av blockens värden efter transformen, men även 

för att lämna utrymme för experimentation med olika färgrymder. Valet av färgrymd påverkar 

nämligen pixlarnas värden vilket i sin tur påverkar de värden som signaltransformen resulterar i. 

Av naturliga anledningar har därför heller inte dessa delars motsvarigheter i 

dekomprimeringsfasen (blockavkodning och denormalisering) implementerats. 

Trunkering 

I det här arbetet har tre metoder för trunkering implementerats – trunkering efter varians, 

trunkering efter magnitud samt tröskeltrunkering. Variansimplementationen är optimerad och där 

67

eräknar signaltransformen endast de transformkoefficienter som kommer att passera 

trunkeringen. I magnitudvarianten beräknas samtliga transformkoefficienter och sorteras därefter 

för att kunna finna de med störst magnitud (de som skall behållas). Tröskelimplementationen 

beräknar samtliga transformkoefficienter och förkastar därefter de som har en magnitud lägre än 

tröskvärdet. 

Observera att det är separationenen av trunkering och kvantifiering som möjliggör transparenta 

byten av färgrymd. Detta eftersom trunkeringen kan fungera oberoende av 

transformkoefficienternas värden. 

Efterbehandling 

Den efterbehandling som implementerats i detta arbete består av en kvantifiering till RGB– 

baserade pixelvärden. Stark trunkering av blocken orsakar extremvärdespunkter vilka hamnar 

utanför de diskreta värdena i området [0 – 255]. Dessa avvikande värden kvantifieras därför 

genom enkel avrundning till närmaste heltal inom området. 

Presentation 

Figur 14. Extremvärdespunkter 

Presentation av bilder är trivial och har skett med hjälp av Java swing. 

De delar som tillhör krypteringsystemet och kommunikationsstacken (paketering, kryptering, 

sändning) har inte implementerats och därför inte heller deras motsvarigheter i 

dekomprimeringsfasen (mottagning och dekryptering). 

Ansatsen av komprimeringsmodulens inneboende parallellitet genom trådning har inte 

implementerats. 

Krypteringssystem 

68

Den del av krypteringssystemet som praktiskt utarbetats är ett kodbibliotek med en 

implementation av DES i C och C++. I denna studerades särskilt möjligheten att via utrullningar 

och andra optimeringar uppnå god prestanda medan portabilitet behållits (d.v.s. utan maskinnära 

programmering). Biblioteket stödjer DES och trippel DES i ECB mode. Denna implementation har 

gjorts i studiesyfte och ämnas inte användas i systemet, mer lämpliga för detta är något externt API 

för kryptering där samtliga delar av ett krypteringssystem har implementerats, exempelvis Java 

Cryptography Extensions (JCE) eller OpenSSL. 

Demonstrationer 

De delar av kompressionsmodulen som implementerats har åskådligtgjorts i interaktiva 

demonstrationsprogram dokumenterade i Appendix C. 

69

Slutsatser 

Bildkällan 

Vad gäller standarder för bildanskaffning från bildkällor har tyvärr TWAIN visat sig vara ett 

olämpligt val för bildtelefoni. Standarden är i sig duglig (om än omständlig) men drivrutinernas 

implementationer lämnar mycket att önska, åtminstone för bildkällor av webkamera typ. Tyvärr 

verkar det inte finnas något annat generellt och portabelt API för bildanskaffning vid billigare 

lösningar. Den logiska följden ter sig vara att satsa på ett lokalt API för en viss plattform eller en 

dyrare bildkälla med eget API. 

Webkameror som bildkällor har de senaste åren blivit mycket bättre men fortfarande är hårdvaran 

av så låg kvalitet att den påverkar komprimeringsmodulens effektivitet. Det är framförallt vid 

otillräcklig belysning som dagens CCD–baserade webkameror har problem med att leverera 

samma färgvärde för oförändrade objekt mellan olika bildrutor. 

Kompressionsmodulen 

Ansatsen att basera den temporala kompressionen på att jämföra blocken som ändå skall användas 

för signaltransformen har fungerat bra. Det är en relativt (beräkningsmässigt) billig och enkel 

metod att detektera rörelser i bilden som inte påverkar senare delar av kompressionssystemet. Ett 

medelvärdesbaserat mått (exempelvis RMSE eller MSE) är att föredra eftersom absoluta mått 

tenderar att vara beroende av blockdimensionen. 

Mängden rörelse i bilden påverkar stort mängden data som måste behandlas av systemet. En fixt 

monterad kamera är nödvändig för att kunna effektivt utnyttja temporal redundans överhuvudtaget. 

Vid hårdare trunkeringar än 4:1:1 av färgdata börjar störande subjektivt upplevda fel uppträda i 

stillbilder. Denna effekt tycks motverkas i rörliga bilder och har ej stor genomslagskraft i de 

matematiska mätningarna RMSE och MSE. 

Byte av färgrymd mellan YUV, YIQ och YCbCr har negligerbar effekt så länge endast trunkering 

används för kompression av stillbilder. Intensitetskomponenten (d.v.s. intensistetskolumnen i 

omvandlingsmatrisen) är för övrigt densamma för alla de tre. Luminans och kromatisitetsdelarna 

skiljer dock stort och dessas värdeområden påverkar utformningen av kvantifierings– och 

bitallokeringsprocesserna. Värdeområdena för färger i YUV och YIQ beror på noggrannheten i 

specifikationen av omvandlingsmatrisen medan värdeområdet i YCbCr är proportionellt mot 

färgdjupet i bilden. Detta uppnås genom att Cb och Cr i YCbCr uttrycker det sammantagna 

färgtrycket från blått respektive rött i RGBs färgrymd och YCbCr ett val som underlättar 

implementation av en kvantifiering. 

När det gäller val av storlek på blocken bottnar DCTs felmarginaler ut vid 8 · 8 block, d.v.s. att 

felen för större block är inte så mycket mindre att det motiverar ökningen i antal beräkningar (se 

[9]). En mindre blockstorlek är dock att föredra för rent mjukvarurealiserade lösningar för att 

reducera beräkningsbelastningen. Mindre block ökar även effektiviteten av blockfiltret (vilken 

även det reducerar beräkningsbelastningen) samt ger mindre störande visuella fel för förkastade 

block i den resulterande bilden. 

Med DCT i kombination med trunkering av transformkoefficienter som enda komprimerande 

element är det möjligt att komprimera stillbilder upp mot 90 procent utan att störande effekter 

introduceras. Med blockfilter som enda komprimerande element är det möjligt att komprimera 

majoritetens av scenens bakgrund utan störande effekter. Den uppnådda kompressionsgraden beror 

70

då på andelen block som porträtterar bakgrund samt bildkällans kvalitet. Dessa två delar ger 

sammanslaget en god kompression sett till mängden utförda beräkningar och tillsammans med en 

kvantifiering och Huffmankodning av transformkoefficienterna kan en acceptabel 

kompressionsgrad uppnås. Observera att kompressionsgraderna för trunkering och blockfilter 

förutsätter en ideal bitallokeringsprocess, d.v.s. att de trunkerade transformkoefficienterna går att 

lagra utan extra utrymme för lagringsprotokoll. Detta motsvaras för hela systemet av att 

kvantifieringen och huffmankodningen är minst effektiv nog att dölja sitt eget overhead. 

Krypteringssystemet 

En bildström med en upplösning på 320 · 240 pixlar, 24 bitars färgdjup och en bildfrekvens på 25 

fps levererar cirka 

((320 · 240 · 24) · 25) = 46080000 bits = 5760000 bytes = 5625 kilobytes 

per sekund. Detta kombinerat med en förväntad kompressionsgrad på cirka 90 procents motsvaras 

av omkring en halv megabyte per sekund av data som skall krypteras och sändas. Detta är inte 

någon större belastning för en modern dator jämfört med insatsen som krävs för sagda 

kompression av samma datamängd. Krypteringsdelen kan därför bortses från som flaskhals för 

systemets genomströmning. 

Kommunikationsstacken 

Denna del behöver studeras mer för att kunna dra annat än generella slutsatser om modellens 

effektivitet. 

Vidareutvecklingar 

Vad gäller prestanda så är den del av systemet som kräver mest av hårdvaran otvetydigt 

bildkompressionen. Någon form av schema för att detektera överlastningar borde inkorporeras i 

systemet, exempelvis genom en återkoppling från uppnådd bildfrekvens som sänker bildkvaliteten 

vid behov. 

På grund av dess beräkningsintensiva natur skulle bildkompressionen kunna utvecklas i ett språk 

som inte exekveras via en virtuell motor (exempelvis C eller C++). Denna bildkompressionsmotor 

kan sedan användas från Java via Java Native Interface (JNI) eller som COM objekt från C# om så 

skulle önskas. För ökad effektivitet kan rena Java implementationer köras via JRocket eller annan 

alternativ Java Virtual Machine (JVM) där det är möjligt att slå av exempelvis s.k. bounds checks 

för arrayuppslagningar. Att implementera en bildkompressionsmotor närmare en lokal plattform 

skulle även göra det möjligt att utnyttja någon form av utökad instruktionsuppsättning, såsom 

MMX eller SSE. Dessa är idag så vitt spridda att de kan antas att förekomma hos i stort sett alla 

PC–baserade datorer, vilka utgör majoriteten av hemanvändarnas utrustningar. 

Den föreslagna kommunikationsstacken skulle vara intressant att studera ur ett 

genomströmningsperspektiv, speciellt då med en jämförelse av UDP vs TCP över långa avstånd. 

Utbytesförhållandena mellan bandbredd och kompression är av stor vikt för att slutgiltigt kunna 

fastställa kraven på kompressionens effektivitet. 

Systemets inneboende parallellitet (d.v.s. möjligheterna till att parallellisera bildkompression, 

kryptering och överföring) vore intressant att utforska mera. Trådningsansatsen erbjuder 

transparent parallellisering på multiprocessor maskiner vilket skulle kunna göra mycket för 

71

systemets prestanda. Denna är en ansats som i teorin är lovande och blir mer och mer populär men 

kan (som alltid med trådning) stöta på problem med synkroniseringsfrågor. 

Audiell information vore intressant att inkorporera i systemet, framförallt då med modellbaserade 

komprimeringsansatser. 

Sammanfattning 

När det gäller implementation av helt mjukvarurealiserade bildtelefonisystem framstår 

bildkompressionsdelen tydligt som den viktigaste delen att lägga utvecklingstid på. En effektiv 

bildkompression är den viktigaste delen för att så mycket som möjligt begränsa systemets 

bandbredsbehov och därmed möjliggöra högre datakvaliteter. Den prestanda man kan uppnå 

genom att endast implementera de enklare delarna av den föreslagna kompressionsmodulen verkar 

duga för enklare bildtelefonisystem. 

Det finns idag ett flertal etablerade algoritmer, modeller och protokoll som löser de flesta 

applikationers säkerhetsbehov med hjälp av kryptering. De symmetriska krypteringsalgoritmernas 

exekveringshastighet jämfört med dagens hårdvaras prestanda ger att krypteringsystemets 

genomströmning inte bör vara någon flaskhals ens för bildtelefoni. 

En effektiv algoritm är viktigare än en effektiv implementation. 

72

Ordlista 

AE Absolute Error, absolutfel 

AES Advanced Encryption Standard, symmetrisk krypteringsalgoritm 

API Application Programmer Interface, gränssnitt för applikationsprogrammerare 

Bit rate Ett mått på kompressionsgrad definierat som förhållandet mellan 

storlek på indata och storlek på utdata i kompressionstillämpningar 

COM Component Object Model, standard för komponentprogramvara 

DCT Diskreta Cosinus Transformen 

DES Data Encryption Standard, symmetrisk krypteringsalgoritm 

DFT Diskreta Fourier Transformen 

DST Diskreta Sinus Transformen 

FFT Fast Fourier Transform, snabb algoritm för att beräkna DFT 

Fps Frames per second, antal bildrutor per sekund, se frame rate 

Frame Bildruta i videosignal 

Frame rate Bildfrekvens i en videosignal, mäts i fps. 

GUI Graphical User Interface, grafiskt användargränssnitt 

IP Internet Protocol, transportprotokollet i TCP/IP 

ICMP Internet Control Message Protocol, kontrollprotokoll i TCP/IP 

JAR Java Archive, filformat för distribution av Java applikationer 

JRE Java Runtime Environment, Javas exekveringsplattform 

MSE Mean Square Error, medelkvadratfel 

MTU Maximum Transmission Unit, storleksgräns för fragmentering 

Publik nyckel Den publika (spridda) delen av ett asymmetriskt nyckelpar 

Privat nyckel Den privata (hemliga) delen av ett asymmetriskt nyckelpar 

RMSE Root Mean Square Error, medelabsolutfel 

Reference frame Bildruta i en videosekvens vilken inte beror av andra bildrutor 

73

RSA Asymmetrisk krypteringsalgoritm, döpt efter upphovsmännen 

SDK Software Development Kit, samling av APIs för programvaruutveckling, 

ofta ordnade efter typ av applikation 

TCP Transmission Control Protocol, pålitligt transportprotokoll i 

TCP/IP 

TCP/IP En protokollfamilj som vanligen används på internet 

Transformkoefficient Ett värde i resultatblocket för transformen 

Transformkärna Den del av transformberäkningen som utför själva transformen 

Transformterm Ett värde som används i en transformkärna, används här som förberäknat 

värde på funktioner alpha och cosinusfunktionerna i 

DCT 

UDP User Datagram Protocol, icke pålitligt transportprotokoll i 

TCP/IP 

XOR Exclusive OR, logisk operation på bitnivå 

74

Källhänvisningar 

[1] Ahlberg, Jörgen, An Experiment on 3D Face Model Adaptation using the Active Appearence 

Algorithm. http://www.icg.isy.liu.se/publications/LiTH–ISY–R–2325.pdf (December 2002) 

[2] Anton , Howard & Rorres, Chris. Elementary Linear Algebra. John Wiley & Sons. ISBN 

0471170526. 8th edition (January 2000) 

[3] Brown, Chris. UNIX Distributed Programming. Prentice Hall. ISBN 0130758965. (December 

1994) 

[4] Chow, Randy & Johnson, Theodore. Distributed Operating Systems & Algorithms. Addison– 

Wesley Pub Co. ISBN 0201498383. (March 1997) 

[5] comp.compression. Compression Frequently Asked Questions. 

http://www.faqs.org/faqs/compression–faq/ (August 1999) 

[6] comp.compression. MPEG Frequently Asked Questions. http://www.faqs.org/faqs/mpeg–faq/ 

(August 1999) 

[7] Daemen, Joan & Rijmen, Vincent. AES Proposal: Rijndael. 

http://csrc.nist.gov/encryption/aes/rijndael/Rijndael.pdf (December 2000) 

[8] Fischer, Matthew. How to implement the Data Encryption Standard (DES). University of Iowa, 

Iowa USA. paper posted on sci.crypt (February 19 1995) 

[9] Gonzalez, Rafael C. & Woods, Richard E. Digital Image Processing. Association for Informational 

Image Management. ISBN 0201600781. 3rd edition (January 1994) 

[10] Haibo Li. Low Bitrate Sequence Coding. Linköpings Universitet. ISBN 9178711703. (1993) 

[11] Halsall , Fred. Data communications, computer networks and open systems. Addison–Wesley 

Pub Co. ISBN 020142293X. (January 15, 1996) 

[12] Independent JPEG Group, the. JPEG Frequently Asked Questions. 

http://www.faqs.org/faqs/jpeg–faq/ (August 1999) 

[13] Knudsen , Jonathan. Java Cryptography. O'Reilly & Associates. ISBN 1565924029. (May 

1998) 

[14] Oaks, Scott. Java Security. O'Reilly & Associates. ISBN 0596001576. 2nd edition (June 

2001) 

[15] Pfleeger, Charles P. Security in computing. Prentice Hall. ISBN 0130355488. 3rd edition 

(December 2, 2002) 

[16] Poynton, Charles A. Poyntons color FAQ. 

http://www.inforamp.net/~poynton/ColorFAQ.html (September 1999) 

[17] Råde & Westergren. Mathematics Handbook. CRC Press. ISBN 0849377587. 2nd edition 

(June 1992) 

75

[18] Russ, John C. The Image Processing Handbook. CRC Press. ISBN 0849325323. 3rd edition 

(January 1999) 

[19] RSA Laboratories. Frequently Asked Questions About Todays Cryptography, v4.1. 

http://www.rsasecurity.com/rsalabs/faq/ (December 2000) 

[20] Sayood, Khalid. Introduction to Data compression. Morgan Kaufmann Publishers. ASIN 

1558603468. 2 edition (January 1996) 

[21] Schneier , Bruce. Secrets and Lies : Digital Security in a Networked World. John Wiley & 

Sons. ISBN 0471253111. 1st edition (August 14, 2000) 

[22] Schneier , Bruce. Applied Cryptography: Protocols, Algorithms and Source Code in C. John 

Wiley & Sons. ISBN 0471117099. 2nd edition (October 18, 1995) 

[23] Singh , Simon. The code book. Anchor Books. ISBN 0385495323. (August 29, 2000) 

[24] TWAIN Working Group, the. TWAIN: Linking Applications and Images, A White Paper. 

http://www.twain.org/docs/whitepaper.htm (August 1999) 

[25] TWAIN Working Group, the. TWAIN specification v1.9. 

http://www.twain.org/docs/Spec1_9_197.pdf (August 1999) 

[26] TWAIN Working Group, the. TWAIN as an API for high throughput image capture. 

http://www.twain.org/docs/PerformanceWhitePaper.PDF (August 1999) 

[27] TWAIN Working Group, the. Capability Ordering, White Paper. 

http://www.twain.org/docs/CapOrderForWeb.PDF (August 1999) 

76

Appendix A – Systembeskrivning kompressionsmodul 

De delar av kompressionsmodulen som implementerats har så gjorts i Java och samlats i paketet 

se.umu.cs.dppog.x 

I detta paket finns det ett flertal underpaket vilka innehåller olika delar av paketet, dokumenterade 

nedan: 

comp 

I detta underpaket samlas de fyra klasserna 

FrameCompressor komprimerar bilder, används tillsammans med 

FrameSource 

FrameDecompressor dekomprimerar bilder, används tillsammans med 

FrameDestination 

FrameDestination efterbehandlar och rekonstruerar bilder, används 

tillsammans med FrameDecompressor 

FrameSource anskaffar och förbehandlar bilder, används tillsammans 

med FrameCompressor 

Dessa utgör stommen i den kompressionsmotor som används och är att betrakta som 

ramverksklasser som utnyttjar objekt av andra klasser via specificerade gränssnitt för kompression 

och dekompression av bilder. De har implementerats för att underlätta synkronisering av 

kompressionsmotorn vid användning. 

core 

I detta underpaket samlas de gränssnitt och klasser som utgör kärnan i kompressionsmotorn. Dessa 

är (ordnade efter funktionalitet) 

77

Databärande klasser 

RGBImage representerar en RGB bild 

Matrix representerar en tvådimensionell kvadratisk flyttalsmatris 

Block representerar ett block av bilddata, består av en 

matris (instans av Matrix) per färgkanal i bilden 

och innehåller antingen pixeldata eller 

transformkoefficienter 

Frame representerar en bildruta som extraherats ur en 

RGB bild av en BlockAccessor. Innehåller så 

många förallokerade block som maximalt kan 

extraheras ur bilden samt en förteckning över 

vilka block som faktiskt uppdaterats med data av 

den BlockAccessor som använts 

BlockIndexTable representerar en block index tabell. Detta är en 

tabell över pixelindex i en RGB bild som 

förberäknats med hjälp av bildens dimensioner 

samt index för blocket 

Mask representerar en filtreringsmask för transformberäkningar. 

Används framförallt av signaltransformen 

och trunkeringsklasserna. 

DCTTerms representerar förberäknade transformtermer 

(värden från basfunktioner) för Diskreta Cosinus 

Transformen, används av klassen DCT 

Generella ramverksklasser för transformbaserade beräkningar 

TransformObject Abstrakt basklass för alla transformklasser 

RGBImageTransform gränssnitt som specificerar ett ramverk för beräkningar 

på RGB bilder 

RGBImageTransformImpl basklass som implementerar generella beräkningar 

på RGB bilder enligt RGBImage- 

Transform 

MatrixTransform gränssnitt som specificerar ett ramverk för transformberäkningar 

på matriser 

BlockTransform gränssnitt som specificerar ett ramverk för 

transformberäkningar på block 

BlockTransformImpl basklass som implementerar generella beräkningar 

på block enligt BlockTransform 

FrameTransform gränssnitt som specificerar ett ramverk för 

transformberäkningar på bildrutor (Frame objekt) 

78

FrameTransformImpl basklass som implementerar generella beräkningar 

på bildrutor enligt FrameTransform 

ParameterizedMatrixTransform gränssnitt som utökar MatrixTransform med 

parameteriserade beräkningar 

ParameterizedMatrixTransformImpl basklass som implementerar generella beräkningar 

på matriser enligt ParameterizedMatrix- 

Transform 

ParameterizedBlockTransform gränssnitt som utökar BlockTransform med 


ParameterizedBlockTransformImpl basklass som implementerar generella beräkningar 

på block enligt ParameterizedBlock- 

Transform 

ParameterizedFrameTransform gränssnitt som utökar FrameTransform med 


ParameterizedFrameTransformImpl basklass som implementerar generella beräkningar 

på bildrutor enligt ParameterizedFrame- 

Transform 

Klasser för specifika delar av kompressionsprocessen 

ImageSource gränssnitt för bildkällor 

ImageSourceImpl basklass som implementerar simulationen av en 

bildkälla med en given bildfil som data 

PreProcessor gränssnitt för förbehandling av RGB bilder 

PadPreProcessor abstrakt basklass som implementerar förbehandling 

som paddning av bilddimensioner till jämna 

multiplar av blockdimensionen 

CropPadPreProcessor klass som implementerar förbehandling genom 

crop pad (beskärning) av bilden 

MirrorEdgePadPreProcessor klass som implementerar förbehandling genom 

mirror–edge pad av bilden 

NullPreProcessor klass som implementerar PreProcessor utan att 

förändra bilden 

BlockAccessor gränssnitt för blockfiltrering och blockextraktion 

BlockAccessorImpl abstrakt basklass som implementerar Block- 

Accessor utan att implementera någon förbehandling 

79

CropPadBlockAccessor klass som implementerar BlockAccessor med 

crop pad som förbehandling 

MirrorEdgePadBlockAccessor klass som implementerar BlockAccessor med 

mirror–edge pad som förbehandling 

NoPadBlockAccessor klass som implementerar BlockAccessor utan 

förbehandling 

ColorSpaceTransform gränssnitt för färgrymdsomvandling 

ColorSpaceTransformImpl abstrakt basklass som implementerar ett ramverk 

för färgomvandling som bildrutetransform 

ColorSpaceBlockTransformImpl klass som implementerar ett ramverk för färgomvandling 

som blocktransform 

ColorSpaceTransformOp interface som specificerar ett ramverk för färgrymdsomvandlingsoperationer 

på matriselementsnivå 

RGB2RGBColorSpaceTransform klass som implementerar ColorSpaceTransform, 

förändrar inte färgrymden 

RGB2YCbCrColorSpaceTransform klass som implementerar ColorSpaceTransform, 

omvandlar från RGB till YCbCr och vice versa 

RGB2YIQColorSpaceTransform klass som implementerar ColorSpaceTransform, 

omvandlar från RGB till YIQ och vice versa 

RGB2YUVColorSpaceTransform klass som implementerar ColorSpaceTransform, 

omvandlar från RGB till YUV och vice versa 

SignalTransform gränssnitt för signaltransform 

DCT klass som implementerar DCT som signaltransform 

på bildrutenivå 

DCTMatrixTransform klass som implementerar DCT som signaltransform 

på matrisnivå 

NormalizationTransform gränssnitt för normaliseringsmatris 

NullNormalizationTransform klass som implementerar Normalization- 

Transform, utför ingen normalisering 

QuantizationTransform gränssnitt för trunkering och kvantifiering (endast 

trunkering är implementerad) 

80

QuantizationFrameTransformImpl abstrakt basklass som implementerar trunkering 

på bildrutenivå 

QuantizationMaskFactory gränssnitt som specificerar ett ramverk för 

generering av filtreringsmasker (avsedda för 

trunkeringar av transformkoefficienter) 

QuantizationMaskFactoryImpl abstrakt basklass som implementerar ett ramverk 

för generering av filtreringsmasker (avsedda för 

trunkeringar av transformkoefficienter) 

QuantizationMatrixTransform gränssnitt som specificerar ett ramverk för 

trunkering av transformkoefficienter på matrisnivå 

QuantizationMatrixTransformImpl abstrakt basklass som implementerar ett ramverk 

för trunkering av transformkoefficienter på 

matrisnivå 

NullQuantizationMaskFactory klass som implementerar QuantizationMask- 

Factory utan att implementera någon trunkering 

NullQuantizationMatrixTransform klass som implementerar QuantizationMatrix- 

Transform utan att implementera någon 

trunkering 

NullQuantizationTransform klass som implementerar QuantizationMatrix- 

Transform utan att implementera någon 

trunkering 

QuantizationByMagnitudeMaskFactory klass som implementerar QuantizationMask- 

Factory för trunkering efter magnitud 

QuantizationByMagnitudeMatrixTransform klass som implementerar QuantizationMatrix- 

Transform för trunkering efter magnitud 

QuantizationByMagnitudeTransform klass som implementerar QuantizationTransform 

för trunkering efter magnitud 

QuantizationByThresholdMaskFactory klass som implementerar QuantizationMask- 

Factory för tröskeltrunkering 

QuantizationByThresholdMatrixTransform klass som implementerar QuantizationMatrix- 

Transform för tröskeltrunkering 

QuantizationByThresholdTransform klass som implementerar QuantizationTransform 

för tröskeltrunkering 

QuantizationByVarianceMaskFactory klass som implementerar QuantizationMask- 

Factory för trunkering efter varians 

QuantizationByVarianceMatrixTransform klass som implementerar QuantizationMatrix- 

Transform för trunkering efter varians 

81

QuantizationByVarianceTransform klass som implementerar QuantizationTransform 

för trunkering efter varians 

PostProcessor gränssnitt för efterbehandling 

PixelQuantizationMatrixTransform klass som implementerar efterbehandling innehållande 

trunkering av pixelvärden som matristransform 

PixelQuantizationPostProcessor klass som implementerar efterbehandling innehållande 

trunkering av pixelvärden som bildrutetransform 

NullPostProcessor klass som implementerar efterbehandling utan att 

bildrutan påverkas 

demo 

I detta underpaket samlas de interaktiva demonstrationer som utvecklats samt hjälpklasser de 

använder sig av, här listade efter funktion 

Hjälpklasser 

MatrixModelPanel klass som producerar en vy av en matris väg 

genom komprimeringsfasen 

BlockModelPanel klass som producerar en vy av ett blocks väg 

genom komprimeringsfasen 

MatrixPanel klass som producerar en grafisk representation av 

en matris 

ImagePanel klass som producerar en grafisk representation av 

en RGB bild 

FramePanel klass som producerar en grafisk representation av 

en videosekvens 

ImageEngine motorklass som implementerar diverse omvandlingar 

i bildformat 

ImageBrowser klass som implementerar ett verktyg för att 

granska förgenererade bilder 

82

ImageGenerator klass som förgenererar bilder för statistiksammanställning 

StatisticGenerator klass genererar en statistiksammanställning av 

förgenererade bilder 

Statistics klass som demonstrerar statistik för förgenererade 

bilder 

Miscellaneous klass som implementerar små praktiska funktioner 

som avrundning 

Bildkällor som används för demonstrationer 

CookieMonsterImageSource klass som simulerar en bildkälla kring testbilden 

Kakmonstret 

LenaImageSource klass som simulerar en bildkälla kring testbilden 

Lena 

HighMotionImageSource klass som simulerar en bildkälla kring testvideosekvensen 

HighMotion 

LowMotionImageSource klass som simulerar en bildkälla kring testvideosekvensen 

LowMotion 

Interaktiva demonstrationer 

PadDemo interaktiv demonstration av bilddimensionsomvandlingar, 

se Appendix X 

PadDemoApplet PadDemo som Java Applet 

BlockDemo interaktiv demonstration av blockextraktion, se 

Appendix B 

BlockDemoApplet BlockDemo som Java Applet 

DCTDemo interaktiv demonstration av DCT, se Appendix B 

DCTDemoApplet DCTDemo som Java Applet 

QuantizationDemo interaktiv demonstration av trunkering, se Appendix 

B 

QuantizationDemoApplet QuantizationDemo som Java Applet 

QuantizationOrdoDemo demonstration av beräkningskomplexitet för trunkering 

QuantizationOrdoDemoApplet QuantizationOrdoDemo som Java Applet 

83

FrameCompressionDemo interaktiv demonstration av bildkompression, se 

Appendix B 

FrameCompressionDemoApplet FrameCompressionDemo som Java Applet 

StreamCompressionDemo interaktiv demonstration av bildsekvenskompression, 

se Appendix B 

StreamCompressionDemoApplet StreamCompressionDemo som Java Applet 

AnimatedStreamCompressionDemo interaktiv demonstration av bildsekvenskompression, 

se Appendix B 

AnimatedStreamCompressionDemoApplet AnimatedStreamCompressionDemo som Java 

Applet 

graph 

I detta underpaket finns ett enkelt ramverk för produktion av grafer 

Function klass som representerar en samplad funktion 

Sample klass som representerar en sampling av en funktion 

GraphEngine motorklass som producerar grafiska representationer 

av samplade funktioner 

marker underpaket som innehåller 15 klasser som vardera 

representerar olika typer av markörer för funktioner 

i grafer (cirkel, fylld cirkel, rektangel 

o.s.v.) 

measure 

I detta underpaket finns ett ramverk för och olika implementationer av mätmetoder 

Ramverksklasser 

84

Measurement gränssnitt för mätmetod 

MeasurementImpl abstrakt basklass som implementerar ett ramverk 

för generella mätmetoder på matriser, block, bildrutor 

och RGB bilder 

AbsoluteMeasurementImpl abstrakt basklass som implementerar ett ramverk 

för absoluta (summerande) mätmetoder på matriser, 

block, bildrutor och RGB bilder 

AverageMeasurementImpl abstrakt basklass som implementerar ett ramverk 

för genomsnittliga (medelvärdesbaserade) mätmetoder 

på matriser, block, bildrutor och RGB 

bilder 

Mätmetoder 

AbsoluteErrorMeasurement klass som implementerar mätmetoden AE 

CompressionMeasurement klass som mäter kompressiongrad 

MeanSquareErrorMeasurement klass som implementerar mätmetoden MSE 

NumberPixelsDifferMeasurement klass som mäter antal pixlar som förändrats 

mellan två bilder 

RootMeanSquareErrorMeasurement klass som implementerar mätmetoden RMSE 

util 

I detta underpaket finns generella verktygsklasser 

BlockDimension klass som räknar ut lagringsutrymme för 

förberäknade transformtermer (för DCT) som 

funktion av blockdimensionen 

BMPConverter klass som omvandlar en .BMP fil till en .X fil 

RGBImageAccessor klass som laddar bilder från kända filformat samt 

sparar dem i ett eget format (kallat .x) 

TGAConverter klass som omvandlar en .TGA fil till en .X fil 

85

Appendix B – Interaktiva demonstrationer 

De interaktiva demonstrationer som utvecklats för att illustrera de olika delarna av 

kompressionsprocessen finns tillgängliga från 

http://www.cs.umu.se/~dppog/exjobb/ 

Dessa demonstrationer har implementerats i Java med swing och kräver JRE 1.4 för att kunna 

köras. Samtliga demonstrationer inklusive bilddata finns samlade i en JAR fil som heter 

dppog.jar. 

De första fyra demonstrationerna arbetar på matriser och har tagits fram för pedagogisk överblick 

över kompressionsprocessen komponenter. De sista tre arbetar på bilder och demonstrerar 

praktiskt kompression med de implementerade komponenterna. Dessa syftar till att demonstrera 

utbytesförhållandena mellan de olika delarna av kompressionsmodulen. 

86

Pad Demo 

Detta program demonstrerar användandet av två stycken paddningsscheman och startas med 

kommandot 

java –classpath dppog.jar PadDemoApplet 

Mirror–edge pad speglar pixlar runt blockkanter och crop pad klipper bort överskjutande pixlar 

Figur 15. Pad Demo, demonstrerar mirror–edge pad och crop pad 

87

Block Demo 

Detta program demonstrerar användandet av mirror–edge pad tillsammans med blockextraktion 

och startas med kommandot 

java –classpath dppog.jar BlockDemoApplet 

Figur 16. Block Demo, demonstrerar mirror–edge pad tillsammans med blockextraktion 

88

DCT Demo 

Detta program demonstrerar den Diskreta Cosinus Transformen (DCT) och startas med 

kommandot 

java –classpath dppog.jar DCTDemoApplet 

Figur 17. DCT Demo, demonstrerar den Diskreta Cosinus Transformen (DCT) 

89

Quantization Demo 

Detta program demonstrerar den Diskreta Cosinus Transformen (DCT) i kombination med 

trunkering efter varians respektive magnitud och startas med kommandot 

java –classpath dppog.jar QuantizationDemoApplet 

Figur 18. Quantization Demo, demonstrerar Diskreta Cosinus Transformen (DCT) tillsammans 

med trunkering efter varians respektive magnitud 

90

Frame Compression Demo 

Detta program demonstrerar kompression av stillbilder och startas med kommandot 

java –classpath dppog.jar –mx400M FrameCompressionDemoApplet 

De komponenter som går att kontrollera i denna applikation är 

image source bildkälla, tillhandahåller bild(er) 

pre processor förbehandlar bilden 

block accessor sköter blockextraktion ur bilden 

colorspace transform beräknar färgrymdsomvandlingar 

signal transform signaltransform, endast DCT 

normalization tranform normalisering av transformkoefficienter, icke implementerad 

post processor sköter efterbehandling av block 

De parametrar som går att styra är 

block dimension dimension på blocken i komprimeringen 

# coefficients antal transformkoefficienter, för varians– och magnitudtrunkering 

quantization threshold tröskelvärden för tröskeltrunkering 

De mätvärden som beräknas är 

compression ratio kompressionsgrad, i storleksförhållande och andel 

RMSE medelabsolutfel 

MSE medelkvadratfel 

AE absolutfel, totalt och utslaget per pixel 

# pixels affected antal pixlar som förändrats efter kompression, totalt och andel 

Bilden presenteras i originalform och komprimerad form. Båda bilder är klickbara och producerar 

en förstoring av valt område med förstoringsfaktor 10 och 20 för vänster– respektive högerklick. 

Klickas med mittenknappen (eller scrollhjulet) produceras en överblick över valt block för alla 

steg i komprimeringsfasen. 

91

Figur 19. Frame Compression Demo, demonstrerar kompression av stillbilder 

92

Stream Compression Demo 

Detta program demonstrerar kompression av bildrutor i videosekvenser och startas med 

kommandot 

java –classpath dppog.jar –mx400M StreamCompressionDemoApplet 

Stream Compression Demo är byggd ovanpå Frame Compression Demo och fungerar likadant 

med undantagen att den arbetar på bildsekvenser samt att det finns de extra parametrarna 

reference frame interval antalet bildrutor mellan refernce frames 

block filter threshold tröskelvärde för blockfiltret 

Det finns även en filter image, vilket är en grafisk representation av vilka block som passerat 

blockfiltret för den aktuella bildrutan 

Figur 20. Stream Compression Demo, demonstrerar kompression av bildrutor i videosekvenser 

93

Animated Stream Compression Demo 

Detta program demonstrerar kompression av bildrutor i videosekvenser animerat och startas med 

kommandot 

java –classpath dppog.jar –mx400M 

AnimatedStreamCompressionDemoApplet 

Animated Stream Compression Demo är byggd ovanpå Stream Compression Demo och fungerar 

likadant med undantaget att det finns möjlighet att köra videosekvensen som en animation. 

Figur 21. Animated Stream Compression Demo, demonstrerar kompression av bildrutor i 

videosekvenser animerat 

94

Mjukvarurealiserad bildtelefoni - Umeå universitet

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?