Î ÎÎÎ¥Î¤ÎÎ§ÎÎÎÎ Î£Î§ÎÎÎ Î ÎÎÎÎ ÎÎ£Î¤ÎÎÎÎÎ¥ Î ÎÎ¤Î¡Î©Î - Nemertes

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ 

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ 

ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ 

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ 

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ: 

‘ΤΡΙΣΔΙΑΣΤΑΤΗ ΑΝΑΚΑΤΑΣΚΕΥΗ ΧΩΡΟΥ 

ΑΠΟ ΕΝΑ ΜΙΚΡΟ ΑΡΙΘΜΟ ΦΩΤΟΓΡΑΦΙΩΝ’ 

Των προπτυχιακών φοιτητών του τμήματος: 

ΦΛΩΡΟΥ ΡΑΦΑΕΛΛΑΣ & ΧΑΤΟΥΠΗ ΣΤΑΥΡΟΥ 

Α.Μ.:5798 

Α.Μ.:5804 

ΕΠΙΒΛΕΠΩΝ: Α. ΚΑΘΗΓΗΤΗΣ Ε. ΔΕΡΜΑΤΑΣ 

ΑΡΙΘΜΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ: 

ΠΑΤΡΑ, ΟΚΤΩΒΡΗΣ 2011

` 

ΠΙΣΤΟΠΟΙΗΣΗ 

Πιστοποιείται ότι η διπλωματική εργασία με 

θέμα: 

‘ΤΡΙΣΔΙΑΣΤΑΤΗ ΑΝΑΚΑΤΑΣΚΕΥΗ ΧΩΡΟΥ 

ΑΠΟ ΕΝΑ ΜΙΚΡΟ ΑΡΙΘΜΟ ΦΩΤΟΓΡΑΦΙΩΝ’ 

Των φοιτητών του Τμήματος Ηλεκτρολόγων Μηχανικών και 

Τεχνολογίας Υπολογιστών Πάτρας: 

Φλώρου Ραφαέλλας (Α.Μ. 5798) & Χατούπη Σταύρου (Α.Μ. 5804) 

Παρουσιάστηκε δημόσια και εξετάσθηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών 

και Τεχνολογίας Υπολογιστών στις 

14/10/2011 

` 

Ο Επιβλέπων 

Ο Διευθυντής του Τομέα

Πρόλογος 

Πρόλογος 

Η παρούσα διπλωματική εργασία αναπτύχθηκε στα πλαίσια των προπτυχιακών 

σπουδών του τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών 

του Πανεπιστημίου Πατρών. Θέμα της είναι η τρισδιάστατη ανακατασκευή του 

χώρου από τουλάχιστον δύο φωτογραφίες του και αποτελεί μέρος του τομέα της 

Υπολογιστικής Όρασης. Συγκεκριμένα αναλύεται διεξοδικά η περίπτωση της 

στερεοσκοπικής όρασης, στην οποία η κάμερα μεταξύ δύο διαδοχικών λήψεων της 

ίδιας σκηνής, έχει μηδενική σχετική περιστροφή ως προς την αρχική της θέση και 

μικρή μετατόπιση, περίπου 5 εκατοστά. Με τον τρόπο αυτό, προσπαθούμε να 

προσομοιώσουμε τη λειτουργία της ανθρώπινης όρασης καθώς πολλές εφαρμογές της 

Τεχνητής Νοημοσύνης το κρίνουν απαραίτητο. 

Είναι λογικό ότι ο κάθε άνθρωπος θεωρεί τη στερεοσκοπική όραση 

αυτονόητη γιατί κινείται στον τρισδιάστατο κόσμο. Όταν αυτός όμως καταγράφεται 

από μία κάμερα, αυτόματα περνάει στο δισδιάστατο επίπεδο. Και πάλι είναι δυνατόν 

να εξάγουμε πληροφορίες βάθους από μία μόνο εικόνα, όμως γίνεται καθαρά 

εμπειρικά και βασίζεται στη σύγκριση διάφορων υφών, σχημάτων και μεγεθών. Ο 

ηλεκτρονικός υπολογιστής αναγνωρίζει την εικόνα σαν ένα οποιοδήποτε αρχείο. Δεν 

μπορεί να εξάγει κανένα συμπέρασμα για το τι απεικονίζει στον πραγματικό κόσμο. 

Χρειάζεται το συνδυασμό τουλάχιστον δύο εικόνων της ίδιας σκηνής από 

διαφορετικές θέσεις για να μπορέσει να αναγνωρίσει για παράδειγμα το βάθος της 

σκηνής που απεικονίζεται. 

Αυτή τη διαδικασία περιγράφει αναλυτικά η εργασία. Στο πρώτο κεφάλαιο 

εισάγουμε την έννοια και τη χρησιμότητα της στερεοσκοπικής όρασης. Στο δεύτερο 

κεφάλαιο παρουσιάζονται οι βασικές αρχές της προβολικής γεωμετρίας. Στο τρίτο 

κεφάλαιο αναφερόμαστε στη μοντελοποίηση της κάμερας και τις παραμέτρους που 

τη χαρακτηρίζουν. Στο τέταρτο κεφάλαιο αναλύεται η διαδικασία της βαθμονόμησης 

της κάμερας. Στο πέμπτο κεφάλαιο εξηγείται η διαδικασία αντιστοίχησης των 

σημείων ενδιαφέροντος στις δύο εικόνες. Στο έκτο κεφάλαιο αναλύονται οι βασικές 

αρχές της επιπολικής γεωμετρίας. Στο έβδομο κεφάλαιο παρουσιάζεται η 

πειραματική διαδικασία για την εύρεση του βάθους της σκηνής. Στο όγδοο κεφάλαιο 

παρουσιάζεται συνοπτικά η τρισδιάστατη ανακατασκευή του χώρου και 

παρουσιάζονται τα αντίστοιχα πειραματικά αποτελέσματα. Στο ένατο κεφάλαιο 

διατυπώνουμε τα συμπεράσματα της όλης διαδικασίας. 

Τόσο το θεωρητικό όσο και το πειραματικό μέρος αυτής της εργασίας 

καλύπτουν σε ένα μεγάλο ποσοστό τα βασικά στάδια ανακατασκευής του 

τρισδιάστατου χώρου. Τα αποτελέσματα της πειραματικής διαδικασίας αποδεικνύουν 

ότι οι υπάρχουσες μέθοδοι λειτουργούν ικανοποιητικά αλλά υπάρχουν πολλά 

περιθώρια βελτίωσης στο θέμα της Υπολογιστικής Όρασης. 

Στο σημείο αυτό να ευχαριστήσουμε τον επιβλέποντα καθηγητή μας κ. 

Δερματά για τη συνεργασία του και την κατανόησή του. 

i

Αbstract 

Abstract 

The current thesis has been written as part of the undergraduate studies for the 

department of Electrical and Computer Engineering of Patras University. Its objective 

is the three-dimensional (3D) reconstruction from two, at least, photographs, which is 

part of computer vision. More specifically, this thesis analyzes in detail the case of 

stereo vision when the camera, among two successive shots of the same image, has 

zero relative rotation compared to its initial position and an average translation of 

about 5 cm. In this way, it attempts to simulate human vision since this is essential for 

many Artificial Intelligence applications. 

Humans take stereo vision for granted since they live in a three-dimensional 

world. However, this world becomes two-dimensional when recorded by a camera. 

We can still get information about the image depth but this is empirically done based 

on comparing various heights, shapes and sizes. Images are identified by the 

computer as any other file. Computers cannot draw conclusions about what is 

depicted in the real world. They need to combine at least two images of the same 

scene and of different positions to identify the image’s depth. 

This process is described in the current thesis. The first chapter describes 

stereo vision and why it is so useful. The second chapter provides the basic principles 

of projective geometry, the mathematical background for passing from the twodimensional 

level to the three-dimensional. The third chapter refers to camera 

modeling and its parameters ( instrisic and extrinsic). Chapter four analyzes the 

camera calibration process. Chapter five explains the matching process of points of 

interest in both pictures. The sixth chapter provides the basic principles of epipolar 

geometry. The seventh chapter shows the experimental procedure that we followed in 

order to estimate the depth of the scene. Chapter eight shows how the 3D 

reconstruction is finally done. Chapter nine talks about our conclusions and how the 

results could improve. 

Both theoretical and experimental parts of this project cover the key points of 

3d reconstruction. The results of the experiments show that the existing methods are 

satisfying but could improve more. 

We want to thank our supervisor professor Mr. Dermatas for his collaboration 

and his understanding. 

ii

Στη μνήμη της γιαγιάς Ασπασίας 

iii

Περιεχόμενα 

Κεφάλαιο 1 : Εισαγωγή 

1.1 Πρόλογος ........................................................................................................ 1 

1.2 Παθητικές μέθοδοι ......................................................................................... 3 

1.2.1 Στερεοσκοπική Όραση ………………………………………………… 3 

1.2.2 Δομή από κίνηση ………………………………………………………. 4 

Κεφάλαιο 2: Προβολική Γεωμετρία ……….……...……………………….......... 5 

2.1 Εισαγωγή ......................................................................................................... 5 

2.2 Ομογενείς συντεταγμένες ............................................................................... 5 

2.3 Το προβολικό επίπεδο ..................................................................................... 6 

2.4 Ο προβολικός τρισδιάστατος χώρος ............................................................... 7 

2.5 Μετασχηματισμοί και διαστρωμάτωση της προβολικής γεωμετρίας ............. 8 

Κεφάλαιο 3: Μοντελοποίηση της κάμερας ………………………….…………. 12 

3.1 Το μοντέλο μικρής οπής για την κάμερα ........................................................ 12 

3.2 Οι εσωγενείς και εξωγενείς παράμετροι της κάμερας .................................... 15 

3.2.1 Οι εσωγενείς παράμετροι ..................................................................... 16 

3.2.1.1 Ορισμός εσωγενών παραμέτρων ................................................. 16 

3.2.1.2 Μη γραμμικές παραμορφώσεις ................................................... 19 

3.2.1.3 Αντιμετώπιση μη γραμμικών παραμορφώσεων .......................... 20 

3.2.2 Εξωγενείς παράμετροι .......................................................................... 22 

3.3 Αντιστοιχία του μαθηματικού υπόβαθρου με τα αποτελέσματα του Matlab .. 23 

3.3.1 Εσωγενείς παράμετροι ......................................................................... 23 

3.3.2 Εξωγενείς παράμετροι............................................................................ 25 

Κεφάλαιο 4: Βαθμονόμηση κάμερας- Εύρεση παραμέτρων ............................... 26 

4.1 Εισαγωγή ......................................................................................................... 26 

4.2 Μέθοδοι εύρεσης των παραμέτρων ................................................................ 26 

4.2.1 Μέθοδος Hall ………………………………………………………... 27 

4.2.2 Μέθοδος Zhang……………………………………………………… 30 

4.3 Πειραματική διαδικασία …………………………………………………….. 33 

4.3.1 Τεχνικά χαρακτηριστικά φωτογραφικής μηχανής …………………... 33 

4.3.2 Εφαρμογή μεθόδου Zhang και αποτελέσματα ……………….……… 33 

4.3.3 Strereo calibration ………………………………………...………..... 40 

4.3.4 Πώς οι παραμορφώσεις του φακού επηρεάζουν τις εσωγενείς παραμέτρους………………………………………………………………….. 

43 

Κεφάλαιο 5: Εντοπισμός γωνιών και αντιστοίχηση σημείων ενδιαφέροντος στις 

εικόνες ...................................................................................................................... 47 

5.1 Εισαγωγή ……………………………………………………………………. 47 

5.2 Κριτήρια επιλογής αλγορίθμου εντοπισμού γωνιών ………………………... 48 

5.3 Harris Corner Detector ……………………………………………………… 49 

5.4 Εφαρμογή του Harris corner detector ……………………………………….. 51 

5.5 Αντιστοίχιση των γωνιών στις φωτογραφίες ………………………………... 53 

Κεφάλαιο 6: Επιπολική Γεωμετρία ……………….…………………………….. 56 

6.1 Εισαγωγή ……………………………………………………………………. 56 

iv

6.2 Επιπολική Γεωμετρία ……………………………………………………….. 56 

6.2.1 Επίπολο ή επιπολικό σημείο, επιπολική γραμμή, επιπολικό επίπεδο ... 57 

6.2.2 Επιπολικός περιορισμός και τριγωνισμός (triangulation) ……………. 58 

6.3 Essential πίνακας και θεμελιώδης μήτρα …………………………………… 58 

6.4 Απλοποιημένες περιπτώσεις ………………………………………………... 59 

Κεφάλαιο 7: Υπολογισμός βάθους από στερεοσκοπικό ζεύγος ………………... 61 

7.1 Εισαγωγή ……………………………………………………………………. 61 

7.2 Μέθοδοι απόρριψης λανθασμένων αντιστοιχίσεων ………………………… 62 

7.2.1 RANSAC μέθοδοι …………………………………………………… 62 

7.3 Πλήρης αλγόριθμος υπολογισμού βάθους ………………………………….. 63 

7.4 Πειραματική διαδικασία και αποτελέσματα ………………………………… 65 

Κεφάλαιο 8: Τρισδιάστατη ανακατασκευή …………………………………….. 80 

8.1 Εισαγωγή …………………………………………………………………… 80 

8.2 Διόρθωση εικόνων …………………………………………………………. 80 

8.3 Disparity Map (Χάρτης βάθους) …………………………………………… 81 

8.4 Τρισδιάστατη ανακατασκευή ( 3D reconstruction) ………………………… 81 

8.5 Πειραματική διαδικασία ……………………………………………………. 82 

8.5.1 Διόρθωση εικόνων ………………………………………..…………. 82 

8.5.2 Disparity Maps ………………………………………………………. 85 

8.5.3 Τρισδιάστατη ανακατασκευή ……………………………………….. 87 

8.6 Εφαρμογή του αλγορίθμου για σκηνές μεγαλύτερου βάθους .……………… 90 

Κεφάλαιο 9: Συμπεράσματα ……………………………………………………... 96 

Βιβλιογραφία ……………………………………………………………………… 98 

Παράρτημα- Υλοποίηση Matlab ……..………………………………………… 100 

v

Κεφάλαιο 1: Εισαγωγή 


1.1 Πρόλογος 

Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η τρισδιάστατη ανακατασκευή 

ενός αντικειμένου ή ενός χώρου, χρησιμοποιώντας δύο φωτογραφίες του ( stereo vision) και 

αποτελεί εξειδίκευση του πεδίου της Υπολογιστικής Όρασης ( Computer vision). To computer 

vision είναι ο κλάδος της τεχνητής νοημοσύνης που προσπαθεί να προσομοιώσει την ανθρώπινη 

όραση. Στόχος είναι να παράσχει στον υπολογιστή όλες τις λειτουργίες που χαρακτηρίζουν την 

ανθρώπινη όραση. Ο συγκεκριμένος κλάδος έχει μεγάλη άνθιση τα τελευταία χρόνια λόγω των 

πολλών εφαρμογών, όπου η γνώση της τρισδιάστατης δομής ενός αντικειμένου ή ενός χώρου 

κρίνεται απαραίτητη. 

Μερικές μόνο από τις εφαρμογές ( σχήμα 1.1) που προϋποθέτουν γνώση του computer 

vision είναι οι ακόλουθες : 

Έλεγχος διαδικασιών (πχ. βιομηχανικά ρομπότ) 

Πλοήγηση (πχ. κινούμενα ρομπότ, αυτόνομα οχήματα) 

Μοντελοποίηση αντικειμένων ή χώρων τόσο σε ιατρικές όσο και μηχανικές εφαρμογές (πχ. 

3D επεικόνιση εμβρύου, μοντελοποίηση τοπογραφικών) 

Αυτόματος έλεγχος (πχ. σε βιομηχανικές εφαρμογές) 

Ανίχνευση συμβάντων (πχ. καταμέτρηση αυτοκινήτων ή οπτική παρακολούθηση γεγονότων) 

Σχήμα 1.1: Παραδείγματα εφαρμογών του computer vision 

(a-b) Επιθεώρηση μηχανών (c) Λιανική (d) Ιατρική επεικόνιση (e) Αυτοκινητιστική ασφάλεια (f) Επίβλεψη και 

ασφάλεια αυτοκινητόδρομων 

1


Η ραγδαία εξέλιξη των ηλεκτρονικών υπολογιστών συνέβαλε στην επίτευξη του στόχου για 

ακριβή και ποιοτική αναπαράσταση αντικειμένων. Είναι δυνατό πλέον, μέσω κατάλληλων 

αλγορίθμων (σχήμα 1.2), να απεικονιστούν σύνθετες τρισδιάστατες σκηνές σε πραγματικό χρόνο, 

το οποίο κάποια χρόνια πριν ήταν ανέφικτο , καθώς επίσης και η επεξεργασία ψηφιακών εικόνων 

πολύ υψηλής ανάλυσης, που συνεπάγεται μεγάλο όγκο δεδομένων. Αυτή η εξέλιξη προκαλεί μια 

σημαντική αξίωση για πιο σύνθετα και ρεαλιστικά μοντέλα. Το πρόβλημα είναι ότι ακόμα κι αν τα 

εργαλεία που είναι διαθέσιμα γίνονται περισσότερο ισχυρά, η σύνθεση των ρεαλιστικών 

τρισδιάστατων μοντέλων είναι δύσκολη και χρονοβόρα, με αποτέλεσμα να είναι και δαπανηρή. 

Σχήμα 1.2: Μερικά παραδείγματα από αλγορίθμους του computer vision και πρακτικές εφαρμογές τους 

(a) Αλγόριθμοι Δομής από Κίνηση μπορούν να ανακατασκευάσουν ένα τρισδιάστατο μοντέλο μιας πολύπλοκης 

σκηνής, από μεγάλο πλήθος επικαλυπτόμενων φωτογραφιών. (b) Λεπτομερές 3D μοντέλο που έχει 

ανακατασκευαστεί με χρήση αλγορίθμων αντιστοίχισης από ένα πλήθος φωτογραφιών. (c) Αλγόριθμος 

εντοπισμού ανθρώπων που περνάνε μπροστά από κάποιο background. (d) Αλγόριθμος ανίχνευσης προσώπων 

και μαλλιών, συνδυασμένος με τα χρώματα και τις υφές των ρούχων, βρίσκει πόσα άτομα υπάρχουν στην εικόνα. 

Για όλα αυτά, έχει καταβληθεί μεγάλη ερευνητική προσπάθεια στον τομέα της 

τρισδιάστατης ανακατασκευής του χώρου. Διάφορες μέθοδοι έχουν αναπτυχθεί οι οποίες 

χωρίζονται σε ενεργές και παθητικές μεθόδους. Οι ενεργές, για παράδειγμα, περιλαμβάνουν τη 

χρήση συσκευών (πχ. laser πομπός υπερήχων, φωτεινές πηγές) οι οποίες αποστέλλουν μια δέσμη 

ενέργειας στο αντικείμενο- στόχο και με βάση την ποσότητα και την επεξεργασία της 

επιστρεφόμενης ενέργειας, υπολογίζουν σε ποια απόσταση βρίσκεται. Οι παθητικές μέθοδοι 

αντιθέτως, χρησιμοποιούν συσκευές καταγραφής (πχ. μια κάμερα). Εμείς θα ασχοληθούμε με την 

παθητική μέθοδο της 'δομής από κίνηση' ( structure from motion) και συγκεκριμένα με μια πιο 

εξειδικευμένη μέθοδο αυτής της κατηγορίας, τη στερεοσκοπική όραση. 

2


1.2 Παθητικές Μέθοδοι 

Αυτό που επιδιώκουμε μέσω των παθητικών μεθόδων είναι να πάρουμε μέσα από την 

εικόνα γεωμετρικές πληροφορίες, όπως είναι το βάθος. Έχοντας ως δεδομένες εικόνες του 

αντικειμένου, από διαφορετικές σκοπιές, μας παρέχεται αρκετή γνώση για την τρισδιάστατη 

αναπαράσταση του. Αν μας παρέχεται εκ των προτέρων κάποια πληροφορία για την σκηνή τότε 

είμαστε σε θέση να βγάλουμε βάθος ακόμα και από μία μόνο φωτογραφία (αυτό δεν θα μας 

απασχολήσει εδώ). Δεδομένα που μπορεί γενικά να μας αποκαλύπτουν στοιχεία σχετικά με το 

βάθος και την απόσταση των αντικείμενων που απεικονίζονται είναι η υφή, οι ακμές, η σκίαση, οι 

μεταβολές του φωτισμού κλπ. 

Ανάλογα με τα στοιχεία των εικόνων που αποφασίζουμε να χρησιμοποιήσουμε για την 

εξαγωγή της επιθυμητής πληροφορίας, οι κύριες παθητικές μέθοδοι εύρεσης απόστασης μπορούν 

να υπαχθούν στις εξής κατηγορίες: 

 

 

 

 

 

 

Στερεοσκοπική Όραση (Stereo Vision), 

Δομή από Κίνηση (Structure from Motion), 

Σχήμα από Σκίαση (Shape from Shading), 

Βάθος από Εστίαση (Range from Focus), 

Βάθος από Μη Εστίαση (Depth from Defocus), 

Σχήμα από Υφή (Shape from Texture). 

Στην παρούσα εργασία θα ασχοληθούμε κατά βάση με την στερεοσκοπική όραση, η οποία 

αποτελεί ουσιαστικά μια εξειδίκευση της δομής από κίνηση. Στη συνέχεια αναφερόμαστε στις δύο 

αυτές μεθόδους που είναι εξάλλου και οι πιο ισχυρές. 

1.2.1 Στερεοσκοπική όραση 

Ένα στερεοσκοπικό ζεύγος εικόνων προκύπτει από δυο κάμερες οι οποίες έχουν 

προκαθορισμένη σχετική θέση, και συγκεκριμένα, η δεύτερη κάμερα έχει μετακινηθεί σε σχέση με 

την πρώτη μόνο κατά μια πλευρική μετατόπιση. Η διάταξη αυτή των καμερών, προσομοιώνει 

ουσιαστικά την διάταξη στην οποία είναι τοποθετημένα τα μάτια στον άνθρωπο. Αυτή η τεχνική 

έχει βασιστεί στην ικανότητα του ανθρώπου να αντιλαμβάνεται τα τρισδιάστατα χαρακτηριστικά 

του περιβάλλοντος. Όπως προαναφέρθηκε, μερικές μόνο από τις πληροφορίες που χρησιμοποιεί ο 

ανθρώπινος εγκέφαλος για την εκτίμηση της απόστασης αντικειμένων είναι η υφή, οι ακμές, η 

προοπτική της σκηνής, η απόκρυψη αντικειμένων, οι μεταβολές φωτεινότητας, οι σκιές, αλλά και 

οι διαφορές που παρουσιάζονται στις δύο εικόνες του ανθρώπινου στερεοσκοπικού ζεύγους που 

προκύπτουν ξεχωριστά από το κάθε μάτι. 

Η χρήση του τελευταίου είναι καταλυτικής σημασίας στην Στερεοσκοπική Όραση. 

Αναγνωρίζοντας προβολές του ίδιου σημείου στις δύο εικόνες και παίρνοντας την ‘διαφορά’ που 

προκύπτει από την θέση στην πρώτη εικόνα και την αντίστοιχη θέση στην δεύτερη έχουμε ένα 

στοιχείο που αποδίδει το βάθος. Η διαφορά της θέσης των αναγνωρισμένων σημείων της σκηνής 

στις εικόνες, υπάρχει λόγω της διαφορετικής θέσης που έχουν οι κάμερες στον χώρο. Η 

στερεοσκοπική όραση είναι μία πολύ ισχυρή τεχνική λόγω κυρίως της απαίτησης να υπάρχει 

συγκεκριμένη διάταξη των δύο καμερών. Η μέθοδος αυτή υστερεί στο στάδιο της αντιστοίχισης 

των χαρακτηριστικών σημείων στις δύο εικόνες που είναι οι προβολές του ίδιου σημείου της 

σκηνής. 

3


1.2.2 Δομή από Κίνηση 

Όπως προαναφέρθηκε, η τεχνική της δομής από κίνηση είναι μία γενίκευση της 

Στερεοσκοπικής Όρασης. Εδώ χρησιμοποιούνται δυο τουλάχιστον κάμερες, ή μια κάμερα η οποία 

κινείται ελεύθερα στο χώρο και καταγράφει στοιχεία της σκηνής, οπότε προκύπτουν τυχαίες 

σχετικές θέσεις της κάμερας για κάθε εικόνα. Και πάλι, το στοιχείο που θα μας δώσει την λύση 

είναι η μεταβολή στις θέσεις στις οποίες προβάλλονται κάποια αναγνωρισμένα χαρακτηριστικά 

σημεία ενδιαφέροντος της σκηνής. Η Δομή από Κίνηση είναι μία τεχνική που έχει πολλά 

πλεονεκτήματα, σε σχέση με την στερεοσκοπική όραση, επειδή είναι πιο γενική περίπτωση και δε 

χρειάζεται συγκεκριμένη διάταξη στις κάμερες. Όμως αντιμετωπίζει και αυτή το ίδιο πρόβλημα στο 

στάδιο της αντιστοίχισης. 

4

Κεφάλαιο 2: Προβολική Γεωμετρία 


2.1 Εισαγωγή 

Στο κεφάλαιο που ακολουθεί θα προσπαθήσουμε να παρουσιάσουμε, σε έναν ικανοποιητικό 

βαθμό, τα βασικότερα σημεία της προβολικής γεωμετρίας, πάνω στην οποία στηριζόμαστε για την 

πραγματοποίηση της συγκεκριμένης εργασίας. Ο άνθρωπος κινείται, δραστηριοποιείται και γενικά 

αποτελεί μέρος ενός τρισδιάστατου κόσμου, ο οποίος περιγράφεται με μεγάλη ακρίβεια από την 

Ευκλείδεια γεωμετρία. Σύμφωνα με αυτή τη γεωμετρία, δύο ευθείες που βρίσκονται στο ίδιο 

επίπεδο και δεν τέμνονται είναι παράλληλες, γωνίες που τέμνονται καθορίζουν τις μεταξύ τους 

γωνίες και οι πλευρές των αντικειμένων έχουν συγκεκριμένα μήκη. Επιπλέον, αυτές οι αρχές δεν 

αλλάζουν όταν εφαρμόζονται ευκλείδειοι μετασχηματισμοί (μετατόπιση και περιστροφή). 

Από την στιγμή λοιπόν που ο κόσμος μας περιγράφεται τόσο καλά από την ευκλείδεια 

γεωμετρία θα ήταν λογικό να πιστεύαμε ότι είναι και η μοναδική γεωμετρία. Παρόλα αυτά, στα 

πλαίσια της εργασίας μας και της επεξεργασίας εικόνων, η ευκλείδεια γεωμετρία δεν είναι 

αποτελεσματική, από τη στιγμή που γνωστά μήκη και γωνίες δεν διατηρούνται και παράλληλες 

γραμμές μπορεί να τέμνονται. Θεωρώντας όμως τον Ευκλείδειο χώρο σαν έναν υποχώρο του 

προβολικού και χρησιμοποιώντας τα θεωρήματα της προβολικής γεωμετρίας τότε προβλήματα 

όπως, η μη γραμμικότητα των εξισώσεων με χρήση των ευκλείδειων συντεταγμένων, αντιμετωπίζονται, 

αφού τα συστήματα που προκύπτουν είναι γραμμικά. Επίσης, θετικό στοιχείο είναι και το 

γεγονός ότι από μαθηματικής απόψεως η προβολική γεωμετρία είναι απλούστερη της ευκλείδειας, 

ούσα γενικότερη. 

Τέλος, σε θεωρητικό επίπεδο, η προβολική γεωμετρία υπερέχει της ευκλείδειας στην 

επεξεργασία εικόνων διότι επιτρέπει έναν μεγαλύτερο αριθμό μετασχηματισμών, πέραν της 

μετατόπισης και της περιστροφής, συμπεριλαμβανομένης της προοπτικής προβολής από τον 

τρισδιάστατο στον δισδιάστατο προβολικό χώρο. Καταλήγουμε, λοιπόν, στο συμπέρασμα πως 

μέσω της προβολικής γεωμετρίας θα καταφέρουμε να μοντελοποιήσουμε την λειτουργία της 

κάμερας και να αναπτύξουμε το οικοδόμημα της τρισδιάστατης όρασης. 

2.2 Ομογενείς συντεταγμένες 

Έστω ότι έχουμε ένα σημείο (x, y) στο ευκλείδειο επίπεδο. Για να περιγράψουμε το ίδιο σημείο 

στο προβολικό επίπεδο αρκεί να προσθέσουμε μία τρίτη συντεταγμένη, μη μηδενική, έστω (x, 

y, 1). Η τελευταία συντεταγμένη μπορεί να πάρει οποιαδήποτε τιμή εκτός του μηδενός, άρα έχουμε 

το σημείο (x, y, w) με w≠0. Παρατηρούμε λοιπόν, ότι μπορούμε πολύ εύκολα να περάσουμε από 

την αναπαράσταση του ενός επιπέδου στην άλλη. 

Ένας ορισμός της προβολικής γεωμετρίας είναι ότι δύο σημεία του n-διάστατου προβολικού 

χώρου , P n , που περιγράφονται από τα διανύσματα n+1 συντεταγμένων 

x = [x 1 , x 2, …, x n+1 ] και y = [y 1 , y 2 ,…, y n+1 ] 

ταυτίζονται αν και μόνο αν υπάρχει σταθερά k ≠ 0, ώστε να ισχύει 

x i = ky i , για κάθε 1≤ i ≤ n+1. 

Επομένως προκύπτει πως κάθε σημείο περιγράφεται από άπειρα διανύσματα συντεταγμένων, τα 

οποία διαφέρουν μεταξύ τους κατά μία πολλαπλασιαστική σταθερά k και ονομάζονται ομογενείς 

συντεταγμένες του σημείου. Έτσι για παράδειγμα, στον Ρ 2 έχουμε ότι το (x, y, 1) και το (kx, ky, k), 

με k ≠ 0, είναι ομογενείς συντεταγμένες του ίδιου σημείου. Από ένα σημείο του προβολικού 

5


επιπέδου (kx, ky, k) μπορούμε να ανακτήσουμε τις ευκλείδειες συντεταγμένες του αν διαιρέσουμε 

με το k και αφαιρέσουμε την τελευταία συντεταγμένη 1, για να προκύψει (x, y). Από την παραπάνω 

πρόταση γίνεται αντιληπτό πως δεν υπάρχει σημείο του ευκλείδειου χώρου που να μπορεί να 

παρασταθεί στο προβολικό επίπεδο από τις συντεταγμένες (x, y, 0). Αν ωστόσο προσπαθήσουμε να 

διαιρέσουμε με την τελευταία συντεταγμένη προκύπτει το σημείο (x/0, y/0) που είναι το άπειρο. 

Όλα τα σημεία με μηδενική την τελευταία από τις ομογενείς συντεταγμένες λέγονται σημεία στο 

άπειρο. Φυσικά, όλα όσα είπαμε παραπάνω μπορούν να γενικευτούν για οποιαδήποτε n διάσταση. 

Τα σημεία στο άπειρο στον P 2 διαμορφώνουν μια γραμμή, την οποία ονομάζουμε γραμμή στο 

άπειρο. Αντίστοιχα στις τρεις διαστάσεις διαμορφώνουν ένα επίπεδο, το οποίο καλούμε επίπεδο στο 

άπειρο. 

Στα προβλήματα υπολογιστικής όρασης, ο προβολικός χώρος τριών διαστάσεων, Ρ 3 χρησιμοποιείται 

ως ο καταλληλότερος τρόπος αναπαράστασης του πραγματικού τρισδιάστατου κόσμου και 

αντίστοιχα οι εικόνες αντιπροσωπεύονται ιδανικά από το προβολικό επίπεδο, Ρ 2 , το οποίο θα 

αναλύσουμε στην επόμενη παράγραφο. 

2.3 Το προβολικό επίπεδο 

Ένα σημείο του προβολικού επιπέδου ή προβολικού χώρου δύο διαστάσεων περιγράφεται 

από ένα διάνυσμα συντεταγμένων [x 1 , x 2 , x 3 ] T , όπου τουλάχιστον μία από τις τρεις συντεταγμένες 

είναι διάφορη του μηδενός. Όπως είπαμε και στην προηγούμενη παράγραφο εάν x 3 ≠ 0, τότε το 

σημείο υπάρχει και στο ευκλείδειο επίπεδο και έχει συντεταγμένες (x 1 /x 3 , x 2 /x 3 ). 

Μία ευθεία μπορεί να περιγραφεί στο προβολικό επίπεδο με την εξής σχέση: 

Ax 1 + Bx 2 + Cx 3 = 0 ή αλλιώς u T p = p T u, 

όπου u = [A, B, C] και p = [x 1 , x 2 , x 3 ]. Παρατηρούμε πως στο προβολικό επίπεδο μία ευθεία όπως 

η u = [A, B, C] και ένα σημείο όπως το p = [x 1 , x 2 , x 3 ] δεν έχουν κάποια τυπική διαφορά, αφού και 

τα δύο περιγράφονται με ένα διάνυσμα τριών συντεταγμένων. Το φαινόμενο αυτό λέγεται ‘αρχή 

της δυικότητας’ ( principal of duality), είναι ένα από τα σημαντικότερα χαρακτηριστικά της 

προβολικής γεωμετρίας και ισχύει και για προβολικούς χώρους περισσοτέρων διαστάσεων. 

Τα σημεία στο άπειρο ή αλλιώς ιδεατά σημεία που παρουσιάστηκαν στην προηγούμενη 

παράγραφο, δεν έχουν κάποια ιδιαίτερη μεταχείριση στο προβολικό επίπεδο, αφού έχουν συντεταγμενες 

και μπορούν να χρησιμοποιηθούν σε υπολογισμούς όπως τα υπόλοιπα σημεία. Ο μετασχηματισμός 

συντεταγμένων στο προβολικό επίπεδο είναι ο πολλαπλασιασμός των ομογενών 

συντεταγμένων ενός σημείου , με έναν μη μοναδιαίο, αντιστρέψιμο, 3x3 πίνακα Τ, όπως φαίνεται 

και από την παρακάτω σχέση: . Για c ≠ 0 ο πίνακας cT περιγράφει τον ίδιο μετασχηματισμό 

με τον Τ. Επομένως ο Τ περιέχει 8 ανεξάρτητες μεταβλητές και για να οριστεί ένας 

μετασχηματισμός απαιτούνται 4 αντιστοιχίες σημείων (δεδομένου ότι είμαστε σε θέση να εξάγουμε 

2 περιορισμούς από κάθε ζεύγος σημείων , ). 

Κατά τον προβολικό μετασχηματισμό δεν διατηρούνται ούτε οι αποστάσεις, ούτε οι λόγοι 

των αποστάσεων. Παρόλα αυτά ένα σημαντικό στοιχείο που διατηρείται και μπορεί να 

χρησιμοποιηθεί σαν εργαλείο είναι ο λόγος των λόγων των αποστάσεων ή όπως κοινώς ονομάζεται 

το cross ratio. Για να αντιληφθούμε καλύτερα τον όρο ας υποθέσουμε πως έχουμε τέσσερα 

συνευθειακά σημεία και κανένα δεν συμπίπτει με τα σημεία και , τότε i 

= +λ . Ως cross ratio ορίζεται: 

(2.1) 

6


όπου D ij είναι η ευκλείδεια απόσταση μεταξύ των σημείων i j . Με βάση την αρχή της 

δυικότητας το cross ratio μπορεί να οριστεί και για τέσσερις ευθείες τεμνόμενες στο ίδιο σημείο. 

Στην περίπτωση αυτή στον παραπάνω ορισμό χρησιμοποιούμε τους λόγους των ημιτόνων των 

γωνιών που σχηματίζονται μεταξύ τους. 

Στο προβολικό επίπεδο, όπως και στο ευκλείδειο, έχουμε κωνικές τομές. Η διαφορά είναι 

πως στο προβολικό επίπεδο όλες οι κωνικές τομές (κύκλοι, ελλ είψεις, παραβολές και υπερβολές) 

είναι ισοδύναμες, δηλαδή είναι δυνατόν μια οποιαδήποτε κωνική τομή να μετατραπεί σε μία άλλη. 

Ο γενικός όρος που χρησιμοποιείται για να τις περιγράψει όλες είναι ο conics. Ένα conic, στην 

προβολική γεωμετρία, ορίζεται ως ο γεωμετρικός τόπος των σημείων με σταθερό cross ratio ως 

προς 4 σταθερά σημεία, εκ των οποίων τα 3 δεν μπορούν να είναι συνευθειακά και δίνεται από την 

εξίσωση : 

, όπου C είναι ένας συμμετρικός πίνακας 3x3 και ορίζεται ως προς μία 

πολλαπλασιαστική σταθερά. 

Άλλα στοιχεία τα οποία διατηρούνται κατά τον προβολικό μετασχηματισμό (πέραν του cross ratio, 

του οποίου και είδαμε τη χρησιμότητα) είναι η συγγραμικότητα, η επαφή (tangency) και η σύμπτωση 

(incidence). 

2.4 Ο προβολικός τρισδιάστατος χώρος 

Στα πλαίσια της εργασίας μας, η μελέτη του τρισδιάστατου προβολικού χώρου είναι εξίσου 

σημαντική με αυτήν του προβολικού επιπέδου. Και πως θα μπορούσε να είναι διαφορετικά, από τη 

στιγμή που ο ευκλείδειος χώρος στον οποίο υπάρχουμε είναι υποχώρος του προβολικού χώρου 

τριών διαστάσεων. 

Οι έννοιες που χαρακτηρίζουν το προβολικό επίπεδο, όπως είναι λογικό, επεκτείνονται και 

στον τρισδιάστατο προβολικό χώρο. Έτσι ένα σημείο του προβολικού τρισδιάστατου χώρου 

περιγρά-φεται από ένα διάνυσμα συντεταγμένων [x 1 , x 2 , x 3 , x 4 ] T , όπου τουλάχιστον μία από τις 

τέσσερις συντεταγμένες είναι διάφορη του μηδενός, και αν αυτό το διάνυσμα πολλαπλασιαστεί με 

οποιαδή-ποτε σταθερά περιγράφει το ίδιο σημείο. Ομοίως με το προβολικό επίπεδο, ένα σημείο 

του ευκλείδειου χώρου [x 1 , x 2 , x 3 ] T μπορεί να παρασταθεί στον προβολικό τρισδιάστατο χώρο με 

τις ομογενείς συντεταγμένες ( x 1 , x 2 , x 3 , 1), ενώ αντίστροφα, ένα σημείο του προβολικού 

τρισδιάστατου χώρου (x 1 , x 2 , x 3 , x 4 ), με x 4 ≠ 0, μπορεί να παρασταθεί στον ευκλείδειο χώρο με το 

σημείο (x 1 /x 4 , x 2 /x 4 , x 3 /x 4 ). Η αρχή της δυικότητας βρίσκει εφαρμογή, στον προβολικό τρισδιάστατο 

χώρο, μέσω της εξίσωσης: 

όπου το επίπεδο με διάνυσμα συντεταγμένων είναι ισοδύναμο με το σημείο 

του προβολικού τρισδιάστατου χώρου x = [x 1 , x 2 , x 3 , x 4 ] T , όπως ακριβώς ισχύει στο προβολικό 

επίπεδο με τη γραμμή και το σημείο. Για οποιαδήποτε σταθερά k το διάνυσμα ku περιγράφει το 

ίδιο επίπεδο. 

Κατ’ αντιστοιχία των γραμμών στο άπειρο, στον προβολικό τρισδιάστατο χώρο, έχουμε τα 

επίπεδα στο άπειρο, τα οποία αποτελούνται από σημεία που έχουν μηδενική την 4 η συντεταγμένη 

και κατ’ επέκταση δεν αναπαρίστανται στον ευκλείδειο χώρο. Πάνω στο επίπεδο αυτό τέμνονται τα 

επίπεδα και οι ευθείες εκείνες οι οποίες θεωρούνται παράλληλες στον ευκλείδειο χώρο. 

Ο μετασχηματισμός συντεταγμένων του προβολικού τρισδιάστατου χώρου περιγράφεται 

από αντιστρέψιμους πίνακες 4x4, οι οποίοι είναι ορισμένοι ως προς μία πολλαπλασιαστική 

σταθερά. Κατά τους μετασχηματισμούς παραμένει αμετάβλητο το cross ratio επιπέδων, το οποίο 

στην περίπτωση 4 επιπέδων που τέμνονται στην ίδια ευθεία, ορίζεται ως το cross ratio των 4 

σημείων τομής τους με μία τυχαία ευθεία. 

Τέλος, στον προβολικό τρισδιάστατο χώρο οι γεωμετρικές μορφές της τρίτης τάξης 

ονομάζονται quadrics και περιγράφονται με συμμετρικούς πίνακες 4x4, οι οποίοι είναι ορισμένοι 

ως προς μια πολλαπλασιαστική σταθερά. 

7


2.5 Μετασχηματισμοί και διαστρωμάτωση της προβολικής γεωμετρίας 

Όπως είπαμε και στην αρχή του κεφαλαίου θεωρούμε πως η Ευκλείδεια γεωμετρία είναι 

ένας υποχώρος της προβολικής γεωμετρίας. Για την ακρίβεια, ανάμεσά τους μεσολαβούν δύο 

ακόμα γεωμετρίες, η μετρική (similarity) και η affine. Άρα, μπορούμε να ορίσουμε τη 

διαστρωμάτωση ( stratification) της προβολικής γεωμετρίας, από τον απλούστερο προς τον πιο 

δομημένο χώρο ως εξής: προβολική ⊃ affine ⊃ μετρική ⊃ ευκλείδεια. Κάθε επίπεδο (stratum), 

όπως προείπαμε, είναι πιο δομημένο από το προηγούμενο και κατά συνέπεια μας παρέχει 

περισσότερες πληροφορίες. Κάθε χώρος δηλαδή, είναι μια γενικότερη περίπτωση των υποχώρων 

του. 

Στον ορισμό αυτής της διαστρωμάτωσης σημαντικό ρόλο παίζει η ομάδα μετασχηματισμών 

κάθε χώρου. Πιο συγκεκριμένα, με τον προβολικό χώρο σχετίζεται η ομάδα προβολικών 

μετασχηματισμών, με τον affine χώρο, η ομάδα affine μετασχηματισμών, με τον μετρικό χώρο η 

ομάδα μετασχηματισμών ομοιότητας και με τον ευκλείδειο χώρο η ομάδα ευκλείδειων 

μετασχηματισμών. Όπως είναι λογικό και οι ομάδες μετασχηματισμών ακολουθούν την ίδια 

διαστρωμάτωση. 

Για κάθε χώρο υπάρχουν κάποιες ιδιότητες οι οποίες παραμένουν αναλλοίωτες από την 

ομάδα μετασχηματισμών. Αυτές οι ιδιότητες ονομάζονται invariants, στη διεθνή βιβλιογραφία και 

είναι αυτές που χαρακτηρίζουν κάθε χώρο. Όσο περισσότερες είναι οι invariants που παραμένουν 

αναλλοίωτες από τον μετασχηματισμό, τόσο πιο δομημένος είναι ο χώρος, και άρα μας παρέχει 

περισσότερες πληροφορίες. 

Στη συνέχεια θα αναφερθούμε ξεχωριστά σε κάθε υποχώρο ή επίπεδο (stratum), όπως συνηθίζεται 

να λέγεται και συγκεκριμένα στο χώρο των τριών διαστάσεων, ο οποίος μας ενδιαφέρει 

στη συγκεκριμένη εργασία. 

Α) Προβολικό επίπεδο (stratum) 

Στον προβολικό χώρο έχουμε ήδη αναφερθεί αναλυτικά σε αυτό το κεφάλαιο. Είναι ο 

γενικότερος από όλους και κατά συνέπεια ο λιγότερο δομημένος. Ο προβολικός μετασχηματισμός 

είναι ένας αντιστρέψιμος 4x4 πίνακας, ο οποίος είναι ορισμένος ως προς μια πολλαπλασιαστική 

σταθερά. Έχει 15 βαθμούς ελευθερίας και όπως είπαμε οι μόνες ιδιότητες που παραμένουν 

αναλλοίωτες είναι το cross ratio, η συγγραμικότητα, η επαφή (tangency) και η σύμπτωση 

(incidence). Αντιθέτως το μήκος (length), η γωνία (angle), ο λόγος των μηκών (ratio of lengths) και 

η παραλληλία ευθειών και επιπέδων (parallelism) δεν διατηρούνται με αποτέλεσμα να μην έχουμε 

αρκετά δεδομένα για τη δομή του προβολικού χώρου. 

Β) Affine επίπεδο (stratum) 

Το επόμενο επίπεδο είναι το affine. Είναι περισσότερο δομημένο από το προβολικό και 

διατηρεί δύο παραπάνω ιδιότητες αναλλοίωτες σε σχέση με αυτό. Η μία ιδιότητα είναι η 

παραλληλία ευθειών και επιπέδων και η άλλη είναι ο λόγος των μηκών των ευθύγραμμων 

τμημάτων που βρίσκονται πάνω σε παράλληλες ευθείες. Ο affine μετασχηματισμός καταφέρνει να 

διατηρήσει την παραλληλία, αφού μετασχηματίζει όλα τα σημεία του επιπέδου στο άπειρο σε 

8


σημεία του ίδιου επιπέδου. Έτσι η γενική μορφή του affine μετασχηματισμού δίνεται από τον 

πίνακα: 

Ο πίνακας αυτός έχει 12 βαθμούς ελευθερίας και είναι ορισμένος ως προς μια πολλαπλασιαστική 

σταθερά. Ο μετασχηματισμός αυτός επιφέρει μετατόπιση ( translation), περιστροφή ( rotation), 

κλιμάκωση (scaling) και στρέβλωση (shearing) των αξόνων. Οι invariants που δεν διατηρούνται 

είναι το μήκος, η γωνία, ο λόγος των μηκών, η θέση και ο προσανατολισμός. 

Γ) Μετρικό επίπεδο (stratum) 

Το μετρικό επίπεδο σχετίζεται με την ομάδα μετασχηματισμών ομοιότητας. Οι 

μετασχηματισμοί αυτοί επιφέρουν μετατόπιση, περιστροφή και κλιμάκωση. Μπορούν να 

εκφραστούν ως , όπου R πίνακας περιστροφής, t διάνυσμα μετατόπισης και s 

οποιοσδήποτε συντελεστής κλιμάκωσης (μεγέθυνσης/σμίκρυνσης ). Από την εξίσωση αυτή δεν 

επηρεάζονται οι γωνίες και οι λόγοι των μηκών αλλά αλλάζουν η θέση, ο προσανατολισμός και το 

μήκος. Ο μετασχηματισμός, χρησιμοποιώντας ομογενείς συντεταγμένες, δίνεται από τον πίνακα: 

Είναι και αυτός ορισμένος ως προς μια πολλαπλασιαστική σταθερά. Ο Τ Μ έχει 7 βαθμούς 

ελευθερίας. Το συγκεκριμένο επίπεδο είναι και το πιο σημαντικό στα πλαίσια αυτής της εργασίας 

λόγω της ‘αρχής της αβεβαιότητας’. Από τη στιγμή που δεν είμαστε σε θέση να γνωρίζουμε αν οι 

εικόνες που εξετάζουμε απεικονίζουν ένα μεγάλο αντικείμενο σε μεγάλη απόσταση ή ένα μικρό 

αντικείμενο σε μικρή απόσταση, το μετρικό επίπεδο είναι το υψηλότερο επίπεδο αναπαράστασης 

που μπορούμε να έχουμε. 

Δ) Ευκλείδειο επίπεδο (stratum) 

Το ευκλείδειο επίπεδο είναι το πιο δομημένο από όλα και κατ’ επέκταση αυτό που μας δίνει 

τις περισσότερες πληροφορίες. Ο ευκλείδειος μετασχηματισμός επιφέρει μία μετατόπιση και μία 

περιστροφή και μπορεί να παρασταθεί με την εξίσωση , 

όπου R ο πίνακας περιστροφής 

και t διάνυσμα μετατόπισης. Ο μετασχηματισμός αυτός δεν επηρεάζει καμία invariant, παρά 

μόνο τη θέση και τον προσανατολισμό. Ο πίνακας για τους μετασχηματισμούς αυτούς είναι ο εξής: 

9


και έχει 6 βαθμούς ελευθερίας (3 για τη μετατόπιση και 3 για την περιστροφή). Παρακάτω δίνεται 

ένας πίνακας πού δίνει συγκεντρωτικά τους μετασχηματισμούς που επιτρέπονται σε κάθε stratum 

και τις ιδιότητες που παραμένουν αναλλοίωτες κατά την πραγματοποίηση αυτών των μετασχηματισμών: 

Σχήμα 2.1: επιτρεπόμενοι μετασχηματισμοί και invariants για κάθε επίπεδο (stratum). 

Η φυσική σημασία των διαφορετικών επιπέδων αναπαράστασης μπορεί να γίνει κατανοητή από το 

σχήμα 2.2. Στο σχήμα αυτό όλες οι δομές που εμφανίζονται είναι ισοδύναμες με έναν κύβο, για το 

καθένα επίπεδο. 

10


Σχήμα 2.2: Αναπαραστάσεις ενός κύβου στα διάφορα επίπεδα 

11

Κεφάλαιο 3: Μοντελοποίηση της κάμερας 


3.1 Το μοντέλο μικρής οπής για την κάμερα 

Μια φωτογραφική μηχανή (κάμερα) μπορεί να μοντελοποιηθεί με πολλούς τρόπους, 

ανάλογα με τις ιδιότητες τις οποίες θέλουμε να περιγράψουμε, το βαθμό ακρίβειας που επιθυμούμε, 

και την εφαρμογή για την οποία προορίζεται το μοντέλο. Στην περίπτωση της τρισδιάστατης 

επεικόνισης χώρου, αυτό που μας ενδιαφέρει είναι ο τρόπος με τον οποίο τα σημεία του χώρου 

απεικονίζονται στην εικόνα. Συνήθως για την τρισδιάστατη ανακατασκευή εικόνων, το μοντέλο 

κάμερας που χρησιμοποιείται είναι αυτό της μικρής οπής (pinhole camera model) και 

παρουσιάζεται στο παρακάτω σχήμα: 

Σχήμα 3.1: Pinhole model 

To μοντέλο μικρής οπής περιγράφει τη μαθηματική σχέση μεταξύ των συντεταγμένων ενός 

σημείου του χώρου και την προβολή του πάνω στο επίπεδο της εικόνας μιας ιδανικής κάμερας 

μικρής οπής, όπου το διάφραγμά της περιγράφεται σαν σημείο και δεν υπάρχει κανένας φακός για 

να εστιάσει στο φως. Το συγκεκριμένο μοντέλο, δεν περιλαμβάνει για παράδειγμα γεωμετρικές 

παραμορφώσεις ή θόλωση λόγω λανθασμένης εστίασης στα αντικείμενα που προκαλούνται από 

τους φακούς και τα πεπερασμένου μεγέθους ‘ανοίγματά’ τους. Επίσης, δε λαμβάνει υπόψη ότι οι 

περισσότερες πραγματικές φωτογραφικές μηχανές έχουν μόνο διακριτές συντεταγμένες. Αυτό 

σημαίνει ότι το μοντέλο μικρής οπής μπορεί να χρησιμοποιηθεί μόνο ως μία πρώτη προσέγγιση για 

την απεικόνιση μιας σκηνής 3D σε 2D. Η ισχύς του εξαρτάται από την ποιότητα της κάμερας και 

γενικά μειώνεται από το κέντρο της εικόνας προς τα άκρα καθώς αυξάνονται οι παραμορφώσεις 

που δημιουργούνται από τους φακούς. 

Το pinhole μοντέλο της φωτογραφικής μηχανής, πολλές φορές, μπορεί να προσπεράσει 

προβλήματα που θα προκύψουν εφόσον αυτά είναι μικρά και αυτό επιτυγχάνεται κυρίως αν 

χρησιμοποιείται μία κάμερα υψηλής ποιότητας. Αυτό σημαίνει ότι το μοντέλο αυτό συχνά μπορεί 

να χρησιμοποιηθεί για να περιγράψει με αρκετά καλή ακρίβεια την λειτουργία της κάμερας στην 

υπολογιστική όραση. 

Οι οπτικές ακτίνες που προέρχονται από ένα αντικείμενο του χώρου μπροστά στην κάμερα, 

διέρχονται από μια μικρή οπή που υπάρχει σε μια αδιαφανή οθόνη, και προσπίπτοντας στο επίπεδο 

της εικόνας, δημιουργούν ένα ανεστραμμένο είδωλο του αντικειμένου όπως στο ακόλουθο σχήμα: 

12


Σχήμα 3.2: Ανεστραμμένο είδωλο 

Για να πάρουμε την απεικόνιση m στο επίπεδο της εικόνας ενός συγκεκριμένου σημείου Μ, 

του τρισδιάστατου χώρου P 3 , παίρνουμε την τομή της οπτικής ακτίνας με το επίπεδο της εικόνας, 

το οποίο και ονομάζεται ‘επίπεδο ίριδας’ ( retinal plane) και συμβολίζεται στο σχήμα με R . Η 

οπτική ακτίνα είναι η φανταστική γραμμή η οποία διέρχεται από τα σημεία M και C (πράσινη 

γραμμή), όπου το C είναι το οπτικό κέντρο, ή αλλιώς εστία της κάμερας, και αντιστοιχεί στο σημείο 

το οποίο βρίσκεται η υποτιθέμενη «μικρή οπή», δια μέσου της οποίας διέρχονται οι οπτικές ακτίνες 

για να αποτυπωθούν στο επίπεδο της εικόνας. H απόσταση του C από το επίπεδο της εικόνας 

ονομάζεται εστιακή απόσταση, και συμβολίζεται με f. Η απόσταση αυτή είναι σταθερή και 

προφανώς δεν εξαρτάται από τα Μ και m. Το επίπεδο το οποίο περιέχει το σημείο C και είναι 

παράλληλο στο επίπεδο της εικόνας ονομάζεται εστιακό επίπεδο, και τέλος η ευθεία η κάθετη στα 

δυο αυτά επίπεδα, η οποία διέρχεται και από το C ονομάζεται οπτικός άξονας. 

Σχήμα 3.3: Προβολή ενός σημείου 

Όπως προαναφέρθηκε, μία πραγματική κάμερα, περιέχει συστοιχίες φακών οι οποίες, εκτός 

των άλλων, εισάγουν και μη γραμμικές παραμορφώσεις, που έχουν σαν αποτέλεσμα τα σημεία M, 

C, m να μην είναι συνευθειακά. Παρόλα αυτά, το απλουστευμένο αυτό μοντέλο μπορεί να 

περιγράψει με αρκετά καλή ακρίβεια την λειτουργία της κάμερας. 

Η κάμερα είναι μια συσκευή η οποία εκτελεί έναν προβολικό μετασχηματισμό από τον 

τρισδιάστατο προβολικό χώρο P 3 στο δισδιάστατο προβολικό χώρο P 2 , δηλαδή στο επίπεδο της 

εικόνας. Κύριο χαρακτηριστικό και πλεονέκτημα του pinhole μοντέλου κάμερας είναι ότι αν το 

13


συνδυάσουμε με τη χρήση προβολικής γεωμετρίας, προκύπτουν πολύ απλές γραμμικές εξισώσεις 

που περιγράφουν τη λειτουργία της κάμερας. Αντίθετα, με τη χρήση ευκλείδειας γεωμετρίας, και 

συγκεκριμένα αν προσπαθούσαμε να περιγράψουμε τις σχέσεις των ευκλείδειων συντεταγμένων 

ενός σημείου στον τρισδιάστατο χώρο με αυτές της προβολής του στην εικόνα, οι σχέσεις που 

προκύπτουν είναι μη γραμμικές. Έστω ότι έχουμε ένα σημείο Μ(x,y,z) στο τρισδιάστατο 

ευκλείδειο σύστημα συντεταγμένων με αρχή αξόνων το C. Το σημείο που προκύπτει από την 

προβολή του Μ είναι το m(u,v) στο επίπεδο της εικόνας. 

Σχήμα 3.4: μετασχηματισμός συντεταγμένων 

Αν δούμε το σχήμα 3.4 από ψηλά και με τον άξονα των Y να έχει την αρνητική κατεύθυνση προς τα 

κάτω, θα προκύψει το σχήμα: 

Σχήμα 3.5: Η γεωμετρία της Pinhole κάμερας όπως φαίνεται από τον άξονα Y 

Oι μη-γραμμικές σχέσεις που θα προκύψουν από την ομοιότητα των τριγώνων είναι οι ακόλουθες: 

όπου τα u m , v m μετρώνται από το σημείο τομής του οπτικού άξονα με το επίπεδο της εικόνας(το 

σημείο αυτό ονομάζεται κύριο σημείο της εικόνας ή principal point) 

Επίσης μπορούν να γραφτούν στη μορφή: 

14


u m 

v m 

x 

= - (f/z) (3.1) 

y 

Όπως προαναφέρθηκε, οι σχέσεις είναι μη γραμμικές γι’ αυτό και όταν χρησιμοποιούνται στην 

περαιτέρω μαθηματική ανάλυση, καθιστούν την επίλυση των συστημάτων που προκύπτουν δύσκολη 

τόσο αναλυτικά όσο και αριθμητικά. Αυτός είναι και ο λόγος που χρησιμοποιούμε προβολικές 

αντί για ευκλείδειες συντεταγμένες. Πράγματι, αν θεωρήσουμε το σημείο σαν σημείο του P 3 με 

συντεταγμενες (Χ,Υ,Ζ,1), και το σημείο σαν σημείο του P 2 με συντεταγμένες (U,V,S), η 

παραπάνω σχέση γράφεται: 

(3.2) 

με u m =U / S , v m =V / S και x=X / T , y=Y / T , z=Z / T. Όταν S = 0 το σημείο βρίσκεται επί της 

γραμμής στο άπειρο του επιπέδου της εικόνας και αυτό συμβαίνει όταν το βρίσκεται επί του 

εστιακού επιπέδου. 

Η σχέση (3.2) επιδεικνύει το γεγονός ότι ο μετασχηματισμός των προβολικών συντεταγμένων ενός 

σημείου από τον χώρο P 3 στον χώρο P 2 , δηλαδή στην εικόνα, μπορεί να γραφεί με τη μορφή 

πινάκων σαν 

= P (3.3) 

Ο πίνακας Ρ ονομάζεται πίνακας προβολής (projection matrix) και περιέχει όλες τις πληροφορίες 

που χρειαζόμαστε για να προσδιορίσουμε την προβολή οποιουδήποτε σημείου του χώρου στην 

εικόνα, μέσω της κάμερας. Επίσης, όπως θα δούμε παρακάτω, ο πίνακας P περιέχει και τις 

πληροφορίες εκείνες που χρειαζόμαστε για να βρούμε τις εσωτερικές παραμέτρους τις κάμερας 

καθώς και τη θέση της στο χώρο. 

3.2 Οι εσωγενείς και εξωγενείς παράμετροι της κάμερας 

Η μορφή του Ρ που φαίνεται στην σχέση (3.2) είναι εξαιρετικά απλή και αυτό οφείλεται στο 

ότι έχουμε χρησιμοποιήσει κάποιες εξιδανικεύσεις. Συγκεκριμένα, θεωρήσαμε ότι: 

 

 

 

η κάμερα βρίσκεται στην αρχή του συστήματος συντεταγμένων του τρισδιάστατου χώρου, 

και μάλιστα οι κατευθύνσεις των αξόνων της κάμερας (οι 2 άξονες επί του επιπέδου της 

εικόνας και ο οπτικός άξονας) συμπίπτουν με τις κατευθύνσεις των αξόνων του τρισορθογώνιου 

συστήματος συντεταγμένων του χώρου. 

όλες οι αποστάσεις μετρώνται στις ίδιες μονάδες 

η αρχή της μέτρησης για τις συντεταγμένες στην εικόνα είναι το principal point. 

Αυτές οι απλουστεύσεις όμως δεν είναι ιδιαίτερα χρήσιμες σε πραγματικές συνθήκες, καθώς 

συνήθως οι θέσεις των σημείων σε μια εικόνα μετρώνται σε pixels και μάλιστα η αρχή των αξόνων 

συνήθως θεωρείται το πάνω αριστερά pixel της εικόνας. Επίσης, η θέση και ο προσανατολισμός 

της κάμερας στη γενική περίπτωση είναι τυχαίος, και δεν συμπίπτει με την αρχή του συστήματος 

των αξόνων του χώρου. 

Για να είμαστε σε θέση να πραγματοποιήσουμε μετρήσεις από τις εικόνες που λαμβάνουμε από 

15


την κάμερα, πρέπει να γνωρίζουμε τις παραμέτρους της κάμερας, καθώς αυτές καθορίζουν την 

σχέση μεταξύ των συντεταγμένων ενός σημείου στον τρισδιάστατο χώρο και των συντεταγμένων 

της προβολής του στην εικόνα. Οι παράμετροι εκείνες οι οποίες εξαρτώνται μόνο από την ίδια την 

κάμερα, και δεν αλλάζουν μεταξύ διαφορετικών λήψεων, ονομάζονται εσωγενείς ( intrinsic) ενώ 

εκείνες που εξαρτώνται από την θέση και τον προσανατολισμό της κάμερας σε κάθε λήψη 

ονομάζονται εξωγενείς (extrinsic). 

Τα παραπάνω συγκεντρώνονται στο σχήμα που ακολουθεί: 

Σχήμα 3.6: Εσωγενείς και εξωγενείς παράμετροι της κάμερας 

3.2.1 Οι εσωγενείς παράμετροι 

3.2.1.1 Ορισμός εσωγενών παραμέτρων 

Αν χρησιμοποιήσουμε αλγόριθμο αυτοβαθμονόμησης, δε χρειάζεται να γνωρίζουμε από 

πριν τις εσωγενείς παραμέτρους της κάμερας, καθώς υπολογίζονται αυτόματα ταυτόχρονα με τη 

δομή του χώρου. Στην παρούσα εργασία δε θα χρησιμοποιηθεί τέτοιος αλγόριθμος, επομένως είναι 

σημαντικό να υπολογίσουμε όσο το δυνατόν ακριβέστερα αυτές τις παραμέτρους αφού μόνο τότε 

μας δίνεται η δυνατότητα να λάβουμε με την καλύτερη δυνατή ακρίβεια μία τρισδιάστατη 

αναδημιουργία του αντικειμένου. 

Το ζητούμενο είναι έχοντας ως δεδομένες τις παραμέτρους της κάμερας να 

μετασχηματίσουμε τις συντεταγμένες κάθε σημείου της εικόνας, κατά τέτοιο τρόπο, ώστε να 

πάρουμε τις συντεταγμένες εκείνες που θα μας έδινε μια ιδανική κανονικοποιημένη κάμερα. Έτσι 

είμαστε σε θέση να χρησιμοποιήσουμε τα δεδομένα που παίρνουμε από μία εικόνα, ανεξάρτητα 

από τα συγκεκριμένα χαρακτηριστικά της κάμερας. Για παράδειγμα, σε μια πραγματική κάμερα, το 

εστιακό μήκος μπορεί να είναι οποιοδήποτε και επιπλέον το πιο πιθανό είναι οι συντεταγμένες της 

εικόνας να μην αντιστοιχούν στις συντεταγμένες του ορθογώνιου εστιακού επιπέδου. Είναι δυνατόν 

οι άξονες της εικόνας να μην είναι απολύτως ορθογώνιοι. Κάτι τέτοιο μπορεί να συμβεί, αν οι 

αισθητήρες της κάμερας δεν είναι τοποθετημένοι με ακρίβεια σε απόλυτα ορθογώνια διάταξη. 

Αυτό έχει ως αποτέλεσμα μία γραμμική παραμόρφωση η οποία μπορεί να συμπεριληφθεί εύκολα 

16


στο γραμμικό μοντέλο που ήδη αναλύσαμε. 

Σημαντική διευκρίνιση είναι ότι στο σχήμα που απεικονίζεται το pinhole model, το είδωλο 

κάθε αντικειμένου, δημιουργείται στο επίπεδο της εικόνας, ανεστραμμένο. Είναι προφανές όμως, 

ότι η φωτογραφία που προκύπτει από μία κάμερα, δεν έχει ανεστραμμένο το είδωλο. Αυτό 

σημαίνει ότι εσωτερικά της κάμερας γίνεται μια δεύτερη αντιστροφή, η οποία έχει ως αποτέλεσμα 

να παίρνουμε την εικόνα, όπως τη βλέπουμε στο φυσικό κόσμο. Ισοδύναμα λοιπόν, μπορούμε να 

υποθέσουμε ότι το επίπεδο της εικόνας βρίσκεται μπροστά και όχι πίσω από την εστία της κάμερας 

Aπό το σχήμα που ακολουθεί μπορούμε να εξάγουμε το μετασχηματισμό που πρέπει να εφαρμόσουμε 

για να δημιουργήσουμε το κανονικοποιημένο σύστημα συντεταγμένων της εικόνας. 

Προφανώς ο μετασχηματισμός αυτός θα προκύψει συναρτήσει των εσωγενών παραμέτρων της 

κάμερας (fc,cc,alpha_c,kc). 

Σχήμα 3.7: Το κανονικοποιημένο σύστημα συντεταγμένων 

Θεωρούμε ότι το σύστημα συντεταγμένων του χώρου ( Ο,x,y,z), ταυτίζεται με το σύστημα 

συντεταγμένων της κάμερας ( C,x,y,z). Έστω M ένα σημείο στο χώρο που περιγράφεται από το 

διάνυσμα με συντεταγμένες Μ(x,y,z) στο επίπεδο αναφοράς της κάμερας. Η προβολή αυτού του 

σημείου στο επίπεδο της εικόνας θα έχει συντεταγμένες (u,v) οι οποίες παίρνουν μόνο θετικές τιμές 

και μετρώνται σε pixel. 

Έστω ότι έχουμε δύο αισθητήρες. Αν η απόστασή τους στη διεύθυνση u είναι δu και στη διεύθυνση 

v είναι δv μπορούμε να πούμε ότι: 

(3.4) και (3.5) 

όπου τα δu και δv μετρώνται σε m/pixel και το f σε m. 

Οι λόγοι x/z και y/z που εμφανίζονται στις σχέσεις (3.4) και (3.5), αποτελούν τις συντεταγμένες της 

προβολής του Μ στην κανονικοποιημένη, ιδανική κάμερα, δηλαδή μια κάμερα με f=1 και με την 

αρχή του συστήματος συντεταγμένων στο principal point. Έστω ότι οι κανονικοποιημένες 

συντεταγμένες του Μ είναι οι (u n ,v n ). Έχουμε: 

(3.6) και (3.7) 

Ο μετασχηματισμός λοιπόν που χρησιμοποιούμε για να αντιστοιχίσουμε τις συντεταγμένες ενός 

σημείου στην εικόνα, στις κανονικοποιημένες συντεταγμένες του είναι ο ακόλουθος: 

(3.8) και (3.9) 

17


Χρησιμοποιώντας προβολικές συντεταγμένες, οι σχέσεις αυτές γράφονται ως εξής: 

(3.10) 

Ο 3x3 πίνακας που εμφανίζεται στην παραπάνω εξίσωση είναι ο πίνακας ‘ομογραφίας’, δηλαδή 

ενός προβολικού μετασχηματισμού του επιπέδου. Ο αντίστροφος αυτού του πίνακα, ονομάζεται 

πίνακας εσωγενών παραμέτρων και συμβολίζεται με Η. Δίνει το μετασχηματισμό που 

χρησιμοποιείται για να μεταφέρουμε τα σημεία από τις συντεταγμένες τους στην κανονικοποιημένη 

εικόνα, στις πραγματικές συντεταγμένες τους: 

(3.11) 

Παρατηρούμε ότι ο ίδιος πίνακας προκύπτει αν γράψουμε τις σχέσεις (3.6) και (3.7) σε προβολικές 

συντεταγμένες. Ο πίνακας προβολής της κανονικοποιημένης κάμερας είναι ο: 

(3.12) 

Συνδυάζοντας τους πίνακες Η και Pn, προκύπτει ο πίνακας P της κάμερας: 

(3.13) 

Ο πίνακας αυτός, δίνει τις συντεταγμένες pixel της προβολής ενός σημείου, όταν το σύστημα της 

κάμερας ταυτίζεται με το αδρανειακό σύστημα συντεταγμένων. Οι παράμετροι α u ,α v ,u 0 και v 0 

ονομάζονται εσωγενείς ( intrinsic) παράμετροι της κάμερας. Η γνώση των εσωγενών παραμέτρων 

ισοδυναμεί με τη γνώση της εικόνας του absolute conic, το οποίο είναι το απαραίτητο στοιχείο για 

την αναβάθμιση της δομής του χώρου από προβολική σε μετρική. 

18


3.2.1.2 Μη γραμμικές παραμορφώσεις 

Τα οπτικά της κάμερας, αλλά και ο τρόπος κατασκευής της προκαλούν και μη γραμμικές 

παραμορφώσεις, εισάγοντας έτσι συστηματικά σφάλματα, τα οποία πρέπει να λάβουμε υπόψη, αν 

θέλουμε να έχουμε μεγάλο βαθμό ακρίβειας. Ανάλογα με το βαθμό ακρίβειας που επιθυμούμε στην 

εφαρμογή μας και ανάλογα με τις απαιτήσεις μας για ταχύτητα στον αλγόριθμο, μπορούμε να 

χρησιμοποιήσουμε περισσότερους ή λιγότερους όρους οι οποίοι θα περιγράφουν τις παραμορφώσεις. 

Στις περισσότερες περιπτώσεις, τα αποτελέσματα αυτών των παραμορφώσεων είναι 

αμελητέα κάτω από κανονικές περιστάσεις απόκτησης των εικόνων. 

Α) Ακτινική παραμόρφωση 

Μία από τις πιο σημαντικές παραμορφώσεις είναι η ακτινική παραμόρφωση, η οποία σε 

μικρά εστιακά μήκη έχει ακόμα πιο αξιοπρόσεκτη επίδραση. Οι φακοί της κάμερας σε πολλές 

περιπτώσεις, λόγω της ατελούς κατασκευής τους, δεν έχουν πάντα την απαιτούμενη καμπυλότητα. 

Αυτό έχει ως αποτέλεσμα τα σημεία στην εικόνα να μην βρίσκονται στη θέση που προβλέπει το 

γραμμικό μοντέλο, αλλά υφίστανται ακτινική μετατόπιση, ως επί των πλείστων ως προς το κύριο 

σημείο της εικόνας. Όταν η μετατόπιση αυτή είναι θετική, τότε έχουμε ακτινική παραμόρφωση με 

μετατόπιση τύπου pincushion, ενώ όταν είναι αρνητική, η έχουμε μετατόπιση τύπου barrel (σχήμα 

3.8). 

Σχήμα 3.8: α) Γραμμικό μοντέλο, β) Ακτινική παραμόρφωση τύπου pincushion, γ) Ακτινική παραμόρφωση 

τύπου barrel 

Μερικές φορές μπορεί να υπάρξει μία μίξη των δύο τύπων ακτινικής παραμόρφωσης, 

γνωστής και ως ‘παραμόρφωση μουστάκι’ (moustache distortion ή complex distrortion). Είναι 

λιγότερο συχνή, αλλά όχι σπάνια. Ξεκινά όπως η barrel κοντά στο κέντρο της εικόνας και σταδιακά 

μετατρέπεται σε pincushion προς την περιφέρειατης εικόνας, κάνοντας οριζόντιες γραμμές στο 

πάνω μισό του πλαισίου, σαν το μουστάκι που απεικονίζεται ακολούθως: 

Σχήμα 3.9: Moustache distortion 

19


Β)Χρωματική εκτροπή 

Είναι ακτινική παραμόρφωση που εξαρτάται από το μήκος κύματος και ονομάζεται 

πλευρική χρωματική εκτροπή, ‘πλευρική’ γιατί εμφανίζεται ακτινικά και ‘χρωματική’ επειδή 

εξαρτάται από το χρώμα. Σε περιοχές με υψηλή αντίθεση (high contrast) μπορεί να δημιουργήσει 

‘είδωλο’ στο εξωτερικό τμήμα της εικόνας. Δεν πρέπει να συγχέεται με την αξονική (διαμήκη) 

εκτροπή, η οποία προκαλεί αλλοιώσεις σε όλη την εικόνα και δημιουργεί μωβ ‘είδωλα’. 

(α) 

(β) 

Σχήμα 3.9: α) πλευρική χρωματική εκτροπή, β) αξονική εκτροπή 

Γ) Παραμόρφωση λεπτού πρίσματος 

Επίσης εξαιτίας της ατελούς κατασκευής των οπτικών της κάμερας αλλά και εξαιτίας της 

ανακριβούς συναρμολόγησης των διαφόρων τμημάτων της, εισάγεται μια ακόμη μορφή 

παραμόρφωσης, η παραμόρφωση λεπτού πρίσματος, η οποία λέγεται έτσι γιατί μπορεί να 

μοντελοποιηθεί με την προσθήκη ενός λεπτού πρίσματος στο οπτικό σύστημα. Η παραμόρφωση 

αυτή εισάγει επίσης ακτινική και εφαπτομενική παραμόρφωση. 

Δ) Παραμόρφωση εκκεντρότητας 

Τέλος, τα κέντρα καμπυλότητας των φακών της κάμερας δεν είναι πάντα συγγραμμικά, και 

αυτό έχει σαν αποτέλεσμα μια άλλη συνήθη μορφή παραμόρφωσης, την παραμόρφωση 

εκκεντρότητας (decentering distortion). Η παραμόρφωση αυτή συνεισφέρει τόσο στην ακτινική, 

όσο και στην εφαπτομενική παραμόρφωση. 

Οι μη γραμμικές εσωγενείς παράμετροι (πχ . στρέβλωση του φακού) είναι επίσης 

σημαντικές αν και δεν μπορούν να συμπεριληφθούν στο γραμμικό μοντέλο της κάμερας, όπως 

περιγράφηκε πιο πάνω. Από την άλλη υπάρχουν πολλοί σύγχρονοι αλγόριθμοι βαθμονόμησης 

κάμερας που περιλαμβάνουν την εκτίμηση αυτών των ενδογενών παραμέτρων. 

3.2.1.3 Αντιμετώπιση μη γραμμικών παραμορφώσεων 

Είναι δυνατό να ακυρωθεί το μεγαλύτερο μέρος της επίδρασης της ακτινικής 

παραμόρφωσης με τη στρέβλωση της εικόνας. Οι συντεταγμένες στις μη παραμορφωμένες συντε- 

20


ταγμένες του επιπέδου της εικόνας ( x,y) μπορούν να ληφθούν από τις παρατηρηθείσες συντεταγμένες 

εικόνας (x 0 ,y 0 )από την ακόλουθη εξίσωση: 

(3.14) 

(3.15) 

όπου Κ 1 και Κ 2 είναι η πρώτη και δεύτερη παράμετρος της ακτινική παραμόρφωσης και 

(3.16) 

Μερικές φορές είναι απαραίτητο να επιτραπεί το κέντρο της ακτινικής παραμόρφωσης να είναι 

διαφορετικό από το κύριο σημείο. Όταν το εστιακό μήκος της κάμερας αλλάζει (μέσω του ζουμ ή 

της εστίασης) οι παράμετροι Κ 1 και Κ 2 θα ποικίλουν επίσης οπότε θα έχουμε: 

(3.17) 

(3.18) 

Λόγω των αλλαγών στο σύστημα φακών αυτό είναι μόνο μια προσέγγιση, εκτός εάν τα 

ψηφιακά ζουμ είναι ακριβή. Εναλλακτικά για να χρησιμοποιήσουμε τους προηγούμενους 

συμβολισμούς, θεωρούμε ότι οι σχέσεις (3.6) και (3.7) γράφονται συμπεριλαμβανομένων των 

διορθώσεων στις συντεταγμένες των σημείων της εικόνας ως εξής: 

(3.19) 

όπου δu και δv είναι οι ποσότητες ‘διόρθωσης’ έτσι ώστε αυτές οι σχέσεις να δίνουν τις 

πραγματικές συντεταγμένες που παρατηρούμε στην εικόνα. Αυτές οι ποσότητες περιλαμβάνουν 

τόσο την ακτινική όσο και την εφαπτομενική παραμόρφωση ως ακολούθως: 

(3.20) 

(3.21) 

όπου 

. Οι όροι με συντελεστές k 1 

,k 2 

,… περιγράφουν την ακτινική παραμόρφωση, 

ενώ οι όροι με συντελεστές p 1 

,p 2 

περιγράφουν την εφαπτομενική παραμόρφωση. Σε περίπτωση που 

θέλουμε ιδιαίτερα αυξημένη ακρίβεια μπορούμε να προσθέσουμε περισσότερους όρους, κυρίως 

στην ακτινική παραμόρφωση, όμως αυτό συνήθως δεν επιφέρει κάποια αξιόλογη βελτίωση στα 

αποτελέσματα (δηλαδή στο σφάλμα ανάμεσα στις πραγματικές συντεταγμένες των σημείων και σε 

αυτές που προβλέπει το μοντέλο), ενώ λόγω της αύξησης της πολυπλοκότητας, σε αρκετές 

περιπτώσεις εμφανίζεται και υποβάθμιση των αποτελεσμάτων, καθώς οι αλγόριθμοι που 

υπολογίζουν τις παραμέτρους αυτές συγκλίνουν δυσκολότερα. Αυτό το γεγονός θα το δούμε σε 

επόμενο κεφάλαιο, κατά την παρουσίαση των πειραματικών αποτελεσμάτων. 

Έχοντας ολοκληρωμένο το μοντέλο της κάμερας, συμπεριλαμβανομένων και των παραπάνω μηγραμμικών 

παραμορφώσεων της εικόνας, έχουμε το εξής σύνολο των εσωγενών παραμέτρων της 

κάμερας : 

α u 

, α v 

, u 0 

, v 0 

, k 1 

,k 2 

,…, p 1 

,p 2 

Οι παράμετροι αυτές ονομάζονται και φυσικές παράμετροι, γιατί έχουν κάποια φυσική σημασία, 

και σχετίζονται με τα πραγματικά χαρακτηριστικά της κάμερας. 

21


3.2.2 Εξωγενείς παράμετροι 

Για τον υπολογισμό των εσωγενών παραμέτρων συμβατικά θεωρούσαμε ότι το σύστημα συντεταγμένων 

της κάμερας C(x,y,z), συμπίπτει με αυτό του χώρου ( O,x,y,z). Στην πραγματικότητα 

όμως και στη γενική περίπτωση που η κάμερα κινείται ελεύθερα στο χώρο μεταξύ των διαφορετικών 

λήψεων, η σύμβαση αυτή μπορεί να ισχύει μόνο για μία φωτογραφία. Επομένως πρέπει να 

βρούμε έναν μετασχηματισμό που να συνδέει τις συντεταγμένες του σημείου του χώρου Μ(x,y,z) 

με τις συντεταγμένες της προβολής του στην εικόνα. Από τις εκφράσεις του πίνακα κάμερας 

P=HP n και του μετασχηματισμού , ο ζητούμενος μετασχηματισμός είναι ο ακόλουθος: 

(3.22) 

Θεωρώντας τη γενική περίπτωση του ακόλουθου σχήματος, για να μετασχηματιστεί το σύστημα 

(O,x,y,z) στο σύστημα (C,x,y,z), χρειάζεται να ξέρουμε την περιστροφή R και τη μετατόπιση t. 

Σχήμα 3.10: Το σύστημα συντεταγμένων της κάμερας και του χώρου 

Επομένως, οι ευκλείδιες συντεταγμένες του σημείου Μ εκφρασμένες στο σύστημα ( C,x,y,z) θα 

είναι οι ακόλουθες: 

(3.23) 

Συμβολίζοντας τώρα τον προβολικό μετασχηματισμό με Τ και χρησιμοποιώντας προβολικές 

συντεταγμένες, θα ισχύει η σχέση: 

(3.24) 

όπου 

(3.25) 

Συνδυάζοντας τις σχέσεις (3.22) και (3.24) προκύπτει η ακόλουθη σχέση: 

22 

(3.26)


η οποία και αποτελεί την έκφραση του μετασχηματισμού των συντεταγμένων του σημείου Μ. Άρα 

ο πίνακας P=HP n T αποτελεί τον πίνακα προβολής για τη γενικότερη περίπτωση, όπου η κάμερα 

βρίσκεται σε τυχαία θέση στο χώρο. Συνδυάζοντας τις σχέσεις (3.13) και (3.25) ο πίνακας μπορεί 

να εξαχθεί στην παρακάτω μορφή: 

(3.27) 

όπου r i είναι τα διανύσματα γραμμής του πίνακα R και t = [t x t y t z ] Τ . 

Οι παράμετροι R και t ονομάζονται εξωγενείς παράμετροι της κάμερας. Ο πίνακας R είναι ένας 

πίνακας περιστροφής, ένας ορθοκανονικός πίνακας, ο οποίος έχει 3 βαθμούς ελευθερίας (τις γωνίες 

περιστροφής γύρω από τους 3 άξονες). Οι εξωγενείς παράμετροι εισάγουν επομένως επιπλέον 6 

βαθμούς ελευθερίας (δηλαδή 6 αγνώστους για κάθε νέα θέση της κάμερας). 

3.3 Αντιστοιχία του μαθηματικού υπόβαθρου με τα αποτελέσματα του Matlab 

3.3.1 Εσωγενείς παράμετροι 

Όπως προαναφέρθηκε, οι εσωγενείς παράμετροι της κάμερας είναι αυτές που περιγράφουν 

την κάμερα και συγκεκριμένα τα οπτικά, γεωμετρικά και ψηφιακά χαρακτηριστικά της. Αυτά 

προκύπτουν αριθμητικά κατά τη διάρκεια της πειραματικής διαδικασίας στο matlab που θα 

περιγραφτεί αναλυτικά σε επόμενο κεφάλαιο. Θα αναφερθούμε συνοπτικά στις εσωγενείς 

παραμέτρους όπως προκύπτουν στο Μatlab σα μεταβλητές. Συγκεκριμένα: 

1. Η προοπτική προβολή (εστιακό μήκος- focal length f): το focal length σε pixel αποθηκεύεται 

στο 2x1 διάνυσμα fc 

2. Το principal point: Οι συντεταγμένες του principal point αποθηκεύονται στο 2x1 διάνυσμα cc 

3. Η γεωμετρική παραμόρφωση που εισάγει η οπτική ( distortions) : Οι παραμορφώσεις της 

εικόνας (ακτινική και εφαπτομενική) αποθηκεύονται στο 5x1 διάνυσμα kc 

4. Ο συντελεστής απόκλισης (skew coefficient): Ο συντελεστής απόκλισης είναι ουσιαστικά αυτός 

που καθορίζει τη γωνία μεταξύ του άξονα x και του άξονα y και αποθηκεύεται στη βαθμωτή 

μεταβλητή alpha_c. 

Αν ακολουθήσουμε αντίστοιχη διαδικασία με αυτή που περιγράψαμε στην προηγούμενη ενότητα, 

χρησιμοποιώντας απευθείας τις μεταβλητές στο Μatlab επιγραμματικά προκύπτουν τα παρακάτω: 

Έστω Μ ένα σημείο του χώρου x n η κανονικοποιημένη (pinhole) προβολή στην εικόνα: 

(3.28) 

Έστω: r 2 = x 2 + y 2 . 

Αφού συμπεριλάβουμε τις παραμορφώσεις του φακού, οι νέες κανονικοποιημένες συντεταγμένες 

του σημείου x d περιγράφονται από την ακόλουθη εξίσωση: 

23


(3.29) 

όπου dx είναι το διάνυσμα εφαπτομενικής παραμόρφωσης: 

(3.30) 

Συνεπώς, το διάνυσμα kc περιέχει τόσο το συντελεστή ακτινικής όσο και της εφαπτομενικής 

παραμόρφωσης (παρατηρούμε ότι ο συντελεστής του όρου της 6 ης τάξης ακτινικής παραμόρφωσης 

είναι το 5 ο στοιχείο του διανύσματος kc). Αξίζει να σημειώσουμε ότι η εφαπτομενική 

παραμόρφωση οφείλεται σε ‘μη-κεντράρισμα’ ή ατελές κεντράρισμα λόγω των χαρακτηριστικών 

και άλλα κατασκευαστικά ελαττώματα σε ένα σύνθετο φακό. 

Αφού εφαρμόσουμε και τους υπόλοιπους συντελεστές παραμόρφωσης, οι τελικές συντεταγμένες 

του pixel x_pixel = [x p ;y p ] της προβολής του σημείου Μ στο επίπεδο της εικόνας είναι: 

Συνεπώς, το διάνυσμα συντεταγμένων του pixel x_pixel και το κανονικοποιημένο 

(παραμορφωμένο) διάνυσμα συντεταγμένων x d σχετίζονται μεταξύ τους μέσω της γραμμικής 

εξίσωσης: 

(3.31) 

όπου το ΚΚ είναι γνωστό ως ο πίνακας της κάμερας και ορίζεται ακολούθως: 

(3.32) 

Στο Μatlab ο πίνακας ΚΚ αποθηκεύεται στη μεταβλητή ΚΚ μετά τη βαθμονόμηση. 

Παρατηρούμε ότι τα fc(1) και fc(2) είναι οι εστιακές αποστάσεις (μία μοναδική τιμή σε mm) που 

εκφράζονται σε μονάδες οριζόντιων και κάθετων pixel. Και οι δύο συνιστώσες του διανύσματος fc 

είναι συνήθως παραπλήσιες. Η αναλογία fc(2)/fc(1), συχνά αποκαλούμενη ‘αναλογία διαστάσεων- 

(aspect ratio)’, είναι διάφορη του 1 εάν τα pixel στο CCD πίνακα δεν είναι τετράγωνα. Συνεπώς, το 

μοντέλο της κάμερας κανονικά χειρίζεται μη τετραγωνικά pixels. Επιπλέον, ο συντελεστής alpha_c 

κωδικοποιεί τη γωνία μεταξύ των αξόνων x και y των αισθητήρων. Συνήθως προκαθορίζεται στις 

90 ο , ο συντελεστής alpha_c είναι μηδενικός. Συνεπώς, τα pixels μπορούν ακόμα και να μην είναι 

παραλληλόγραμμα, αλλά συνήθως η γωνία προκαθορίζεται στις 90 ο , οπότε ο συντελεστής alpha_c 

είναι μηδενικός. Συγκρίνοντας τώρα την έκφραση του πίνακα ΚΚ και του πίνακα Η στις δύο 

γραμμικές εξισώσεις βλέπουμε ότι είναι οι ίδιοι πίνακες, με άλλη έκφραση. Από αυτή την 

αντιστοιχία προκύπτουν τα εξής: 

au = fc(1) uo = cc(1) αv = fc(2) vo = cc(2) και προφανώς alpha_c*fc(1) = 0 

αφού alpha_c = 0 

24


Σημαντική σύμβαση: οι συντεταγμένες των pixel έχουν οριστεί έτσι ώστε το σημείο (0,0) να είναι 

το κέντρο του πάνω αριστερά pixel της εικόνας. Κατά συνέπεια, (nx-1,0) είναι το κέντρο του πάνω 

δεξιά pixel, (0,ny-1) είναι το κέντρο του κάτω αριστερά pixel και (nx-1,ny-1) είναι το κέντρο του 

κάτω δεξιά pixel, όπου nx=3072 και ny=2048. Στο toolbox του Μatlab υπάρχει η συνάρτηση 

project_points2.m, η οποία χρησιμοποιεί σαν δεδομένα τις 3D συντεταγμένες από ένα σύνολο 

σημείων στο χώρο καθώς και τις εσωγενείς παραμέτρους της κάμερας και επιστρέφει την προβολή 

των σημείων στα pixel του επιπέδου της εικόνας. 

Εκτός από την εκτίμηση για τις εσωγενείς παραμέτρους, fc, cc, kc και alpha_c, το toolbox 

επιστρέφει και εκτίμηση των σφαλμάτων αυτών των παραμέτρων. Βρίσκει κατά κάποιο τρόπο το 

λάθος στον υπολογισμό τους. Οι μεταβλητές του Matlab που περιέχουν τέτοια σφάλματα είναι οι 

fc_error, cc_error, kc_error, alpha_c_error. Πληροφοριακά, αυτά τα διανύσματα είναι περίπου 

τριπλάσια της τυπικής απόκλισης των σφαλμάτων εκτίμησης. 

Για παράδειγμα, το toolbox του Matlab μετά τη βελτιστοποίηση, εξάγει τα παρακάτω 

αποτελέσματα: 

Σε αυτή την περίπτωση, fc = [657.30254 ; 657.74391] και fc_error = [0.28487 ; 0.28937], cc = 

[302.71656 ; 242.33386], cc_error = [0.59115 ; 0.55710] κοκ. 

3.3.2 Εξωγενείς παράμετροι 

Περιστροφή R (rotation): Για ένα σύνολο n φωτογραφιών την περιστροφή περιγράφουν οι 

n 3x3 πίνακες περιστροφής Rc_1, Rc_2…Rc_n 

Μετατόπιση T (translation): Αντίστοιχα, ένα σύνολο n διανυσμάτων περιγράφουν τη μετατόπιση οι 

n 3x1 πίνακες μετατόπισης Tc_1, Tc_2,…,Tc_n 

Η σχέση (Γ) γραμμένη στις μεταβλητές που αποθηκεύει το Matlab είναι η ακόλουθη: 

XX c = Rc_1 * XX + Tc_1 όπου (Xc,Yc,Zc) οι συντεταγμένες του Μ στο επίπεδο της κάμερας και 

(Χ,Υ,Ζ) οι συντεταγμένες του Μ στο χώρο. Επίσης, τα διανύσματα omc_1,omc_1,...,omc_n, είναι 

τα διανύσματα που αντιστοιχούν στους πίνακες περιστροφής Rc_1, Rc_2…Rc_n. Αυτά τα δύο 

σχετίζονται μεταξύ τους με τον τύπο του Rodrigues. Για παράδειγμα, Rc_1=rodrigues(omc1). 

Παρακάτω παρουσιάζονται τα αποτελέσματα για τις εξωγενείς παραμέτρους στο matlab, κατά τη 

διάρκεια του stereo calibration, το οποίο θα αναλυθεί σε επόμενο κεφάλαιο. 

Όπως στις εσωγενείς, έτσι και στις εξωγενείς παραμέτρους, το Matlab υπολογίζει και εκτίμηση των 

σφαλμάτων στους υπολογισμούς του. Τα σφάλματα αυτά αποθηκεύονται στα διανύσματα 

omc_error_1,...,omc_error_n, για το σφάλμα περιστροφής και Tc_error_1...Tc_error_n για το 

σφάλμα μετατόπισης. 

25

Κεφάλαιο 4: Βαθμονόμηση της κάμερας 

Κεφάλαιο 4:Βαθμονόμηση κάμερας- Εύρεση παραμέτρων 


Οι κάμερες που χρησιμοποιούμε δεν είναι ιδανικές. Εισάγουν παραμορφώσεις στις εικόνες 

με αποτέλεσμα οι συντεταγμένες ενός σημείου στο χώρο να μη συμπίπτουν με τις συντεταγμένες 

της προβολής του στην εικόνα. Το πρόβλημα αυτό αντιμετωπίζεται με τη γνώση των παραμέτρων 

τις κάμερας. Αυτή η διαδικασία κατά την οποία βρίσκουμε τις εσωγενείς και εξωγενείς 

παραμέτρους της κάμερας με σκοπό την ελαχιστοποίηση αυτών των παραμορφώσεων ονομάζεται 

βαθμονόμηση της κάμερας ( camera calibration). Eσωγενείς ονομάζονται οι παράμετροι που 

εξαρτώνται μόνο από την ίδια την κάμερα, και δεν αλλάζουν μεταξύ διαφορετικών λήψεων, ενώ 

εκείνες που εξαρτώνται από την θέση και τον προσανατολισμό της κάμερας σε κάθε λήψη, 

ονομάζονται εξωγενείς. 

Γνωρίζοντας τις παραμέτρους της κάμερας είμαστε σε θέση να βρούμε τη δομή του χώρου 

μέχρι και το μετρικό επίπεδο (metric stratum), ενώ σε αντίθετη περίπτωση μπορούμε να φτάσουμε 

μόνο μέχρι το προβολικό επίπεδο, που όπως έχουμε ήδη πει, η αναπαράσταση του χώρου δεν είναι 

καθόλου καλή, αφού οι ομοιότητες με την πραγματική δομή του ευκλείδειου χώρου μπορεί να 

απουσιάζουν τελείως. 

Στη συνέχεια του κεφαλαίου θα παρουσιάσουμε τις κύριες μεθόδους εύρεσης των 

παραμέτρων της κάμερας, καθώς και τα πειραματικά αποτελέσματα που προέκυψαν από την 

εφαρμογή στη δική μας κάμερα. 

4.2 Μέθοδοι εύρεσης των παραμέτρων 

Το σκεπτικό πάνω στο οποίο στηριζόμαστε, για την εύρεση των παραμέτρων της κάμερας 

είναι η λήψη φωτογραφιών συγκεκριμένων στόχων, για τα σημεία των οποίων ήδη γνωρίζουμε τις 

συντεταγμένες. Έχοντας τη γνώση αυτή, είναι ευκολότερο πλέον για εμάς να προσδιορίσουμε τις 

συντεταγμένες των απεικονίσεων των συγκεκριμένων σημείων στις εικόνες (pixel coordinates) και 

στη συνέχεια να βρούμε τις παραμέτρους της κάμερας για τις οποίες, οι απεικονίσεις αυτές έχουν 

την καλύτερη προσέγγιση. Προς την κατεύθυνση αυτή λοιπόν, οι καλύτεροι στόχοι που 

χρησιμοποιούμε σαν πρότυπα βαθμονόμησης ( calibration patterns), αποτελούνται από ένα ή 

περισσότερα επίπεδα πάνω στα οποία έχουμε σχεδιάσει ασπρόμαυρα τετράγωνα (σκακιέρα). Είναι 

προφανές, πως με τα συγκεκριμένα πρότυπα, οι αλγόριθμοι εντοπισμού γωνιών έχουν πιο εύκολο 

έργο στο να εξάγουν τα σημεία ενδιαφέροντος, που είναι οι γωνίες των τετραγώνων. 

Παρόλα αυτά, οι αλγόριθμοι εντοπισμού γωνιών δεν δουλεύουν στην εντέλεια, με 

αποτέλεσμα να εισέρχεται μια μικρή απόκλιση ανάμεσα στο πραγματικό σημείο της γωνίας και το 

σημείο που μας δίνουν σαν απόκριση, της τάξεως των 1-2 pixels. Άλλα γνωστά εμπόδια στις 

μεθόδους εύρεσης παραμέτρων είναι ο θόρυβος κβαντισμού αλλά και ο ηλεκτρονικός θόρυβος, 

λόγω των διατάξεων της κάμερας, που αναγκάζουν τα σημεία του προτύπου βαθμονόμησης να μην 

προβάλλονται με απόλυτη ακρίβεια πάνω στα σωστά pixels. Αναγκαζόμαστε λοιπόν, να 

χρησιμοποιούμε στις μεθόδους μας περισσότερα σημεία από όσα είναι απαραίτητα με βάση τον 

αριθμό των αγνώστων, προκειμένου να βελτιώσουμε την ακρίβεια του αποτελέσματος, αλλά 

ταυτόχρονα η επίλυση του συστήματος δεν έχει πλέον μια ακριβή λύση και έτσι χρειαζόμαστε 

μεθόδους ελαχιστοποίησης. 

Οι μέθοδοι εύρεσης των παραμέτρων χωρίζονται σε κατηγορίες με βάση τα εξής 

χαρακτηριστικά : 

ανάλογα με τα πρότυπα βαθμονόμησης που χρησιμοποιούν. Κάποιες μέθοδοι αποδίδουν με 

βάση επίπεδα πρότυπα βαθμονόμησης, όπως η μέθοδος Zhang, ενώ άλλες με τρισδιάστατα, όπως η 

μέθοδος Hall. 

ανάλογα με το αν η βελτιστοποίηση γίνεται ως προς τα στοιχεία του πίνακα προβολής Ρ (ή 

26


κάποιου άλλου βοηθητικού πίνακα) ή ως προς τις εσωγενείς και εξωγενείς παραμέτρους . Οι 

πρώτες μέθοδοι λέγονται έμμεσες (implicit) γιατί η εξαγωγή των παραμέτρων γίνεται από τα 

στοιχεία του πίνακα, ενώ οι δεύτερες λέγονται άμεσες (explicit) γιατί η εξαγωγή των παραμέτρων 

γίνεται κατευθείαν από τις παρατηρήσεις. 

ανάλογα με το αν η βελτιστοποίηση που χρησιμοποιούμε είναι επαναληπτική ή όχι. Στην 

πρώτη περίπτωση συνήθως χρησιμοποιούμε γραμμικά ελάχιστα τετράγωνα, ενώ στη δεύτερη πιο 

ακριβείς (και χρονοβόρες) επαναληπτικές μεθόδους. 

ανάλογα με την εκτίμηση των παραμέτρων και την τεχνική βελτιστοποίησης που 

χρησιμοποιείται. Οι μέθοδοι χωρίζονται σε αυτές που χρησιμοποιούν το γραμμικό μοντέλο, το μη 

γραμμικό μοντέλο και τέλος σε αυτές που χρησιμοποιούν συνδυασμό των δύο μοντέλων. 

Στα πλαίσια της δικής μας εργασίας, χρησιμοποιήσαμε τη μέθοδο του Zhang, η οποία είναι 

αρκετά πολύπλοκη αλλά μας δίνει ικανοποιητικά αποτελέσματα. Στην επόμενη παράγραφο γίνεται 

μια εκτενής ανάλυση αυτής της μεθόδου. Πρώτα όμως, θα δώσουμε μια σύντομη επεξήγηση της 

μεθόδου του Ηall, για να αποκτήσουμε μια ιδέα γύρω από το πώς λειτουργεί. 

4.2.1 Μέθοδος Hall 

Μία από τις πρώτες μεθόδους που αναπτύχθηκαν για τη βαθμονόμηση της κάμερας είναι 

αυτή που πρότεινε το 1982 ο Hall και βασίζεται στο γραμμικό μοντέλο της κάμερας. Στη 

βελτιστοποίηση χρησιμοποιούνται τα στοιχεία του πίνακα προβολής, επομένως αποτελεί μια 

έμμεση μέθοδο εύρεσης των παραμέτρων της κάμερας. Η σχέση προβολής των σημείων του χώρου 

είναι: 

(4.1) 

όπου (Χ,Υ,Ζ) είναι οι ευκλείδειες συντεταγμένες των σημείων του π ροτύπου βαθμονόμησης και 

(Χ,Υ,Ζ,1) είναι οι ομογενείς τους συντεταγμένες. Οι συντεταγμένες σε pixels των σημείων της 

εικόνας (u,v), τις οποίες είμαστε σε θέση να μετρήσουμε, είναι : 

(4.2) 

Συνδυάζοντας τις δύο παραπάνω σχέσεις, μπορούμε να εξάγουμε δύο περιορισμούς για τα στοιχεία 

του πίνακα P από κάθε σημείο επί της εικόνας: 

(4.3) 

Επειδή χρησιμοποιούνται ομογενείς συντεταγμένες, ο πίνακας P είναι ορισμένος ως προς κάποιον 

πολλαπλασιαστικό παράγοντα, (έχει δηλαδή 11 βαθμούς ελευθερίας). Αυθαί ρετα λοιπόν, θέτουμε 

27


το στοιχείο p 34 = 1, οπότε έτσι αναζητούμε μία μοναδική λύση για τα υπόλοιπα στοιχεία του 

πίνακα. Οι σχέσεις 4.3 χρησιμοποιώντας αυτόν τον περιορισμό, γράφονται: 

(4.4) 

Οι συντεταγμένες (Χ,Υ,Ζ) περιγράφουν τις ευκλείδιες συντεταγμένες κάθε σημείου του προτύπου 

βαθμονόμησης οι οποίες είναι γνωστές από πριν. Οι αντίστοιχες συντεταγμένες σε pixel της 

προβολής του κάθε σημείου τις οποίες μπορούμε να υπολογίσουμε επί της εικόνας εκφράζονται με 

τις ποσότητες (u,v). Είναι φανερό πως οι σχέσεις 4.4 είναι γραμμικές εξισώσεις ως προς τα στοιχεία 

του πίνακα P. Αν έχουμε σα δεδομένα αρκετά σημεία, μπορούμε να υπολογίσουμε όλα τα p ij .Κάθε 

σημείο της εικόνας μας παρέχει 2 ανεξάρτητες εξισώσεις, επομένως για να υπολογίσουμε τους 11 

αγνώστους του πίνακα P χρειαζόμαστε τουλάχιστον 6 σημεία ώστε να εξασφαλίσουμε μοναδική 

λύση. Επειδή όμως η επίδραση του θορύβου των μετρήσεων αυξάνει όσο λιγότερα είναι τα σημεία, 

φροντίζουμε στην πράξη να χρησιμοποιήσουμε αρκετά περισσότερα από 6. Αν λοιπόν, 

χρησιμοποιήσουμε Ν σημεία της εικόνας, το σύστημα που προκύπτει είναι το ακόλουθο: 

Το σύστημα αυτό είναι της μορφής Ax=b όπου Α είναι ένας 2Nx11 πίνακας, το διάνυσμα x 

περιέχει 11 αγνώστους και το διάνυσμα b αποτελείται από 2Ν στοιχεία. Αποδεικνύεται ότι ο 

πίνακας αυτός είναι πλήρους τάξης μόνο αν τα σημεία που θα χρησιμοποιηθούν είναι μη 

συνεπίπεδα. Αυτός είναι και ο λόγος για τον οποίο η μέθοδος του Hall απαιτεί να έχουμε 

τρισδιάστατο πρότυπο βαθμονόμησης (σχ.4.1): 

28


Η λύση που δεχόμαστε είναι αυτή που ελαχιστοποιεί το τετράγωνο του σφάλματος στη σχέση (4.5) 

υπάρχει σε κλειστή μορφή και είναι η 

Εδώ παρατηρούμε ότι εμείς θα θέλαμε η βελτιστοποίηση, να έχει φυσικό νόημα. Να 

ελαχιστοποιεί τις αποστάσεις επαναπροβολής, δηλαδή την απόκλιση των συντεταγμένων των 

προβολών των σημείων στην εικόνα, που δίνονται από τις σχέσεις (4.1) και (4.2) από τις 

πραγματικές προβολές, τις συντεταγμένες των οποίων μετράμε πάνω στην εικόναέχει το φυσικό 

νόημα που απαιτούμε. Όμως αυτό θα σήμαινε ότι η προς ελαχιστοποίηση συνάρτηση θα γινόταν 

μη-γραμμική, και επομένως η απλότητα της μεθόδου θα χανόταν. 

Μέχρι τώρα έχουμε υπολογίσει τον πίνακα προβολής Ρ. Όμως δεν είναι αυτός ο σκοπός 

μας, καθώς αυτό που θέλουμε είναι να υπολογίσουμε τις παραμέτρους της κάμερας (εσωγενείς και 

εξωγενείς). Στο προηγούμενο κεφαλαίο είχαμε δείξει ότι ο πίνακας Ρ γράφεται ως συνάρτηση των 

παραμέτρων ως εξής: 

(4.6) 

(και είναι πολλαπλασιασμένος με μια αυθαίρετη σταθερά). Χρησιμοποιώντας τους περιορισμούς 

ορθοκανονικότητας που ισχύουν για τα διανύσματα r i 

και με βάση τη μορφή του πίνακα, μπορούμε 

να βρούμε τις παραμέτρους της κάμερας. Παρατηρούμε ότι πρέπει ||r 3 

|| = 1 και επομένως με αυτόν 

τον περιορισμό βρίσκουμε κατευθείαν τον παράγοντα με τον οποίο πρέπει να πολλαπλασιάσουμε 

τον πίνακα τον οποίο έχουμε βρει από τη λύση του συστήματος, ώστε να έρθει στη μορφή (4.6). 

29


Συμβολίζουμε τον κανονικοποιημένο πίνακα σαν: 

(τα a i είναι διανύσματα γραμμής, δηλαδή 1×3 πίνακες). Οι υπολογισμοί είναι απλοί, και το τελικό 

αποτέλεσμα που δίνουν για τις εσωγενείς παραμέτρους της κάμερας είναι : 

ενώ για τις εξωγενείς παραμέτρους παίρνουμε: 

(4.7) 

(4.8) 

Η μέθοδος του Hall έχει το πλεονέκτημα ότι είναι γραμμική, και επομένως δεν απαιτεί 

χρήση μη γραμμικών μεθόδων βελτιστοποίησης, οι οποίες είναι αρκετά δύσκολο να υλοποιηθούν. 

Όμως έχει τα μειονεκτήματα της χρήσης του απλού γραμμικού μοντέλου, του ότι η βελτιστοποίηση 

δεν γίνεται ως προς τις παραμέτρους της κάμερας, αλλά ως προς τον πίνακα P, και του ότι η 

βελτιστοποίηση αυτή δεν έχει το φυσικό νόημα που θα θέλαμε. Γι' αυτό τα αποτελέσματα της 

μεθόδου αυτής δεν είναι αρκετά ακριβή, στις περισσότερες των περιπτώσεων. 

4.2.2 Μέθοδος Zhang 

Η μέθοδος του Zhang είναι μια σχετικά καινούρια μέθοδος, η οποία αναπτύχθηκε το 1999. 

Το πρότυπο βαθμονόμησης που χρησιμοποιεί είναι επίπεδο, και έτσι πλεονεκτεί έναντι άλλων 

μεθόδων, αφού αυτό είναι αρκετά εύκολο στην κατασκευή. Εκτυπώνεις μια σκακιέρα και την 

τοποθετείς επάνω σε μια επίπεδη επιφάνεια, σε αντίθεση για παράδειγμα με τη μέθοδο Hall που 

χρησιμοποιεί μη επίπεδο πρότυπο πολύ μεγάλης ακρίβειας, το οποίο είναι δύσκολο και χρονοβόρο 

στη κατασκευή. Η μέθοδος Hall απαιτεί ακριβή γνώση των συντεταγμένων των σημείων του 

calibration pattern, διότι ακόμα και πολύ μικρά σφάλματα επιφέρουν σημαντικές αποκλίσεις. 

Αντιθέτως, η μέθοδος Zhang υπολογίζει τις συντεταγμένες των σημείων του προτύπου 

βαθμονόμησης παράλληλα με τις παραμέτρους της κάμερας. 

Ο αλγόριθμος του Zhang χρησιμοποιεί ένα συνδυασμό του γραμμικού και του μη 

γραμμικού μοντέλου. Μπορούμε να πούμε ουσιαστικά ότι χωρίζεται σε δύο στάδια. Στο πρώτο 

στάδιο, χρησιμοποιώντας το απλό γραμμικό μοντέλο, και γραμμικά ελάχιστα τετράγωνα, εξάγουμε 

μια πρώτη εκτίμηση για τις εσωγενείς παραμέτρους α u 

, α v 

, u 0 

, v 0 

. Συνήθως, για να διατηρήσουμε το 

σύστημα των εξισώσεων γραμμικό, στο στάδιο αυτό χρησιμοποιούμε έμμεσες μεθόδους(implicit), 

η ελαχιστοποίηση γίνεται δηλαδή ως προς τα στοιχεία κάποιου βοηθητικού πίνακα, και στη 

συνέχεια από τα στοιχεία αυτά εξάγουμε τις εσωγενείς παραμέτρους. Το στάδιο αυτό είναι αρκετά 

γρήγορο και μας δίνει μια αρχική εκτίμηση των παραμέτρων, η οποία αν και δεν είναι τόσο 

ικανοποιητική, είναι πολύ χρήσιμη για το δεύτερο στάδιο. 

Στο δεύτερο στάδιο χρησιμοποιούμε το πλήρες μοντέλο για την κάμερα, 

30


συμπεριλαμβανομένων και των μη γραμμικών όρων, και με τη χρήση μιας επαναληπτικής μεθόδου 

ελαχιστοποίησης, βρίσκουμε τις τελικές τιμές για το σύνολο των εσωγενών παραμέτρων του 

πλήρους μοντέλου. Επειδή οι επαναληπτικές αυτές μέθοδοι γενικά έχουν πολύ μικρή περιοχή 

σύγκλισης, απαιτείται να έχουμε μια αρκετά καλή πρώτη προσέγγιση της λύσης, και αυτό το σκοπό 

εξυπηρετεί η λύση που προκύπτει από το πρώτο, γραμμικό στάδιο. Ως πρώτη προσέγγιση των 

συντελεστών παραμόρφωσης συνήθως θεωρούμε το μηδέν. Τα δύο παραπάνω στάδια διαφέρουν 

και κατά το κριτήριο βελτιστοποίησης που χρησιμοποιούν. 

Στη συνέχεια δίνεται μια θεωρητική ανάλυση της μεθόδου του Zhang. Έστω ότι το επίπεδο 

το οποίο αποτελεί το πρότυπο βαθμονόμησης είναι το επίπεδο Ζ=0. Τότε η προβολή ενός σημείου 

του επιπέδου αυτού στο επίπεδο της φωτογραφίας δίνεται από τη σχέση: 

, όπου Α είναι ο πίνακας των εσωγενών παραμέτρων, r i είναι τα διανύσματα 

του πίνακα περιστροφής των εξωγενών παραμέτρων και t είναι το διάνυσμα της μετατόπισης 

των εξωγενών παραμέτρων. Αν αγνοήσουμε τη μηδενική συντεταγμένη, η παραπάνω σχέση 

γίνεται: 

(4. 9) 

Τα σημεία του επιπέδου του πρότυπου βαθμονόμησης μπορούμε να τα περιγράψουμε με 2 

(ευκλείδειες) συντεταγμένες, Μ = [X,Y] T , ή = [Χ,Υ,1] Τ , αν θεωρήσουμε το επίπεδο του 

στόχου σαν ένα προβολικό επίπεδο. Γνωρίζουμε ήδη πως κάμερα εκτελεί έναν μετασχηματισμό 

από το τρισδιάστατο προβολικό χώρο στον δισδιάστατο προβολικό χώρο του επιπέδου της εικόνας. 

Επειδή όμως στη συγκεκριμένη περίπτωση λαμβάνουμε φωτογραφίες ενός επιπέδου, εκτελούμε 

έναν μετασχηματισμό από το δισδιάστατο επίπεδο του προτύπου βαθμονόμησης στο επίπεδο της 

εικόνας. Ο μετασχηματισμός αυτός περιγράφεται από τον αντιστρέψιμο 3x3 πίνακα: 

(4.10) 

Δεδομένης μιας εικόνας του επιπέδου βαθμονόμησης και της αντιστοιχίας των 

συντεταγμένων των σημείων του επιπέδου αυτού με τις συντεταγμένες των προβολών του στην 

εικόνα, μπορούμε να προσδιορίσουμε τον πίνακα Η. Έχουμε λοιπόν γνωστό τον πίνακα Η = [h 1 h 2 

h 3 ] και χρησιμοποιώντας τις σχέσεις (4.9) και (4.10) προκύπτει η σχέση 

[h 1 h 2 h 3 ] = λΑ[r 1 r 2 t] (4.11) 

όπου λ είναι μία αυθαίρετη σταθερά. Χρησιμοποιώντας τις συνθήκες ορθοκανονικότητας των 

διανυσμάτων r 1 

και r 2 

προκύπτουν οι εξής σχέσεις: 

(4.12) 

31


Αυτές οι σχέσεις είναι οι δυο περιορισμοί για τις εσωγενείς παραμέτρους, τους οποίους 

μπορούμε να εξάγουμε από μια εικόνα του επιπέδου βαθμονόμησης. Πράγματι, ο προβολικός 

μετασχηματισμός Η έχει 8 βαθμούς ελευθερίας, και επομένως από την εύρεση του μπορούν να 

προκύψουν 8 περιορισμοί. Οι εξωγενείς παράμετροι έχουν 6 βαθμούς ελευθερίας (3 για την 

περιστροφή και 3 για την μετατόπιση) ανά εικόνα, άρα μπορούμε να εξάγουμε μόνο 2 

περιορισμούς για τις εσωγενείς παραμέτρους ανά εικόνα. 

Αν πάρουμε περισσότερες φωτογραφίες του επιπέδου βαθμονόμησης και 

χρησιμοποιήσουμε τις σχέσεις (4.12) και (4.13) μπορούμε να υπολογίσουμε τις εσωγενείς 

παραμέτρους α u 

, α v 

, u 0 

, v 0 . Η διαδικασία παρατίθεται στη συνέχεια. Συμβολίζουμε με Β τον πίνακα 

Α -Τ Α -1 . Λόγω της φύσης του Α (άνω τριγωνικός), ο Β είναι συμμετρικός και έχει τη μορφή: 

(4.14) 

Όπως παρατηρούμε από τη σχέση αυτή ο πίνακας Β μπορεί να περιγραφεί από το διάνυσμα 

b = [ B 11 , B 12 , B 22 , B 13 , B 23 , B 33 ] T . Τώρα, χρησιμοποιώντας το διάνυσμα αυτό μπορούμε να 

γράψουμε τις σχέσεις (4.4) και (4.5) σε μορφή συστήματος γραμμικών εξισώσεων: 

(4.15) 

όπου v ij = [h i1 h j1 , h i1 h j2 + h i2 h j1 , h i2 h j2 , h i3 h j1 + h i1 h j3 , h i3 h j2 + h i2 h j3 , h i3 h j3 ]. 

Επομένως, αν έχουμε n εικόνες του επιπέδου, δημιουργούμε ένα σύστημα Vb=0, όπου V 

είναι ένας 2n×6 πίνακας. Πρόκειται για ένα υπέρ-ορισμένο σύστημα, του οποίου η βέλτιστη λύση 

είναι το ιδιοδιάνυσμα του πίνακα V T V που αντιστοιχεί στην μικρότερη ιδιοτιμή. Έχοντας βρει τα 

στοιχεία του πίνακα Β, μπορούμε να βρούμε τις τιμές των εσωγενών παραμέτρων της κάμερας 

λύνοντας τη σχέση (4.14). 

Στο σημείο αυτό έχουμε ολοκληρώσει το πρώτο στάδιο, και έχουμε την πρώτη προσέγγιση 

των εσωγενών παραμέτρων της κάμερας. Στη συνεχεία χρησιμοποιούμε το πλήρες μοντέλο, και 

εκτελούμε την ελαχιστοποίηση του συνολικού σφάλματος επαναπροβολής των σημείων, που 

δίνεται από τη συνάρτηση: 

(4.16) 

Στη σχέση αυτή ο δείκτης i αναφέρεται στην εικόνα στην οποία γίνεται η επαναπροβολή, 

και ο δείκτης j στο σημείο της εικόνας το οποίο επαναπροβάλλουμε. Η συνάρτηση (4.16) αποτελεί 

το άθροισμα των τετράγωνων των ευκλείδειων αποστάσεων των όλων σημείων που μετράμε σε 

όλες τις εικόνες από τις προβολές τους στις εικόνες αυτές, οι οποίες υπολογίζονται με βάση τις 

υπολογισθείσες παραμέτρους της κάμερας. 

Η ελαχιστοποίηση αυτής της συνάρτησης γίνεται με τον αλγόριθμο Levenberg-Marquardt, ο 

οποίος έχει δειχθεί ότι έχει την ταχύτερη σύγκλιση. Ωστόσο, εάν επιθυμούμε να επιταχύνουμε 

ακόμα περισσότερο την σύγκλιση της μεθόδου, μπορούμε να χρησιμοποιήσουμε καλύτερη αρχική 

προσέγγιση για τους συντελεστές παραμόρφωσης, από τη μηδενική που έχουμε ορίσει νωρίτερα. 

Η μέθοδος Zhang αποτελεί μια πολύ καλή λύση για τη βαθμονόμηση της κάμεράς μας, 

διότι εκτός από τα ικανοποιητικά αποτελέσματα που δίνει ως απόκριση, έχει πολύ απλό σε 

κατασκευή πρότυπο βαθμονόμησης. 

32


4.3 Πειραματική διαδικασία 

4.3.1 Τεχνικά χαρακτηριστικά φωτογραφικής μηχανής 

Προτού ξεκινήσουμε την επεξήγηση της πειραματικής διαδικασίας, θα δώσουμε τα βασικά 

χαρακτηριστικά της κάμερας που χρησιμοποιήσαμε. Το μοντέλο της κάμερας είναι OLYMPUS SP- 

510 UltraZoom με τα εξής χαρακτηριστικά: 

sensor array CCD 7.1Mpixels 

δυνατότητα ανάλυσης σταθερής εικόνας μέχρι 3072 x 2304 pixels RGB, και μέχρι 640 x 

480 pixels κινούμενη εικόνα στα 30fps 

format εξόδου σταθερής εικόνας: JPEG, RAW 

format εξόδου κινούμενης εικόνας: QuickTime Motion JPEG® 

φακός: Olympus ED Lens 10X F1:2.8-3.7, εστιακή απόσταση 6.3- 63mm 

δυνατότητα auto-focus από 20cm – άπειρο 

δυνατότητα ρύθμισης σταθερής απόστασης εστίασης από το χρήστη 

δυνατότητα optical zoom έως και 10Χ 

δυνατότητα digital zoom έως και 5Χ 

Κατά την διεξαγωγή της πειραματικής διαδικασίας, είναι σημαντικό, να διατηρούνται τα 

τεχνικά χαρακτηριστικά της κάμερας(εσωγενείς παράμετροι) σταθερά για όλες τις φωτογραφίες 

που θα λάβουμε, είτε είναι αυτές για την βαθμονόμηση, είτε οι ακολουθίες από τις οποίες θα βγουν 

τα τελικά αποτελέσματα. Αυτή η προϋπόθεση πρέπει να τηρηθεί, διότι σε διαφορετική περίπτωση, 

οι παράμετροι της κάμερας που θα προκύψουν από τη βαθμονόμηση που ακολουθεί, θα διαφέρουν 

από τις παραμέτρους των άλλων ακολουθιών και δε θα μπορούν να χρησιμοποιηθούν. 

4.3.2 Εφαρμογή μεθόδου Zhang και αποτελέσματα 

Για το calibration της κάμερας χρησιμοποιήσαμε 6 ζεύγη φωτογραφιών, όπου το 

μεγαλύτερο μέρος τους καλύπτεται από μια σκακιέρα. Κάτι τέτοιο το επιδιώκουμε γιατί 

προκειμένου να βρούμε τις ενδογενείς και εξωγενείς παραμέτρους της κάμερας χρειαζόμαστε ένα 

επίπεδο πρότυπο βαθμονόμησης. Κάθε ζεύγος προκύπτει από την φωτογράφηση της ίδιας σκηνής 

2 φορές με τη μια λήψη να διαφέρει της άλλης μόνο κατά μια μετατόπιση d. Η πειραματική 

διάταξη που χρησιμοποιήσαμε για να έχουμε τα επιθυμητά αποτελέσματα αποτελείται από έναν 

γνώμονα ο οποίος έχει τοποθετηθεί πάνω σε ένα επίπεδο έτσι ώστε να μη μετακινείται, και 

ουσιαστικά τελεί χρέη ‘σιδηροδρομικής γραμμής’ πάνω στην οποία κινείται η κάμερά μας. Στην 

ουσία προσπαθούμε να προσομοιώσουμε μια στερεοσκοπική φωτογραφική μηχανή. Παρόλα αυτά 

δεν μπορούμε να αποτρέψουμε τελείως την εμφάνιση σφαλμάτων, τα οποία κάνουν την εμφάνισή 

τους με τη μορφή της περιστροφής της κάμερας. 

Για κάθε στερεοσκοπικό ζεύγος η σκακιέρα έχει και διαφορετική θέση στο χώρο. Η λήψη των 

εικόνων έγινε με σταθερή εστίαση στο 1m, f 2.8, ISO 50, το white balance παρέμεινε σταθερό, 

ενώ η ταχύτητα του κλείστρου ‘παίζει’ μεταξύ 1/6s ή 1/8s. Επίσης όλες οι φωτογραφίες 

τραβήχτηκαν με σταθερό zoom (1Χ). Τέλος η απόσταση της κάμερας από την σκακιέρα ήταν 

περίπου 1m. 

33


Σχήμα 4.2: Η ακολουθία εικόνων για τις αριστερές λήψεις 

Για την εφαρμογή της μεθόδου του Zhang χρησιμοποιήθηκε ο κώδικας του J. Y. Bouguet, o 

οποίος διατίθεται στο Internet. Οι φωτογραφίες που χρησιμοποιήσαμε παρουσιάζονται στις 

εικόνες, όπου έχουν χωριστεί σε δύο ακολουθίες των 6 φωτογραφιών, και αποτελούνται από τις 

αριστερές λήψεις (σχ. 4.2) και από τις δεξιές (σχ. 4.3): 

Σχήμα 4.3: Η ακολουθία εικόνων για τις δεξιές λήψεις 

34


Αρχικά τρέχουμε τον αλγόριθμο για την πρώτη ακολουθία φωτογραφιών. Το πρώτο βήμα 

είναι ο ορισμός του παραθύρου των pixels γύρω από την αρχική προσέγγιση. Το παράθυρο αυτό 

χρησιμοποιείται από τον Harris corner detector για να εντοπίζονται οι γωνίες με μεγαλύτερη 

ακρίβεια. Στο συγκεκριμένο πείραμα ορίσαμε παράθυρο 21x21 pixels. Στη συνέχεια και αφού 

επιλέξαμε την χειροκίνητη εισαγωγή του αριθμού των τετραγώνων της σκακιέρας, ορίσαμε τα 

τέσσερα ακραία σημεία του πλέγματος. Τέλος, τα τελευταία δεδομένα που έπρεπε να εισάγουμε 

στον αλγόριθμο προκειμένου ο Ηarris corner detector να εντοπίσει τις γωνίες ήταν ο αριθμός των 

τετραγώνων στον άξονα X (14), ο αριθμός των τετραγώνων στον άξονα Y (13), αλλά και το μήκος 

σε mm των πλευρών των τετραγώνων ( 33 mm και κατά μήκος του X και κατά μήκος του Y). 

Παρατηρήστε πως τα 33 mm, δηλαδή το μήκος των πλευρών των τετραγώνων είναι το μοναδικό 

πραγματικό μέγεθος το οποίο ‘δίνουμε’ στον αλγόριθμο. 

Αξιοσημείωτο είναι ότι χρειάστηκαν αρκετές δοκιμές ώστε να καταλήξουμε στον 

κατάλληλο παράγοντα παραμόρφωσης kc καθώς η αυτόματη εξαγωγή γωνιών στη σκακιέρα, έδινε 

λανθασμένες γωνίες. Ορίζαμε κάθε φορά το κατάλληλο kc όταν μας δινόταν η παρακάτω επιλογή: 

και ο αλγόριθμος εξήγαγε τελικά τις σωστές γωνίες (σχήμα 4.4) 

Σχήμα 4.4 Εξαγωγή γωνιών 

Αφού ακολουθήσαμε την ίδια διαδικασία για το υπόλοιπο σετ των αριστερών φωτογραφιών 

και εξάγαμε τις γωνίες του προτύπου βαθμονόμησης, εκτελούμε τον αλγόριθμο εύρεσης των 

παραμέτρων τις κάμερας. Αυτός μετά από ένα στάδιο αρχικοποίησης εκτελεί μια επαναληπτική 

ελαχιστοποίηση με τον αλγόριθμο του Newton. Προκειμένου να έχουμε καλύτερα αποτελέσματα 

για το calibration εκτελούμε τον αλγόριθμο για επαναϋπολογισμό των γωνιών και αυτή τη φορά 

ορίζουμε ένα μικρότερο παράθυρο pixels, έστω 7x7. Ξανατρέχουμε τον αλγόριθμο εύρεσης των 

παραμέτρων και έχουμε τα εξής αποτελέσματα: 

35


CALIBRATION RESULTS FOR LEFT IMAGES (AFTER RECOMP.CORNERS) 

Calibration results after optimization (with uncertainties): 

Focal Length: fc =[ 3847.83474 3840.61655 ]±[ 693.48366 692.69112 ] 

Principal point: cc =[ 1549.51770 1204.16545 ]±[ 50.59710 47.10508 ] 

Skew: alpha_c = [ 0.00000 ] ± [ 0.00000 ] => angle of pixel axes = 

90.00000 ± 0.00000 degrees 

Distortion: kc = [ -0.28276 0.50952 -0.00474 0.00093 

0.00000 ] ± [ 0.10593 0.43239 0.00322 0.00290 0.00000 ] 

Pixel error: err = [ 0.80407 0.91700 ] 

Όπως έχει αναφερθεί σε προηγούμενο κεφάλαιο, το διάνυσμα fc περιέχει τις ποσότητες α u 

και α v του μοντέλου, το διάνυσμα kc περιέχει κατά σειρά τους όρους k 1 ,k 2 p 1 ,p 2 ,k 3 και το 

διάνυσμα err περιέχει την τυπική απόκλιση του σφάλματος επαναπροβολής στο οριζόντιο και τον 

κατακόρυφο άξονα της εικόνας σε pixels. Επίσης εμφανίζονται και οι τυπικές αποκλίσεις των 

παραμέτρων που υπολογίστηκαν. Τα παραπάνω αποτελέσματα προκύπτουν χρησιμοποιώντας το 

μοντέλο του Heikkilä με δύο όρους ακτινικής και δύο όρους εφαπτομενικής παραμόρφωσης. Η 

παραμόρφωση της εικόνας για αυτό το μοντέλο φαίνεται στο παρακάτω γράφημα: 

36 

Σχήμα 4.5: Η παραμόρφωση της εικόνας 

Από το παραπάνω σχήμα παρατηρούμε πως η παραμόρφωση μπορεί να φτάσει μέχρι και 

τα 40 pixels στην άκρη της φωτογραφίας, επομένως είναι αρκετά μεγάλη για να την αγνοήσουμε. 

Το πόσο επηρεάζει η παραμόρφωση τις φωτογραφίες γίνεται αντιληπτό από την παρακάτω 

συνδυαστική εικόνα:


Σχήμα 4.6 Η αρχική (άσπρη απόχρωση) σε σχέση με την undistorted (μπλε απόχρωση) εικόνα 

Στη συνέχεια, κάναμε ‘undistortion’ σε όλες τις εικόνες. Διορθώσαμε δηλαδή μέσω του 

Matlab τις παραμορφώσεις του φακού και επαναλάβαμε τη διαδικασία που προαναφέρθηκε με τις 

νέες undistorted εικόνες. Ουσιαστικά πλέον ο φακός θα πρέπει να λειτουργήσει σαν τέλειος, χωρίς 

παραμορφώσεις και να έχει καλύτερα αποτελέσματα στο στάδιο του calibration. Οι νέες αριστερές 

εικόνες συγκεντρώνονται στο παρακάτω σχήμα: 

Σχήμα 4.7 Undistorted εικόνες για την αριστερή ακολουθία 

37


Η μόνη διαφορά με την προηγούμενη πειραματική διαδικασία είναι ότι ο αλγόριθμος 

εξάγει σωστά τις γωνίες χωρίς να χρειάζεται να επαναϋπολογίζουμε κάθε φορά το kc. Αυτό είναι 

λογικό αφού πλέον δεν υπάρχουν παραμορφώσεις στις εικόνες. Τα πρώτα αποτελέσματα για το 

calibration είναι τα ακόλουθα: 

FIRST CALIBRATION WITH UNDISTORTED LEFT IMAGES (21x21) 


Focal Length: fc = [ 4546.91778 4538.96314 ]±[ 1026.41070 1024.77291 ] 

Principal point: cc = [ 1590.65884 1240.82609 ]±[ 96.92473 91.96643 ] 


90.00000 ± 0.00000 degrees 

Distortion: kc = [ 0.00925 -0.04406 0.00033 -0.00028 0.00000 ] ± [ 

0.01885 0.21903 0.00105 0.00097 0.00000 ] 


Αφού τρέξουμε τον αλγόριθμο του Newton με ίδιο παράθυρο όπως και προηγουμένως (7x7) 

Το νέο calibration, το οποίο αποτελεί και το τελικό αποτέλεσμα είναι το ακόλουθο: 

FINAL CALIBRATION WITH UNDISTORTED LEFT IMAGES AFTER RECOMP (7x7) 


Focal Length: fc = [ 4368.77069 4360.72881 ]±[ 1257.38470 1254.84129 ] 

Principal point: cc = [ 1583.20660 1232.86943 ]±[ 112.36782 110.79408 ] 


90.00000 ± 0.00000 degrees 

Distortion: kc = [ 0.00128 -0.01390 -0.00004 0.00003 0.00000 ] ± [ 

0.02034 0.22090 0.00117 0.00109 0.00000 ] 


38 

Σχήμα4.8: Η παραμόρφωση της εικόνας μετά το calibration για τις undistorted αριστερές εικόνες


Παρατηρούμε ότι το focal length είναι αρκετά κοντά στο πραγματικό, αφού εκφρασμένο σε 

εκατοστά είναι fc ≈ 115.6 cm. Θυμίζουμε ότι εμείς έχουμε ορίσει την κάμερα χειροκίνητα να 

εστιάζει στο 1m. Το pixel error είναι αποδεκτό αφού είναι μικρότερο από 1 pixel. Το alpha_c είναι 

εξ’ ορισμού 0, αφού οι άξονες των pixel είναι κάθετοι μεταξύ τους. Αν θεωρήσουμε ως πραγματικό 

principal point το κέντρο του φακού, αυτό θα είναι το cc = (1536 , 1152) πολύ κοντά στο principal 

point που υπολογίστηκε παραπάνω. Τέλος, ο συντελεστής παραμόρφωσης kc είναι πολύ κοντά στο 

μηδέν και πολύ μικρότερος από το calibration που έγινε χωρίς τις undistorted εικόνες, το οποίο 

είναι λογικό, αφού ο φακός είναι πλέον χωρίς παραμορφώσεις. Αυτό απεικονίζεται στο νέο γράφημα 

οπτικοποίησης των παραμορφώσεων του φακού (σχήμα 4.8). 

Ακολουθώντας όλη την προηγούμενη διαδικασία και για το σετ των δεξιών φωτογραφιών 

(σχ. 4.9) προέκυψαν τα αποτελέσματα που παρουσιάζονται στη συνέχεια. 

Σχήμα 4.9: Ακολουθία δεξιών εικόνων 

FINAL CALIBRATION WITH UNDISTORTED RIGHT IMAGES AFTER RECOMP 


Focal Length: fc = [ 4789.53269 4793.91952 ] ± [ 876.98378 878.84938] 

Principal point:cc = [ 1703.60277 1163.16496 ] ± [ 91.44800 78.43299 ] 


90.00000 ± 0.00000 degrees 

Distortion: kc = [ 0.02962 -0.47058 -0.00050 0.00015 0.00000 ] ± 

[ 0.02113 0.33062 0.00120 0.00118 0.00000 ] 


Παρατηρούμε ότι και για αυτή την ακολουθία εικόνων το focal length είναι αρκετά κοντά 

στο πραγματικό, αφού εκφρασμένο σε εκατοστά είναι fc ≈ 142.7 cm. Το pixel error είναι αποδεκτό 

αφού είναι μικρότερο από 1 pixel. Το alpha_c και το principal point είναι σταθερά και όπως και 

πριν υπολογίστηκαν πολύ κοντά στις πραγματικές τιμές. Εδώ, ο συντελεστής παραμόρφωσης kc 

είναι κοντά στο μηδέν, όχι όμως όσο στην ακολουθία των αριστερών φωτογραφιών αλλά και πάλι 

μικρότερος από το calibration που έγινε χωρίς τις undistorted εικόνες. Η συνολική παραμόρφωση 

οπτικοποιείται στο παρακάτω σχήμα 4.10: 

39


Σχήμα4.10: Η παραμόρφωση της εικόνας μετά το calibration για τις undistorted δεξιές εικόνες 

4.3.3 Strereo calibration 

Το επόμενο βήμα στη διαδικασία της βαθμονόμησης της κάμερας είναι το stereo calibration. 

Η διαδικασία αυτή γίνεται χρησιμοποιώντας τις παραμέτρους που έχουμε ήδη βρει για τις δύο 

ακολουθίες φωτογραφιών. Οι παράμετροι αυτές είναι αποθηκευμένες στα δύο αρχεία 

Calib_Results_left.mat και Calib_Results_right.mat. Κάνοντας load των δύο αρχείων που είπαμε 

έχουμε μια πρώτη εκτίμηση και των εξωγενών παραμέτρων και πιο συγκεκριμένα της σχετικής 

θέσης της δεξιάς κάμερας ως προς την αριστερή: 

Extrinsic parameters (position of right camera wrt left camera): 

Rotation vector: om = [ 0.00554 -0.00659 0.00033 ] 

Translation vector: t = [ -74.63363 23.30813 111.35501 ] 

Παρατηρούμε πως, με την πειραματική διάταξη που έχουμε κατασκευάσει αν και 

επιθυμούμε να έχουμε μόνο μετατόπιση της κάμερας, υπεισέρχεται και περιστροφή. Παρόλα αυτά 

το διάνυσμα της περιστροφής είναι πολύ κοντά στο μηδέν. 

Εισάγοντας την εντολή R = rodrigues(om), παίρνουμε τον πίνακα περιστροφής R 3x3,ο 

οποίος προέκυψε από το διάνυσμα περιστροφής om και είναι ο εξής: 

1.0000 -0.0003 -0.0066 

R = 0.0003 1.0000 -0.0055 

0.0066 0.0055 1.0000 

40


Στη συνέχεια υπολογίσαμε τον 3x3 αντισυμμετρικό πίνακα Τ, ο οποίος έχει την ιδιότητα 

για κάθε διάνυσμα x. Ο πίνακας αυτός δίνεται από τη σχέση : 

(4.10) 

όταν έχουμε t = [t 1 t 2 t 3 ]. Στη συγκεκριμένη περίπτωση με 

ο πίνακας Τ είναι ο εξής: 

t = [ -74.63363 23.30813 111.35501 ] 

0 -111.3550 23.3081 

Τ = 111.3550 0 74.6336 

-23.3081 -74.6336 0 

Αφού γνωρίζουμε τους πίνακες R και Τ μπορούμε να υπολογίσουμε τον πίνακα Ε=ΤR , ο 

οποίος ονομάζεται essential πίνακας και περιγράφει την επιπολική γεωμετρία της διάταξης των 

δύο καμερών. Ο πίνακας αυτός, μαζί με την επιπολική γεωμετρία των εικόνων θα παρουσιαστούν 

αναλυτικά στο κεφάλαιο 6. O essential πίνακας είναι ο εξής: 

0.1195 -111.2241 23.9248 

E = 111.8446 0.3755 73.8969 

-23.3305 -74.6245 0.5675 

Στη συνέχεια υπολογίζουμε τις συνδυασμένες εξωγενείς παραμέτρους, κρατώντας τις 

εσωγενείς σταθερές, καθώς υπήρχε μεγάλο σφάλμα κατά τη διάρκεια του επαναϋπολογισμού τους 

στο stereo calibration. Το αποτέλεσμα που πήραμε είναι το ακόλουθο: 

Intrinsic parameters of left camera: 

Focal Length:fc_left = [ 4368.77069 4360.72881 ] ± [ 0.00000 0.00000 ] 

Principal point: cc_left = [ 1583.20660 1232.86943 ] 

± [ 0.00000 0.00000 ] 

Skew: alpha_c_left = [ 0.00000 ] ± [ 0.00000 ] => angle of pixel 

axes = 90.00000 ± 0.00000 degrees 

Distortion:kc_left = [ 0.00128 -0.01390 -0.00004 0.00003 0.00000 ] 

± [ 0.00000 0.00000 0.00000 0.00000 0.00000 ] 

Intrinsic parameters of right camera: 

Focal Length:fc_right = [ 4789.53269 4793.91952 ] ± [ 0.00000 0.00000] 

Principal point: cc_right = [ 1703.60277 1163.16496 ] 

± [ 0.00000 0.00000 ] 

Skew: alpha_c_right = [ 0.00000 ] ± [ 0.00000 ] => angle of pixel 

axes = 90.00000 ± 0.00000 degrees 

Distortion:kc_right = [0.02962 -0.47058 -0.00050 0.00015 0.00000 ] 

± [ 0.00000 0.00000 0.00000 0.00000 0.00000 ] 

41


Extrinsic parameters (position of right camera wrt left camera): 

Rotation vector:om=[0.00513 -0.00552 0.00034 ]±[0.00134 0.00143 0.00018] 

Translation vector:t=[-75.95989 22.71161 111.28392 ]±[1.70575 1.60308 

0.21372 ] 

Μετά τον υπολογισμού των εξωγενών παραμέτρων, οι νέοι πίνακες που προκύπτουν είναι οι 

ακόλουθοι: 

1.0000 -0.0004 -0.0055 

R= 0.0003 1.0000 -0.0051 

0.0055 0.0051 1.0000 

0 -111.2839 22.7116 

T= 111.2839 0 75.9599 

-22.7116 -75.9599 0 

0.0888 -111.1660 23.2817 

E = 111.7017 0.3497 75.3434 

-22.7362 -75.9508 0.5150 

Από τα αποτελέσματα του stereo calibration βλέπουμε ότι οι εξωγενείς παράμετροι 

υπολογίστηκαν με ικανοποιητική ακρίβεια, αφού ο πίνακας περιστροφής R είναι κοντά στο μηδέν, 

αλλά η μετατόπιση T στον άξονα των x υπολογίστηκε περίπου 2 cm, ενώ πραγματικά είναι 

περίπου 5cm. Το γράφημα (σχήμα4.11) δείχνει τη σχετική θέση των δύο καμερών στο χώρο με 

βάση τους πειραματικούς υπολογισμούς. Είναι φανερό το σφάλμα που έχει εισαχθεί στους 

αλγορίθμους, αφού κανονικά έπρεπε τα επίπεδα των δύο καμερών να είναι υποσύνολο του ίδιου 

επιπέδου. Οι κάμερες δηλαδή θα έπρεπε να παρουσιάζονται παράλληλες. 

Σχήμα 4.11: Σχετική θέση των καμερών στο χώρο και οι εξωγενείς παράμετροι 

42


4.3.4 Πώς οι παραμορφώσεις του φακού επηρεάζουν τις εσωγενείς παραμέτρους 

Αξίζει να αναφέρουμε ότι ο αλγόριθμος για την εύρεση των παραμέτρων μας παρέχει την 

δυνατότητα να ορίζουμε ποιους όρους της ακτινικής και της εφαπτομενικής παραμόρφωσης θα 

χρησιμοποιήσουμε. Έτσι μπορούμε να έχουμε από κανέναν μέχρι τρεις όρους ακτινικής 

παραμόρφωσης και από κανένα μέχρι δύο όρους εφαπτομενικής παραμόρφωσης. Επίσης μας 

παρέχεται η δυνατότητα να χρησιμοποιούμε ή όχι συντελεστή λοξότητας. 

Οι παραμορφώσεις του φακού είναι σημαντικό πρόβλημα, αφού επηρεάζουν τα 

αποτελέσματα των εσωγενών παραμέτρων. Μπορούμε όμως να περιορίσουμε το λάθος 

ρυθμίζοντας τόσο την κάθε συνιστώσα της παραμόρφωσης ξεχωριστά όσο και συνδυαστικά μέχρι 

να φτάσουμε σε ένα ικανοποιητικό, αποδεκτό πλέον σφάλμα επαναπροβολής. Σε αυτή την ενότητα 

θα δούμε πρακτικά πώς επηρεάζονται, τα αποτελέσματα του calibration για τις εσωγενείς 

παραμέτρους. Το παράδειγμα που ακολουθεί είναι για διαφορετικό σύνολο εικόνων από αυτή που 

περιγράψαμε μέχρι τώρα: 

Σχήμα 4.12: Οι φωτογραφίες που χρησιμοποιήθηκαν για την πειραματική διαδικασία του undistortion 

Ακολουθήσαμε όλη τη διαδικασία για το calibration όπως περιγράφτηκε στην προηγούμενη 

υποενότητα και είχαμε τα εξής αποτελέσματα: 


Focal Length:fc = [3209.35240 3209.75376 ] ± [ 601.71889 602.89696 ] 

Principal point:cc= [ 1526.54848 1108.81584 ]±[ 50.18529 14.62244 ] 

Skew: alpha_c = [ 0.00000 ] ± [ 0.00000 ] => angle of pixel 

axes = 90.00000 ± 0.00000 degrees 

Distortion: kc = [ -0.19056 0.38040 0.00077 0.00092 0.00000 ] 

± [ 0.07658 0.33735 0.00096 0.00197 0.00000 ] 


43


Στη συνέχεια κάναμε διάφορες δοκιμές με τους συντελεστές παραμόρφωσης έτσι ώστε να 

καταλήξουμε στο μοντέλο που δίνει τις ΄΄καλύτερες τιμές΄΄. Χρησιμοποιώντας το μοντέλο και με 

συντελεστή λοξότητας και με ακτινική παραμόρφωση 6 ης τάξης( est_alpha = 1; est_dist = 

[1;1;1;1;1]; ) έχουμε: 





89.97327 ± 0.01949 degrees 

Distortion: kc = [ -0.18770 0.37102 0.00111 0.00072 -0.01195 ] 

± [ 0.07967 0.41702 0.00100 0.00197 0.72451 ] 


Παρατηρούμε ότι το σφάλμα επαναπροβολής είναι ελάχιστα βελτιωμένο, ενώ και οι 

αβεβαιότητες των παραμέτρων έχουν ελάχιστες διαφορές, εκτός από την αβεβαιότητα του cc(2) 

που έχει αυξηθεί αρκετά. Επίσης οι αβεβαιότητες του πρώτου και δεύτερου όρου της ακτινικής και 

του πρώτου όρου της εφαπτομενικής παραμόρφωσης έχουν αυξηθεί. Τέλος η τιμή του συντελεστή 

λοξότητας είναι πολύ μικρή, και συνεπώς η εισαγωγή αυτής της παραμέτρου δεν βελτιώνει την 

ακρίβεια του μοντέλου. Συμπεραίνουμε λοιπόν, πως χρησιμοποιώντας αυτό το μοντέλο δεν 

κερδίζουμε, ουσιαστικά, σε ακρίβεια και επιπρόσθετα έχει μεγαλύτερη πολυπλοκότητα στους 

υπολογισμούς. 

Το τρίτο μοντέλο που δοκιμάζουμε είναι αυτό που περιέχει μόνο ένα συντελεστή 

παραμόρφωσης , αυτόν της ακτινικής παραμόρφωσης δεύτερης τάξης ( est_alpha = 0; est_dist = 

[1;0;0;0;0]; ). Τα αποτελέσματα που προκύπτουν είναι τα εξής: 




Skew: alpha_c = [ 0.00000 ] ± [ 0.00000 ] => angle of pixel 

axes = 90.00000 ± 0.00000 degrees 

Distortion: kc =[ -0.14573 0.00000 0.00000 0.00000 -0.00000 ] 

± [ 0.02618 0.00000 0.00000 0.00000 0.00000 ] 


Σε αυτό το μοντέλο παρατηρούμε πως το σφάλμα επαναπροβολής είναι αρκετά αυξημένο, 

συνέπεια της μικρότερης δυνατότητας προσαρμογής του μοντέλου στα δεδομένα. Επίσης 

παρατηρούμε πως το principal point (cc) έχει μεταβληθεί σημαντικά. Συνεπώς, καταλήγουμε στο 

ότι ούτε αυτό το μοντέλο κρίνεται ικανοποιητικό. 

Το τελευταίο μοντέλο που δοκιμάζουμε είναι αυτό με δύο όρους ακτινικής παραμόρφωσης 

αλλά καθόλου εφαπτομενική παραμόρφωση ( est_alpha = 0; est_dist = [1;1;0;0;0]; ) και έχουμε 

σαν αποτέλεσμα: 


Focal Length: fc=[ 3387.54473 3388.62570 ]±[ 289.29211 289.55850 ] 

Principal point: cc=[ 1544.74212 1114.66310 ]±[ 21.07329 13.22697 ] 


90.00000 ± 0.00000 degrees 

Distortion: kc = [ -0.21421 0.49990 0.00000 0.00000 -0.00000 ] 

± [ 0.03982 0.19335 0.00000 0.00000 0.00000 ] 


44


Για το τελευταίο μοντέλο παρατηρούμε πως το σφάλμα επαναπροβολής είναι ελαφρά 

βελτιωμένο. Επίσης, παρατηρούμε πως έχουμε μια σημαντική μείωση σε όλες τις αβεβαιότητες. 

Συμπερασματικά λοιπόν, μπορούμε να πούμε πως το μοντέλο με δύο όρους ακτινικής 

παραμόρφωσης και καθόλου εφαπτομενική μας δίνει τα καλύτερα αποτελέσματα στο συγκεκριμένο 

σετ φωτογραφιών. Οπτικά η διόρθωση της παραμόρφωσης για το συγκεκριμένο σετ εικόνων 

δίνεται στα ακόλουθα σχήματα: 

Σχήμα 4.13: Αρχική εικόνα με παραμορφώσεις του φακού- η ευθεία δεν είναι απόλυτα ευθυγραμμισμένη με την 

πραγματική ευθεία της εικόνας 

45


Σχήμα 4.13: Διορθωμένη (undistorted) εικόνα χωρίς τις παραμορφώσεις του φακού- η ευθεία πλέον είναι 

απόλυτα ευθυγραμμισμένη με την πραγματική ευθεία της εικόνας. 

46

Κεφάλαιο 5: Εντοπισμός γωνιών και αντιστοίχηση σημείων ενδιαφέροντος στις εικόνες 

Κεφάλαιο 5: Εντοπισμός γωνιών και αντιστοίχηση σημείων 

ενδιαφέροντος στις εικόνες 


Πολλές εφαρμογές απαιτούν τη συσχέτιση δύο ή περισσότερων εικόνων, για να εξάγουν 

πληροφορίες από αυτές. Για παράδειγμα, αν είναι δυνατόν να συσχετίσουμε δύο διαδοχικά καρέ, σε 

μία ακολουθία βίντεο που λαμβάνονται με κινούμενη κάμερα, τότε μπορούμε να εξάγουμε 

πληροφορίες σχετικά με το βάθος των αντικειμένων που απεικονίζονται στο περιβάλλον καθώς και 

την ταχύτητα της κάμερας. Το να συγκρίνουμε κάθε pixel ξεχωριστά, είναι απαγορευτικό από 

υπολογιστικής άποψης για την πλειοψηφία των εφαρμογών. Διαισθητικά, κάποιος θα μπορούσε να 

αντιστοιχίσει στις δύο εικόνες σημεία που θεωρεί ‘ενδιαφέροντα’. Αυτά τα σημεία, που 

αναφέρονται ως σημεία ενδιαφέροντος, εντοπίζονται χρησιμοποιώντας έναν ‘ανιχνευτή’. Η εύρεση 

μεταξύ της σχέσης των σημείων στις δύο εικόνες, προκύπτει από τη χρήση μόνο αυτών των 

εντοπισμένων σημείων, με συνέπεια να μειώνεται αισθητά ο απαιτούμενος χρόνος υπολογισμού. 

Πολλοί διαφορετικοί ανιχνευτές σημείων ενδιαφέροντος έχουν προταθεί με ένα ευρύ φάσμα 

ορισμών για το ποια σημεία σε μία εικόνα χαρακτηρίζονται ‘ενδιαφέροντα’. Μερικοί ανιχνευτές 

βρίσκουν σημεία υψηλής τοπικής συμμετρίας, άλλοι βρίσκουν περιοχές με πολυποίκιλη υφή, ενώ 

άλλοι εντοπίζουν γωνίες. Τα γωνιακά σημεία είναι ενδιαφέροντα, καθώς σχηματίζονται από δύο η 

περισσότερες άκρες ή ακμές που συνήθως καθορίζουν τα όρια ανάμεσα σε δύο διαφορετικά 

αντικείμενα ή τμήματα των ίδιων αντικειμένων. Οι ανιχνευτές δεν είναι τίποτα παραπάνω από 

αλγορίθμους ενώ τα σημεία ενδιαφέροντος είναι γνωστά και ως ‘γωνίες’. 

Ο όρος ‘γωνία’ στην προκειμένη περίπτωση δε συμπίπτει απαραίτητα με τις φυσικές γωνίες 

των αντικειμένων που απεικονίζονται στις φωτογραφίες. Ο όρος σχετίζεται με τη φωτεινότητα της 

εικόνας, ως συνάρτησης δύο μεταβλητών και γενικά δηλώνει σημεία επί της εικόνας, στα οποία η 

καμπυλότητα της συνάρτησης φωτεινότητας, αποκτά ένα τοπικό μέγιστο. Τα σημεία αυτά είναι 

δυνατόν να αντιστοιχούν στις προβολές επί της εικόνας τόσο των πραγματικών γωνιών των 

αντικειμένων, όσο και σημείων σε περιοχές με έντονη υφή. 

Στο χώρο του computer vision υπάρχουν πολλοί αλγόριθμοι διαθέσιμοι για τον εντοπισμό 

γωνιών σε εικόνες οι οποίοι χωρίζονται στις ακόλουθες κατηγορίες: 

 

 

 

Μορφολογικοί: Πρώτα γίνεται εξαγωγή των ακμών στην εικόνα και μετά βάσει 

μορφολογικών μεθόδων, εντοπίζονται οι γωνίες. Οι αλγόριθμοι αυτοί προαπαιτούν γνώση 

της μορφολογίας της εικόνας και συγκεκριμένα των χαρακτηριστικών των ακμών της. Στην 

παρούσα εργασία τα χαρακτηριστικά του περιβάλλοντος θεωρούνται άγνωστα με συνέπεια 

να μην μπορούμε να εφαρμόσουμε μορφολογικούς αλγορίθμους για την επίλυση του 

συγκεκριμένου προβλήματος. 

Template-based: Χρησιμοποιούν προκαθορισμένα πρότυπα γωνιών και προσπαθούν να 

εντοπίσουν τα σημεία της εικόνας τα οποία ταιριάζουν 'μορφολογικά' με αυτά τα πρότυπα. 

Και αυτοί οι αλγόριθμοι προϋποθέτουν γνώση των χαρακτηριστικών της εικόνας, οπότε δεν 

είναι αποδοτικοί στο παρόν πρόβλημα. 

Signal-based: Οι αλγόριθμοι αυτής της κατηγορίας χειρίζονται την εικόνα ως μια 

συνάρτηση φωτεινότητας δυο διαστάσεων και χρησιμοποιούν τις παραγώγους της, για να 

βρουν τις γωνίες της. Είναι από τις πιο αποδοτικές μεθόδους στην εύρεση των σημείων 

ενδιαφέροντος στην τρισδιάστατη αναπαράσταση του χώρου. Ο Harris Corner Detector 

ανήκει σε αυτήν την κατηγορία και είναι αυτός που χρησιμοποιούμε στο συγκεκριμένο 

πρόβλημα. 

47


Σχήμα 5.1: Χρονοδιάγραμμα διαφόρων αλγορίθμων εντοπισμού γωνιών 

Αξιοσημείωτο είναι ότι το πιο αδύναμο σημείο της τρισδιάστατης ανακατασκευής του 

χώρου, είναι η αντιστοίχηση γωνιών ανάμεσα στις εικόνες. Αυτό συμβαίνει γιατί στις εικόνες 

υπάρχουν πολλές επαναλαμβανόμενες δομές καθώς και μικρές ‘όμοιες’ περιοχές στις εικόνες, με 

αποτέλεσμα να αναγνωρίζονται πολλές ανύπαρκτες ουσιαστικά γωνίες. Αυτό οδηγεί και σε πολλές 

λανθασμένες αντιστοιχίσεις σημείων. Για την ώρα, δεν υπάρχει καμία μέθοδος που να εγγυάται ότι 

δε θα υπάρξουν λάθη κατά την αντιστοίχηση. Αυτά θα αναλυθούν στην υποενότητα 5.5. 

5.2Κριτήρια επιλογής αλγορίθμου εντοπισμού γωνιών 

Είναι επιθυμητό για έναν ανιχνευτή γωνίας να ικανοποιεί μια σειρά κριτηρίων: 

1. Όλες οι ‘πραγματικές γωνίες’ να ανιχνεύονται. 

2. Να μην ανιχνεύεται "ψευδής γωνία». 

3. Τα γωνιακά σημεία να εντοπίζονται καλά. 

4. Να έχει ένα υψηλό ποσοστό επαναληψιμότητας (καλή ευστάθεια). 

5. Να είναι σθεναρός στο θόρυβο. 

6. Να είναι υπολογιστικά αποδοτικός. 

7. Αν δύο ή περισσότερες εικόνες, απεικονίζουν το ίδιο αντικείμενο από ελαφρά διαφορετικές 

θέσεις, θα πρέπει οι ίδιες γωνίες που ανιχνεύονται στη μία εικόνα, να ανιχνεύονται και στις 

υπόλοιπες. 

Στην παρούσα εργασία, θέλουμε να αντιστοιχήσουμε τις γωνίες που απεικονίζουν το ίδιο 

σημείο του αντικειμένου. Υπάρχουν πολλοί αλγόριθμοι για τον εντοπισμό των γωνιών, όμως ο 

καθένας υπερισχύει σε κάποιο από τα παραπάνω κριτήρια και διαφέρει από βιβλιογραφία σε 

βιβλιογραφία καθώς δεν υπάρχουν ακριβή πρότυπα γωνιών. Δηλαδή, είναι υποκειμενικό ποια 

σημεία θεωρούνται γωνίες και ποια όχι, ανάλογα με κάποια χαρακτηριστικά. Στην παρούσα 

εργασία, βάσει της βιβλιογραφίας και των πειραματικών αποτελεσμάτων, καθώς και του 

αντικειμένου με το οποίο ασχολούμαστε, μας ενδιαφέρει πρωτίστως το κριτήριο 7, χωρίς αυτό να 

σημαίνει ότι και τα υπόλοιπα είναι ελάσσονος σημασίας. 

Λαμβάνοντας υπόψη τα παραπάνω, κατά τη διάρκεια της πειραματικής μας διαδικασίας, 

χρησιμοποιήσαμε τον Harris Corner Detector, καθώς δίνει ικανοποιητικά αποτελέσματα, τόσο για 

το κριτήριο 7 όσο και τα υπόλοιπα. Το μεγάλο του πλεονέκτημα σε σχέση με τους υπόλοιπους για 

το πρόβλημά μας, είναι ότι εντοπίζει τις γωνίες που θέλουμε, χωρίς ταυτόχρονα να παράγει πολλές 

επιπρόσθετες λανθασμένες αναγνωρίσεις γωνιών. Το κόστος όμως αυτής της διαδικασίας, είναι η 

ακρίβεια με την οποία εντοπίζονται οι γωνίες. Γι’ αυτό το λόγο, μετά την πρώτη εφαρμογή του 

αλγορίθμου, χρησιμοποιούμε ένα δεύτερο στάδιο εντοπισμού με ακρίβεια μικρότερη του pixel, στις 

περιοχές των σημείων που προκύπτουν από την πρώτη εφαρμογή. 

48

5.3 Harris Corner Detector 


Βασίζεται στην τοπική αυτοσυσχέτιση ( local auto-correlation) για να χαρακτηρίσει ένα 

σημείο ως γωνία. Η τοπική αυτοσυσχέτιση είναι το άθροισμα των τετραγώνων των διαφορών της 

έντασης στα διάφορα σημεία της εικόνας. Ουσιαστικά, θεωρεί ως γωνίες τα σημεία στα οποία κάθε 

μικρή μετακίνηση έχει ως αποτέλεσμα μεγάλες αλλαγές στη συνάρτηση φωτεινότητας. Ο 

‘πρόγονος’ του Harris Corner Detector είναι ο αλγόριθμος Moravec, του οποίου και αποτελεί 

βελτιωμένη εκδοχή. 

Η συνάρτηση φωτεινότητας είναι ευαίσθητη στο θόρυβο γι' αυτό και ο Harris χρησιμοποιεί 

ανάπτυξη κατά Taylor καθώς και smoothing με Gaussian μάσκα για να αυξήσει τη σθεναρότητα 

του αλγορίθμου στο θόρυβο. Το μέτρο 'γωνιότητας' που χρησιμοποιεί ο αλγόριθμος Harris δίνεται 

για κάθε σημείο από τον παρακάτω πίνακα: 

όπου I x ,I y είναι οι παράγωγοι της έντασης σε grayscale της εικόνας Ι στη x και στην y διεύθυνση 

αντίστοιχα, ενώ το “ ^ ” υποδηλώνει τη συνέλιξη με τη Gaussian μάσκα. Αποδεικνύεται ότι οι 

ιδιοτιμές του παραπάνω πίνακα C(x,y) είναι ανάλογες με τις κύριες καμπυλότητες της επιφάνειας 

της εικόνας Ι. Το Ι(x,y) είναι η ένταση σε grayscale. 

Αν λ 1 , λ 2 είναι οι ιδιοτιμές του πίνακα C(x,y), διακρίνουμε 3 περιπτώσεις: 

 

 

 

Αν λ 1 και λ 2 είναι μικρές, η συνάρτηση φωτεινότητας της εικόνας έχει σχεδόν σταθερή 

ένταση (π.χ. μικρή αλλαγή στον C(x,y) σε οποιαδήποτε κατεύθυνση). 

Αν μία από τις ιδιοτιμές λ 1 ή λ 2 είναι μεγάλη και η άλλη μικρή, η τοπική αυτοσυσχέτιση 

παρουσιάζει κορυφή, με αποτέλεσμα μικρή μετακίνηση κατα μήκος της κορυφής να 

προκαλεί μικρή αλλαγή στον C(x,y) στη μία διεύθυνση και σημαντική στην άλλη, οπότε 

υπάρχει ακμή. 

Αν και οι δύο ιδιοτιμές είναι μεγάλες, η τοπική αυτοσυσχέτιση είναι “sharply peaked” οπότε 

ακόμα και μικρή μετακίνηση σε οποιαδήποτε διεύθυνση έχει σαν αποτέλεσμα μεγάλη 

αλλαγή στον C(x,y). Άρα υπάρχει γωνία. 

Τα παραπάνω συγκεντρώνονται στον αλγόριθμο που ακολουθεί: 

49


Σχηματικά η βασική ιδέα του Harris Corner Detector παρουσιάζεται στην παρακάτω εικόνα: 

Σχήμα 5.2. Harris Corner Detector: Βασική ιδέα 

Όμως η διαδικασία εύρεσης των γωνιών είναι χρονοβόρα και δύσκολη καθώς απαιτείται 

υπολογισμός τετραγωνικής ρίζας, γι' αυτό και αντί του παραπάνω κριτηρίου, χρησιμοποιείται η 

σχέση: 

Δ = det C – k(tranceC) 2 ή Δ = ( Î x 2 Î y 

2 – I x 

2^I y 2 )-k(Î x 2 + Î y 2 ) 2 (5.1) 

και ως γωνίες αναγνωρίζονται τα σημεία εκείνα στα οποία η σχέση 5.1 ξεπερνάει κάποιο κατώφλι. 

Ο όρος k χρησιμοποιείται για προστασία από λάθος ανίχνευση γωνίας και συγκεκριμένα από το να 

αναγνωρίζει σημεία ακμών ως γωνίες (γιατί και στα σημεία ακμών, έχουμε μεγάλες τιμές για τις 

παραγώγους). Ο Harris πρότεινε την τιμή k=0.04 εμπειρικά. Για τις παραγώγους της έντασης 

χρησιμοποιούνται οι μάσκες παραγώγισης: 

Επίσης, για να λειτουργήσει ο αλγόριθμος χρειάζεται τον ορισμό παραμέτρων των οποίων 

οι βέλτιστες τιμές ορίστηκαν μέσα από διαδικασία δοκιμών. Συγκεκριμένα, το παράθυρο Gaussian 

συνέλιξης έχει μέγεθος 5x5 και τυπική απόκλιση σ = 5/6, ενώ το κατώφλι για την αναγνώριση 

κάποιου σημείου ως γωνίας ορίστηκε ίσο με 0.04 (όταν οι τιμές για τα pixels της εικόνας είναι 

κανονικοποιημένες στο διάστημα [0,1]). 

Αφού εφαρμοστεί η παραπάνω διαδικασία, τα σημεία για τα οποία το μέτρο Δ παίρνει τιμές 

μεγαλύτερες του κατωφλίου, ορίζουν μια περιοχή γύρω από την πραγματική γωνία. Σε κάθε μία 

από τις περιοχές αυτές ως το μοναδικό pixel που θεωρούμε ότι υπάρχει γωνία, κρατάμε το μέγιστο 

της περιοχής αυτής. Για το σκοπό αυτό, χρησιμοποιούμε ένα φίλτρο μεγίστου, με μέγεθος επίσης 

5x5. 

50

5.4 Εφαρμογή του Harris Corner Detector 


Στην παράγραφο αυτή θα δείξουμε τα αποτελέσματα της εφαρμογής του Harris Corner 

Detector, όπως αυτός αναλύθηκε παραπάνω. Στη συνέχεια, όποτε χρειαστεί να αναφερθούμε στον 

Harris Corner Detector, για χάριν συντομίας θα γράφουμε hcd. Για την εφαρμογή του hcd θα 

χρησιμοποιήσουμε τη φωτογραφία του σχήματος 5.3. 

Σχήμα 5.3: Η φωτογραφία στην οποία θα εφαρμοσθεί ο Harris Corner Detector 

Η επιλογή της φωτογραφίας δεν είναι τυχαία, διότι οι κορυφές των τετραγώνων της 

σκακιέρας αποτελούν ιδανικούς ‘υποψηφίους’ για πιθανές γωνίες, λόγω των αλλαγών της 

φωτεινότητας. Έτσι, ουσιαστικά, δίνουμε μια βοήθεια στον hcd. Προτού τρέξουμε τον hcd στο 

matlab είναι απαραίτητο να αναφέρουμε τις παραμέτρους του, τις οποίες μπορούμε να 

τροποποιήσουμε έτσι ώστε να αποδώσει τα ‘καλύτερα’ για εμάς αποτελέσματα. Η πρώτη 

παράμετρος είναι το MaximumCornerCount, και ορίζει τον μέγιστο αριθμό γωνιών που μπορεί 

να εντοπίσει ο αλγόριθμος. Επόμενη παράμετρος είναι το CornerThreshold . Αυτό το 

κατώφλι, θέτει την κατώτερη ‘μετρική’ τιμή που θα ορίζει μια γωνία. Τελευταία παράμετρος είναι 

το NeighborhoodSize, το οποίο είναι ένα διάνυσμα 2 στοιχείων τα οποία παίρνουν ακέραιες, 

περιττές τιμές. Αυτή η παράμετρος ορίζει την περιοχή γύρω από μία γωνία, για την οποία ο 

αλγόριθμος μηδενίζει τις τιμές. Οι δύο τιμές της ορίζουν τον αριθμό των γραμμών και των στηλών 

της περιοχής αντίστοιχα. Τα αποτελέσματα του hcd φαίνονται στη φωτογραφία του σχήματος 5.4. 

Προκειμένου να φτάσουμε σε αυτά τα επιθυμητά αποτελέσματα, κάναμε διάφορες δοκιμές 

σχετικά με τις παραμέτρους. Πιο συγκεκριμένα καταλήξαμε σε MaximumCornerCount = 500, 

CornerThreshold = 0,17e-3 και ΝeighborhoodSize = [21 21]. Για αυτή την τιμή 

του CornerThreshold ο κώδικας αναγνωρίζει κάθε γωνία των τετραγώνων της σκακιέρας 

ακόμα κι αν βρίσκονται σε περιοχές της φωτογραφίας με χαμηλό contrast, ενώ με το παράθυρο που 

επιλέξαμε ο εντοπισμός της θέσης των γωνιών είναι αρκετά ακριβής. 

51


Σχήμα 5.4: Εντοπισθείσες ,από τον αλγόριθμο, γωνίες. 

Έτσι ο κώδικας δεν εντοπίζει 2 ή περισσότερες γωνίες, οι οποίες αντιστοιχούν ουσιαστικά στο ίδιο 

σημείο του τετραγωνικού πλέγματος. Αυτό φαίνεται καθαρά στο επόμενο σχήμα, όπου παρατίθεται 

σε μεγέθυνση, ένα μέρος του σχήματος 5.4. H επιλογή των συγκεκριμένων τιμών για τις 

παραμέτρους δεν είναι δεσμευτική, αφού όπως θα δούμε και στο επόμενο κεφάλαιο, ανάλογα με τα 

ζεύγη φωτογραφιών που έχουμε, ορίζουμε και διαφορετικές τιμές παραμέτρων, που μας δίνουν τα 

καλύτερα αποτελέσματα. 

Σχήμα 5.5:Λεπτομέρεια από το σχήμα 5.4 

52


5.5Αντιστοίχιση των γωνιών στις φωτογραφίες 

Το επόμενο στάδιο στη διαδικασία που ακολουθούμε, μετά τον εντοπισμό των σημείων 

ενδιαφέροντος (γωνιών), είναι ο εντοπισμός, σε φωτογραφίες ενός στερεοσκοπικού ζεύγους, των 

γωνιών που είναι προβολές του ίδιου σημείου της σκηνής. Οι γωνίες αυτές, λέμε ότι, βρίσκονται σε 

αντιστοιχία. Ωστόσο, η διαδικασία για την εύρεση όλων των αντιστοιχίσεων είναι μια δύσκολη 

διαδικασία, η οποία δίνει συχνά αρκετά αναξιόπιστα αποτελέσματα. 

Στα πλαίσια της δικής μας εργασίας θα χρησιμοποιήσουμε μια απλή μέθοδο, η οποία δίνεται 

στο computer vision toolbox του matlab. Δεν επιδιώξαμε να χρησιμοποιήσουμε κάποια καλύτερη 

και πιο πολύπλοκη μέθοδο διότι σε συνδυασμό με τις μεθόδους απόρριψης των λανθασμένων 

αντιστοιχίσεων, που θα εξηγηθούν στο επόμενο κεφάλαιο, έχουμε αρκετά ικανοποιητικά αποτελέσματα. 

Η συγκεκριμένη μέθοδος, μπορεί να χρησιμοποιήσει τρεις διαφορετικούς τύπους 

υπολογισμού απόστασης (metric). Εμείς χρησιμοποιήσαμε την κανονικοποιημένη ετεροσυσχέτιση 

(Normalized cross-correlation), η οποία δίνεται από τον εξής τύπο: 

(5.2) 

Πιο συγκεκριμένα, για κάθε γωνία που έχει εντοπισθεί από τον hcd και στις δύο 

φωτογραφίες, εξάγουμε ένα ‘παράθυρο’ ΑxB με τη γωνία να βρίσκεται στο κέντρο του. Στη 

συνέχεια χρησιμοποιούμε την (5.2) ή αλλιώς NCC, ανάμεσα στις περιοχές που έχουμε εξάγει για 

να υπολογίσουμε ένα κόστος αντιστοίχισης ανάμεσα στις γωνίες. Κάθε γωνία οποιασδήποτε 

φωτογραφίας αντιστοιχίζεται με τη γωνία της άλλης που έχουν το χαμηλότερο κόστος. Κάθε γωνία 

της φωτογραφίας μπορεί να αντιστοιχιστεί με παραπάνω από ένα σημεία της άλλης, από τη στιγμή 

που δεν υπάρχει κάποιος περιορισμός μοναδικότητας. Αυτό φαίνεται έντονα και στο σχήμα 5.6, 

όπου φαίνονται όλες οι αντιστοιχίσεις που μας έδωσε ο αλγόριθμος. 

Σχήμα 5.6: Αντιστοίχιση γωνιών ανάμεσα στις δύο φωτογραφίες 

53


Το παράθυρο ΑxΒ που υποθέσαμε παραπάνω ορίζεται από τις παραμέτρους BlockSize 

και πρέπει να είναι περιττός και ακέραιος. Η άλλη παράμετρος του αλγορίθμου που μπορούμε να 

ρυθμίσουμε έτσι ώστε να παίρνουμε καλύτερα αποτελέσματα είναι το MatchThreshold. Η 

παράμετρος αυτή είναι ένα ποσοστιαίο κατώφλι για να επιλέγονται η ισχυρότερες αντιστοιχίες. 

Παίρνει τιμές από 0 μέχρι 100, και οι αντιστοιχίες με NCC μεγαλύτερο της τιμής του, 

απορρίπτονται. Λογικά λοιπόν, όσο μεγαλώνει η τιμή που του βάζουμε τόσες περισσότερες 

αντιστοιχίες έχουμε. Στα πλαίσια των πειραμάτων μας δεν αλλάξαμε καθόλου την προκαθορισμένη 

τιμή του BlockSize = 9, αλλά δεν έγινε το ίδιο και με το MatchThreshold, όπως θα φανεί 

στο επόμενο κεφάλαιο. 

Σχήμα 5.7:Περιοχή με λίγες λανθασμένες αντιστοιχήσεις 

Σχήμα 5.8:Περιοχή με πολλές λανθασμένες αντιστοιχίσεις 

54


Οι άλλοι δύο τύποι υπολογισμού αποστάσεων (metric) που έχουμε τη δυνατότητα να 

χρησιμοποιήσουμε είναι το άθροισμα των απολύτων διαφορών ( SAD) που περιγράφεται από τη 

σχέση: 

(5.3) 

και το άθροισμα του τετραγώνου των διαφορών (SSD) που δίνεται από τη σχέση: 

(5.4) 

55

Κεφάλαιο 7: Υπολογισμός βάθους από στερεοσκοπικό ζεύγος 

Κεφάλαιο 6: Επιπολική Γεωμετρία 


Η επιπολική γεωμετρία είναι η γεωμετρία της στερεοσκοπικής όρασης. Όταν δύο 

φωτογραφικές μηχανές 'δουν' μια τρισδιάστατη (3D) σκηνή από δύο διαφορετικές θέσεις, υπάρχει 

ένας αριθμός γεωμετρικών σχέσεων μεταξύ των 3D σημείων και των προβολών τους στις 

διδιάστατες (2D) εικόνες που οδηγούν σε ορισμένους περιορισμούς μεταξύ των σημεί ων της 

εικόνας. Οι σχέσεις αυτές προκύπτουν με βάση την υπόθεση ότι οι κάμερες μπορούν να 

περιγραφτούν με το μοντέλο μικρής οπής ( pinhole camera model), όπως αυτό αναλύθηκε στο 

κεφάλαιο 3. 

Σχήμα 6.1: Τυπική περίπτωση χρήσης της επιπολικής γεωμετρίας 

Δύο κάμερες τραβούν μια φωτογραφία της ίδιας σκηνής από διαφορετικές οπτικές γωνίες. Η επιπολική 

γεωμετρία περιγράφει στη συνέχεια τη σχέση μεταξύ των δύο όψεων που προκύπτουν. 

6.2 Επιπολική Γεωμετρία 

Η παρακάτω εικόνα (σχήμα 6.2) απεικονίζει δύο κάμερες που μοντελοποιούνται από το 

pinhole model, οι οποίες 'κοιτούν' το σημείο Χ. Στις πραγματικές φωτογραφικές μηχανές, το 

επίπεδο της εικόνας βρίσκεται πίσω από το σημείο εστίασης, οπότε ουσιαστικά παράγεται μια 

περιστραμμένη εικόνα. Εδώ, ωστόσο, το πρόβλημα της προβολής απλοποιείται με την τοποθέτηση 

ενός εικονικού επιπέδου εικόνας μπροστά από το σημείο εστίασης της κάθε φωτογραφικής 

μηχανής, ώστε η καθεμία να παράγει μία μη περιστραμμένη εικόνα. Τα Ο L και Ο R 

αντιπροσωπεύουν τα σημεία εστίασης των δύο φωτογραφικών μηχανών. Το X αντιπροσωπεύει το 

κοινό σημείο ενδιαφέροντος των δύο καμερών. Τα σημεία X L και Χ R είναι οι προβολές του 

σημείου X επάνω στο επίπεδο της εικόνας. 

56


Σχήμα 6.2: Επιπολική γεωμετρία 

Κάθε κάμερα αποτυπώνει μια 2D εικόνα του 3D κόσμου. Η μετατροπή από 3D σε 2D 

αναφέρεται ως μια προοπτική προβολή και περιγράφεται από το μοντέλο της φωτογραφικής 

μηχανής pinhole. Είναι σύνηθες να μοντελοποιείται αυτή η λειτουργία της προβολής από ακτίνες 

που προέρχονται από την κάμερα και διέρχονται από το σημείο εστίασής της. Σημειώστε ότι κάθε 

προερχόμενη ακτίνα αντιστοιχεί σε ένα μοναδικό σημείο στην εικόνα. 

6.2.1 Επίπολο ή επιπολικό σημείο, επιπολική γραμμή και επιπολικό επίπεδο 

Δεδομένου ότι τα εστιακά σημεία των καμερών είναι διαφορετικά, το καθένα έχει 

διαφορετική προβολή στο επίπεδο της εικόνας της άλλης κάμερας. Αυτά τα δύο σημεία των 

εικόνων συμβολίζονται με e L και e R και ονομάζονται επίπολα ή επιπολικά σημεία. Και τα δύο 

επίπολα e L και e R εντός των αντίστοιχων επιπέδων της εικόνας τους καθώς και τα δύο εστιακά 

σημεία O L και O R βρίσκονται σε μία και μόνη 3D γραμμή. 

Η γραμμή O L –X επειδή είναι απόλυτα ευθυγραμμισμένη με το εστιακό σημείο της 

αριστερής κάμερας, όταν την ‘κοιτάει’ ο φακός της, προφανώς τη βλέπει σα σημείο. Αντίθετα, η 

δεξιά κάμερα, την ίδια γραμμή τη ‘βλέπει’ σα γραμμή στο επίπεδο της εικόνας της. Αυτή η γραμμή 

(e R –x R ) στη δεξιά κάμερα λέγεται επιπολική γραμμή. Αντίστοιχα, η γραμμή O R –X, θεωρείται από 

τη δεξιά κάμερα ως σημείο ενώ από την αριστερή ως επιπολική γραμμή e L –x L . Μία επιπολική 

γραμμή είναι συνάρτηση του 3D σημείου Χ, το οποίο σημαίνει ότι αν το Χ κινείται ελεύθερα στον 

τρισδιάστατο χώρο, προκύπτει ένα σύνολο επιπολικών ευθειών και στις δύο εικόνες. Αφού η 

τρισδιάστατη γραμμή O L –X περνάει από το εστιακό σημείο O L , η αντίστοιχη επιπολική γραμμή 

στη δεξιά εικόνα πρέπει να περνάει από το επίπολο e R (και αντίστοιχα οι επιπολικές γραμμές της 

αριστερής εικόνας). Αυτό σημαίνει ότι όλες οι επιπολικές ευθείες της μίας εικόνας, πρέπει να 

τέμνονται με το επίπολο της ίδιας εικόνας. Είναι προφανές ότι όποια γραμμή τέμνεται με το 

επίπολο είναι μία επιπολική γραμμή, αφού προέρχεται από κάποιο σημείο Χ του τρισδιάστατου 

χώρου. 

Σαν εναλλακτικό τρόπο απεικόνισης, θεωρούμε τα σημεία X, O L και O R ως συνεπίπεδα. Το 

επίπεδο που ορίζουν, ονομάζεται επιπολικό επίπεδο. Το επιπολικό επίπεδο όταν τέμνεται με το 

επίπεδο εικόνας της κάθε κάμερας, σχηματίζει γραμμές- τις επιπολικές γραμμές. Όλα τα επιπολικά 

επίπεδα και οι επιπολικές γραμμές τέμνονται με τα επίπολα ανεξάρτητα από το πού βρίσκεται το 

σημείο Χ. 

57


6.2.2 Επιπολικός περιορισμός και τριγωνοποίηση (triangulation) 

Εάν η σχετική μετατόπιση και περιστροφή δύο καμερών είναι γνωστή ( σχήμα 6.3), η 

αντίστοιχη επιπολική γεωμετρία οδηγεί σε δύο σημαντικές παρατηρήσεις: 

Εάν η προβολή του σημείου p L είναι γνωστή, τότε και η επιπολική γραμμή 

E R -p R είναι γνωστή και το σημείο P προβάλλεται στη δεξιά εικόνα, σε ένα σημείο p R που πρέπει 

να βρίσκεται επί της συγκεκριμένης επιπολικής γραμμής. Αυτό σημαίνει ότι για κάθε σημείο που 

υπάρχει σε μία εικόνα το ίδιο σημείο πρέπει να υπάρχει και στην άλλη εικόνα σε μια γνωστή 

επιπολική γραμμή. Αυτό αποτελεί τον επιπολικό περιορισμό, τον οποίο πρέπει να ικανοποιούν 

αντίστοιχα σημεία των εικόνων και αυτό σημαίνει ότι είναι δυνατό να ελέγξουμε εάν δύο σημεία 

αντιστοιχούν στο ίδιο πραγματικό σημείο 3D. 

Εάν τα σημεία p L και p R είναι γνωστά, οι γραμμές της προβολής τους στις 

εικόνες είναι επίσης γνωστές. Αν τα δύο σημεία της εικόνας αντιστοιχούν στο ίδιο τρισδιάστατο P 

σημείο οι γραμμές προβολής πρέπει να τέμνονται ακριβώς στο P. Αυτό σημαίνει ότι το P μπορεί να 

υπολογιστεί από τις συντεταγμένες των δύο σημείων της εικόνας, μια διαδικασία που ονομάζεται 

τριγωνοποίηση. 

Σχήμα 6.3: Παράδειγμα επιπολικής γεωμετρίας: Δύο κάμερες με τα αντίστοιχα εστιακά τους σημεία O L και O L 

‘βλέπουν’ ένα σημείο P. Η προβολή του σημείου P σε κάθε ένα από τα επίπεδα των εικόνων συμβολίζεται με p L 

και p R . Τα σημεία E L και E R είναι τα επίπολα 

6.3 Essential πίνακας και θεμελιώδης μήτρα 

Επιπολικοί περιορισμοί μπορούν επίσης να αποδοθούν από τον βασικό πίνακα (essential 

matrix) ή τη θεμελιώδη μήτρα (fundamental matrix) ανάμεσα στις δύο κάμερες. Ο essential πίνακας 

συμβολίζεται συνήθως με Ε και είναι αυτός που περιέχει όλες τις πληροφορίες για την επιπολική 

γεωμετρία και τη σχετική θέση των δύο καμερών μεταξύ δύο διαδοχικών λήψεων. Η θεμελιώδης 

μήτρα συσχετίζει τα αντίστοιχα σημεία των δύο εικόνων. Αν x και x΄ είναι αντίστοιχα οι ομογενείς 

συντεταγμένες των δύο εικόνων, το γινόμενο Fx περιγράφει μία επιπολική γραμμή πάνω στην 

οποία πρέπει να βρίσκεται το αντίστοιχο σημείο x΄. Αυτό σημαίνει ότι όλα τα σημεία που 

αντιστοιχίζονται από τη μία εικόνα στην άλλη ικανοποιούν την παρακάτω εξίσωση: 

(6.1) 

Ο essential πίνακας σχετίζεται με βαθμονομημένες κάμερες, ενώ η θεμελιώδης μήτρα αποτελεί μια 

έκφραση πιο γενική και δομημένη στις βασικές αρχές της προβολικής γεωμετρίας. Ο essential 

πίνακας και η θεμελιώδης μήτρα, συνδέονται με την εξής σχέση: 

58


όπου Κ΄ και Κ είναι αντίστοιχα οι πίνακες των εσωγενών παραμέτρων των δύο βαθμονομημένων 

καμερών. 

(6.2) 

6.4 Απλοποιημένες περιπτώσεις 

Η επιπολική γεωμετρία απλοποιείται, εάν τα δύο επίπεδα της εικόνας της κάμερας 

συμπίπτουν (είναι δηλαδή συνεπίπεδα σχήμα 6.4), το οποίο είναι και το θέμα της συγκεκριμένης 

εργασίας. Στην περίπτωση αυτή, δεν υπάρχει καμία περιστροφή μεταξύ των καμερών. Προφανώς 

και οι επιπολικές γραμμές συμπίπτουν (E L –p L = E R –p R ). Επιπλέον, οι επιπολικές γραμμές είναι 

παράλληλες με τη γραμμή O L -O R μεταξύ των σημείων εστίασης, και μπορούν στην πράξη να 

ευθυγραμμιστούν με τους οριζόντιους άξονες των δύο εικόνων. Αυτό σημαίνει ότι για κάθε σημείο 

σε μια εικόνα, το αντίστοιχο σημείο του στην άλλη εικόνα μπορεί να βρεθεί μόνο κατά μήκος μιας 

οριζόντιας γραμμής. 

Σχήμα 6.4: Μηδενική περιστροφή μεταξύ των δύο καμερών 

Ουσιαστικά η παραπάνω διάταξη προσομοιώνει τη λειτουργία της ανθρώπινης όρασης (σχήμα 6.5) 

Σχήμα 6.5: Λειτουργία ανθρώπινης όρασης 

Σε περίπτωση που οι κάμερες δεν μπορούν να τοποθετηθούν με αυτό τον τρόπο οι συντεταγμένες 

της εικόνας μπορούν να μετασχηματιστούν ώστε να συμπεριφέρονται σα να έχουν κοινό επίπεδο 

59


εικόνας, κατά κάποιον τρόπο να ευθυγραμμιστούν στον οριζόντιο άξονα. Αυτή η διαδικασία 

ονομάζεται διόρθωση εικόνας (image rectification) και φαίνεται στο ακόλουθο σχήμα: 

Σχήμα 6.6: Image rectification 

Στην παρούσα εργασία, όπως έχουμε ξαναπεί, δε χρησιμοποιούμε ένα στερεοσκοπικό 

ζεύγος καμερών (stereo camera) αλλά μόνο μία κάμερα, με αποτέλεσμα οι δύο εικόνες εν τέλει να 

έχουν μία μικρή περιστροφή μεταξύ τους. Στο κεφάλαιο 8 θα φανεί αυτή η περιστροφή καθώς και 

συνοπτικά η διαδικασία του image rectification. 

60




Επόμενο βήμα μας, και ίσως το πιο σημαντικό, προς την τρισδιάστατη αναπαράσταση είναι 

ο υπολογισμός του βάθους (depth of range). Πρέπει από τις δύο διαστάσεις (x,y) του ζεύγους των 

φωτογραφιών να ανακτήσουμε την απαραίτητη, κωδικοποιημένη πληροφορία για την 3 η διάσταση 

(x,y,z), έτσι ώστε να επιτύχουμε μια ικανοποιητική απεικόνιση του τρισδιάστατου χώρου. Η 

βασική αρχή στην οποία στηριζόμαστε για τον υπολογισμό του βάθους, είναι η τριγωνοποίηση 

(triangulation), η οποία αναφέρθηκε και στο προηγούμενο κεφάλαιο. Η εκτίμηση της απόστασης 

του σημείου Ρ(X,Y,Z) με βάση την αρχή της 

Ρ 

Σχήμα 7.1 Υπολογισμός βάθους (Ζ) ενός σημείου Ρ μέσω τριγωνοποίησης. (Εδώ τα κέντρα των 

καμερών είναι πίσω από τις εικόνες αλλά όμοια υπολογίζεται και στην περίπτωση όπου τα 

κέντρα είναι μπροστά από τις εικόνες.) 

τριγωνοποίησης έγκειται στην εύρεση του Ζ, όπως φαίνεται και στο σχήμα 7.1. Τα μεγέθη που 

χρειαζόμαστε προκειμένου να εκτιμήσουμε το Ζ είναι η απόσταση μεταξύ των καμερών CC`, ή 

αλλιώς baseline (b), η εστιακή απόσταση (focal length ), που συμβολίζεται με f και το disparity (d) 

μεταξύ των δύο καμερών. Με τον όρο disparity εννοούμε τη διαφορά των συντεταγμένων της 

προβολής του σημείου P στις δύο φωτογραφίες, και δίνεται από τη σχέση: 

d = x-x’ (7.1) 

όπου x και x’ είναι οι συντεταγμένες στον άξονα Χ της προβολής του Ρ στο επίπεδο της αριστερής 

και δεξιάς φωτογραφίας αντίστοιχα. 

Παρατηρείστε πως μας ενδιαφέρουν μόνο οι τιμές των x, διότι υποθέτουμε πως το baseline 

είναι οριζόντιο, δηλαδή η κάμερα μας δεν έχει μετατόπιση στον άξονα Υ, παρά μόνο στον άξονα Χ. 

Αυτή η εξιδανίκευση, όπως είδαμε και στη βαθμονόμηση της κάμερας δεν ανταποκρίνεται απόλυτα 

στην πραγματικότητα, αφού λόγω της πειραματικής διάταξης έχουμε και διαφορά στο y. Το 

πρόβλημα αυτό διορθώνεται με το image rectification, που θα δούμε στο επόμενο κεφάλαιο, όπου 

με την ευθυγράμμιση των επιπολικών γραμμών οι σωστές αντιστοιχίσεις στις δύο εικόνες έχουν 

την ίδια τιμή στον άξονα των y. 

Επιστρέφοντας στον υπολογισμό του βάθους, με τη γνώση των παραπάνω μεγεθών 

μπορούμε να χρησιμοποιήσουμε την επόμενη σχέση: 

61


(7.2) 

Κατά την χρήση της σχέσης (7.2) είναι απαραίτητο όλα τα μεγέθη να μετρούνται στην ίδια μονάδα. 

Από τη στιγμή που το focal length και το disparity δίνονται σε pixels, και το baseline πρέπει να 

μετατραπεί από cm σε pixels. 

Προϋπόθεση ώστε να δώσει σωστά αποτελέσματα η σχέση (7.2) είναι να γίνει σωστός 

υπολογισμός του disparity για κάθε σημείο. Για να γίνει αυτό θα πρέπει η αντιστοίχισή τους 

(matching) να είναι σωστή. Έτσι επιστρέφουμε στο πρόβλημα του κεφαλαίου 5, όπου η μέθοδος 

που χρησιμοποιήσαμε έδινε μεγάλο ποσοστό λανθασμένων αντιστοιχίσεων (outliers). Προκειμένου 

να ελαττώσουμε, αν όχι, να μηδενίσουμε όλες τις λανθασμένες αντιστοιχίσεις χρησιμοποιούμε, 

σε συνδυασμό με τη μέθοδο αντιστοίχισης, κάποια σθεναρή μέθοδο απόρριψης των λανθασμένων 

αντιστοιχίσεων. Με τη διαδικασία αυτή αποκτάμε έναν disparity map (θα παρουσιασθεί αναλυτικά 

στο επόμενο κεφάλαιο) με πολύ μεγάλο ποσοστό σε σωστές αντιστοιχίσεις (inliers), περιορίζοντας 

έτσι το ποσοστό λάθους στην εύρεση του σωστού βάθους. 

7.2 Μέθοδοι απόρριψης λανθασμένων αντιστοιχίσεων 

Στην παράγραφο αυτή θα αναφέρουμε σε θεωρητικό επίπεδο τον τρόπο λειτουργίας των 

μεθόδων που χρησιμοποιήσαμε. Οι μέθοδοι απόρριψης λανθασμένων αντιστοιχίσεων χωρίζονται 

σε τρεις κατηγορίες: α) οι Μ-εκτιμητές ( M-estimators), β) οι αλγόριθμοι τύπου RANSAC 

(RANdom SAmple Consensus, συμφωνίας τυχαίου δείγματος) και γ) οι μέθοδοι Case Deletion 

(διαγραφής περιπτώσεων). Από τις παραπάνω κατηγορίες μεθόδων, οι πιο αποτελεσματικές είναι οι 

Μ- εκτιμητές και οι RANSAC, αλλά εμείς στην εργασία μας χρησιμοποιήσαμε δύο αλγορίθμους 

της οικογενείας των RANSAC, τον κλασσικό RANSAC και τον LMedS. 

7.2.1 RANSAC μέθοδοι 

Οι μέθοδοι αυτές, παρουσιάστηκαν για πρώτη φορά το 1981 (κλασσικός RANSAC) από 

τους Fischler και Bolles και βασίζονται στον έλεγχο της συμφωνίας τυχαίου δείγματος. Ενώ οι 

υπόλοιπες μέθοδοι για την εκτίμηση των ζητούμενων παραμέτρων χρησιμοποιούν μεγαλύτερο 

αριθμό δεδομένων από τον κατ’ ελάχιστο απαραίτητο, με σκοπό την ‘ομαλοποίηση’ των λαθών, οι 

υπό εξέταση μέθοδοι, χρησιμοποιούν για την εκτίμηση το ελάχιστο δυνατό δείγμα από τα 

δεδομένα. Παραδείγματος χάριν, 2 σημεία για την εύρεση των παραμέτρων μίας γραμμής, 3 σημεία 

για ένα επίπεδο κοκ. 

Η διαδικασία αυτή, της λήψης ελάχιστων δειγμάτων και της εκτίμησης των παραμέτρων, 

επαναλαμβάνεται αρκετές φορές έως ότου έχουμε 99% βεβαιότητα ότι ένα τουλάχιστον από τα 

δείγματα που επιλέξαμε αποτελείται μόνο από έγκυρες μετρήσεις. Το ποσοστό εγκυρότητας 

μπορούμε να το καθορίσουμε μέσω των παραμέτρων. Μετά την λήψη των δειγμάτων και την 

εκτίμηση των παραμέτρων για καθένα από αυτά τα δείγματα, επιλέγεται η καλύτερη από τις 

προκύπτουσες λύσεις βάσει ενός κριτηρίου. Ανάλογα με το κριτήριο το οποίο θα επιλέξουμε, 

προκύπτουν και οι διαφορετικές μορφές των μεθόδων της οικογενείας RANSAC. Όπως αναφέραμε 

και νωρίτερα στην παρούσα εργασία χρησιμοποιήθηκε ο κλασσικός RANSAC και ο LMedS. 

α) κλασσικός RANSAC 

Ο κλασσικός RANSAC είναι μία επαναληπτική, μη ντετερμινιστική μέθοδος υπό την έννοια 

ότι παράγει ένα λογικό αποτέλεσμα μόνο με μια συγκεκριμένη πιθανότητα, η οποία αυξάνει με τον 

62


αριθμό των επαναλήψεων. Παίρνει ως δεδομένο ότι οι αντιστοιχίες σημείων αποτελούνται από 

inliers και από outliers, όπως συμβαίνει στην πραγματικότητα, ακόμα και αν ο αριθμός των inliers 

είναι περιορισμένος. 

Ο αλγόριθμος δέχεται σαν εισόδους το σύνολο των αντιστοιχίσεων που έχει δώσει ο 

αλγόριθμος αντιστοίχισης, ένα κατώφλι για την απόσταση (DistanceThreshold) που μπορούν 

να έχουν οι υπόλοιπες μετρήσεις από τη λύση, τον αριθμό των επαναλήψεων που θα 

πραγματοποιήσει και ένα ποσοστό βεβαιότητας. Αρχικά από το σύνολο όλων των αντιστοιχίσεων 

επιλέγει 8 αντιστοιχίσεις τις οποίες θεωρεί σωστές (inliers) και υπολογίζει τον θεμελιώδη πίνακα. 

Στη συνέχεια ελέγχει για όλες τις υπόλοιπες αντιστοιχίσεις ποιες από αυτές ικανοποιούν την 

επιπολική γεωμετρία, μετρά τον αριθμό τους, τις αποθηκεύει και απορρίπτει τις υπόλοιπες. Η 

διαδικασία αυτή εκτελείται για κάθε θεμελιώδη πίνακα που έχει προκύψει σε κάθε επανάληψη. 

Τελικά, μετά το πέρας όλων των επαναλήψεων επιλέγεται ο θεμελιώδης πίνακας για τον οποίον 

είχαμε τις περισσότερες αντιστοιχίσεις. Οι αντιστοιχίσεις αυτές θεωρούνται σωστές (inliers) και τις 

κρατάει, ενώ όλες τις υπόλοιπες τις απορρίπτει. Οι αντιστοιχήσεις των inliers αποθηκεύονται σε 

πίνακες για κάθε μια φωτογραφία. Οι αντιστοιχίσεις που απορρίφθηκαν θεωρούνται outliers. 

β) Least Median of Squares (LMedS) 

Σε αυτή τη μέθοδο για κάθε τυχαίο δείγμα υπολογίζεται ο μεσαίος (median) του τετραγώνου της 

απόστασης των υπολοίπων μετρήσεων από τη λύση, και ως βέλτιστη επιλέγεται η λύση στην οποία 

αντιστοιχεί ο ελάχιστος μεσαίος. Πιο συγκεκριμένα εκτιμά τις παραμέτρους λύνοντας το μηγραμμικό 

πρόβλημα ελαχιστοποίησης: 

Αυτό σημαίνει ότι ο εκτιμητής, πρέπει να δίνει σα λύση τη μικρότερη τιμή του μεσαίου (median). 

Θεωρητικά, ο εκτιμητής του LMedS θα έπρεπε να ψάχνει σε όλο το φάσμα των δεδομένων για να 

βρει όλες τις πιθανές εκτιμήσεις. Αυτό πρακτικά είναι αδύνατο λόγω μεγέθους των δεδομένων 

επομένως επιλέγει ένα τυχαίο δείγμα Για κάθε τυχαίο δείγμα υπολογίζεται ο μεσαίος του 

τετραγώνου της απόστασης των υπολοίπων μετρήσεων από τη λύση και θεωρεί ως βέλτιστη εκείνη 

τη λύση που δίνει τον ελάχιστο μεσαίο. Το πλεονέκτημά της σε σχέση με τη μέθοδο του κλασικού 

RANSAC έγκειται στο γεγονός ότι είναι πιο ‘ανθεκτική’ στον γκαουσιανό θόρυβο και παρέχει 

σωστό αποτέλεσμα, ακόμα και αν τα μισά δεδομένα είναι κατεστραμμένα. Αξίζει να σημειωθεί ότι 

ο LMedS απαιτεί οι έγκυρες μετρήσεις να υπερισχύουν (δηλαδή να είναι πάνω από το 50%) ώστε 

να θεωρηθεί δόκιμος ο μεσαίος. Αντίθετα, Ο RANSAC μπορεί να δώσει σωστό αποτέλεσμα 

ακόμα και αν οι έγκυρες μετρήσεις μειοψηφούν έναντι των λανθασμένων. Όπως και στον κλασσικό 

RANSAC μπορούμε να ορίσουμε το κατώφλι ώστε να εντοπίζουμε τις λανθασμένες αντιστοιχίσεις. 

Κατά την πραγματοποίηση της εργασίας μας χρησιμοποιήσαμε και τις 2 μεθόδους, 

χρησιμοποιώντας για κάθε ζεύγος αυτήν που μας έδινε τα καλύτερα αποτελέσματα. Η διαφορά στα 

αποτελέσματα οφείλεται κατά κύριο λόγο στο περιεχόμενο των φωτογραφιών που 

χρησιμοποιήσαμε. Τα αντικείμενα που περιέχονται στις φωτογραφίες μας ενδείκνυνται για εξαγωγή 

πολλών σημείων ενδιαφέροντος (γωνίες), από τον hdc, και ως εκ τούτου έχουμε και πολλές 

αντιστοιχίσεις. Επειδή όμως σε αρκετές περιπτώσεις, οι λάθος αντιστοιχίσεις υπερτερούσαν των 

σωστών, ο LMedS δεν ‘δούλευε’, αφού προϋποθέτει την ύπαρξη τουλάχιστον 50% σωστών επί 

του συνόλου των αντιστοιχίσεων. 

Όπως αναφέρθηκε και νωρίτερα οι μέθοδοι απόρριψης λανθασμένων αντιστοιχίσεων έχουν 

αρκετά ικανοποιητικά αποτελέσματα, αλλά δεν λειτουργούν πάντοτε στην εντέλεια. Υπάρχουν 

περιπτώσεις, όπου κάποια outliers καταφέρνουν να ‘εισχωρήσουν’ στις σωστές αντιστοιχίσεις. Για 

αυτό το λόγο, δημιουργήσαμε για την παρούσα εργασία έναν κώδικα, ο οποίος παίζει το ρόλο ενός 

φίλτρου. Η βασική ιδέα, πάνω στην οποία στηρίχθηκε είναι ο ορισμός τριών κατωφλίων, δύο για 

63 

(7.3)


το disparity στον άξονα Χ και ένα στον άξονα Υ. Η μετατόπιση των καμερών κατά ένα baseline 

έχει σαν αποτέλεσμα και την μετατόπιση των προβολών των ίδιων αντικειμένων στις 2 

φωτογραφίες κατα μια συγκεκριμένη τιμή που εξαρτάται από το baseline. Οπότε, λογικά, θα έπρεπε 

το disparity στον άξονα των Χ να έχει μία συγκεκριμένη τιμή, με κάποιες μικρές αποκλίσεις για 

όλες τις σωστές αντιστοιχίσεις (inliers), που μας έχει δώσει ο RANSAC για παράδειγμα. Σε 

περίπτωση που ο RANSAC έχει επιλέξει ως inlier κάποιο outlier που έχει disparity με μεγάλη 

απόκλιση από το disparity των σωστών αντιστοιχίσεων, είτε προς τα πάνω είτε προς τα κάτω, ο 

κώδικας θα το απορρίψει με τη χρήση του ανώτατου και του κατώτατου κατωφλίου αντίστοιχα. 

Αντίστοιχα και στον άξονα Y, λόγω των σφαλμάτων στην πειραματική διάταξη επιτρέπουμε μια 

μικρή ,σχετικά, μετατόπιση της τάξεως των 20 pixels και αποκόπτουμε τα inliers με μεγαλύτερο 

disparity. 

Είναι προφανές ότι ο συγκεκριμένος κώδικας λειτουργεί μόνο για φωτογραφίες που 

απεικονίζουν αντικείμενα τα οποία βρίσκονται σχεδόν στην ίδια απόσταση από το φακό. Για 

παράδειγμα, αν οι φωτογραφίες απεικόνιζαν έναν εξωτερικό χώρο με εστίαση στο άπειρο, τα πολύ 

μακρινά σημεία της σκηνής μεταξύ της αριστερής και δεξιάς λήψης, δε θα είχαν σχεδόν καθόλου 

disparity. Αντίθετα, τα σημεία που θα ήταν πολύ κοντά στο φακό θα είχαν μεγάλο disparity με 

αποτέλεσμα να μην είναι τόσο εύκολη η οριοθέτησή του. Στις φωτογραφίες που χρησιμοποιήσαμε 

για αυτή την εργασία, τα αντικείμενα τοποθετήθηκαν αρκετά κοντά ώστε να μην εμφανίζονται 

μεγάλες αποκλίσεις για τις σωστές αντιστοιχίσεις. 

7.3 Πλήρης αλγόριθμος υπολογισμού βάθους 

Αφού έχουμε εξηγήσει ως τώρα στην εργασία ποιες διαδικασίες και μεθόδους χρησιμοποιήσαμε 

ήρθε η ώρα να ενώσουμε όλα τα κομμάτια και να δούμε πρακτικά με ποια σειρά τις 

χρησιμοποιούμε. Ουσιαστικά, θα δώσουμε τον πλήρη αλγόριθμο με τη σειρά των βημάτων από την 

αρχή ως το τέλος. Στα πλαίσια της δικής μας εργασίας, τα αποτελέσματα που μας έδωσε είναι 

αρκετά ικανοποιητικά. 

Συγκεκριμένα, τα βήματα του αλγορίθμου για τον υπολογισμό του βάθους ενός ζεύγους 

εικόνων είναι τα εξής: 

1) Εξαγωγή των σημείων ενδιαφέροντος για κάθε φωτογραφία του στερεοσκοπικού ζεύγους με 

τη χρήση του Harris Corner Detector, όπως αυτός παρουσιάστηκε στο κεφάλαιο 5. 

2) Αρχική αντιστοίχιση των σημείων που βρέθηκαν στο 1 ο βήμα, με τη χρήση της μεθόδου που 

αναφέρθηκε στην υποενότητα 5.5. 

3) Χρησιμοποίηση μιας σθεναρής μεθόδου απόρριψης λανθασμένων αντιστοιχίσεων, 

πάνω στο σύνολο των αντιστοιχίσεων που βρέθηκε στο προηγούμενο βήμα. Εδώ, όπως έχουμε 

αναφέρει, χρησιμοποιήσαμε τον κλασσικό RANSAC και τον LMedS. Κατά την πραγματοποίηση 

της πειραματικής διαδικασίας χρησιμοποιούσαμε σε κάθε ζεύγος την μέθοδο αυτή που μας έδινε τα 

καλύτερα αποτελέσματα. Στο πρώτο ζεύγος φωτογραφιών θα δώσουμε τα αποτελέσματα και από 

τις δύο μεθόδους, ενώ στα υπόλοιπα μόνο της μεθόδου που επιλέξαμε ως καταλληλότερης.. 

4) Χρησιμοποίηση του κώδικα που δημιουργήσαμε, για την απόρριψη οποιονδήποτε 

λανθασμένων αντιστοιχίσεων που δεν απορρίφθηκαν από το προηγούμενο βήμα. 

5) Υπολογισμός του βάθους για όσες σωστές αντιστοιχίσεις έχουν ‘επιβιώσει’ από τα 

προηγούμενα βήματα, με βάση τη σχέση (7.2). 

64

7.4 Πειραματική διαδικασία και αποτελέσματα 


Σε αυτή την παράγραφο θα αναλύσουμε την πειραματική διαδικασία, η οποία έγινε με βάση 

τον αλγόριθμο που εξηγήθηκε στην παράγραφο 7.3. Μεγάλης σημασίας, για την παρούσα εργασία, 

είναι τα στερεοσκοπικά ζεύγη που θα χρησιμοποιήσουμε. Από τη στιγμή που οι τιμές των f και b , 

της σχέσης (7.2), που θα χρησιμοποιήσουμε για την εξαγωγή των αποτελεσμάτων, έχουν προέλθει 

από τη βαθμονόμηση της κάμερας, όπως αυτή παρουσιάστηκε στο κεφάλαιο 4, θα πρέπει τα 

τεχνικά χαρακτηριστικά της κάμερας να ρυθμιστούν με τον ίδιο ακριβώς τρόπο. Επίσης, 

χρησιμοποιήθηκε η ίδια πειραματική διάταξη, με το baseline ανάμεσα στις 2 θέσεις της κάμερας, 

να είναι 5cm. Επιπλέον η διαμόρφωση των σκηνών που χρησιμοποιήσαμε έγινε με την ίδια 

φιλοσοφία, ενώ τα πραγματικά βάθη των σκηνών, δηλαδή η απόσταση των αντικειμένων από την 

κάμερα είναι περίπου 1m και 1,6m . 

Στον υπολογισμό του τελευταίου βήματος, δηλαδή του εκτιμώμενου βάθους, 

χρησιμοποιήσαμε δύο διαφορετικά πακέτα τιμών για το focal length και το baseline. 

Στο πρώτο πακέτο χρησιμοποιήσαμε τις τιμές που προέκυψαν από το stereo calibration της 

παραγράφου 4.3.3. Πιο συγκεκριμένα για το focal length έχουμε: f=(fc_left(1) + fc_right(1))/2 = 

(4368.77069 +4789.53269)/2 = 4579.15169 , και σαν baseline ορίσαμε την πρώτη τιμή του 

διανύσματος της μετατόπισης (Τ), άρα b= 75.95989. Αν μετατρέψουμε τις τιμές αυτές από pixels 

σε mm, έχουμε για την εστιακή απόσταση 1211.567217979mm και για το baseline 

20.097720896mm, με τις πραγματικές τιμές που χρησιμοποιήσαμε στην πειραματική διαδικασία να 

είναι 1000mm και 50mm, αντίστοιχα. Το πακέτο αυτό θα το ονομάσουμε πειραματικό. 

Στο δεύτερο πακέτο θέσαμε στα f και b τις πραγματικές του τιμές, δηλαδή f=1000mm και 

b=50mm, οι οποίες εκφρασμένες σε pixels είναι: f= 3779.52755 και b= 188.97637. Το δεύτερο 

πακέτο το ονομάσαμε πραγματικό. 

Τέλος, αναφέρουμε πως για κάθε απόσταση (1m και 1,6m) πήραμε 2 ζεύγη φωτογραφιών, 

διαφορετικής πολυπλοκότητας ως προς τη σκηνή, αλλά και με αντικείμενα διαφορετικής υφής. Στη 

συνέχεια ακολουθεί ανάλυση της διαδικασίας για κάθε ζεύγος και παράθεση των αποτελεσμάτων. 

α) Πρώτο ζεύγος φωτογραφιών (1m) 

Στο πρώτο ζεύγος φωτογραφιών έχουμε μια αρκετά σύνθετη σκηνή, που αποτελείται από 

αρκετά αντικείμενα διαφορετικού σχήματος και υφής, όπως φαίνεται στο σχήμα 7.2. Η απόσταση 

των αντικειμένων από την κάμερα είναι περίπου 1m. 

Σχήμα 7.2: Πρώτο ζεύγος φωτογραφιών 

Στο πρώτο στάδιο της εφαρμογής του αλγορίθμου μας, εφαρμόζουμε τον Harris Corner 

Detector και τα αποτελέσματά του φαίνονται στο σχήμα 7.3. Για το συγκεκριμένο ζεύγος θέσαμε 

την τιμή του CornerThreshold στο 1.7e-4. 

65


Σχήμα 7.3: Οι γωνίες που εντοπίσθηκαν από τον Harris Corner Detector για το πρώτο ζεύγος 

Επόμενο βήμα είναι η εύρεση των αρχικών αντιστοιχίσεων των γωνιών που εντόπισε o 

Harris Corner Detector. Για το συγκεκριμένο ζεύγος η τιμή της παραμέτρου MatchThreshold, για 

την οποία ο αλγόριθμος μας έδινε τα καλύτερα αποτελέσματα είναι ο αριθμός 20. Το σύνολο των 

αρχικών αντιστοιχίσεων που επέστρεψε η μέθοδος αντιστοίχισης φαίνεται στο σχήμα 7.4. 

66


Σχήμα 7.4: Αρχικές αντιστοιχίσεις των σημείων ενδιαφέροντος του πρώτου ζεύγους 

Στο σημείο αυτό, επιθυμούμε να απορρίψουμε τις λανθασμένες αντιστοιχίσεις (outliers) που 

μας έδωσε η μέθοδος αντιστοίχισης και έτσι χρησιμοποιούμε τον κλασσικό RANSAC και τον 

LMedS. Στο πρώτο ζεύγος θα δώσουμε τα αποτελέσματα και από τις δύο μεθόδους, αλλά στα 

επόμενα ζεύγη θα χρησιμοποιήσουμε μόνο τον RANSAC. Θέτοντας την τιμή του 

DistanceThreshold στο 1.4 και τον αριθμό των επαναλήψεων στο 1000 τα αποτελέσματα του 

RANSAC φαίνονται στο σχήμα 7.5. 

Σχήμα 7.5: Οι αντιστοιχίσεις που προέκυψαν από τον RANSAC 

Ο κλασσικός RANSAC καταφέρνει να αποκόψει πολλές λανθασμένες αντιστοιχίσεις, αλλά 

όχι όλες όπως παρατηρούμε στις αντιστοιχίσεις του μολυβιού. Παρόμοια αποτελέσματα είχε και ο 

67


LMedS, στο σχήμα 7.6. Για αυτό το λόγο δημιουργήσαμε τον κώδικα που αναφέρθηκε στην 

παράγραφο 

Σχήμα 7.6: Οι αντιστοιχίσεις που προέκυψαν από τον LMedS 

7.2 και αναλαμβάνει να απορρίψει όσες λανθασμένες αντιστοιχίσεις έχουν καταφέρει να περάσουν 

από τον RANSAC και τον LMedS. Η εφαρμογή του κώδικα αυτού στα 

Σχήμα 7.7: Οι διορθωμένες αντιστοιχίσεις του RANSAC 

68


Σχήμα 7.8: Οι διορθωμένες αντιστοιχίσεις του LMedS 

αποτελέσματα των RANSAC και LMedS, δίνει τα αποτελέσματα που φαίνονται στα σχήματα 7.7 

και 7.8 αντίστοιχα. Από τις 74 αντιστοιχίσεις του RANSAC μόλις 15 πέρασαν από τα κατώφλια 

του κώδικα μας, ενώ από οι 58 του LMedS έγιναν 6. Τα αποτελέσματα του κώδικα που 

κατασκευάσαμε κρίθηκαν ικανοποιητικά κι έτσι στα επόμενα ζεύγη θα δίνονται απευθείας τα 

αποτελέσματα του συνδυασμού του κώδικα μας με τη μέθοδο απόρριψης που έδωσε τα καλύτερα 

αποτελέσματα. 

To τελευταίο βήμα είναι να υπολογίσουμε το βάθος. Ο υπολογισμός θα γίνει για τα 

αποτελέσματα του σχήματος 7.7 και του 7.8 και για τα δύο πακέτα τιμών των f και b, όπως 

αναφέρθηκε νωρίτερα, με τη χρήση της σχέσης (7.2). Έτσι λοιπόν, για τις πειραματικές τιμές των f 

και b, τα βάθη για τις διορθωμένες αντιστοιχίσεις του RANSAC και του LMedS δίνονται στους 

δύο επόμενους πίνακες: 

Αριθμός 

διορθωμένων 

inliers 

Βάθος σημείου σε 

pixels 

Βάθος σημείου 

σε mm 

1 1932.4 511.28 

2 1486.5 393.29 

3 1911.2 505.66 

4 1911.2 505.66 

5 1870.1 494.79 

6 1850.2 489.52 

7 1880.2 497.46 

8 1890.4 500.17 

9 1850.2 489.52 

10 1890.4 500.17 

11 1911.2 505.66 

12 1414.0 374.11 

13 1880.2 497.46 

14 1840.4 486.93 

15 1860.1 492.14 

Πίνακας 7.1: Βάθη για τις διορθωμένες αντιστοιχίσεις του RANSAC με πειραματικές τιμές 

69




inliers 


pixels 


σε mm 

1 1911.2 505.66 

2 1911.2 505.66 

3 1880.2 497.46 

4 1890.4 500.17 

5 1890.4 500.17 

6 1880.2 497.46 

Πίνακας 7.2: Βάθη για τις διορθωμένες αντιστοιχίσεις του LMedS με πειραματικές τιμές 

Oι αντίστοιχοι πίνακες για τις πραγματικές τιμές των f και b, δίνονται στη συνέχεια: 



inliers 


pixels 


σε mm 

1 3968.0 1049.9 

2 3052.3 807.6 

3 3924.4 1038.3 

4 3924.4 1038.3 

5 3840.0 1016.0 

6 3799.2 1005.2 

7 3860.8 1021.5 

8 3881.7 1027.0 

9 3799.2 1005.2 

10 3881.7 1027.0 

11 3924.4 1038.3 

12 2903.4 768.2 

13 3860.8 1021.5 

14 3779.1 999.9 

15 3819.5 1010.6 

Πίνακας 7.3: Βάθη για τις διορθωμένες αντιστοιχίσεις του RANSAC με πραγματικές τιμές 

Aριθμός 


inliers 


pixels 


σε mm 

70 

1 3924.4 1038.3 

2 3924.4 1038.3 

3 3860.8 1021.5 

4 3881.7 1027.0 

5 3881.7 1027.0 

6 3860.8 1021.5 

Πίνακας 7.4: Βάθη για τις διορθωμένες αντιστοιχίσεις του LMedS με πραγματικές τιμές 

Αν παρατηρήσουμε το σχήμα 7.7, θα δούμε πως δύο αντιστοιχίσεις είναι πάνω σε ένα 

αντικείμενο, το οποίο είναι αρκετά πιο κοντά στην κάμερα, σε σχέση με τα υπόλοιπα. Η μικρότερη 

αυτή απόσταση γίνεται εμφανής και στις τιμές των πινάκων 7.1 και 7.3, στις γραμμές 2 και 12. Οι 

υπόλοιπες αντιστοιχίσεις είναι από σημεία που βρίσκονται περίπου στο ίδιο βάθος, οπότε δεν 

έχουμε μεγάλες αποκλίσεις. 

Το ίδιο ισχύει και για τους πίνακες του LMedS (7 .2 και 7.4),από τη στιγμή που οι 

διορθωμένες αντιστοιχίσεις προέκυψαν από σημεία με την ίδια απόσταση από την κάμερα. 

Αν συγκρίνουμε τους πίνακες που προέκυψαν από τα δύο διαφορετικά πακέτα για f και b, 

βγάζουμε ένα ξεκάθαρο συμπέρασμα. Παρατηρούμε πως η εκτίμηση του βάθους για τις


πραγματικές τιμές των f και b έχει πολύ καλύτερες τιμές σε σχέση με την εκτίμηση για τις 

πειραματικές τιμές. Τα βάθη των σημείων υπολογίζονται περίπου στο 1m, όσο δηλαδή είναι και η 

πραγματική απόσταση, σε αντίθεση με την εκτίμηση για τις πειραματικές τιμές που προκύπτει ίση 

με το μισό περίπου της πραγματικής απόστασης, δηλαδή κοντά στα 500mm. 

β) Δεύτερο ζεύγος φωτογραφιών (1m) 

Στο δεύτερο ζεύγος φωτογραφιών (σχήμα 7.9) έχουμε πάλι αρκετά αντικείμενα, σε 

απόσταση περίπου ενός μέτρου, αλλά αυτή τη φορά η υφή τους είναι πιο λεία. Παρόλα αυτά, είναι 

αντικείμενα με πολλά σημεία ενδιαφέροντος λόγω των εναλλαγών φωτεινότητας στις επιφάνειές 

τους. Οι αρχικές αντιστοιχίσεις, των γωνιών 

Σχήμα 7.9: Δεύτερο ζεύγος φωτογραφιών 

που έδωσε o Harris Corner Detector me CornerThreshold ίσο με 2e-4, φαίνονται στο σχήμα 

7.10. Οι αντιστοιχίσεις αυτές έγιναν με MatchThreshold ορισμένο στο 20. Παρατηρούμε πως το 

σχήμα 7.10 περιέχει αρκετές λανθασμένες αντιστοιχίσεις, γεγονός το οποίο οφείλεται κυρίως στην 

ύπαρξη της σκακιέρας στη σκηνή που φωτογραφίσαμε. Αυτές τις λανθασμένες αντιστοιχίσεις, 

καταφέραμε να τις απορρίψουμε σε μεγαλύτερο βαθμό με το συνδυασμό του κλασσικού RANSAC 

και του κώδικα που κατασκευάσαμε. Τον συνδυασμό των δύο αυτών αλγορίθμων, χάριν συντομίας 

θα τον αναφέρουμε, από εδώ και στο εξής, ως βελτιωμένο RANSAC. Οι παράμετροι που μας 

έδωσαν τα καλύτερα αποτελέσματα, όπως αυτά φαίνονται στο σχήμα 7.11, είναι 

DistanceThreshold ίσο με 0.9 για τον RANSAC και Disp_xmax=220, Disp_xmin=60 και 

Disp_ymax=20 για τα κατώφλια του κώδικα που κατασκευάσαμε. Συγκρίνοντας τα 

αποτελέσματα του κλασσικού RANSAC με αυτά του βελτιωμένου, παρατηρούμε πως από τα 52 

inliers που μας έδωσε ο κλασσικός, καταλήξαμε στα 45 του βελτιωμένου με ποσοστό επιτυχίας που 

αγγίζει το 100%. 

71


Σχήμα 7.10: Αρχικές αντιστοιχίσεις των σημείων ενδιαφέροντος του δευτέρου ζεύγους 

Σχήμα 7.11: Οι αντιστοιχίσεις του βελτιωμένου RANSAC 

Με βάση τα αποτελέσματα του βελτιωμένου RANSAC υπολογίσαμε το βάθος για τα δύο 

πακέτα τιμών των f και b. Αρχικά για τις πειραματικές τιμές έχουμε τα αποτελέσματα του πίνακα 

7.5: 

72



inliers 

Βάθος 

σημείων σε 

pixels 

Βάθος 


mm 




inliers 

Βάθος 


pixels 

Βάθος 


mm 

1 1730.5 457.86 24 1713.5 453.35 

2 1747.9 462.46 25 1721.9 455.60 

3 1713.5 453.35 26 1739.2 460.15 

4 1756.7 464.80 27 1721.9 455.60 

5 1739.2 460.15 28 1747.9 462.46 

6 1880.2 497.46 29 1739.2 460.15 

7 1739.2 460.15 30 1721.9 455.60 

8 1747.9 462.46 31 1721.9 455.60 

9 1721.9 455.60 32 1721.9 455.60 

10 1747.9 462.46 33 1747.9 462.46 

11 1730.5 457.86 34 1870.1 494.79 

12 1721.9 455.60 35 1739.2 460.15 

13 1721.9 455.60 36 1739.2 460.15 

14 1721.9 455.60 37 1747.9 462.46 

15 1739.2 460.15 38 1721.9 455.60 

16 1721.9 455.60 39 1721.9 455.60 

17 1739.2 460.15 40 1739.2 460.15 

18 1739.2 460.15 41 1774.7 469.54 

19 1721.9 455.60 42 1739.2 460.15 

20 1730.5 457.86 43 1739.2 460.15 

21 1721.9 455.60 44 1730.5 457.86 

22 1730.5 457.86 45 1792.9 474.38 

23 1747.9 462.46 

Πίνακας 7.5: Βάθη για τις αντιστοιχίσεις του διορθωμένου RANSAC με πειραματικές τιμές 

Για τις πραγματικές τιμές των f και b, τα αποτελέσματα του υπολογισμού του βάθους 

δίνονται στον πίνακα 7.6: 



inliers 

Βάθος 


pixels 

Βάθος 


mm 



inliers 

Βάθος 


pixels 

Βάθος 


mm 

1 3553.4 940.2 19 3535.8 935,5 

2 3589.2 949.6 20 3553.4 940,2 

3 3518.4 930.9 21 3535.8 935,5 

4 3607.3 954,4 22 3553.4 940,2 

5 3571.2 944,9 23 3589.2 949,6 

6 3860.8 1021,5 24 3518.4 930,9 

7 3571.2 944,9 25 3535.8 935,5 

8 3589.2 949,6 26 3571.2 944,9 

9 3535.8 935,5 27 3535.8 935,5 

10 3589.2 949,6 28 3589.2 949,6 

11 3553.4 940,2 29 3571.2 944,9 

12 3535.8 935,5 30 3535.8 935,5 

13 3535.8 935,5 31 3535.8 935,5 

14 3535.8 935,5 32 3535.8 935,5 

15 3571.2 944,9 33 3589.2 949,6 

16 3535.8 935,5 34 3840.0 1016 

17 3571.2 944,9 35 3571.2 944,9 

18 3571.2 944,9 36 3571.2 944,9 

Πίνακας 7.6: Βάθη για τις αντιστοιχίσεις του διορθωμένου RANSAC με πραγματικές τιμές 

73


37 3589.2 949,6 42 3571.2 944,9 

38 3535.8 935,5 43 3571.2 944,9 

39 3535.8 935,5 44 3553.4 940,2 

40 3571.2 944,9 45 3681.7 974,1 

41 3644.1 964,2 

Πίνακας 7.6: Βάθη για τις αντιστοιχίσεις του διορθωμένου RANSAC με πραγματικές τιμές 

Παρατηρώντας το σχήμα 7.11, βλέπουμε πως οι τελικές αντιστοιχίσεις βρίσκονται σχεδόν 

όλες στην ίδια απόσταση από την κάμερα, κάτι το οποίο μεταφράζεται και στα αποτελέσματα των 

πινάκων, αφού δεν παρατηρούνται μεγάλες αποκλίσεις. Άρα μπορούμε να πούμε πως ο αλγόριθμος 

δούλεψε ικανοποιητικά. 

γ) Τρίτο ζεύγος φωτογραφιών (1.6m) 

Η σκηνή του τρίτου ζεύγους είναι ίδια με αυτή του πρώτου ζεύγους, με τη μόνη διαφορά, 

πως η κάμερα είναι τοποθετημένη στα 1,6m περίπου από τη σκηνή. Η επιλογή αυτή έγινε έτσι ώστε 

να εξετάσουμε την ικανότητα του αλγορίθμου να αντιλαμβάνεται σχετικά μεγάλες διαφορές στα 

βάθη. Το ζεύγος φωτογραφιών φαίνεται στο σχήμα 6.12. 

Σχήμα 7.12: Τρίτο ζεύγος φωτογραφιών 

Οι αρχικές αντιστοιχίσεις, των γωνιών που έδωσε ο Harris Corner Detector με 

CornerThreshold ίσο με 0.07e-4, φαίνονται στο σχήμα 7.13. Το MatchThreshold για το 

οποίο προέκυψαν αυτά τα αποτελέσματα είναι ίσο με 5. Λόγω του χαμηλού MatchThreshold 

έχουμε μεγάλο αριθμό αντιστοιχίσεων, εκ των οποίων πολλές είναι λανθασμένες. Στο σημείο αυτό 

χρησιμοποιήσαμε τον συνδυασμό του LMedS με τον κώδικα μας, η αλλιώς τον βελτιωμένο 

LMedS, και τα αποτελέσματα του φαίνονται στο σχήμα 7.14. Για να προκύψουν τα αποτελέσματα 

αυτά ορίσαμε Disp_xmax=150, Disp_xmin=10 και Disp_ymax=10. Συγκρίνοντας τα αρχικά 

αποτελέσματα του LMedS με αυτά του βελτιωμένου LMedS, παρατηρούμε πως ο βελτιωμένος 

έδωσε 50 αντιστοιχίσεις, σε αντίθεση με τον LMedS που έδωσε 81. Δηλαδή ο συνδυαστικός 

αλγόριθμος έκοψε 31 λανθασμένες αντιστοιχίσεις. Παρόλα αυτά το σχήμα 7.14 δείχνει ότι 

ορισμένα outliers κατάφεραν να περάσουν από τα συγκεκριμένα κατώφλια. 

74


Σχήμα 7.13: Αρχικές αντιστοιχίσεις των σημείων ενδιαφέροντος του τρίτου ζεύγους 

Σχήμα 7.14: Οι αντιστοιχίσεις του βελτιωμένου LMedS 

Με βάση τα αποτελέσματα του βελτιωμένου LMedS υπολογίσαμε το βάθος για τα δύο 

πακέτα τιμών των f και b. Αρχικά για τις πειραματικές τιμές προέκυψαν τα αποτελέσματα του 

παρακάτω πίνακα: 

75




inliers 

Βάθος 


pixels 

Βάθος 


mm 



inliers 

Βάθος 


pixels 

Βάθος 

σημείων 

σε mm 

1 3024.6 800.3 26 2998.6 793.4 

2 3051.2 807.3 27 3051.2 807.3 

3 2415.5 639.1 28 3078.2 814.4 

4 2466.9 652.7 29 3051.2 807.3 

5 2851.1 754.3 30 2696.4 713.4 

6 2382.4 630.3 31 3024.6 800.3 

7 2484.5 657.4 32 2782.7 736.2 

8 2484.5 657.4 33 2655.2 702.5 

9 2635.1 697.2 34 2432.4 643.6 

10 3078.2 814.4 35 2805.1 742.2 

11 2449.5 648.1 36 2449.5 648.1 

12 2382.4 630.3 37 2449.5 648.1 

13 3078.2 814.4 38 2502.4 662.1 

14 2760.6 730.4 39 2449.5 648.1 

15 2851.1 754.3 40 2382.4 630.3 

16 2760.6 730.4 41 2484.5 657.4 

17 2557.6 676.7 42 2874.6 760.6 

18 3051.2 807.3 43 3078.2 814.4 

19 2366.2 626.1 44 5270.2 1394.4 

20 2538.9 671.8 45 2432.4 643.6 

21 3051.2 807.3 46 2738.8 724.6 

22 2998.6 793.4 47 2466.9 652.7 

23 3024.6 800.3 48 2898.6 766.9 

24 2947.7 779.9 49 2760.6 730.4 

25 3281.4 868.2 50 3024.6 800.3 

Πίνακας 7.7: Βάθη για τις αντιστοιχίσεις του διορθωμένου LMedS με πειραματικές τιμές 



76 



inliers 

Βάθος 


pixels 

Βάθος 


mm 



inliers 

Βάθος 


pixels 

Βάθος 


mm 

1 6211 1643.3 18 6265 1657.7 

2 6265 1657.7 19 4859 1285.6 

3 4960 1312.3 20 5213 1379.4 

4 5066 1340.3 21 6265 1657.7 

5 5854 1549 22 6157 1629.1 

6 4892 1294.4 23 6211 1643.3 

7 5102 1349.8 24 6053 1601.5 

8 5102 1349.8 25 6738 1782.8 

9 5411 1431.6 26 6157 1629,1 

10 6321 1672.4 27 6265 1657,7 

11 5030 1330.8 28 6321 1672,4 

12 4892 1294.4 29 6265 1657,7 

13 6321 1672.4 30 5537 1664,9 

14 5669 1499.8 31 6211 1643,3 

15 5854 1549 32 5714 1511,8 

16 5669 1499.8 33 5452 1442,6 

17 5252 1389.5 34 4995 1321,5


35 5760 1524 43 6321 1672.4 

36 5030 1330.8 44 10822 2863.3 

37 5030 1330.8 45 4995 1321.5 

38 5138 1359.5 46 5624 1488 

39 5030 1330.8 47 5066 1340.3 

40 4892 1294.4 48 5952 1574.8 

41 5102 1349.8 49 5669 1499.8 

42 5903 1561.8 50 6211 1643.3 

Πίνακας 7.8: Βάθη για τις αντιστοιχίσεις του διορθωμένου LMedS με πραγματικές τιμές 

Από το σχήμα 7.14 είναι εμφανές πως οι αντιστοιχίσεις του βελτιωμένου LMedS δεν 

βρίσκονται στην ίδια απόσταση από την κάμερα, όπως φαίνεται και από τις αποκλίσεις ανάμεσα 

στις τιμές των πινάκων. Αν αφαιρέσουμε από την μέγιστη τιμή σε mm, του πίνακα 7.8, την 

ελάχιστη τιμή (1782.8-1285.6) προκύπτει η τιμή 497mm που είναι και το πραγματικό βάθος από το 

κοντινότερο στην κάμερα αντικείμενο μέχρι το μακρύτερο. Από αυτόν τον υπολογισμό εξαιρέσαμε 

την αντιστοίχιση με τον αριθμό 44, αφού προφανώς είναι λανθασμένη. Καταλήγουμε λοιπόν, στο 

συμπέρασμα πως ο αλγόριθμος μας λειτουργεί και για αποστάσεις μεγαλύτερες από την εστιακή 

απόσταση (1m). 

δ) Τέταρτο ζεύγος φωτογραφιών (1.6m) 

Η σκηνή του τέταρτου και τελευταίου ζεύγους φωτογραφιών έχει και αυτή απόσταση από 

τη σκηνή 1,6m. Είναι αρκετά πολύπλοκη αφού περιέχει αντικείμενα διαφορετικής υφής και σε 

διαφορετικές αποστάσεις από το φακό της κάμερας (σχήμα 7.15). 

Σχήμα 7.15: Τέταρτο ζεύγος φωτογραφιών 

Οι αρχικές αντιστοιχίσεις των γωνιών που έδωσε ο Harris Corner Detector με 

CornerThreshold ίσο με 0.07e-4, φαίνονται στο σχήμα 7.16. Το MatchThreshold για το 

οποίο προέκυψαν αυτά τα αποτελέσματα είναι και σε αυτό το ζεύγος ίσο με 5 και έτσι εξηγείται ο 

μεγάλος αριθμός αρχικών αντιστοιχίσεων. Όπως και στο προηγούμενο ζεύγος, καλύτερα 

αποτελέσματα έδωσε η μέθοδος LMedS, η οποία συνδυαζόμενη με τον κώδικα που 

κατασκευάσαμε μας έδωσε 27 τελικές αντιστοιχίσεις, τις μισές από όσες έδωσε αρχικά ο LMedS 

μόνος του. Τα κατώφλια του βελτιωμένου LMedS παρέμειναν τα ίδια, δηλαδή Disp_xmax=150, 

Disp_xmin=10 και Disp_ymax=10, και απέδωσαν πολύ καλά αποτελέσματα, όπως προκύπτει 

και από το σχήμα 7.17. 

77


Σχήμα 7.16: Αρχικές αντιστοιχίσεις των σημείων ενδιαφέροντος του τέταρτου ζεύγους 

Σχήμα 7.17: Οι αντιστοιχίσεις του βελτιωμένου LMedS 

Με βάση τα αποτελέσματα του βελτιωμένου LMedS υπολογίσαμε το βάθος για τα δύο 

πακέτα τιμών των f και b. Αρχικά για τις πειραματικές τιμές προέκυψαν τα αποτελέσματα του 

παρακάτω πίνακα: 

78



inliers 

Βάθος 


pixels 

Βάθος 


mm 




inliers 

Βάθος 


pixels 

Βάθος 


σε mm 

1 2972.9 786.5856 15 2760.6 730.4009 

2 2760.6 730.4009 16 1999 528.911 

3 2760.6 730.4009 17 2972.9 786.5856 

4 2760.6 730.4009 18 2520.5 666.8878 

5 2782.7 736.2441 19 2382.4 630.346 

6 3024.6 800.2653 20 2502.4 662.09 

7 1850.2 489.524 21 3250.8 860.0982 

8 3024.6 800.2653 22 2782.7 736.2441 

9 2538.9 671.7556 23 2538.9 671.7556 

10 2520.5 666.8878 24 2502.4 662.09 

11 2484.5 657.3608 25 2760.6 730.4009 

12 3024.6 800.2653 26 2484.5 657.3608 

13 2760.6 730.4009 27 1932.4 511.2806 

14 2502.4 662.09 

Πίνακας 7.9: Βάθη για τις αντιστοιχίσεις του διορθωμένου LMedS με πειραματικές τιμές 





inliers 

Βάθος 


pixels 

Βάθος 


mm 



inliers 

Βάθος 


pixels 

Βάθος 


σε mm 

1 6104,6 1615,2 15 5668,6 1499,8 

2 5668,6 1499,8 16 4104,8 1086,1 

3 5668,6 1499,8 17 6104,6 1615,2 

4 5668,6 1499,8 18 5175,7 1369,4 

5 5713,9 1511,8 19 4892,1 1294,4 

6 6210,8 1643,3 20 5138,4 1359,5 

7 3799,2 1005,2 21 6675,2 1766,1 

8 6210,8 1643,3 22 5713,9 1511,8 

9 5213,4 1379,4 23 5213,4 1379,4 

10 5175,7 1369,4 24 5138,4 1359,5 

11 5101,7 1349,8 25 5668,6 1499,8 

12 6210,8 1643,3 26 5101,7 1349,8 

13 5668,6 1499,8 27 3968 1049,9 

14 5138,4 1359,5 

Πίνακας 7.10: Βάθη για τις αντιστοιχίσεις του διορθωμένου LMedS με πραγματικές τιμές 

Όπως βλέπουμε από τον πίνακα 7.10 η εκτίμηση του βάθους γίνεται σε πολύ καλό βαθμό 

αφού το εύρος των τιμών ισούται και με το εύρος της σκηνής (περίπου 650 mm) ενώ και οι 

διάφορες αποστάσεις των αντικειμένων από τον φακό αποτυπώνονται στα αποτελέσματα. 

Αντίστοιχα, το ίδιο συμβαίνει και για τις πειραματικές τιμές με τη διαφορά πως οι τιμές είναι 

περίπου οι μισές. Άρα μπορούμε να πούμε πως και για τις πειραματικές τιμές έχουμε μια σχετική 

επιτυχία. Τα συμπεράσματα αυτά δεν προκύπτουν μόνο από το παρόν ζεύγος αλλά από το σύνολο 

όλης της πειραματικής διαδικασίας. 

79

Κεφάλαιο 8: Τρισδιάστατη ανακατασκευή 



Στο προηγούμενο κεφάλαιο αναπτύξαμε αναλυτικά τη διαδικασία εκτίμησης του βάθους 

της σκηνής. Το βάθος είναι το πιο σημαντικό στοιχείο, αφού ‘αποτελεί’ την τρίτη διάσταση της 

φωτογραφίας. Πρακτικά λοιπόν, συνδυάζοντας τις φωτογραφίες που έχουμε από την πειραματική 

διαδικασία και τα αποτελέσματα για το βάθος, μπορούμε να αναπαραστήσουμε την τρισδιάστατη 

πλέον εικόνα. 

Βασική προϋπόθεση της τρισδιάστατης ανακατασκευής είναι η διόρθωση των εικόνων 

(image rectification). Έχει αναφερθεί ότι στην παρούσα εργασία αυτή η διαδικασία δε θα έπρεπε να 

μας απασχολήσει αφού θεωρούμε τη μετατόπιση στον άξονα των y μηδενική. Εντούτοις, όπως 

αποδείχτηκε και από τα αποτελέσματα των πειραμάτων, αυτό είναι πρακτικά αδύνατο όταν 

χρησιμοποιείται μία κάμερα για τη λήψη των φωτογραφιών. Επομένως είμαστε υποχρεωμένοι να 

διορθώσουμε τη δεξιά εικόνα σε σχέση με την αριστερή, ώστε να αναιρέσουμε οποιοδήποτε 

σφάλμα έχει δημιουργηθεί στον κατακόρυφο άξονα. 

Με τις εικόνες πλέον διορθωμένες, τους κατάλληλους αλγορίθμους και τις κατάλληλες 

μεθόδους διόρθωσης σφαλμάτων, μπορούμε να αναπαραστήσουμε ένα μεγάλο μέρος της σκηνής 

που απεικονίζεται σε ένα ζεύγος φωτογραφιών. Δε θα αναφερθούμε στον τρόπο λειτουργίας των 

αλγορίθμων αυτών καθώς η πολυπλοκότητά τους είναι μεγάλη και φεύγει από τα πλαίσια αυτής της 

εργασίας. 

8.2 Διόρθωση εικόνων 

Η στερεοσκοπική όραση χρησιμοποιεί την τριγωνοποίηση βάσει της επιπολικής γεωμετρίας 

για να καθορίσει την απόσταση ενός αντικειμένου. Έχει προαναφερθεί ότι το δυσκολότερο σημείο 

της διαδικασίας της τρισδιάστατης ανακατασκευής είναι η αντιστοίχιση των σωστών σημείων 

μεταξύ των δύο εικόνων. Οι αλγόριθμοι μπορούν να ψάχνουν και στις δύο διαστάσεις x και y. 

Επειδή όμως στο στάδιο της ανακατασκευής, η έρευνα αυτή γίνεται pixel-to-pixel, το υπολογιστικό 

κόστος είναι τεράστιο. Επομένως για να περιορίσουμε τόσο το κόστος, όσο και τα δεδομένα, 

μετατρέπουμε το δισδιάστατο αλγόριθμο σε μονοδιάστατο ώστε να ψάχνει για σωστές 

αντιστοιχίσεις μόνο κατά μήκος του οριζόντιου άξονα. Για αυτό το λόγο είναι απαραίτητο οι 

φωτογραφίες να είναι απόλυτα ευθυγραμμισμένες μεταξύ τους, το οποίο επιτυγχάνεται με 

μετασχηματισμό των συντεταγμένων της δεξιάς εικόνας, σε σχέση με την αριστερή. 

Αν δεν υπάρχουν γεωμετρικές παραμορφώσεις λόγω του φακού, αυτός ο μετασχηματισμός 

είναι γραμμικός. Ουσιαστικά μετακινείται η δεξιά εικόνα στους άξονες x,y ώστε να βρεθεί στο ίδιο 

επίπεδο με την αριστερή εικόνα και αν έχουν διαφορετικό μέγεθος, αλλάζει κλίμακα ώστε να είναι 

ισομεγέθεις. Στη συνέχεια περιστρέφονται τα pixel γύρω από τον άξονα των z και με την εφαρμογή 

του συντελεστή απόκλισης, ευθυγραμμίζονται απευθείας. Επειδή όμως οι κάμερες έχουν 

γεωμετρικές παραμορφώσεις, ο μετασχηματισμός είναι πιο πολύπλοκος. Ουσιαστικά 

ευθυγραμμίζει τις επιπολικές ευθείες όλων των σημείων οι οποίες εντέλει είναι παράλληλες με τον 

οριζόντιο άξονα και τα επίπολα των δύο καμερών βρίσκονται στο άπειρο (σχήμα 8.1). 

80


Σχήμα 8.1: Ευθυγραμμισμένες επιπολικές ευθείες μετά το image rectification 

Στη διεθνή βιβλιογραφία έχουν προταθεί διάφορες μέθοδοι διόρθωσης των εικόνων, όπως 

π.χ. αυτή των Zhang et al., Fusiello et al., Pollefeys et al. Από τις μεθόδους αυτές, η μέθοδος του 

Zhang έχει το πλεονέκτημα ότι ελαχιστοποιεί την παραμόρφωση των εικόνων κατά την διόρθωση, 

ενώ η μέθοδος του Pollefeys είναι η μόνη η οποία μπορεί να λειτουργήσει ακόμα και αν κάποιο 

από τα επίπολα είναι επί της εικόνας. Εμείς στην υλοποίηση μας χρησιμοποιήσαμε τη μέθοδο του 

Fusiello καθώς είναι η απλούστερη όλων, ενώ τα αποτελέσματα της είναι πολύ ικανοποιητικά για 

τις ακολουθίες φωτογραφιών που την εφαρμόσαμε. Μόνος περιορισμός της είναι ότι πρέπει, για να 

είναι εφαρμόσιμη, τα επίπολα να βρίσκονται εκτός των εικόνων, και σε μεγάλη σχετικά απόσταση. 

Αυτό ισοδυναμεί με την απαίτηση, η κύρια συνιστώσα της κίνησης της κάμερας να μην είναι κατά 

μήκος του z άξονα. Η απαίτηση αυτή πάντως επιβάλλεται και από άλλους λόγους, καθώς στην 

περίπτωση της κίνησης στη διεύθυνση του z άξονα, η αβεβαιότητα της τρισδιάστατης 

ανακατασκευής είναι πολύ μεγάλη, για λόγους καθαρά αριθμητικής ευστάθειας. 

8.3 Disparity Map (Χάρτης βάθους) 

Μία πρώτη εκτίμηση του βάθους της σκηνής μας δίνει ο χάρτης βάθους ή ορθότερα, ο 

χάρτης διαφορών ( disparity map). Με χρήση του disparity των pixel, υπολογίζει το βάθος των 

αντικειμένων, την απόσταση δηλαδή που έχουν τα αντικείμενα που απεικονίζει η σκηνή από την 

κάμερα. Χρησιμοποιώντας χρωματικές διαβαθμίσεις, δείχνει πόσο έχει υπολογίσει το disparity σε 

κάθε σημείο της εικόνας. Να σημειώσουμε ότι ακολουθείται όλη η διαδικασία του matching και 

του image rectification που έχουμε αναλύσει και στη συνέχεια χρησιμοποιούνται οι μέθοδοι που 

αναφέρονται στο Computer Vision System Toolbox for Matlab. Η καθεμία έχει σαν αποτέλεσμα 

έναν διαφορετικό χάρτη βάθους που θα παρουσιάσουμε στην ενότητα της πειραματικής 

διαδικασίας που ακολουθεί. 

8.4 Τρισδιάστατη ανακατασκευή ( 3D reconstruction) 

Το τελευταίο στάδιο είναι η ανακατασκευή του τρισδιάστατου χώρου. Συνδυάζοντας τα 

πειραματικά αποτελέσματα όλης της διαδικασίας και χρησιμοποιώντας ξανά το Computer Vision 

81


System Toolbox for Matlab , είμαστε σε θέση να αναπαραστήσουμε σε τρισδιάστατο πλέον επίπεδο 

τη σκηνή που απεικονίζει το στερεοσκοπικό ζεύγος φωτογραφιών. Ο κώδικας που χρησιμοποιούμε 

για την ανακατασκευή απαιτεί γνώση της μήτρας των εσωγενών παραμέτρων Κ που υπολογίστηκε 

στο στάδιο της βαθμονόμησης. Επειδή αυτή η μήτρα περιέχει και τις μονάδες μέτρησης των 

στοιχείων της, μπορούμε να προβάλουμε τη σκηνή σε τρισδιάστατο άξονα συντεταγμένων 

ορισμένο σε μέτρα για να γίνει κατανοητό, τόσο το μέγεθος των αντικειμένων, όσο και το βάθος 

της σκηνής. Επίσης, είναι ένα τρόπος ελέγχου της αξιοπιστίας των αποτελεσμάτων. Κατά πόσο 

δηλαδή η αναπαράσταση ανταποκρίνεται στην πραγματικότητα. Τέλος, χρησιμοποιεί τα φυσικά 

χρώματα που περιέχουν οι αρχικές φωτογραφίες, με αποτέλεσμα η σκηνή να φαίνεται αρκετά 

ρεαλιστική. 

8.5 Πειραματική διαδικασία 

8.5.1 Διόρθωση εικόνων 

Όπως και στα πειράματα των προηγούμενων κεφαλαίων, οι ρυθμίσεις της κάμερας 

παρέμειναν σταθερές μεταξύ των δύο λήψεων και το baseline είναι και εδώ 5cm. Οι παράμετροι 

της κάμερας είναι γνωστές από τη διαδικασία της βαθμονόμησης και οι αρχικές φωτογραφίες είναι 

απαλλαγμένες από τις παραμορφώσεις του φακού. Χρησιμοποιήσαμε δηλαδή τις ‘undistorted’ 

φωτογραφίες οι οποίες παρουσιάζονται στο παρακάτω σχήμα: 

Σχήμα 8.2: Αρχικό ζεύγος φωτογραφιών 

Για τη διεξαγωγή του πειράματος χρησιμοποιήσαμε τους αλγορίθμους που υπάρχουν στο matlab 

και σχετίζονται με το image rectification. Αρχικά εντοπίσαμε τα σημεία ενδιαφέροντος στις δύο 

εικόνες (σχήματα 8.3-8.4). 

82


Σχήμα 8.3: Εντοπισθείσες γωνίες στην αριστερή εικόνα 

Σχήμα 8.4: Εντοπισθείσες γωνίες στη δεξιά εικόνα 

83


Στη συνέχεια κάναμε τη διαδικασία της αντιστοίχισης, όπως περιγράφθηκε αναλυτικά στο 

προηγούμενο κεφάλαιο και το τελικό αποτέλεσμα, μετά τη διόρθωση των λανθασμένων 

αντιστοιχίσεων παρουσιάζεται στο ακόλουθο σχήμα: 

Σχήμα 8.5: Αντιστοιχίσεις σημείων ενδιαφέροντος 

Τέλος υπολογίστηκαν οι διορθωμένες ( rectified) εικόνες οι οποίες εμφανίζονται στην παρακάτω 

κοινή φωτογραφία: 

Σχήμα 8.6: Διορθωμένες εικόνες 

84


Για να γίνει οπτικά πιο ξεκάθαρη η ευθυγράμμιση των δύο φωτογραφιών, παρουσιάζονται μαζί με 

τις επιπολικές τους γραμμές στο επόμενο σχήμα: 

Σχήμα 8.7: Οι επιπολικές ευθείες 

8.5.2 Disparity Maps 

Αφού οι φωτογραφίες μας πλέον είναι rectified, χρησιμοποιούμε τη μέθοδο του Basic Block 

Matching, ορίζουμε το disparityRange = 150 (εξ’ού και η κλίμακα του υπομνήματος) και ο 

disparity map που προκύπτει από την εφαρμογή της είναι ο ακόλουθος (σχήμα 8.8): 

Σχήμα 8.8: Disparity map με Basic Block Matching 

Είναι φανερό από το παραπάνω σχήμα ότι η μέθοδος εισάγει πολύ θόρυβο στο χάρτη. Για 

να βελτιώσουμε την εικόνα του, χρησιμοποιούμε τη μέθοδο του δυναμικού προγραμματισμού 

(Dynamic Programming) και ο χάρτης που προκύπτει είναι ο ακόλουθος (σχήμα 8.9): 

85


Σχήμα 8.9: Disparity Map με Dynamic Programming 

Στην παραπάνω μέθοδο εφαρμόσαμε το δυναμικό προγραμματισμό σε κάθε γραμμή 

ξεχωριστά. Όπως φαίνεται από το χάρτη, ο δυναμικός προγραμματισμός, εισάγει λάθη από μόνος 

του καθώς έχει ‘επιβάλει’ έναν συντελεστή εξομάλυνσης γύρω από τα όρια των αντικειμένων. 

Αυτός είναι και ο λόγος που φαίνεται πιο ‘θολός’ αυτός ο χάρτης. Να σημειωθεί ότι δεν εξομαλύνει 

τις περιοχές που βρίσκονται μεταξύ των γραμμών γι’ αυτό και προκύπτουν οι ‘ραβδώσεις’ στις 

άκρες των αντικειμένων. Αποτελεί όμως σίγουρα βελτιωμένη εκδοχή σε σχέση με το χάρτη που 

εμφάνισε η πρώτη μέθοδος. 

86 

Σχήμα 8.10: Disparity map με Combined Pyramiding and Dynamic Programming


Στο σχήμα 8.10 παρουσιάζεται το αποτέλεσμα από την εφαρμογή της μεθόδου Combined 

Pyramiding and Dynamic Programming. Βλέπουμε ότι έχουν διορθωθεί τα λάθη στην αριστερή 

πλευρά της εικόνας, αφού όλα τα αντικείμενα είναι σχεδόν στην ίδια απόσταση από την κάμερα. 

Όμως και πάλι η αναπαράσταση δεν ανταποκρίνεται απόλυτα στην πραγματικότητα, αλλά είναι μια 

καλή διόρθωση των δύο προηγούμενων μεθόδων. 

8.5.3 Τρισδιάστατη ανακατασκευή 

Στο τελικό στάδιο της διαδικασίας χρησιμοποιήσαμε όλα τα παραπάνω αποτελέσματα 

καθώς και τη μήτρα εσωγενών παραμέτρων της κάμερας: 

K = [4368.8 0 1583.2 

0 4360.7 1232.9 

0 0 1]; 

Έτσι ανακατασκευάσαμε την τρισδιάστατη σκηνή η οποία απεικονίζεται στο σχήμα 8.11. Να 

αναφέρουμε ότι τα αντικείμενα που απεικονίζονται σε αυτή τη σκηνή είχαν απόσταση 1m από την 

κάμερα. 

Σχήμα 8.11: Τρισδιάστατη ανακατασκευή της σκηνής που απεικονίζεται στο σχήμα 7.2 

Στις παρακάτω μεγεθύνσεις (σχήματα 8.12 -8.13), βλέπουμε ότι το κουτί έχει ανακατασκευαστεί 

σχεδόν πλήρως καθώς και ένα μεγάλο μέρος του αντικειμένου που βρίσκεται μπροστά του. Το 

κατακόρυφα τοποθετημένο μολύβι όμως, έχει χαθεί τελείως από τη σκηνή. Το background έχει 

σχηματιστεί στο μέρος που στον τελευταίο χάρτη βάθους είχε εκτιμηθεί σωστά (πάνω δεξιά 

πλευρά). Επίσης, βλέπουμε από τους τρισδιάστατους άξονες, ότι έχει υπολογιστεί σωστά τόσο το 

ύψος του background όσο και το πλάτος της σκηνής. Το βάθος ήταν αναμενόμενο να μη βγει 

απόλυτα σωστό, αφού αυτό ουσιαστικά είναι το αποτέλεσμα όλης της πειραματικής διαδικασίας. 

87


Προφανώς και θα έχει σφάλματα, λόγω ατελειών τόσο της πειραματικής διάταξης, όσο και των 

αλγορίθμων εύρεσης γωνιών, αντιστοίχησης και διόρθωσης. 

Σχήμα 8.12: 1 η μεγέθυνση του σχήματος 8.11 

Σχήμα 8.13: 2 η μεγέθυνση του σχήματος 8.11 

Ακολουθήσαμε ακριβώς την ίδια διαδικασία για ένα ζεύγος φωτογραφιών που έχει απόσταση από 

την κάμερα 1,6m. Το ζεύγος χρησιμοποιήθηκε και στο κεφάλαιο 7 και παρουσιάζεται στο σχήμα 

8.14. Η τελική τρισδιάστατη αναπαράσταση της σκηνής που απεικονίζεται σε αυτό το ζεύγος 

φωτογραφιών παρουσιάζεται στο σχήμα 8.15 και το σχήμα 8.16 αποτελεί μεγέθυνση του 8.15. 

88


Σχήμα 8.14: Το ζεύγος των φωτογραφιών που χρησιμοποιήθηκαν 

Σχήμα 8.15: Η τρισδιάστατη ανακατασκευή της σκηνής που απεικονίζεται στο σχήμα 8.14 

Παρατηρούμε πως σε αυτή την περίπτωση, η ανακατασκευή είναι πολύ ικανοποιητική. Οι 

διαστάσεις της σκηνής είναι σωστές, το βάθος είναι σε γενικές γραμμές αντιπροσωπευτικό της 

πραγματικότητας και τα αντικείμενα είναι σχεδόν εξ’ ολοκλήρου σωστά ανακατασκευασμένα, 

89


όπως και το background. Βλέπουμε και εδώ βέβαια ότι υπάρχουν πολλά περιθώρια βελτίωσης 

στους αλγορίθμους, αφού τα σφάλματα που παρουσιάζονται δεν μπορούν να παραβλεφθούν. 

Σχήμα 8.16: Μεγέθυνση του σχήματος 7.15 

8.6 Εφαρμογή του αλγορίθμου για σκηνές μεγαλύτερου βάθους 

Στα πλαίσια της ως τώρα εργασίας μας, έχουμε ασχοληθεί με ζεύγη φωτογραφιών που 

απεικονίζουν σκηνές μικρού σχετικά βάθους και μικρής απόστασης από την κάμερα. Για 

πειραματικούς λόγους θα πραγματοποιήσουμε όλη την διαδικασία ανακατασκευής χώρου και για 

μία σκηνή μεγαλύτερου βάθους. 

Και αυτό το ζεύγος φωτογραφιών έχει ληφθεί με τις ίδιες εσωτερικές παραμέτρους και την 

ίδια πλευρική μετατόπιση, όπως και όλα τα προηγούμενα. Το στερεοσκοπίκο ζεύγος φαίνεται στο 

σχήμα 8.17: 

Σχήμα 8.17: Στερεοσκοπικό ζεύγος μεγάλου βάθους 

Το πρώτο βήμα της διαδικασίας είναι ο εντοπισμός των σημείων ενδιαφέροντος των 

εικόνων με τον Harris Corner Detector, τα αποτελέσματα του οποίου φαίνονται στο επόμενο 

σχήμα: 

90


Σχήμα 8.18: Εντοπισθέντα σημεία ενδιαφέροντος 

Έπειτα ακολουθεί η διαδικασία της αρχικής αντιστοίχισης των γωνιών που εντόπισε ο 

Harris Corner Detector (σχήμα 8.19): 

Σχήμα 8.19: Αρχική αντιστοίχιση σημείων ενδιαφέροντος 

Στη συνέχεια, εφαρμόσαμε μια σθεναρή μέθοδο απόρριψης λανθασμένων αντιστοιχίσεων. 

Αυτή που ήταν αποδοτικότερη στο παρόν ζεύγος είναι ο LMedS (σχήμα 8.20) . Ο βελτιωμένος 

LMedS, για Disp_xmax=35, Disp_xmin=4 και Disp_ymax=10 έδωσε τα αποτελέσματα του 

σχήματος 8.21. 

91


Σχήμα 8.20: Αντιστοιχίσεις σημείων ενδιαφέροντος με LMedS 

Σχήμα 8.21: Αντιστοιχίσεις σημείων ενδιαφέροντος βελτιωμένου LMedS 

92


Επόμενο βήμα της διαδικασίας είναι η ‘διόρθωση’ των εικόνων (image rectification), βάσει 

των inliers του βελτιωμένου LMedS, όπως φαίνεται και στο σχήμα 8.22. 

Σχήμα 8.22: Διορθωμένες εικόνες με τις επιπολικές γραμμές 

Για τις rectified εικόνες η μέθοδος του Basic Block Matching με disparityRange = 65, έδωσε το 

disparity map σχήματος 8.23: 

Σχήμα 8.23: Disparity map με Basic Block Matching 

Τα αποτελέσματα του αλγορίθμου είναι αρκετά ικανοποιητικά, αφού είναι ορατά τα 

αντικείμενα στα διαφορετικά βάθη και επίσης διότι τα αντικείμενα πλησιέστερα στην κάμερα έχουν 

μεγαλύτερο disparity, όπως είναι λογικό. 

Στη συνέχεια εφαρμόσαμε τον δυναμικό προγραμματισμό (σχήμα 8.24) και τα 

αποτελέσματα ήταν εξίσου ικανοποιητικά. 

93


Σχήμα 8.24: Disparity Map με Dynamic Programming 

Στο παραπάνω σχήμα είναι εμφανής η εξομάλυνση που πραγματοποιεί ο αλγόριθμος σε 

σχέση με τα αποτελέσματα του Basic Block Matching. Η επόμενη μέθοδος που εφαρμόσαμε ήταν 

το Pyramid With Dynamic programming and sub-pixel accuracy του σχήματος 8.25: 

Σχήμα 8.25: Disparity map με Pyramiding with Dynamic Programming and sub-pixel accuracy 

94


Παρατηρούμε πως η τελευταία μέθοδος δεν απέδωσε καλύτερα αποτελέσματα από το 

Dynamic Programming, μάλλον το αντίθετο. Τελευταίο βήμα της διαδικασίας είναι η ίδια η 3d 

ανακατασκευή. Τα αποτελέσματα φαίνονται στα επόμενα σχήματα: 

Σχήμα 8.26: Τρισδιάστατη ανακατασκευή της σκηνής του στερεοσκοπικού ζεύγους 

Σχήμα 8.27: Λεπτομέρεια του σχήματος 8.26 

Ακολουθώντας όλη τη διαδικασία, παρατηρούμε πως τα αποτελέσματα είναι ιδιαίτερα 

ικανοποιητικά, αν και υπάρχουν πολλά περιθώρια βελτίωσης, ειδικά στην ανακατασκευή. Ήταν 

αναμενόμενο να έχουμε λάθος στην εκτίμηση του βάθους, αφού η κάμερα είχε ρυθμιστεί να 

εστιάσει στο 1m ενώ η σκηνή είχε βάθος έως και 8m. Παρόλα αυτά μπορούμε να βγάλουμε το 

συμπέρασμα πως η διαδικασία λειτουργεί αποτελεσματικά και για σκηνές μεγαλύτερου βάθους. 

95

Κεφάλαιο 9: Συμπεράσματα 


Στα πλαίσια της διπλωματικής εργασίας που πραγματοποιήσαμε, κατασκευάσαμε ένα 

πλήρες μοντέλο τρισδιάστατης ανακατασκευής χώρου, το οποίο δέχεται σαν εισόδους δύο 

φωτογραφίες, που πρέπει να υπακούουν σε κάποιους περιορισμούς. Οι φωτογραφίες θα πρέπει να 

έχουν ληφθεί από μια κάμερα με σταθερές παραμέτρους, η οποία θα πρέπει να κινείται μόνο κατά 

μια πλευρική μετατόπιση (stereo vision). 

Πρόθεσή μας ήταν να δώσουμε, όσο πιο απλά μπορούμε, τις βασικές αρχές και το 

μαθηματικό υπόβαθρο πάνω στο οποίο στηρίζεται η τρισδιάστατη ανακατασκευή, άλλα και να 

περιγράψουμε σε ικανοποιητικό βαθμό την πειραματική διαδικασία, η οποία είναι απαραίτητη για 

την εξαγωγή των επιθυμητών αποτελεσμάτων. 

Η πορεία που ακολουθήθηκε σε πειραματικό επίπεδο ήταν η εξής: 

α) Βαθμονόμηση της κάμερας, για την εξεύρεση των απαραίτητων παραμέτρων αυτής. 

β) Εντοπισμός και αντιστοίχηση των σημείων ενδιαφέροντος (γωνιών) των δύο φωτογραφιών. 

γ) Υπολογισμός της τρίτης διάστασης (βάθος), αποκρυπτογραφώντας τα δισδιάστατα επίπεδα 

προβολής των φωτογραφιών. 

δ) Ανακατασκευή του τρισδιάστατου χώρου. 

Επιδίωξη μας, κατά την πορεία αυτή, ήταν να δώσουμε την ίδια βαρύτητα σε όλα τα 

βήματα, αν και τελικά ο κεντρικός άξονας πάνω στον οποίο κινηθήκαμε ήταν ο σωστός 

υπολογισμός του βάθους, του ακρογωνιαίου λίθου, ουσιαστικά, της τρισδιάστατης ανακατασκευής 

χώρου. Παρόλα αυτά, δεν υπάρχει σημείο της όλης διαδικασίας που να μην αναδείχθηκε, αφού 

σκοπός μας ήταν η απόκτηση σφαιρικής γνώσης γύρω από το αντικείμενο της τρισδιάστατης 

ανακατασκευής χώρου. 

Το μοντέλο το οποίο κατασκευάσθηκε, αν και έδωσε ικανοποιητικά αποτελέσματα, σε 

καμία περίπτωση δε θα μπορούσε να χαρακτηριστεί τέλειο. Ούτως ή άλλως δεν ήταν αυτός ο 

σκοπός της διπλωματικής εργασίας μας. Ωστόσο, στη συνέχεια, δίνονται κάποιες διορθώσεις και 

πιθανές βελτιώσεις, που θα μπορούσαν να οδηγήσουν σε ικανοποιητικότερα αποτελέσματα: 

Χρήση καλύτερων φακών στη φωτογραφική μηχανή. Καλύτερη ποιότητα φακού συνεπάγεται 

και μείωση των μη γραμμικών παραμορφώσεων, κυρίως της ακτινικής που επηρεάζει τη 

γραμμικότητα του μοντέλου. 

Χρήση ακριβέστερων αλγορίθμων βαθμονόμησης. Σε συνδυασμό με τη χρήση καλύτερων 

φακών, η εύρεση των παραμέτρων της κάμερας, εσωγενών και εξωγενών, μπορεί να γίνει με 

μεγαλύτερη ακρίβεια. Με αυτό τον τρόπο, αποφεύγονται μεγάλες αποκλίσεις μεταξύ 

πειραματικών και πραγματικών δεδομένων, όπως η εκτίμηση που μας έδωσε το stereo 

calibration για την μετατόπιση της κάμερας (2cm) σε σχέση με την πραγματική (5cm). 

Χρήση αλγορίθμων αυτο-βαθμονόμησης. Με τη χρήση αυτών των αλγορίθμων, αντί της 

βαθμονόμησης που πραγματοποιήσαμε στην παρούσα εργασία, μπορούμε να εξάγουμε τις 

παραμέτρους της κάμερας από κάθε ζεύγος φωτογραφιών που χρησιμοποιούμε. Με αυτό τον 

τρόπο, αποφεύγουμε την εκ τω προτέρων απαραίτητη γνώση των παραμέτρων για κάθε εστιακή 

 

απόσταση που χρησιμοποιούμε. 

Κατασκευή ακριβέστερης πειραματικής διάταξης. Στα πλαίσια της εργασίας μας κάναμε την 

παραδοχή πως το ζεύγος φωτογραφιών που χρησιμοποιούσαμε ήταν στερεοσκοπικό. Αυτό δε 

συνέβαινε στην πραγματικότητα, αφού η πειραματική διάταξη που χρησιμοποιούσαμε εκτός 

από την πλευρική μετατόπιση, εισήγαγε μικρές μετατοπίσεις και στους άλλους δύο άξονες. 

Επίσης, ήταν αδύνατο να μην υπάρξει και μια μικρή περιστροφή κατά τη διεξαγωγή των 

πειραμάτων. 

Χρήση αποτελεσματικότερων μεθόδων αντιστοίχισης των σημείων ενδιαφέροντος. 

Χρησιμοποιώντας αποτελεσματικότερες μεθόδους αρχικής αντιστοίχισης και απόρριψης 

λανθασμένων αντιστοιχίσεων, μπορούμε να αποκλείσουμε όλες τις λανθασμένες αντιστοιχίσεις 

που μας κοστίζουν στην ακρίβεια των αποτελεσμάτων. 

96


 

Χρήση αλγορίθμων για το image rectification, που λειτουργούν ακόμα και αν τα επίπολα 

βρίσκονται εντός των φωτογραφιών. 

97

Βιβλιογραφία 



[1]Richard Szeliski: “Computer Vision: Algorithms and Applications”, March 30,2008 

[2] Massimo Picardi and Tony Jan: “Recent advances in computer vision” 

[3]http://en.wikipedia.org/wiki/Computer_stereo_vision 

Κεφάλαιο 2: 

[4] Οlivier Faugeras: “Three-Dimensional Computer Vision: A geometric viewpoint”, 1993, MIT 

press. 

[5] F. Ayers: “Theory and Problems of Projective Geometry”, Schaum's Outline Se-ries, McGraw- 

Hill, New York, 1967. 

[6] Reinhard R. Beichel: “Chapter 9, 3D Vision (Part I): Geometry for 3D vision/ Basics of 

projective geometry”, Internet lectures. 

http://css.engineering.uiowa.edu/~dip/LECTURE/3DVisionP1_2.html 

[7] Stan Birchfield: “ An introduction to Projective Geometry (for computer vision)”, online 

tutorial,1998. 

http://ai.stanford.edu/~birch/projective/projective.html 

[8] http://www.cs.mtu.edu/~shene/COURSES/cs3621/NOTES/geometry/geo-tran.html 


[9] Anthony Whitehead and Gerhard Roth: “Estimating Intrinsic Camera Parameters from the 

Fundamental Matrix Using an Evolutionary Approach” 

[10] Eduardo Bayro-Corrochano and Bodo Rosenhahn: “Analysis and Computation of the 

Intrinsic Camera Parameters” 

[11] J. Y. Bouguet: Camera Calibration Toolbox for Matlab, 

http://www.vision.caltech.edu/bouguetj/calib_doc/htmls/parameters.html 

[12]http://en.wikipedia.org/wiki/Pinhole_camera_model 

[13] http://www.cse.unr.edu/~bebis/CS791E/Notes/CameraParameters.pdf 

[14] Αναστάσιος Ι. Μουρίκης: “Τρισδιάστατη Ανακατασκευή Χώρου με Κινούμενη Εικονοληψία”, 

Διπλωματική εργασία, Ιούνιος 2003. 

[15] http://en.wikipedia.org/wiki/Distortion_(optics) 

[16]http://siddhantahuja.wordpress.com/tag/sum-of-squared-differences/ 


[17] Janne Heikkilä and Olli Silvén: “A four step camera calibration procedure with implicit image 

correction”, CVPR97 

[18] J. Y. Bouguet: Camera Calibration Toolbox for Matlab, 

http://www.vision.caltech.edu/bouguetj/calib_doc/htmls/example.html 

[19] Ζ. Zhang: “Flexible Camera Calibration By Viewing a Plane From Unknown Orientations”, 

ICCV99. 

[20] Αναστάσιος Ι. Μουρίκης: “Τρισδιάστατη Ανακατασκευή Χώρου με Κινούμενη Εικονοληψία”, 

Διπλωματική εργασία, Ιούνιος 2003. 

98



[21] D.Parks, J.P. Gravel: “Corner Detection”. 

[22] Z. Zheng, H. Wang, E. K. Teoh: “Analysis of gray level corner detection”, Pat-tern 

Recognition Letters, 1999 

[23] C.G. Harris and M.J. Stephens: "A combined corner and edge detector", Proceed-ings Fourth 

Alvey Vision Conference, Manchester, pp 147-151, 1988. 

[24] http://people.scs.carleton.ca/~c_shu/Courses/comp4900d/notes/lect9_corner.pdf 


[25] Thomas Bräunl: “Parallaxis-III: A Language for Structured Data-Parallel Programming”, 

online lectures. 

[26] G. Calin and V. O. Roda: “Real-time disparity map extraction in a dual head stereo vision 

system”. 

http://www.scielo.org.ar/scielo.phppid=S0327-07932007000100005&script=sci_arttext 

[27] http://en.wikipedia.org/wiki/Epipolar_geometry 


[28] Jernej Mrovlje and Damir Vrancic: “Distance measuring based on stereoscopic pictures”, PhD 

thesis. 

[29] Tjandranegara, Edwin , "Distance Estimation Algorithm for Stereo Pair Images" (2005). ECE 

Technical Reports. Paper 64. 

http://docs.lib.purdue.edu/ecetr/64 

[30] Mikko Kytö, Mikko Nuutinen, Pirkko Oittinen : “Method for measuring stereo 

camera depth accuracy based on stereoscopic vision” 

[31] Dion Boesten : “Depth estimation for stereo image pairs”, October 15, 2009. 

[32] Rostam Affendi Hamzah and Sani Irwan Md Salim: “Software Calibration for Stereo Camera 

on Stereo Vision Mobile Robot using Tsai’s Method” 

[33] P. Torr, D. Murray: “The Development and comparison of Robust Methods for Estimating the 

Fundamental Matrix”, Int. Journal of Computer Vision, v 24, n. 3, pp 271-300, 1997. 


[34] A. Fusiello, E. Trucco, and A. Verri. A compact algorithm for rectification of stereo 

pairs. Machine Vision and Applications, 12(1):16-22, 2000. 

[35] C. Loop, Z. Zhang: “Computing Rectifying Homographies for Stereo Vision”, CVPR99, Fort 

Collins, CO, pp I:125-131 

[36] M. Pollefeys, R. Koch, L. VanGool: “A Simple and Efficient Rectification Method for General 

Motion”, ICCV99, Corfu, Greece, pp 496-501 

[37] M. Pollefeys: “Self-calibration and Metric 3D Reconstruction from Uncalibrated Image 

Sequences”, PhD thesis, 1999. 

99

Παράρτημα 

Παράρτημα – Υλοποίηση Matlab 

Στο παράρτημα αυτό παραθέτονται τα σημαντικότερα αρχεία του κώδικα matlab που 

χρησιμοποιήσαμε στα πλαίσια της εργασίας μας. 

% Harris_corner_detector.m 

% εισαγωγή στρεοσκοπικού ζεύγους και εύρεση γωνιών με Harris corner 

% detector 

I1 = im2double(rgb2gray(imread('left.jpg'))); 

I2 = im2double(rgb2gray(imread('right.jpg'))); 

cvexShowImagePair(I1, I2, 'Left image', 'Right image'); 

cvexShowMatches(I1, I2, [], [], 'Left image', 'Right image'); 

hcornerdet = vision.CornerDetector('MaximumCornerCount', 500, ... 

'CornerThreshold', 1.0e-4, 'NeighborhoodSize', [21 21]); 

cornerPoints1 = step(hcornerdet, I1); 

cornerPoints2 = step(hcornerdet, I2); 

cvexShowImagePair(I1, I2, 'Corners in left image', ... 

'Corners in right image', 'SingleColor', cornerPoints1, cornerPoints2); 

--------------------------------------------------------------------- 

% initial_matcing.m 

% αρχική αντιστοίχιση των γωνιών του Harris corner detector 

[features1, validPoints1] = extractFeatures(I1, cornerPoints1, ... 

'BlockSize', 9); 

[features2, validPoints2] = extractFeatures(I2, cornerPoints2, ... 

'BlockSize', 9); 

[indexPairs, match_metric] = matchFeatures(features1, features2, ... 

'Metric', 'normxcorr', 'MatchThreshold', 10); 

% Retrieve locations of matched points for each image 

matchedPoints1 = validPoints1(:, indexPairs(1, :)); 

matchedPoints2 = validPoints2(:, indexPairs(2, :)); 

cvexShowMatches(I1, I2, matchedPoints1, matchedPoints2, ... 

'Matched points in I1', 'Matched points in I2'); 

--------------------------------------------------------------------- 

% RANSAC.m 

% υπολογίζει τις σωστές αντιστοιχίσεις με τη μέθοδο του κλασσικού 

100


% RANSAC 

[fMatrix, inliers] = estimateFundamentalMatrix(... 

matchedPoints1, matchedPoints2, 'Method', 'RANSAC', ... 

'NumTrials', 1000, 'DistanceThreshold',0.55, 'Confidence', 99.99); 

inlierPoints1 = matchedPoints1(:, inliers); 


cvexShowMatches(I1, I2, inlierPoints1, inlierPoints2, ... 

'Inlier points in I1', 'Inlier points in I2'); 

--------------------------------------------------------------------- 

% LmedS.m 

% υπολογίζει τις σωστές αντιστοιχίσεις με τη μέθοδο του LMedS 

[fLMS, inliers] = estimateFundamentalMatrix(... 

matchedPoints1, matchedPoints2, ... 

'NumTrials', 2000); 



cvexShowMatches(I1, I2, inlierPoints1, inlierPoints2, ... 

'Inlier points in I1', 'Inlier points in I2'); 

--------------------------------------------------------------------- 

Στη συνέχεια παρατίθεται ο κώδικας που κατασκευάσαμε για να βελτιώνει τα 

αποτελέσματα του RANSAC και του LMedS, για τα δύο πακέτα τιμών των f και b, σε συνδυασμό 

με τον υπολογισμό του βάθους. Αρχικά, έχουμε για τις πειραματικές τιμές και στη συνέχεια για τις 

πραγματικές. 

% code_peir.m 

% αποκόπτει τυχόν outliers που έχουν περάσει από RANSAC ή LMedS, και 

% υπολογίζει το βάθος για τις πειραματικές τιμές των f και b 

disparity=inlierPoints1-inlierPoints2 

m=size(disparity) 

Disp_xmax=150; 

Disp_xmin=10; 

Disp_ymax=10; 

correct_inliers=0; 

for (i=1:m(2)) 

if (disparity(1,i)


x=1; 

for (i=1:m(2)) 

if (disparity(1,i)


inliers2= zeros(2,correct_inliers); 

x=1; 

for (i=1:m(2)) 

if (disparity(1,i)


% disparity map με basic block matching 

hIdtc = vision.ImageDataTypeConverter; 

hCsc = vision.ColorSpaceConverter('Conversion','RGB to intensity'); 

leftI3chan = step(hIdtc,imread('left_rectified.jpg')); 

leftI = step(hCsc,leftI3chan); 

rightI3chan = step(hIdtc,imread('right_rectified.jpg')); 

rightI = step(hCsc,rightI3chan); 

figure(1), clf; 

imshow(rightI3chan), title('Right image'); 


imshow(cat(3,rightI,leftI,leftI)), axis image; 

title('Color composite (right=red, left=cyan)'); 

Dbasic = zeros(size(leftI), 'single'); 

disparityRange = 150; 

% Selects (2*halfBlockSize+1)-by-(2*halfBlockSize+1) block. 

halfBlockSize = 3; 

blockSize = 2*halfBlockSize+1; 

% Allocate space for all template matcher System objects. 

tmats = cell(blockSize); 

% Initialize progress bar 

hWaitBar = waitbar(0, 'Performing basic block matching...'); 

nRowsLeft = size(leftI, 1); 

% Scan over all rows. 

for m=1:nRowsLeft 

% Set min/max row bounds for image block. 

minr = max(1,m-halfBlockSize); 

maxr = min(nRowsLeft,m+halfBlockSize); 

% Scan over all columns. 

for n=1:size(leftI,2) 

minc = max(1,n-halfBlockSize); 

maxc = min(size(leftI,2),n+halfBlockSize); 

% Compute disparity bounds. 

mind = max( -disparityRange, 1-minc ); 

maxd = min( disparityRange, size(leftI,2)-maxc ); 

% Construct template and region of interest. 

template = rightI(minr:maxr,minc:maxc); 

templateCenter = floor((size(template)+1)/2); 

roi = [minr+templateCenter(1)-2 ... 

minc+templateCenter(2)+mind-2 ... 

1 maxd-mind+1]; 

% Lookup proper TemplateMatcher object; create if empty. 

if isempty(tmats{size(template,1),size(template,2)}) 

tmats{size(template,1),size(template,2)} = ... 

vision.TemplateMatcher('ROIInputPort',true); 

end 

thisTemplateMatcher = tmats{size(template,1),size(template,2)}; 

end 

% Run TemplateMatcher object. 

loc = step(thisTemplateMatcher, leftI, template, roi); 

Dbasic(m,n) = loc(2) - roi(2) + mind; 

end 

waitbar(m/nRowsLeft,hWaitBar); 

close(hWaitBar); 

104



imshow(Dbasic,[]), axis image, colormap('jet'), colorbar; 

caxis([0 disparityRange]); 

title('Depth map from basic block matching'); 

--------------------------------------------------------------------- 

% block_matching_with_dynamic_prog.m 

% μετά από το basic block matching δίνει το disparity map για το 

% block matching με dynamic programming 

Ddynamic = zeros(size(leftI), 'single'); 

finf = 1e3; % False infinity 

disparityCost = finf*ones(size(leftI,2), 2*disparityRange + 1, 'single'); 

disparityPenalty = 2; % Penalty for disparity disagreement between pixels 

hWaitBar = waitbar(0,'Using dynamic programming for smoothing...'); 

% Scan over all rows. 

for m=1:nRowsLeft 

disparityCost(:) = finf; 

% Set min/max row bounds for image block. 

minr = max(1,m-halfBlockSize); 

maxr = min(nRowsLeft,m+halfBlockSize); 

% Scan over all columns. 

for n=1:size(leftI,2) 

minc = max(1,n-halfBlockSize); 

maxc = min(size(leftI,2),n+halfBlockSize); 

% Compute disparity bounds. 

mind = max( -disparityRange, 1-minc ); 

maxd = min( disparityRange, size(leftI,2)-maxc ); 

% Compute and save all matching costs. 

for d=mind:maxd 

disparityCost(n, d + disparityRange + 1) = ... 

sum(sum(abs(leftI(minr:maxr,(minc:maxc)+d) ... 

- rightI(minr:maxr,minc:maxc)))); 

end 

end 

% Process scan line disparity costs with dynamic programming. 

optimalIndices = zeros(size(disparityCost), 'single'); 

cp = disparityCost(end,:); 

for j=size(disparityCost,1)-1:-1:1 

% False infinity for this level 

cfinf = (size(disparityCost,1) - j + 1)*finf; 

% Construct matrix for finding optimal move for each column 

% individually. 

[v,ix] = min([cfinf cfinf cp(1:end-4)+3*disparityPenalty; 

cfinf cp(1:end-3)+2*disparityPenalty; 

cp(1:end-2)+disparityPenalty; 

cp(2:end-1); 

cp(3:end)+disparityPenalty; 

cp(4:end)+2*disparityPenalty cfinf; 

cp(5:end)+3*disparityPenalty cfinf cfinf],[],1); 

cp = [cfinf disparityCost(j,2:end-1)+v cfinf]; 

% Record optimal routes. 

optimalIndices(j,2:end-1) = (2:size(disparityCost,2)-1) + (ix - 4); 

end 

% Recover optimal route. 

[~,ix] = min(cp); 

Ddynamic(m,1) = ix; 

for k=1:size(Ddynamic,2)-1 

Ddynamic(m,k+1) = optimalIndices(k, ... 

105


max(1, min(size(optimalIndices,2), round(Ddynamic(m,k)) ) ) ); 

end 

waitbar(m/nRowsLeft, hWaitBar); 

end 

close(hWaitBar); 

Ddynamic = Ddynamic - disparityRange - 1; 


imshow(Ddynamic,[]), axis image, colormap('jet'), colorbar; 


title('Block matching with dynamic programming'); 

--------------------------------------------------------------------- 

% pyramid_dyn_prog_sub.m 

% δίνει το disparity map για το συνδυασμό pyramid και dynamic programming 

% με sub-pixel estimation 

DpyramidDynamic = vipstereo_blockmatch_combined(leftI,rightI, ... 

'NumPyramids',4, 'DisparityRange',150, 'DynamicProgramming',true, ... 

'Waitbar', true, ... 

'WaitbarTitle', 'Performing combined pyramid and dynamic programming'); 


imshow(DpyramidDynamic,[]), axis('image'), colorbar, colormap jet; 


title('3-level pyramid with dynamic programming'); 

DdynamicSubpixel = vipstereo_blockmatch_combined(leftI,rightI, ... 

'NumPyramids',4, 'DisparityRange',150, 'DynamicProgramming',true, ... 

'Subpixel', true, ... 

'Waitbar', true, ... 

'WaitbarTitle', ['Performing combined pyramid and dynamic ',... 

'programming with sub-pixel estimation']); 


imshow(DdynamicSubpixel,[]), axis image, colormap('jet'), colorbar; 


title('Pyramid with dynamic programming and sub-pixel accuracy'); 

----------------------------------------------------------------------- 

% 3d_reconstruction.m 

% με βάση τις εσωγενείς παραμέτρους της κάμερας μας(KK_let) κάνει τρισδιάστατη 

% ανακατασκευή της σκηνής που φωτογραφίσαμε 

K=KK_left; 

% Create a sub-sampled grid for backprojection. 

dec = 2; 

[X,Y] = meshgrid(1:dec:size(leftI,2),1:dec:size(leftI,1)); 

P = K\[X(:)'; Y(:)'; ones(1,numel(X), 'single')]; 

Disp = max(0,DdynamicSubpixel(1:dec:size(leftI,1),1:dec:size(leftI,2))); 

hMedF = vision.MedianFilter('NeighborhoodSize',[5 5]); 

Disp = step(hMedF,Disp); % Median filter to smooth out noise. 

% Derive conversion from disparity to depth with tie points: 

knownDs = [15 9 2]'; % Disparity values in pixels 

knownZs = [4 4.5 6.8]'; 

% World z values in meters based on scene measurements. 

106

ab = [1./knownDs ones(size(knownDs), 'single')] \ knownZs; % least squares 

% Convert disparity to z (distance from camera) 

ZZ = ab(1)./Disp(:)' + ab(2); 

% Threshold to [0,8] meters. 

ZZdisp = min(8,max(0, ZZ )); 

Pd = bsxfun(@times,P,ZZ); 

% Remove near points 

bad = Pd(3,:)>8 | Pd(3,:)

Î ÎÎÎ¥Î¤ÎÎ§ÎÎÎÎ Î£Î§ÎÎÎ Î ÎÎÎÎ ÎÎ£Î¤ÎÎÎÎÎ¥ Î ÎÎ¤Î¡Î©Î - Nemertes

Create successful ePaper yourself

Delete template?

Save as template?

Î ÎÎÎ¥Î¤ÎÎ§ÎÎÎÎ Î£Î§ÎÎÎ Î ÎÎÎÎ ÎÎ£Î¤ÎÎÎÎÎ¥ Î ÎÎ¤Î¡Î©Î - Nemertes