ba kent üniversitesi mühendislik fakültesi bitirme projesi raporu ...

BAKENT ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ 

BİTİRME PROJESİ RAPORU 

SAHNE TABANLI VİDEO ERİİM SİSTEMİ 

Bölümü: BİLGİSAYAR MÜHENDİSLİĞİ 

CEMİL IIK GÖKMEN 

20593772 

Proje Danışmanı: YRD.DOÇ.DR. MUSTAFA SERT 

Ders Kodu ve Adı: BIL492 BITIRME PROJESI II 

Proje Başlangıcı: 2009 Güz Proje Süresi (Yarıyıl): 2 

Rapor Sunumu: 2010 Bahar

Bu Rapor, / / 2010 tarihinde aşağıda üye adları yazılı jüri tarafından kabul 

edilmiştir. 

Unvan Adı Soyadı İmza 

Yrd.Doç.Dr. MUSTAFA SERT 

Araş. Gör. ÇİĞDEM BEYAN 

Araş. Gör. KEREM YILDIZ 

ii

ÖZ 

Bu projede içerik tabanlı bir video arama ve erişme sistemi yaratılması 

amaçlanmıştır. Bunun için çoklu ortam verileri üzerinde öznitelik çıkarımı yapabilen 

daha sonra bu öznitelikler üzerinden karşılaştırma işlemlerini gerçekleştiren bir web 

uygulaması geliştirilmiştir. Uygulamada, kullanıcı iki farklı türde arama işlemi 

yapabilmektedir. Bunlar örnek girişi ile arama yapılan ve hazır örnekler üzerinden 

arama yapılan türlerdir. Örnek girişi ile yapılan arama türünde kullanıcı görüntü veya 

ses örneği sorgusu yapar ve sistem veritabanından bu sorgudaki görüntü veya ses 

örneğine benzer örnekler içeren videoları kullanıcıya döndürür. Hazır örneklerin 

kullanıldığı arama türünde ise kullanıcı sisteme önceden yüklenmiş örnekleri, ses ve 

görüntü alanlarından seçer ayrıca bu iki tür alan arasındaki zamansal ilişkileri de 

belirleyerek arama yapabilir. Böylece kullanıcıları bir örnek dosyasına sahip olmaları 

zorunluluğu ortadan kaldırılmıştır. Sisteme video eklenirken; videonun görsel ve 

işitsel özniteliklerinin çıkarılarak MPEG-7 standartlarına uygun bir biçimde 

veritabanında saklanır. Kullanıcı bir sorguda bulunduğunda önce sorgudaki çoklu 

ortam verisinin öznitelik çıkarımı yapılır ve bu öznitelikler ile veritabanında kayıtlı olan 

öznitelikler karşılaştırılır ve benzer sonuçlar kullanıcıya döndürülür. 

Projede çoklu ortam verilerinin parmak izlerini oluşturacak öznitelikler olarak görüntü 

kısmında Color Layout Descriptor (CLD) ve Scalable Color Descriptor (SCD); ses 

kısmında ise Audio Spectrum Flatness (ASF) ve Audio Spectrum Envelope (ASE) 

kullanılmıştır. Bu öznitelikler MPEG-7 standartlarında tanımlanmış düşük seviye 

tanımlayıcılardır. 

Bu proje sayesinde çoklu ortam verilerinde içerik tabanlı arama yapmak 

mümkün olacak böylece metin tabanlı aramanın çoklu ortam verileri için getirdiği 

dezavantajlar ortadan kaldırılmış olacaktır. 

iii

ABSTRACT 

In this project, it was aimed to create a content based video retrieval system. 

To achieve this goal, a web application which has a feature extraction function and 

also can make comparisons according to these extracted features, was developed. In 

the application, the user can make two kinds of queries. These are; query by 

uploading a sample and query by predefined samples. In query by uploading a 

sample; the user makes an image or an audio sample query and the system returns 

the videos which includes the similar samples. On the other hand, in query by 

prefined samples; the user selects the audio and visual sample types which were 

uploaded to the system in advance. Also the user defines the time relationship 

between audio and visual samples. As a result, users do not need to have any 

sample files to upload to the system. When a video is being inserted to the system; 

the visual and the sound features of the video are extracted and saved in an 

appropriate way that is defined in MPEG-7 standards. When a user makes a query, 

firstly the features of the multimedia data in the query sample are extracted and then 

the system compares these features with the features stored in the database. Finally 

the results are returned to the user. 

In the project, Color Layout (CL) and Scalable Color( SC) in the visual part; 

Audio Spectrum Flatness (ASF) and Audio Spectrum Envelope (ASE) in the sound 

part were selected as the features to describe the finger prints of the multimedia data. 

These features are the low level descriptors defined in the MPEG-7 standards. 

With this project, it will be possible to make content based searches among 

the multimedia data so the disadvantages of text based searches will be brought 

away. 

iv

İÇİNDEKİLER 

ÖZ iii 

ABSTRACT iv 

İÇİNDEKİLER v 

EKİLLER DİZİNİ vii 

ÇİZELGELER DİZİNİ viii 

SİMGELER ve KISALTMALAR DİZİNİ ix 

1. GİRİ 1 

2. YAPILAN ÇALIMALAR 2 

2.1 ANALİZ 2 

2.2 TASARIM 5 

2.3 COLOR LAYOUT ÖZNİTELİK ÇIKARTIMI 6 

2.4 SCALABLE COLOR ÖZNİTELİK ÇIKARTIMI 8 

2.5 BENZERLİK HESAPLANMASI 9 

2.6 VİDEO EKLENMESİ 11 

2.7 SAHNE TESPİTİ VE BÖLÜMENDİRİLMESİ 11 

2.8 GÖRÜNTÜ TABANLI SAHNE ARAMA 13 

2.9 ÖN TANIMLI ÖRNEKLERLE ARAMA YAPILMASI 14 

2.9.1 GÖRÜNTÜ İLEMLERİ 14 

2.9.2 SES İLEMLERİ 15 

2.9.3 BİRLETİRME İLEMLERİ 15 

2.9.4 SONUÇLARIN HAZIRLANMASI 16 

2.10 YÖNETİCİ İLEMLERİ 17 

v

3. SONUÇ VE ÖNERİLER 19 

3.1 İLK DÖNEM ÇALIMALARI 19 

3.2 İKİNCİ DÖNEM ÇALIMALARI 19 

4. KAYNAKLAR 20 

5. EKLER 21 

5.1 EK-1 21 

5.2 EK-2 22 

vi

EKİLLER 

ekil No Açıklama Sayfa No 

2.1 Before After İlişkisi 4 

2.2 Overlap İlişkisi 4 

2.3 During İlişkisi 4 

2.4 Zig-zag tarama 8 

2.5 Threshold Hesaplanması 11 

2.6 Sahne Bölümlendirilmesi 12 

2.7 Yönetici Kontrolleri 17 

vii

ÇİZELGELER 

Çizelge No Açıklama Sayfa No 

2.1 4-bit haritalama 9 

viii

Simge / Kısaltma Açıklama 

SİMGELER ve KISALTMALAR 

SCD Scalable Color Descriptor 

CLD Color Layout Descriptor 

ASF Audio Spectrum Flatness 

ASE Audio Spectrum Envelope 

MPEG-7 Moving Pictures Experts Group 

AVI Audio Video Interleave 

JPEG Joint Photographic Experts Group 

WAV Waveform Audio File 

BLOB Binary Large Object 

BFILE Binary File 

AJAX Asynchronous JavaScript and XML 

XML Extensible Markup Language 

DCT Discrete Cosine Transform 

DDL Description Definition Language 

ix

1. GİRİ 

Sahne Tabanlı Video Erişim Sistemi isimli bu proje, günümüz arama 

teknolojilerinde yoğunlukla kullanılan metin tabanlı arama sistemine daha 

verimli ve otomatik bir alternatif olması amacıyla geliştirilmiştir. Sistem, 

otomasyonu sayesinde kullanıcı kaynaklı hataları ortadan kaldırma ve insana 

bağımlılığı da en aza indirgeme konusunda da etkin bir sistemdir. Sistem, video 

analiz, dizinleme ve arama fonksiyonlarını gerçekleştiren bir web uygulamasıdır. 

Kullanıcılar tarafından video eklenmesi ile başlayan işlemler dizisi sonucunda 

video, aramaya hazır hale getirilir. Video arama işlemi ise günümüz metin 

tabanlı arama yaklaşımından çok farklıdır. Metin tabanlı aramalarda girdi olarak 

sisteme bir metin girilirken; İçerik tabanlı bu sistemde, kullanıcılar aradıkları 

içerikleri sisteme girdi olarak verirler. Burada içerik; aranan video’da geçen bir 

sahne( resim dosyası ) ve/veya bir ses örneği olabilir. Sistem bu girdileri 

aldıktan sonra, analiz işlemlerini gerçekleştirerek kullanıcıya aradığı örnekleri 

içeren sahneleri kullanıcıya çıktı olarak döndürür. Ayrıca kullanıcılar bir girdi 

resmi veya sesine sahip olmadan da arama yapabilmektedir. Sistem tarafından 

ön tanımlı ses ve görüntü türleri seçerek hatta bu türler arasında video’daki 

bulunma konumlarına göre zamansal ilişkiler kurarak arama 

yapabilmektedir.(EK-2) 

Değinildiği üzere; sistem iki ana alt sistemden oluşmaktadır. Bunlar; ses 

ve görüntü işlemleridir. Her iki alanda da, üzerinde birçok araştırılma yapılmış 

içerik tabanlı erişim sistemlerinde (Content Base Retrival ) kullanılan “finger 

printing” başka bir değişle “parmak izi” tekniği kullanılmıştır. Bu teknik ile hem 

aramada kullanılacak hem de aranacak verilerin güvenilir ve sıkıştırılmış 

olmalarını sağlar. Böylece sistemlerin performanslarını hem zaman hem de 

donanım açılarından geliştirir. Projede görüntü alanında “Scalable Color 

Descriptor”(SCD) ve “Color Layout Descriptor”(CLD); ses alanında ise “Audio 

Spectrum Flatness”(ASF) ve “Audio Spectrum Envelope”(ASE) öznitelikleri 

kullanılmıştır. MPEG7(Moving Pictures Expert Group ) standartları içinde olan 

bu öznitelikler ile deneysel sonuçlarla kullanılabilirliği denenmiş yöntemleri 

uygulayarak sisteme dâhil edilmiştir. 

1

2. YAPILAN ÇALIMALAR 

2.1 ANALİZ 

Analiz aşamasında, ilk olarak sistemin girdi ve çıktıları belirlendi. Girdi 

formatları olarak .avi ve .jpeg seçildi. Avi formatının seçiminde, hem çoğu 

videonun kodlandığı format olması hem de üzerinde işlem yapılabilmesinin 

kolay olması etkili oldu. Jpeg formatının seçiminde ise; avi gibi en çok kullanılan 

resim formatı olması, sıkıştırılmış olmasına rağmen yeterli bilgi içerebilmesi gibi 

avantajları etkili olmuştur. Buna göre kullanıcı bir jpeg formatında resim ve/veya 

wav formatında ses dosyasını sisteme yükleyecek, ardından bu girdiye benzer 

sahneleri çıktı olarak alacaktı. Ya da kullanıcı sisteme avi formatında bir video 

yükleyecek ve sistem bu videoyu inceleme, dizinleme işleminden sonra 

aramaya hazır hale getirecektir Sistemin bu genel özellikleri üzerine 

uygulamanın bir web uygulaması olmasına karar kılındı. Böylece hem internet 

üzerinden çok kullanıcıya hizmet verebilme avantajı, hem kullanıcıların içerik 

eklemesi ile devamlı gelişen bir veritabanı ile daha çok içeriğe erişebilme imkânı 

sağlanmış oldu. Web uygulaması olmasına karar verildikten sonra uygulama 

ortamının araştırılması yapıldı. Bu ortam hem gelişmiş özellikleriyle uygulama 

geliştirmeyi elverişli kılan, hem veritabanı ile bütünleşmesi uyumlu olan, hem de 

web uygulaması geliştirmeye müsait olan bir ortam ve dil araştırılması yapıldı. 

Sonuç olarak, günümüzde en yoğun kullanılan yazılım geliştirme ortamlarından 

biri olan ASP.NET platformu üzerinde C# programlama dili ile Visual Studio 

2008 kullanılarak uygulamanın geliştirilmesine karar verildi. 

Ardından veritabanı tasarımı üzerine araştırma yapıldı. .NET platformu ile 

uyumluluğu açısından ve gelişmiş özellikleri nedeniyle SQL Server 2008 ile 

veritabanı tasarım ve yönetim işlemlerini gerçekleştirdik. 

Proje MPEG-7 standardında geliştirildi. MPEG-7 hem kullanıcılar için 

hem de otomatik sistemler için çoklu ortam bileşenlerinin içeriklerini ifade etmek 

üzere birçok standart sağlamaktadır. Bu standartlar sayesinde kullanıcılar 

arama, erişme gibi işlemleri daha verimli bir şekilde gerçekleştirebilir. Bu amaçla 

sistemlerden, MPEG-7’nin geliştirdiği ve deneysel çalışmalarla geliştirilmiş 

metotları kullanılması ile başarılı ve verimli sonuçların alınmasına olanak 

sağlanır. Bu açıdan özniteliklerin çıkartılması, saklanması gibi konularda 

MPEG-7 dokümanlarında belirtilen niteliklere sahip yöntemler kullanıldı. 

Projenin analizinin en uzun zaman alan kısmı ise projenin temelini 

oluşturacak özniteliklerin analizi olmuştur. 

Görüntü kısmında; “Low Level” özniteliklerden SCD ve CLD kullanımına 

karar verildi. SCD, en temel özniteliklerden biridir. Deneysel çalışmalarda, renk 

değerlerine göre resim karşılaştırmada başarılı sonuçlar veren bir öznitelik 

türüdür. CLD ise resim üzerindeki renkleri bulundukları konum bilgisini de 

içerecek şekilde, oldukça verimli saklayan bir özniteliktir. Bu verimlik, yüksek 

erişim oranı ve az işlem yükü avantajları doğurur. Ayrıca çizim tabanlı 

2

aramalarda başarılı sonuçlar verir. Bu yüzden projenin ilk dönem hedefleri 

içinde bu iki özniteliğin çıkartılması amaçlanmıştır. 

Ses verileri için parmak izi çıkarımı ve gerçek zamanlı karşılaştırma 

yapılan araştırmalarda [1][2][3] MPEG-7 standartlarında bulunan düşük seviye 

tanımlayıcılarından(low level descriptor) olan ASF ve ASE özniteliklerinin tercih 

edildiği görülmüştür. Projede uygulanmak üzere ASF ve ASE öznitelikleri 

seçilmiştir; çünkü bu öznitelikler hesaplanarak ortaya çıkarılan parmak izleri 

verimli ve sağlıklı bir şekilde ses verisini karakterize edebilmektedir. 

Projenin amacı bir sorguya benzer sonuçların döndürülmesi olduğu için 

bu benzerliği ifade etmenin önemi de yüksektir. Uygulama kolaylığı ve verimli 

sonuç vermesi sebebiyle “Euclidean Distance” tercih edilmiştir. 

Ayrıca sonuçların oluşturulmasında kullanılan arama kriterleri araştırıldı. 

Araştırma sonucu, içerik tabanlı mimarilerde kullanılan 3 temel yaklaşımın 

sistemde kullanılması kararlaştırıldı. Bunlar; 

• K-Nearest 

• Range 

• Point 

K-Nearest yaklaşımında, kullanıcı tamsayı şeklinde bir sayı girer. Sistem 

ise sonuçlar içerisinden, en çok benzeyen k adet sonucu döndürür. 

Range yaklaşımında, kullanıcı [0,100] aralığında iki adet değer girer. Bu 

değerler döndürülecek sonuçların benzeme oranlarının alt ve üst sınırlarını 

belirtir. Diğer bir deyişle, benzerliklerinin yüzdelerini belirtir. 

Point yaklaşımında ise, kullanıcıya ya bir sonuç döner ya da hiçbir sonuç 

dönmez. Sonuç dönme durumunda, çıktının aranan ile aynı olması beklenir. 

Arama sonuçlarında kullanılan bir diğer yaklaşım ise mantık işlemleri 

oldu. Kullanılan mantık işlemleri sayesinde, iki ayrı arama sistemi olan ses ve 

görüntü tabanlı arama mimarileri birleştirilmiş oldu. Dolayısıyla bu yöntem ile 

sonuçlar sadece ses veya görüntü özelliklerine değil, bu iki özelik ve buna ilave 

olan zamansal yapıda bu özelliklerin birleşimini sağlayan mantık işlemlerini de 

içeren sorgulamalar yapılabilmesi sağlandı. 

Bu mantık işlemleri üç adet olup aşağıda listelenmiştir; 

• Before 

• During 

• Overlaps 

3

Before ilişkisinde, kullanıcının girdiği sıra ile ( 1.Ses 2.görüntü veya 

1.görüntü 2. Ses ) sonuçlar arasındaki öncelik sonralık ilişkisinin kurulması 

sağlanır. 

ekil 2.1 

Overlaps ilişkisinde ise; elde edilen sonuçların, girilen sıra ile ilgili olarak 

birbirlerini kapsamalarına göre sonuçlar oluşturulur. 

ekil 2.2 

During ilişkisinde, sonuçlar arasında kesişim ilişkisi kullanılır. Başka bir 

deyişle ses ve görüntü aramalarından elde edilen sonuçların ortak zaman 

dilimine sahip oldukları durumlar listelenir. 

ekil 2.3 

Ayrıca arama ara yüzü kullanılarak ilişkiler ters durumları ile de çalışabilir. 

Bunu sağlama ise temel olarak ses-ilişki-görüntü veya görüntü-ses-ilişki 

sıralamasının değiştirilmesi ile gerçekletilerek sağlanmaktadır. Bu sayede 

olabilecek tüm ilişki çeşitleri her sıra ile kullanıcı tarafından gerçekleştirilebilir. 

4

2.2 TASARIM 

Veritabanı tasarımı yaparken dikkat edilen en önemli kriterler performans 

ve kaplanan alandır. Bu kriterler göz önünde bulundurarak tasarım optimum 

şekilde tasarlanmaya çalışıldı. Tabloların alanların mümkün olduğunca az yer 

kaplayacak ve aynı zamanda geliştirdiğimiz uygulamaya yüksek bir 

performansta ayak uydurabilecek bir şekilde seçildi. Bu seçimlerin en önemlisi 

kuşkusuz ki video’nun veritabanında saklanma şekliydi. Binary Large Object 

(BLOB) ve Binary File (BFILE), veritabanında video saklamak için kullanılan en 

yaygın veri türleridir. BLOB’ da video “binary” bir şekilde veritabanında 

saklanırken BFILE’da ise videonun konumu veritabanında saklanır. Veri, BFILE 

ile saklanırsa veritabanının başka bir bilgisayara taşınması halinde sorunlar 

ortaya çıkar. Verinin de diğer bilgisayara taşınması gerekir. Bu gibi 

dezavantajlarının yanında; üzerinde daha kolay işlem yapılması, “binary” 

türündeki verilerin gerektirdiği işlem yükünün fazla olması ve BFILE’ın bizi bu 

yükten kurtarması gibi birçok avantajı da vardır. Ayrıca performans ve 

veritabanında kapladığı alan açısında BLOB’ a göre çok daha verimlidir. Bu 

sebeplerden dolayı video’nun veritabanında BFILE olarak saklanmasının uygun 

olacağına karar verildi. Diğer önemli seçimlerden biri de özniteliklerin 

saklanmasıydı. Çoklu ortam verilerinden çıkardığımız öznitelikleri MPEG-7 

standartlarına uygun olarak saklamamız gerektiği için tüm öznitelik alanlarının 

türü XML(Extensible Markup Language) olarak tanımlandı. Tablolardaki diğer 

alanlar için genelde önemli seçimler yapılmadı. Bunun nedeni oluşturulan 

veritabanı yapısının karmaşık olmaması ve çoğu alanın basit şeyleri ifade 

etmesidir. 

Web sitesinin tasarımında değinildiği gibi ASP.NET ortamı üzerinde ASP, 

c# dilleri ve Ajax teknolojisi kullanılmıştır. Sistemin kullanıcı tarafı tasarlanırken, 

öncelikle ana işlemler belirlendi. Bunlar: 

• Video ekleme 

• Sahne arama 

a. Sorgu örneği ile arama 

b. Ön tanımlı örnekler ile arama 

• Yönetici işlemleri 

Her üç modül’ün de tasarımında sadeliğe önem verildi. Bunda, hem 

sistemin karmaşıklığının kullanıcıyı korkutacak kontroller içermemesi, hem de 

basit tasarımları sayesinde başarılı olan birçok uygulamanın getirdiği kullanım 

rahatlığı etkili oldu. 

Video ekleme kısmında, kullanıcı sadece göz at tuşu ve yükleme tuşu ile 

işlemlerini gerçekleştirebilir olarak tasarlandı. Ancak bu tasarım ilk dönem 

hedeflerini içerecek şekilde belirlendi. 

5

Sahne arama kısmında ise, kullanıcıya iki türde sahne arama ara yüzü 

geliştirildi. Bunlar; sorgu örneği girerek veya ön tanımlı örnekleri kullanarak 

sahnelere erişmedir. 

a. Sorgu örneği ile arama 

Kullanıcı ses ve ya resim üzerinden sorgulama işlemlerini tek bir 

sayfadan yapabilir olarak tasarlandı. Hatta kullanıcıyı, arama için sisteme 

yükleyeceği sorgu dosyası ( ses ve ya resim ) için bile; bir seçim ya da 

ayar yapmasına gerek olmayacağı bir şekilde tasarlandı. Projemize 

ismini de veren “içerik tabanlı” sistem yaklaşımı arama sayfasında da 

benimsendi. Böylece yüklenen dosya içeriğine göre sistemin arama 

fonksiyonlarını kendi etkinleştirip, girdi’ye özgü arama işlemlerini yaparak 

sonuçları kullanıcıya sunabilir olarak tasarlandı. 

b. Ön tanımlı örnekler ile arama 

Bu arama türünde ise kullanıcı sisteme herhangi bir örnek dosya 

yüklemeden; önceden tanımlanmış hazır durumlar üzerinde arama 

yapabilmektedir. Bu sayede kullanıcıların sistemden sahneleri elde 

edebilmeleri için mutlaka örnek bir veriye sahip olma zorunluluğu 

kaldırılmıştır. Ayrıca bu aram türünde ses ve görüntü aramaları mantıksal 

işlemler kullanılarak birleştirilmiştir. Bu mantıksal işlemler ile kullanıcılara 

bu iki arama türünü zamansal olarak ilişkili hale getirerek sunmayı 

sağlamıştır. 

Sonuçların gösteriminde ise; ilk aşamada kullanıcı arama 

kriterlerine göre sistemin döndürdüğü sonuçları toplu halde görür. Daha 

sonra kullanıcı arzu ettiği sonuca tıklayarak sahne izleme şansına 

sahiptir. Sonuca tıklanıldıktan sonra video gösterim sayfasına 

yönlendirilir. 

2.3 COLOR LAYOUT ÖZNİTELİK ÇIKARTIMI 

CLD özniteliği; resim üzerinde renklerin, uzaysal alanda dağılımın, 

oldukça az alan kaplayacak şekilde ifade edilmesini sağlayan bir özniteliktir. Bu 

az alan kaplaması sayesinde, hem dizinlenme maliyetlerini düşüren, hem de 

eşleştirme işlem yükünü hafifleten bir yapıya sahiptir. Ayrıca renklerin dağılımı 

bilgisi içermesi avantajı ile eşleştirme konusunda başarılı sonuçlar veren bir 

özniteliktir. 

Öznitelik çıkartma işlemine ilk olarak girdi resminin uzayının değiştirilmesi 

ile başlanır. Projemizde, girdi resmi olarak 24bit RGB veya 8bit Indexed 

formatları desteklemektedir. Bu girdi resimleri ileriki aşamalarda yapısal faydalar 

sağlaması amacı ile YCbCr uzayına dönüştürülür.[2][3] 

6

= (0.299 × + 0.587 × + 0.114 × ) ÷ 256.0 

= (219.0 × + 16.5) 

= ( 224.0 × 0.564 × ( ÷ 256.0 − ) + 128.5 ) 

= ( 224.0 × 0.713 × ( ÷ 256.0 − ) + 128.5) 

7 

(D2.1) 

Formülü kullanılarak resim YCbCr renk uzayında dönüştürülür. R, G ve B 

değerleri bir pixeldeki 3 adet renk değeri iken, Y, Cb ve Cr değerleri 

dönüştürülen uzayda ki renk bilgilerini ifade eder. Bu dönüşümün amacı YCbCr 

uzayının, RGB gibi sahip olduğu 3 adet renk bilgisini içermesi yerine, aydınlık 

ve renk değerlerini ayrı ayrı tutmasıdır. Y değeri pixeldeki aydınlık bilgisini 

tutarken, Cb ve Cr değerleri ise renk bilgisini tutarlar. İnsanların imgeleri 

algılaması üzerine yapılan araştırmalarda, algının daha çok aydınlık-karanlık 

bilgisi üzerine yoğunlaştığını, renk bilgisinin daha az önem taşıdığı ortaya 

konulmuştur. Bu sebepten YCbCr uzayındaki bir veriyi, renk bilgilerinin 

eksiltilmesi ile kapladığı alanı azaltabilir ancak resmin içeriğinin çok az miktarda 

kayba uğramasına neden olur. Bu avantajı nedeniyle öznitelik, MPEG-7 

standartlarında da belirtilen YCbCr uzayına dönüştürülmüştür. 

Bir sonraki adım, resim dosyasının 8 x 8’ lik hücrelere ayrılmasıdır. Bu 

aşama uygulanacak Discrete Cosine Transform (DCT) ‘un verimli çalışabilmesi 

için bir gerekliliktir. Her hücreyi ifade edecek renk değeri basit bir ortalama 

işlemi ile hesaplandıktan sonra, bu renk değerleri 8 x 8’lik DCT’ye tabi tutulurlar. 

DCT çıktı olarak, her uzay bileşeni için bir coefficient vektörü oluşturur. 

 

, = , 

 

[ / × ( + 1 

2 ) ] × [ / × ( + 1 

2 ) ] 

(D2.2) 

K1 yatay, k2 dikey freaksansları, x değerleri ise n1 ve n2 ile belirtilen 

pixeldeki renk değerini ifade etmektedir. Sonuç olan X ise; k1 ve k2 ile belirtlien 

koordinatlardaki coefficientleri ifade eder. 

Her uzay bileşeni için uygulanan DCT üzerine, her biri 64 adet tamsayı 

içeren üç adet coefficient vektörü elde edilir.64 adet değer içermesi, 8x8’lik 

hücrelere ayırma işleminden kaynaklanır. 64 değerin ilk olanına DC coefficient 

adı verilir. Kalan 63 coefficient is AC bileşenler olarak adlandırılır. Bu vektörler 

daha sonra quantization[2],[3] işlemine sokulurlar. İşlem her coefficient vektör 

için farklı işlemlerdir. Değerleri MPEG-7 dokümanından[4] alınmıştır. Bir sonraki 

aşama değerlerin taranması aşamasıdır. Taramada zig-zag tarama mantığı 

kullanılır.

ekil 2.4 

Bu işlemin amacı, quantization sonrasında oluşan vektörlerin genellikle 

son kısımlarında birçok sıfır değeri birikmesidir. Bu yüksek frekans bileşeni 

içeren değerler, zig zig-zag zag tarama ile en sonda biriktirilirler. Böylece; sistemin sistem 

ihtiyaçları doğrultusunda ( performans ve kaplanan alan ) değerlendi değerlendirilerek, 

değerlendi 

insan gözünün algılayamadığı değerleri içeren bu bileşenler göz ard ardı ard edilebilir. 

Projemizde tüm co coefficient ficient değerleri, göz ardı edilme olmaksızın sistemde 

kullanılmıştır. Tüm bbu 

u aşamaların sonucunda, CLD öznitelik çıkartımı 

tamamlanır. 

2.4 SCALABLE COLOR ÖZNİTELİK ÇIKARTIMI 

Scalable özniteliği, resim üzerine uygulanan ve resim içerisindeki renk 

değerlerinin sıkılığını hesaplayan bir özniteliktir. Histogram olarak da 

adlandırılan rılan renklerin sıklığı bilgisi, resim eşleştirmede kullanılan en pratik ve 

başarılı sonuçlar döndürebilen bir bilgi içerir. Projenin MPEG MPEG-7 MPEG standartlarına 

uyumlu geliştirildiği için, standart’ın tanımladığı şeklide histogram bilgisi 

çıkarılmıştır. MPEG MPEG-7 standartlarında bu özniteliğe Scalable Color adı 

verilmektedir. Esas yöntem aynı olmasına karşılık, uygulamada farklar içerir. 

Standart’a göre bu öznitelik HSV uzayındaki renk dağılımlarını tutması 

gerekmektedir. Bu nedenle işlemin ilk adımında renk uzayı dönüşümü 

yapılmaktadır. Bu işlem sonucunda elde edilen değerler üzerinden sıklık bilgileri 

elde edilir. Bu işlem bilinen histogram ile aynıdır. Fark sadece renk uzayıdır. 

Sonraki işlemde histogram bilgileri normalizasyona sokulurlar. “ “Normalizasyon 

“ 

burada her bir HSV histogram elemanının resmi dosyasındaki pixel sayısına 

bölünmesini ifade eder. Sonuç ola olarak ak her histogram elemanı [0,1] aralığında 

bulunur. Bu işlemi takiben bu elemanlar en yakın komşu quantization’u 

kullanılarak 11bit’e quantize edilir. edilir.” [5] 

Ardından bu değerler Çizelge 2.1 ‘de görülen eşleştirme ile 4 bit’e haritalanır. 

8

Çizelge 2.1 

Histogram 4-bit Histogram 4-bit Histogram 4-bit Histogram 4-bit 

value index value index value index value index 

0 0 40 4 … 8 422 12 

1 1 41 5 197 8 … 12 

2 1 … 5 198 9 519 12 

3 2 66 5 … 9 520 13 

… 2 67 6 261 9 … 13 

9 2 … 6 262 10 629 13 

10 3 101 6 … 10 630 14 

… 3 102 7 335 10 … 14 

21 3 … 7 336 11 752 14 

22 4 144 7 … 11 753 15 

… 4 145 8 421 11 … 15 

2047 15 

Çünkü Haar [2],[3] dönüşümüne[4] göre, histogram ( sıkılık ) bilgileri 4bit’lik bir 

indeks yapısına haritalanmalıdır[4]. Sonraki ve son işlem haar dönüşümünün 

uygulanmasıdır. Haar dönüşümü ardından ulaşılan 256 adet coefficient SCD 

özniteliğini oluşturur. Her bir elemanı 4 bit ile ifade edilen bu öznitelik, teorik 

olarak 1024 bit ile ifade edilebilir hale gelir. 

2.5 BENZERLİK HESAPLANMASI 

İçerik tabanlı sistemlerde arama, benzer sonuçlara erişilebilinmesi amacı 

ile yapılır. Bu benzerliğin hesaplanması da, sistemin başarılı sonuçlar 

döndürmesi açısından önemli bir konumdadır. Projede, her iki özniteliğin de 

karşılaştırılmasında yani aralarındaki benzerliğin hesaplanmasında Euclidian 

Distance metodu uygulanmıştır. Euclidian distance iki nokta arasındaki 

uzaklığın hesaplanması işlemidir. Özniteliklerde de bu uzaklıklar, benzerlik 

bilgisini verir. 

SCD özniteliğinde uzaklık; 

 

 

= ( 1 − 2 ) 

 

9 

(D2.3) 

C1 ve C2 öznitelik değerlerini tutan vektörler, n ise vektör boyut iken; 

dSCD, iki öznitelik arasındaki farkı ifade eder.

CLD özniteliğinde uzaklık ise; 

 

 

= (,) × ( 1 − 2) + (,) × ( 1 − 2) 

 

 

10 

 

 

 

+ (,) × ( 1 − 2) 

(D2.4) 

Formülü[6] ile hesaplanır. CY1 ve CY2 Y coefficient vektörlerini, CCb1 ve CCb2 

Cb coefficient vektörlerini, CCr1 ve CCr2 Cr coefficient vektörlerini ifade 

ederken; dCLD ise iki öznitelik arasındaki farkı verir. W ise ağırlık matrisidir. 

2 2 2 

W = 2 

1 1 

4 2 2 

(D2.5) 

Bu iki aşama sonrasında elde edilen dSCD ve dCLD değerleri arama, 

karşılaştırma ve sahne tespiti gibi modüllerde verimli olarak kullanılabilmesi için 

bir birleştirme işlemine tabii tutulurlar. Burada amaç; bu iki uzaklık bilgisinden, 

tek ve ağırlık kazandırılmış bir uzaklık değeri elde etmektir. Değerlerin 

birleştirilmesinde ___ adlı değişken önemli bir rol alır. Deneysel 

çalışmalarda incelendiği ve projemizde de gözlemlenen SC ve CL 

özniteliklerinin doğru sonuçlar elde etmesindeki kıyaslamaya dayanarak, bu 

değişken ile CL ve SC özniteliklerinin ağırlığı hesaplanır. Projede bu durumu da 

göze alarak daha başarılı olan CL özniteliğine ağırlık verilmiştir. Projede bu 

değer; 

___ = 1.5 

(D2.6) 

Olarak kullanılmıştır. Başka bir deyişle; iki frame’in karşılaştırılması işleminde 

ayrı ayrı dSCD ve dCLD değerleri hesaplandıktan sonra dSCD değerinin %40’ı, 

dCLD değerinin de %60’ı alınarak sonuç uzaklığı belirlenmiş olmaktadır.

2.6 VİDEO EKLENMESİ 

Kullanıcı tarafından video eklenme işlemi, dosyanın “göz at” tuşu ile 

seçilmesi ve “upload” tuşuna basması ile başar. Sistem ilk olarak bu dosyayı 

sunucuya kaydeder. Veri tabanına uygun değerler ile eklenen video, sırayla 

görüntü ve ses özniteliklerinin çıkartılması için kullanılır. Projede üzerinde 

çalışmış olduğum görüntü kısmında, sistemin ilk işi video dosyasından 

frame’leri elde etmek olmaktadır. Bu işlemde; araştırmacılar ve yazılım 

geliştiriciler için tasarlanmış olan bilgisayarlı görme, yapay zeka, görüntü 

işleme, yapay sinir ağları, makine öğrenmesi ve robotik alanlarında kullanılan, 

C# ortamında çalışan AForge.NET framework’ü kullanılmıştır. Sistemimizde 

kullanılan AVI formatlı videoları okuyabilen, yazabilen ve frame olarak işlem 

yapmaya olanak veren bu framework ile video işlemleri yürütülmüştür. Elde 

edilen bu Bitmap yapısındaki frame’ler teker teker öznitelik( SCD ve CLD ) 

çıkartma işlemine tabi tutulurlar. Elde edilen sonuçlar veri tabanındaki Frame 

tablosuna DDL ( description definition language) olarak kaydedilirler. DDL veri 

yapılarının tanımlandığı, çeşitli verilerin saklanabildiği XML tabanlı bir dildir. 

Verilerin bu DDL yapılarında saklanması ile hem verilerin taşınabilirliği hem de 

MPEG-7 standartları sağlanmış olur. Her iki öznitelik de belirlenen söz 

dizilimindeki DDL [4] yapılarıyla, veritabanında saklanırlar. 

2.7 SAHNE TESPİTİ VE BÖLÜMENDİRİLMESİ 

Sahneler, bir video dosyasında aynı dekor, aynı kamera operasyonu, 

sabit bir olay veya bir hareketin olduğu ardışık frame’ler bütünüdür. Sistem, 

Bölüm 2.6’da belirtilen vido ekleme işlemleri gerçekleştirildikten sonra sahne 

tespiti işlemine geçilir. Sahne tespiti temel olarak ardışık frame’lerin birbirleri ile 

olan farkları esas alınarak tespit edilmektedir. Her ikili frame’in çıkartılan 

öznitelikleri karşılaştırılır. Eğer bu fark threshold değerinden büyük ise yani 

değişim eşik değerinin üzerinde ise sistem bunu sahne değişimi olarak algılar. 

ekil 2.5 

11

1. Bu işlemin gerçekleştirilmesi için ilk olarak tüm video frame’lerine ayrıl ayrılır. ayrıl 

2. Threshold belirleme işlemi yapılır. 

Bu işlem için eklenen videonun frame’lerinin ardışık distance değerleri 

hesaplanır. Bu ayırma işleminde CLD özniteliği kullanılır. Tüm ardışık 

uzaklık değerleri ölçüldükten sonra bu değerler küçükten büyüğe doğru 

sıralanırlar. Sonraki adımda bu vektörün me median dian değeri bulunur. Sonuç 

eğer maksimum değeri aşmıyor ise threshold, median değerinin 2 katı 

olarak hesaplanır. Aşma durumlarında ise 2 olan bu oran 0.2 lik düşüşler 

uygulanarak maksimum değ değerden den küçük olacak şekilde ayarlanır. 

ekil 2.6 

3. Daha sonra ilgili videonun frame’leri tekrar uzaklık hesabına sokulur ve 

fark eğer bu hesaplanan eşik değerinden büyük ise ilgili değerleri de 

hesaplanarak( başlangıç, bitiş noktası, rFrame konumu vb. ) veri 

tabanındaki Shot tablosuna kaydedilir. 

rFrame; sahneyi tem temsil sil eden Shot içerisindeki bir frame’dir. Birçok farklı 

rFrame metodu bulunmaktadır. Projede rFrame olarak her sahne için bir 

rFrame seçilmiştir. rFrame sayısı seçildikten sonra bu rFrame’in seçilmesi 

işlemine geçilir. Projede; rFrame sahnenin süre olarak ortasında bulunan 

frame olarak belirlenmiştir. 

12

2.8 GÖRÜNTÜ TABANLI SAHNE ARAMA 

Görüntü tabanlı sahne arama işlemi için; kullanıcın arama sayfasından, 

sorgu alanına bir resim dosyası göstermesi ve arama kriterini seçmesi gerekir. 

Daha önce de değinildiği gibi üç adet yaklaşım bulunmaktadır. 

• k-Nearest yaklaşımı 

Kullanıcıdan girilen k-Nearest değeri alındıktan sonra sonuçlar, 

benzerlik oranlarına göre sıralanır. Kullanıcıya sonuçların sadece 

ilk( en çok benzeme oranına sahip olan ) k adeti listelenir. 

• Range yaklaşımı 

Range yaklaşımında ise kullanıcı dönecek sonuçların benzerlik 

oranlarının yüzde olarak aralığını girer. Girilen iki değerden ilki; 

dönecek sonuçların içindeki en az benzeme yüzdesine sahip olan, 

ikincisi ise en yüksek benzeme oranına sahip olacak sonucu 

belirtir. Yüzde hesabında ise; ilgili arama yapıldıktan ve tm 

sonuçlar hesaplandıktan sonra en az benzemeye sahip olan 

sonuç %0 benzeme oranı olacak şekilde tüm sonuçlar yüzde 

hesabına sokulur. 

 

[]. = 100.0 − (100.0 ∗ /max () ) 

 

13 

(D2.7) 

Burada; Results dizisi elde edilen sonuçlar, sp değeri similarity 

percentage , d distance değerini ifade eder. 

• Point yaklaşımı 

Bu son yaklaşımda ise sonuçlardan en çok benzeyeni yani sistemin 

en bulduğu en iyi çözüm kullanıcıya listelenir. 

Sorgu resmi gösterildikten ve arama kriteri seçildikten sonra “search” 

tuşuna basılarak arama işlemi başlatılır. Sistem içerik tabanlı mimarisi ile 

yüklenen içeriğin resim dosyası olduğunu algılar ve bunun üzerine işlemi 

görüntü tabanlı arama yöntemlerine yönlendirir. Sistem bu sorgu resmini 

aldıktan sonra ilk olarak resimden, SCD ve CLD özniteliklerini çıkartır. Daha 

sonraki aşamada bu iki öznitelik, tespit edilip bölümlendirilmiş sahneler 

içerisinde aranmaya başlanır. Bu arama sahnelerin rFrame’leri üzerinden 

yapılır. rFrame kısaca sahnenin orta kısmındaki frame’in çıkartılmış 

öznitelikleridir. Sahneler üzerinden arama gerçekleştikten sonra sonuçlar ağırlık

kazandırılmış ( Bölüm 2.5 ) benzerliklerine göre sıralanırlar. Bu işlemi tüm 

sonuçlar üzerinden benzerlik yüzdelerinin hesaplanması adımı takip eder.(D2.7) 

Bundan sonraki en son adım kullanıcın girdiği aram kriterine göre ilgili 

sonuçların ayıklanması ve kullanıcıya listelenmesi şeklindedir. 

Sistem mimarisi olarak, video gösterim de kullanılan Windows Media 

Player’in girdi özelliklerinden dolayı, frame sayısı yerine saniye üzerine işlem 

yapılmaktadır. Her ne kadar veritabanında(Ek-1) bilgiler frame numaralarına 

göre tutulsa da; bu değerler gösterim amacı ile saniye bilgisine 

dönüştürülmüştür. Bu zorunluluk, sonuçların doğruluğunu etkilemiştir. Çünkü 

frame sayısı üzerinden döndürülecek sonuçlar daha net sonuçlar içermektedir. 

Ancak sistem, gerekli algoritmalar ile saniye-frame sayısı dönüşümü ve 

gereklilik duyulan diğer dönüşüm işlemlerini yapmakta ve en uygun sonuçları 

kullanıcıya ulaştırabilmektedir. Bu işlemler ardından kullanıcı sonuçlar sayfasına 

yönlendirilir. Bu sayfada en üstte sorgu resmi görüntülenirken, altında sırayla en 

çok benzerden en az benzere doğru sıralanmış sonuçlar listelenir. İlk dönem 

için, karşılaştığımız performans sorunları nedeniyle videoların ilgili sahnelerinin 

ön izleme resimleri gösterilememektedir. 

2.9 ÖN TANIMLI ÖRNEKLERLE ARAMA YAPILMASI 

Ön tanımlı örneklerle arama yapılırken, kullanıcının ara yüzden seçtiği, önceden 

veritabanına eklenmiş olan “sample”lar ve mantıksal işlem göz önünde 

bulundurulur. Her mantıksal işlem için farklı bir yol izlenir; fakat mantıksal 

işlemlere gelene kadar, sistem bazı işlemleri ortak bir şekilde gerçekleştirir. 

Veritabanında “sample”ların öznitelikleri “XML” olarak tutulduğu için arama 

işlemi sırasında tekrar öznitelik çıkarımı için zaman harcanılmaz. Bu da 

kullanıcının sonuçlar için daha az beklemesini sağlar, performansı arttırır. 

Arama işlemi başladığında, görüntü ve ses için bağımsız adımlar yapılır ve 

daha sonra mantıksal işlem aracılığı ile elde edilen sonuçlar birleştirilerek 

kullanıcıya en uygun sonuçlar döndürülür. 

2.9.1 GÖRÜNTÜ İLEMLERİ 

Görüntü kısmında ilk olarak, kullanıcının seçtiği, veritabanında kayıtlı olan ön 

tanımlı örnek türündeki “sample”ların öznitelikleri (“CLD” ve “SCD” ) okunur. 

Daha sonra bu öznitelikler, yine veritabanında kayıtlı olan “shot”ların 

“rFrame”lerinin öznitelikleriyle karşılaştırılır ve buna göre benzerlik oranı elde 

edilir. Sonuçlar benzerlik oranına göre en çok benzeyenen en az benzeyene 

göre sıralanır ve bir listede; “video ismi”, “shot başlangıç zamanı”, “shot bitiş 

zamanı”, “benzerlik oranı” şeklinde tutulur. Bu liste daha sonra mantıksal işlem 

kullanılarak yapılan birleştirme işleminde kullanılacaktır. 

14

2.9.2 SES İLEMLERİ 

Ses kısmında da görüntü kısmında olduğu gibi önce, kullanıcının seçtiği, 

veritabanında kayıtlı olan ön tanımlı örnek türündeki “sample”ların öznitelikleri 

(“ASF” ve “ASE” ) okunur. Okunan bu öznitelikler, veritabanında kayıtlı olan 

videoların seslerinin öznitelikleri ile karşılaştırılırlar ve benzerliklerine göre 

sıralanırlar. Sıralanmış benzerlikler bir listede; “video ismi”, “sesin videodaki 

başlangıç zamanı”, “sesin videodaki bitiş zamanı”, “benzerlik oranı” şeklinde 

tutulur. Listenin yapısı, görüntü işlemlerinin sonucunda elde edilen listenin 

yapısıyla aynı yapıda tutulmuştur. Bunun nedeni daha sonra birleştirme işlemi 

yapılırken kolaylık sağlamasıdır. 

2.9.3 BİRLETİRME İLEMLERİ 

Birleştirme işlemleri, görüntü ve ses işlemleri sonucunda elde edilen listelerdeki 

başlangıç-bitiş zamanları ve benzerlik oranlarından yararlanılarak 

gerçekleştirilir. Sistemde, “before”, “during”,” overlap” mantıksal işlemleri ve 

bunların tersi işlemleri gerçekleştirilebilir. 

a) Before Mantıksal İşlemi 

“Before mantıksal işlemi”, bir öğenin diğerinden önce başlayıp bitmesi ve 

diğer öğenin ilk öğe bittikten sonra başlamasını ifade eder. “After 

mantıksal işlemi” ise bu işlemin tam tersini ifade etmektedir. “Audio 

Before Visual” ifadesi, videoda, ön tanımlı örneklerden seçilen sesin, ön 

tanımlı örneklerden seçilen görüntüden önce başlayıp bitmesi ve 

görüntünün, ses örneği bitmeden başlamamasını öngörür. “Visual Before 

Audio” ise bu işlemin tersini ifade eder. “1. Öğe Before 2.Öğe” olduğu 

düşünülürse; sistem bu işi gerçekleştirirken “1. Öğe”nin videodaki bitiş 

zamanı ile “2. Öğe”nin videodaki başlangıç zamanlarını karşılaştırır. Bu 

karşılaştırma işlemi, önceki adımlarda( Görüntü İşlemleri ve Ses 

İşlemleri) elde edilen listelerdeki değerler kullanılarak yapılır. Eğer “1. 

Öğe”nin bitiş zamanı, “2. Öğe”nin başlangıç zamanından küçük ise bu 

sistem için doğru bir sonuçtur ve sonuç listesine kullanıcıya gösterilmek 

üzere eklenir. Sonuç listesinde ayrıca, öğeler arasındaki zaman farkı da 

“2. Öğe”nin başlangıç zamanı ve “1. Öğe”nin bitiş zamanı arasındaki fark 

hesaplanarak kaydedilir. 

1. Öğ ş < 2. Öğ ş (D2.9) 

15

) During Mantıksal İşlemi 

“During mantıksal işlemi”, bir öğenin, diğer öğenin var olma süresi içinde 

başlayıp bitmesini ifade eder. “Audio During Visual” ifadesi, videoda, ön 

tanımlı örneklerden seçilen sesin, ön tanımlı örneklerden seçilen 

görüntünün yer aldığı “shot” esnasında bulunmasını öngörür. ”Visual 

During Audio” ise bu işlemin tersini ifade eder. “1. Öğe During 2. Öğe” 

olduğu düşünülürse; sistem bu işi gerçekleştirirken “1. Öğe”nin başlangıç 

zamanı ile “2. Öğe”nin başlangıç zamanını ve “1. Öğe”nin bitiş zamanı ile 

“2. Öğe”nin bitiş zamanını karşılaştırır. Eğer “1. Öğe”nin başlangıç 

zamanı “2. Öğe”nin başlangıç zamanından büyük ve “1. Öğe”nin bitiş 

zamanı “2. Öğe”nin bitiş zamanından küçük ise bu sistem için doğru bir 

sonuçtur ve sonuç listesine kulanıcıya gösterilmek üzere eklenir.Sonuç 

listesinde zaman farkı olarak öğelerin başlangıç zamanları arasındaki 

fark tutulur. 

1. Öğ ş > 2. Öğ ş ∧ 1. Öğ ş < 2. Öğ ş (D2.10) 

c) Overlaps Mantıksal İşlemi 

“Overlaps mantıksal işlemi”, iki öğenin çalışma sürelerinin çakışmasını 

ifade eder. “Audio Overlaps Visual” ifadesi, videoda, ön tanımlı 

örneklerden seçilen sesin, önce başlamasını, ön tanımlı örneklerden 

seçilen görüntünün bulunduğu ”shot” başladıktan sonra bitmesini ifade 

eder. “Visual Overlaps Audio” ise bu işlemin tersini ifade eder. “1. Öğe 

Overlaps 2. Öğe” olduğu düşünülürse; sistem bu işi gerçekleştirirken “1. 

Öğe”nin bitiş zamanı ile “2. Öğe”nin başlangıç zamanını ve “1. Öğe”nin 

bitiş zamanı ile “2. Öğe”nin bitiş zamanını karşılaştırır. Eğer “1. Öğe”nin 

bitiş zamanı “2. Öğe”nin başlangıç zamanından büyük ve “1. Öğe”nin 

bitiş zamanı “2. Öğe”nin bitiş zamanından küçük ise bu sistem için doğru 

bir sonuçtur ve sonuç listesine kulanıcıya gösterilmek üzere eklenir. 

Sonuç listesindeki zaman farkı “0” olarak ifade edilir. 

1. Öğ ş > 2. Öğ ş ∧ 1. Öğ ş < 2. Öğ ş (D2.11) 

2.9.4 SONUÇLARIN HAZIRLANMASI 

Ses ve görüntü kısımlarında ayrı ayrı olarak bulunan sonuçlar mantıksal 

işlemler ile birleştirildikten sonra bir listede tutulur. Bu listede gösterilmesi 

gereken videonun ismi, başlangıç süresi ( saniye cinsinden ), bitiş süresi ( 

saniye cinsinden), benzerlik oranı ( ses benzeme oranı ve görüntü benzeme 

oranı ortalaması olarak hesaplanmıştır ) ve ses ile görüntü arasındaki uzaklık 

tutulmaktadır. Buna göre liste benzeme oranlarına göre, en çok benzeyenden 

16

en az benzeyene doğru sıralanır ve kullanıcıya ses ile görüntü arasındaki 

zaman farkı bilgisi ile birlikte sunulur. 

2.10 YÖNETİCİ İLEMLERİ 

İLEMLERİ 

Sistemde yetkili kullanıcıların başka bir deyişle sadece yöneticilerin 

erişebildikleri bir sayfa bulunmaktadır. Yöneticiler bu ara yüz sayesinde 

öntanımlı örneklerin düzenlenmesini gerçekleştirirle 

gerçekleştirirler. r. Bu sayfada iki temel 

bölüm vardır. Bunlar ses ve görüntü bölümleridir. Yöneticiler kullanıcı adları ve 

şifreleri ile güvenli olarak sisteme giriş yaptıktan sonra, bu sayfa yardımı ile 

kullanıcıların ön tanımlı arama yaptıkları sonuçların oluşturulmasın 

oluşturulmasını oluşturulmasın sağlayan 

örnekleri sisteme girerler. 

ekil 2.7 

17

ekildeki görüntüde Örnek resimlerin ve ses dosyalarının girildiği alan 

gösterilmektedir. Yönetici “Gözat” alanı ile uygun örneği sisteme girer. Ardından 

o anda veri tabanında bulunan türlere ekleme yapacak ise “Select type” alanını 

kullanarak türü seçer ancak yeni bir tür ekleyecek ise “New Feature Type” 

alnına yeni tür adını girer ve “add new feature” tuşunu kullanarak işlemi 

sonlandırır. Sistem girdi dosyasını aldıktan sonra ilgili özniteliklerin çıkartımını 

gerçekleştirir. En son olarak bu öznitelikler uygun ek bilgiler ile veri tabanına 

XML yapıları ile kaydedilirler. 

18

3.SONUÇ VE ÖNERİLER 

İki dönemlik projemizde; ilk dönem itibariyle çalışan bir sistemin iskeleti 

oluşturulmuştu. İkinci dönemle beraber bu sistemin geliştirilmesi, verimliliğinin 

arttırılması ve kullanım kolaylığının arttırılmasına yönelik çalışmalar yapılmıştır. 

Ayrıca ilk dönemde karşılaşılan bazı güçlükler ortadan kaldırılmıştır. Bu 

çalışmalar sonucunda, web uygulaması olarak çalışan, iki farklı kullanıcı çeşidi 

olan ( admin ve casual user) video ekleme, sample ekleme, ön tanımlı 

örneklerle mantıksal işlemlere göre arama yapma, upload edilen veriye göre 

arama yapma gibi özellikleri olan ve arama sonuçlarını kullanıcıya başarılı 

olarak sunan yapılan test çalışmaları ile doğru sonuçlar döndürdüğü tespit 

edilen; geliştirilmeye müsait, kararlı ve başarılı çalışan bir sistem oluşturuldu. 

3.1 İLK DÖNEM ÇALIMALARI 

• Ses ve görüntü kısımlarında ayrı ayrı arama yapılması 

• Ses kısmında ASF; görüntü kısmında SCD, CLD özniteliklerinin 

kullanılması 

• Sisteme video eklenmesi 

• Ses ve görüntü kısımlarında frame yapısı üstünden arama yapılması 

• Çalışan bir sistem iskeleti oluşturulması 

• Kullanıcıların aramak istedikleri ses/görüntüyü yükleyebildiği sayfanın 

oluşturulması 

• Yüklenen ses/resme göre arama yapılması 

• Sonuçlardan en yakın 20 tanesinin kullanıcıya gösterilmesi 

3.2 İKİNCİ DÖNEM ÇALIMALARI 

• Ses ve görüntü tabanlı aramanın birleştirilmesi 

• Ses kısmında yeni bir öznitelik olarak ASE özniteliğinin çıkarılması 

• Görüntü kısmında sahne tespiti ve threshold hesaplanması 

• Görüntü kısmında yapılan aramada frame yerine shot’ların 

kullanılması 

• İlk dönem sonunda yavaş çalışan sistemin performansının arttırılması 

• Web sitesinin geliştirilmesi 

• Yeni sample’ların eklenebildiği bir admin sayfasının oluşturulması 

• Ön tanımlı örnekler ve “before”, “after”, “during”, “overlaps” mantıksal 

işlemleri kullanılarak yapılacak arama için bir sayfa oluşturulması 

• Sonuç gösteriminde ilk dönem gerçekleştirilemeyen “k-nearest”, 

“range” ve “point” yaklaşımlarının gerçekleştirilmesi 

19

4. KAYNAKLAR 

[1] ISO/IEC FDIS 15938-4:2001(E), “Information Technology-Multimedia 

Content Description Interface-Part 4: Audio”.----- M.Sert, B.Baykal and 

A.Yazici, “A Robust and Time-Efficient Fingerprinting Model for Musical 

Audio”, IEEE Tenth International Symposium, 2006.---- Jianping Chen, 

Tiejun Huang,” A Robust Feature Extraction Algorithm for Audio 

Fingerprinting” 

[2] Mathias Lux and S. A. Chatzichristofis, "LIRe: Lucene Image Retrieval - 

An Extensible Java CBIR Library", «ACM International Conference on 

Multimedia 2008», ACM MM’08, Vancouver, British Columbia, October 

27 – 31, 2008, Open Source Application Competition, pp.1085-1087. 

[3] S. Α. Chatzichristofis, Y. S. Boutalis and Mathias Lux, 

“IMG(RUMMAGER): AN INTERACTIVE CONTENT BASED IMAGE 

RETRIEVAL SYSTEM.”, «2nd International Workshop on Similarity 

Search and Applications (SISAP)», Proceedings: IEEE Computer 

Society, pp.151-153, August 29-30 2009, Prague, Czech Republic. 

[4] Text of ISO/IEC Study of CD 15938-3/FCD Information Technology – 

MPEG-7 Multimedia Content Description Interface – Part 3 Visual 

[5] INTERNATIONAL STANDARD ISO/IEC 15938-3:2002 

TECHNICAL CORRIGENDUM 1 

Published 2004-03-15 

[6] E. Kasutani and A. Yamada, “The MPEG-7 Color Layout Descriptor: a 

Compact Image feature Description for High-Speed Image/Video 

Segment Retrieval”, IEEE Proc. of International Conference on Image 

Processing (ICIP 2001), vol. I, pp. 674-677, October 2001. 

20

5. EKLER 

5.1 EK-1 

Veritabanı şeması 

21

5.2 EK-2 

USE-CASE 

22

ba kent üniversitesi mühendislik fakültesi bitirme projesi raporu ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?