10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Metin İçerikli Türkçe Dokümanların SınıflandırılmasıRıfat Aşlıyan, Korhan Günel<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla ÜniversitesiŞekil 2’de görüldüğü gibi sistem ilk olarak dokümanlarıgirdi olarak alır ve ön işlemeden geçereksadece küçük harften oluşan sözcüklerdenoluşan temizlenmiş dokümana dönüştürülür.Sonra, bu dokümana göre sözcük frekans veolasılıkları hesaplanır. Yukarda bahsedilen heriki yaklaşımda kullanılan öznitelik vektöründekisözcüklerin olasılıkları tespit edilerek dokümanlarınöznitelik vektörleri veritabanı oluşturulur.duğu sınıf C sınıfıdır. Şekil 4’de ise K=3 olmaküzere K-En Yakın Komşu metodu gösterilmektedir.Burada X dokümanının A, B ve C sınıflarınaen yakın olduğu 3 tane en yakın dokümanlarınuzaklıkları hesaplanır ve her bir sınıfınen yakın uzaklıkları toplamı o sınıfın X’e olanuzaklığını verir. Bu durumda X dokümanı Csınıfı olarak belirlenir.Bu çalışmanın başarısının sınanması için Windowsişletim sistemi altında çalışan Matlab 6.0kullanılarak bir sistem gerçekleştirilmiştir.Tablo 3’de En Yakın Komşu metodu için doğrusınıflandırma sonuçları görülmektedir. Bunagöre, (eşik katsayısı β=50) en yüksek başarıoranı %78.8 olmuştur. Fakat Tablo 4, Tablo 5ve Tablo 6’da K-En Yakın Komşu metodu aynısistem için başarı sonuçları verilmiştir. K=3 ve(β=50) için en yüksek doğru sınıflandırma oranı%76.8 oldu. En Yakın Komşu metodunundaha başarılı olduğu görülmektedir.Öznitelik vektörleri veritabanı oluştururkende iki yaklaşım düşünülmüştür. Birincisi, herbir sınıfın her dokümanı için ayrı bir öznitelikvektörü oluşturuldu. Yani birinci yaklaşımdakiveritabanında 5*25=<strong>12</strong>5 tane öznitelik vektörübulunmaktadır. Çünkü 5 tane sınıf ve her birsınıfta 25 tane doküman bulunmaktadır.Tablo 1. En Yakın Komşu metoduyla sözcükseçiminde ve veritabanı oluşturulmasında2. yaklaşım başarı yüzdeleriTablo 7’de ise En Yakın Komşu metodu ile hersınıftan alınan sözcük vektör boyu sabit alınarakçıkan sonuçlar görülmektedir ve en yüksek başarıoranı %86.8’dir. Tablo 1’deki başarı sonuçlarıise her sınıftan alınan sözcük vektör boyudeğişken olarak kabul edilen sistemin sonuçlarıdırve bu sonuçlar daha yüksek çıkmıştır.İkinci yaklaşıma göre her sınıfın bir öznitelikvektörü oluşturulur. Dolayısıyla veritabanında,her sınıfı oluşturan dokümanlar birleştirilerekoluşturulan yeni dokümanları temsil eden toplam5 öznitelik vektörü bulunur.Şekil 3. En Yakın Komşu metoduÖznitelik vektörü veritabanları oluşturulduktansonra, test kümesindeki dokümanlar sisteme verilirve bu dokümanların öznitelik vektörleri hesaplandıktansonra Öklid uzaklık ölçüsü kullanılarakveri tabanındaki öznitelik vektörleriyleolan uzaklık değerleri bulunur. Bu değerlerdenen küçük olanının temsil ettiği sınıf, sisteme verilendokümanın ait olduğu sınıf olarak kabuledilir. Bu şekilde hesaplanan yönteme En YakınKomşu sınıflandırma yöntemi adı verilir.Her hangi bir k sabit doğal sayı değeri için veher bir sınıf için k tane en yakın uzaklıklar tespitedilir. k tane uzaklık değerlerin toplamı osınıfın uzaklık değerini belirler ve en küçükuzaklık değerine sahip sınıf, dokümanın sınıfınıtemsil edecektir. k için kullanılan sabit sayılar3, 5 ve 7’dir.Şekil 3’de En Yakın Komşu metodu örneklegösterilmiştir. Bu örnekte X, sınıflandırılacakmetodu; A, B ve C sınıfları temsil etmektedir.Görüldüğü üzere X dokümanının en yakın ol-540Şekil 4. K-En Yakın Komşu metodu3. Sistemin Test Edilmesi veDeneysel SonuçlarSistemin öznitelik vektörleri veritabanı oluşturulmasıiçin 5 tane sınıf için 25’er tane dokümaniçeren eğitim kümesi oluşturulmuştur.Sistemi test edilmesi için ise her bir sınıf için50 tane olacak şekilde toplam 250 tane dokümandanoluşan test kümesi oluşturuldu. Bu dokümanlarİnternet ortamındaki bir gazetedenelde edildi. Bu kategoriler şunlardır: Eğitim,Otomobil, Sağlık, Spor, Teknoloji.Tablo 2. En Yakın Komşu metoduyla sözcükseçiminde 1. ve veritabanı oluşturulmasında2. yaklaşım başarı yüzdeleriTablo 1’de En Yakın Komşu metoduna göresözcük seçimini 2. yaklaşım temel alınaraksınıflandırma işleminin sonuçları gösterilmektedir.Tablo 2’de ise sözcük seçimini 1. yaklaşımagöre çıkan sonuçlar vardır. 1. yaklaşımda enyüksek başarı oranı %88.4 iken 2. yaklaşımdakibaşarı %84.8 olmuştur. Dolayısıyla, sistem,2. yaklaşım ile yani öznitelik vektörlerindekisözcükleri belirlerken bir sınıftaki en yüksekolasılığa sahip ve diğer sınıftaki olasılığı düşükolan sözcükleri seçerek daha başarılı olmuştur.Bu tablolardaki ÖVB kısaltması öznitelikvektör boylarını temsil etmektedir. Görüldüğüüzere vektör boyu değiştiğinde sistemin başarımıdeğişmektedir.541Tablo 3. En Yakın Komşu metoduyla sözcükseçiminde 2. ve veritabanı oluşturulmasında1. yaklaşım başarı yüzdeleriTablo 4. K-En Yakın Komşu metoduyla(K=3) sözcük seçiminde 2. ve veritabanıoluşturulmasında 1. yaklaşım başarı yüzdeleri

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!