10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Metin İçerikli Türkçe Dokümanların SınıflandırılmasıRıfat Aşlıyan, Korhan Günel1. GirişGünümüzde bilgisayar teknolojisinin hızla gelişmesiylebirlikte elektronik ortamdaki belgelerin,dokümanların sayısı büyük oranda artmıştırve artmaya devam etmektedir. Dokümansınıflandırma, dokümanın, içeriğine göre genelanlamda hangi kategoriye girdiğinin tespitedilmesi işlemidir. Özellikle web sayfalarının,e-postaların, Tıp, Hukuk, v.b. alanlardaki dokümanlarınbelirli kategorilere göre sınıflandırılmasıyla,bu dokümanlardaki bilgilere daha etkilive hızlı bir şekilde erişmek mümkün olmaktadır.Bu sebeple doküman sınıflandırma konusu hakkındaçalışmalar çok önem kazanmıştır.Doküman sınıflandırma çalışmalarında kullanılanöznitelik vektör uzayı sözcüklerin dokümanlardakigörüntülenme sıklıklarına dayanmaktadır.Yani her bir doküman içindeki sözcüklerindokümanlardaki frekansları hesaplanıpsözcük vektör uzayı oluşturulur.Son on yıl içinde yaygın olarak kullanılan dokümansınıflandırma metotları Naive Bayes[1], Karar Ağaçları [2], K-En Yakın Komşu [3],Maksimum Entropi Modelleri [4, 5], BulanıkMantık Teorisi yaklaşımları [6], Destek VektörMakineleri [7, 8] ve Yapay Sinir Ağları [9, <strong>10</strong>,11, <strong>12</strong>, 13, 14] sayılabilir.Doküman sınıflandırma genel olarak Şekil 1’degösterildiği gibi dokümanlar girdi olarak sistemealınır ve ön işleme sürecinden geçirilir. Önişleme safhasında dokümandaki bütün gereksizkarakter ve boşluklar silinir. Harfler küçük harfleredönüştürülür ve sadece bir boşluklu sözcüklerdenoluşan temizlenmiş doküman oluşturulur.Dokümandaki sözcüklerin dokümanda bulunmaolasılıkları hesaplandıktan sonra belirlenmişolan sözcük öznitelik vektörlerindeki sözcükleregöre bu dokümanın öznitelik vektörü oluşturulur.Dokümanın öznitelik vektörü ile eğitimveritabanından elde edilmiş öznitelik vektörleriarasındaki benzerlik belirli yöntemlerle tespitedilir. En çok benzeyen öznitelik vektörüne aitolan doküman sınıfı bulunmuş olur.538Şekil 1. Doküman sınıflandırmanın genel yapısıÇalışmamızda ilk olarak eğitim derlemindekiher bir dokümanın sözcük olasılıklarını temsileden öznitelik vektörleri veritabanı oluşturuldu.Ardından, test derlemindeki dokümanlar sistemeverilerek hangi kategoriye dahil olduklarınahesaplanmıştır. Bunun için En Yakın Komşuve K-En Yakın Komşu metotları kullanılmıştır.Bu çalışmada, sözcük öznitelik vektörlerininhesaplanmasında iki yaklaşım dikkate alınmıştır.Birincisi eğitim derlemindeki her dokümanınöznitelik vektörleri ayrı ayrı hesaplanıp sınıfve sınıflardaki dokümanlara göre öznitelikvektör veri tabanı oluşturuldu. İkinci olarak dasınıflardaki bütün dokümanlar birleştirilerekher sınıf için bir tane sözcük öznitelik vektörüoluşturuldu. Birincisi için En Yakın Komşu veK-En Yakın Komşu metodu; ikincisi için ise EnYakın Komşu metodu kullanıldı. Her iki yaklaşımiçin benzerliklerin tespitinde Öklid uzaklıkölçüsü uygun görülmüştür.Öznitelik vektörlerindeki sözcüklerin hangileriolacağı konusunda da iki yaklaşım kullanıldıve sonuçlar karşılaştırıldı. Birincisinde, bütündokümanlar birleştirilmek suretiyle elde edilensözcüklerin en yüksek frekansa sahip olanilk <strong>10</strong>0 sözcük kullanıldı. İkincisinde ise birsözcüğün bir sınıfta yüksek olasılıkla bulunupdiğer sınıflarda bu sözcüğün olasılık eşik değerindenküçük olması istenmektedir. Her sınıfiçin bu şartı sağlayan sözcükler vektör uzayındakisözcükleri temsil etmektedir.Çalışmanın ikinci bölümünde sistem mimarisihakkında genel bilgiler verilmiştir. Üçüncübölümde ise sistemin nasıl test edildiği belirtilmiştir.Yine bu bölümde, deneysel sonuçlartablolar halinde sunulmuştur. Dördünce bölümdeise tartışma ve sonuçlar hakkında genelolarak bahsedilmektedir.2. Sistem MimarisiSistemde kullanılan sözcük öznitelik uzayı (1),(2) ve (3)’de gösterildiği gibi ifade edilmektedir.{ S }S = ,..., 1S i,..., S n(1){ d ,..., d d }S i i , 1 i ,2,..., i , k= (2)di,, j= s< i,j,1,..., si,j,t,... si,j m> (3)(1) ve (2) kümelerindeki S, sınıfları temsiletmektedir. Çalışmamızda n=5 sınıf, eğitimderleminde k=25 doküman ve test derlemindek=50 doküman bulunmaktadır. d i,jise i. sınıfınj. dokümanını temsil etmektedir. s i,j,tise i. sınıfınj. dokümanının t. indisteki sözcüğün olasılıkdeğerini ifade eder.Doküman sınıflandırma işleminde sözcük öznitelikvektörlerinin hangi sözcüklere göreoluşturulacağı, sınıflandırmanın başarısını etkileyeceğimuhakkaktır. Bunu deneysel sonuçlarladesteklemek için iki yaklaşım önerilmişve karşılaştırılmıştır. Birinci yaklaşımda, bütünsınıflardaki dokümanlar birleştirilerek tek dokümanoluşturuldu. Bu dokümanın en yüksekfrekans değerlerine sahip olan ilk 250 sözcük,öznitelik vektör uzayında kullanılacak sözcüklerolarak kabul edilmiştir.<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla Üniversitesi539İkinci yaklaşımda ise her sınıf için olmak üzerebu sınıfın en yüksek olasılığa sahip olan vediğer sınıflardaki olasılıkları belirli bir eşikdeğerinden küçük olan sözcükler, öznitelikvektörlerinde kullanılırlar. Sistemde kullanılanE(s) değeri (4) eşitliğinde görüldüğü üzere, ssözcüğünün eşik değerini temsil etmektedir.â eşik yüzde sabiti olarak kabul edilir ve sistemde1, 5, 25, 50, 75 ve <strong>10</strong>0 değerleri kullanılmıştır.p(s), s sözcüğünün olasılığını ifadeetmektedir.p(s)E ( s)= â (4)<strong>10</strong>0Şekil 2. Dokümanların, belirlenen sözcüklere göreöznitelik vektörleri veritabanının oluşturulması

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!