10.07.2015 Views

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

Akademik Bilişim '10 10 - 12 Şubat 2010 Muğla

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Türkçe Hayat Bilgisi Veri Tabanının OluşturulmasıM.Fatih Amasyalı, Bahar İnak, M.Zeki Ersenğı, gereksiz bilgi tekrarlarının, uyuşmazlıklarınortaya çıkacağı şüphesizdir. Literatürde her ikiyaklaşım içinde çeşitli çalışmalar yapılmıştır.2. bölümde bu çalışmalara yer verilmiştir.Gündelik hayat bilgilerinin bilgisayarlara aktarılmasındakarşılaşılan ikinci problem ise, bukadar çok ve aralarında uyuşmazlıklar bulunanbilgiyle nasıl yeni bilgilerin üretilebileceği, bubilgilerle ne zaman ve nasıl çıkarım yapılacağıdır.Bu problem içinde literatürde çeşitli çözümönerileri geliştirilmiştir [2,3].Günümüzde İngilizce ve birkaç dil için, butarz veri tabanları oluşturulmuş ve uygulamayayönelik çalışmalar ortaya çıkmaya başlamıştır.Ancak Türkçe için bu çalışma ilktir.Çalışmanın sonraki bölümlerinde sırasıylamevcut gündelik hayat bilgisi veri tabanlarınıntanıtımı, tasarlanan sistemin yapısı, alt parçaları,kullanıcı arayüzü ve gelecekte yapılamsıplanlanan çalışmalar anlatılmıştır.2. Benzeri ÇalışmalarEksikliklerinin, bilgisayarların aptal olarak nitelendirilmesindekien büyük etkenlerden biriolması ve olası faydalarının büyük olmasıgündelik hayat bilgisi veri tabanları oluşturmayönündeki çalışmalara sebep olmuştur. Buamaçla çeşitli kişi ve gruplarca birçok çalışmayapılmıştır. Bu bölümde bu çalışmalardan enpopüler olanları anlatılmıştır.2.1 Cycİçerdiği bilgilerin sınırlı sayıdaki uzman kişitarafından elle girilmesi görüşünü benimseyenbir çalışmadır [4]. Lenat tarafından 1990 yılındaoluşturulmaya başlanmıştır. Günümüzdeiçerisinde yüzbinlerce kavramin milyonlarcailişkisinin olduğu söylenmektedir. Geliştirmesürecinde veri tabanının bir kısmı halka açılmış,web kullanıcılarının da veri tabanına katkıdabulunmaları amaçlanmıştır. Sistemin veritabanına http://www.cycfoundation.org/conceptsadresinden erişilebilir.3442.2 ThoughtTreasureErik T. Mueller tarafından 1994 yılında geliştirilmeyebaşlanmış olan veri tabanı içerisinde25 bin kavrama ait 50 bin bilgi parçası içermektedir[5]. Bu projenin veri tabanı da Cycgibi kısıtlı sayıdaki insan tarafından elle oluşturulmuştur.Bununla birlikte veri tabanındasenaryolar olarak adlandırılan insanların gündelikhayatlarında sıklıkla yaptıkları restoranagitmek, sinemaya gitmek gibi olağan durumlarıniçerdiği alt olaylar da yer almaktadır.2.3 OpenMind2000 yılındaki başlangıcından itibaren, gerekenbüyük miktarda bilginin ancak çok sayıda katılımcıile toplanabileceği fikrinden yola çıkantasarımcıları ve onlara destek veren binlerce gönüllüweb kullanıcısı sayesinde 1 milyon cümlesayısına kısa sürede ulaşmış bir veri tabanıdır[6]. Katılımcıların uzman olmadıkları gerçeğindenyola çıkan tasarımcılar bilgileri her birifarklı türde bilgileri toplayan birçok web arayüzündencümle formatında almışlardır. Toplananbilgiler herkesin kullanımına açıktır. Ancakbilgilerin cümle formatında olması işlenmesini,uyumsuzluk ve rastgeleliklerin olması bilgileringüvenilirliğini azaltmaktadır. Bununla birliktetasarımcılar bilgilerin güvenilirliğinin tekrarsayılarıyla belirlenebileceğini düşünmüşlerdir.3. Sistemin TasarımıBu bölümde gündelik hayat bilgilerini tutmakiçin tasarlanan veri tabanının yapısı, veri tabanınıdoldurmak için kullanılan kaynakların tanıtımıyer almaktadır.3.1 Veri KaynaklarıSisteme bilgi sağlayan kaynaklar Şekil 1’degörülmektedir.Şekil 1. Sistemin KaynaklarıŞekil 1’de görüldüğü gibi sistemin 4 temel verikaynağı bulunmaktadır. Kaynakların 2’si ConceptNetve orijinal Wordnet ingilizce kaynaklaroldukları için otomatik bir çeviri sistemindengeçirildikten sonra kullanılmışlardır.3.1.1 ConceptNetOpenMind projesinde toplanan cümlelerdenotomatik olarak oluşturulmuş yaklaşık 200 binkavram içeren bir anlamsal ağdır [7]. Kavramlararası ilişkiler ve bu ilişkilerin işlenmemişOpenMind veri tabanındaki frekanslarındanelde edilmiş güvenilirlik ölçümleri ConceptNetveri tabanında yer almaktadır. Veri tabanınahttp://web.media.mit.edu/~hugo/conceptnet/adresinden erişilmektedir.3.1.2 WordnetGeorge A. Miller tarafından oluşturulmayabaşlanmış bir veri tabanıdır [8]. Aynı anlamasahip kelime gruplarından oluşan eşkümeler(synset) ve bu eşkümeler arasındaki çeşitli ilişkilerağından oluşur. Veri tabanına http://wordnetweb.princeton.edu/perl/webwnadresindenerişilebilir.3.1.3 Türkçe WordnetOrijinal Wordnet’in Türkçe’sinin oluşturulmasıiçin BalkaNet projesi kapsamında hazırlananbir veri tabanıdır [9]. Veri tabanına www.hlst.sabanciuniv.edu/TL/ adresinden erişilebilir.3.1.4 HTML sayfalarıBir web örümceği kullanılarak kaydedilmiş400 bin adet web sitesinin html kodlarındanoluşan bir veri tabanıdır.3.2 Tasarlanan Veri Tabanı YapısıTasarlanan sistemimizde gündelik hayata aitbilgiler temelde 3 tabloda tutulmuştur. İlk tablodabir ya da birkaç kelimeden oluşan kavramlar,ikinci tabloda kavramlar arası ilişkilerintürleri, üçüncü tabloda ise ilişkilerin kendileribulunmaktadır. Ayrıca her tabloda verileringüvenilirliklerinin hesaplanmasında kullanılançeşitli parametrelerde yer almaktadır.<strong>Akademik</strong> Bilişim’<strong>10</strong> - XII. <strong>Akademik</strong> Bilişim Konferansı Bildirileri<strong>10</strong> - <strong>12</strong> Şubat 20<strong>10</strong> Muğla Üniversitesi345Kavramları içeren tabloda ve ilişki türleriniiçeren tablolarda herbir kavrama ve ilişki türünetekil bir id verilmiş ve ilişkiler tablosundailşikiler bu id’ler üzerinden tanımlanmıştır.3.3 ÖnişlemlerTasarlanan veri tabanının doldurulmasındakullanılan kaynaklarda veriler bizim tasarladığımızortak veri tabanından farklı formatlardatutulmaktadır. Bu nedenle içerdikleri bilgilerinveri tabanına aktarılmadan önce bir önişlemdengeçirilmiştir.ConceptNet’te bilgiler, kavramları ve ilişkili olduklarıkavramları içeren tek bir metin formatındadır.Metin dosyası incelenmiş ve formatıanlaşıldıktan sonra kavramları ve aralarındakiilişkileri veri tabanımıza kaydeden programlaryazılmıştır.Wordnet’te bilgiler her bir ilişki türüne aitfarklı metin dosyalarında tutulmaktadır. Eğeriki eşküme arasında bir ilişki varsa ilk eşkümeiçindeki her bir kelimeyle diğer eşküme içindekiher bir kelime arasında o ilişki vardır şeklindeyorumlanmış ve veri tabanımıza bu şekildekaydedilmiştir. Her bir metin dosyası için aynımetot uygulanmış sadece veri tabanına eklenirkenilişki isimleri değiştirilmiştir.Türkçe Wordnet’te ise bilgiler xml formatındatutulmaktadır. Ancak xml’ni temel yapısı orijinalWordnet’le aynıdır (eşkümeler ve eşkümelerarası ilişkiler). Bu nedenle verilere erişmek vekendi veri tabanımıza kaydetmek için orijinalWordnet’te kullanılan yaklaşım izlenmiştir.Web sayfalarının önişlemlerinde, sayfalaröncelikle HTML kodlarından arındırılmıştır.Daha sonra Zemberek [<strong>10</strong>] kelime çözümleyicisikullanılarak tüm kelimeler çözümlenmişve frekansı belli bir eşik değerinin üzerinde yeralan kelime ve kelime grupları kavramlar tablosunakaydedilmiştir. Bununla birlikte 2 kelimeiçerem kelime grupları ayrıca isim-isim,sıfat-isim, isim-fiil gibi ilişki türleriyle ilişkilertablosuna da kaydedilmiştir.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!