Görsel Bilgi Erişim – Multimedya Bölümü – Multimedya Bölümü Ödevleri – Multimedya Bölümü Tez Yaptırma –Multimedya Bölümü Ödev Ücretleri
Görsel Bilgi Erişim
Görsel bir bilgi erişim sisteminin temel tasarım hedefi, kullanıcıların sorgularıyla (örneğin, bir geyik resmi araması) doğru şekilde eşleşen verileri (resimler veya video klipler) döndürmektir.
Bu tasarım hedefine ulaşmak için, sistem önce bir kullanıcının sorgu kavramını (yani bir kullanıcının algısını) kapsamlı bir şekilde anlamalı ve ardından kavramla tam olarak eşleşen düşük seviyeli girdi alanında (bir dizi algısal özellik tarafından oluşturulan) verileri bulmalıdır.
İstatistiksel öğrenme teknikleri, tasarım hedefine iki tamamlayıcı yolla ulaşılmasına yardımcı olabilir: semantik açıklama ve sorgu kavramı öğrenme.
Anlamsal açıklama, anahtar kelime tabanlı aramaları (örneğin, manzara, gün batımı, hayvanlar vb.) desteklemek için anlamsal etiketlerle görsel veriler sağlar. Birkaç araştırmacı, anahtar kelimeleri küçük bir açıklamalı görüntü grubundan diğer görüntülere yaymak için yarı otomatik açıklama yöntemleri önermiştir.
Semantik açıklama, bazı ilgili sorgu sonuçları sağlayabilse de, açıklama genellikle özneldir ve dar bir şekilde yorumlanır. Böyle olduğunda, sorgu performansı tehlikeye girebilir.
Bir sorgu kavramını tüm semantiği ve öznelliğiyle tam olarak anlamak için, bir sistemin hedef kavramı kullanıcıdan doğrudan sorgu-kavram öğrenimi yoluyla alması gerekir. Anlamsal açıklama, sorgu kavramı öğrenimine yardımcı olabilir, ancak yerini alamaz.
Hem semantik açıklama hem de sorgu-kavramı öğrenme, üç adımdan oluşan denetimli bir öğrenme problemi biçimine dönüştürülebilir. İlk olarak, her eğitim örneğinden temsili bir algısal özellikler seti (örneğin, renk, doku ve şekil) çıkarılır.
İkinci olarak, her eğitim özellik vektörü xi’ye semantik etiketler gi atanır. Üçüncüsü, bir f(.) sınıflandırıcısı, bir xq sorgu örneğinin sınıf etiketlerini tahmin etmek için etiketli örneklere dayalı olarak denetimli bir öğrenme algoritması tarafından eğitilir.
Alt düzey özellikleriyle temsil edilen bir xq sorgu örneği verildiğinde, xq’nun anlamsal etiketleri gq = f(xq) ile tahmin edilebilir. Özünde, bu adımlar algısal özellikler ile insan tarafından algılanan bir kavram veya kavramlar arasında bir haritalamayı öğrenir.
İlk başta, sinir ağları, karar ağaçları ve Destek Vektör Makineleri gibi geleneksel denetimli öğrenme yöntemlerinin, semantik açıklama ve sorgu-kavramı öğrenmeyi gerçekleştirmek için doğrudan uygulanabileceği görünebilir.
Ne yazık ki, bu tür geleneksel öğrenme algoritmaları, bu iki görevin ortaya çıkardığı teknik zorluklarla başa çıkmak için yeterli değildir. Örnek olarak, D’nin düşük seviyeli özelliklerin sayısını, N’nin eğitim örneklerinin sayısını, N+’nın pozitif eğitim örneklerinin sayısını ve N-‘nin negatif eğitim örneklerinin sayısını (N = N+ + N-) göstermesine izin verin.
İki büyük teknik zorluk ortaya çıkıyor:
1. Eğitim verilerinin azlığı. Özelliklerden anlambilime eşleme sorunu genellikle D > N zorluğuyla karşı karşıya gelir. Örneğin, sorgu kavramı öğrenme senaryosunda, bir görüntüyü (D) karakterize eden düşük seviyeli özelliklerin sayısı, bir alaka geri bildirim oturumu sırasında bir kullanıcının etiketlemeye istekli olacağı görüntü sayısından (N) daha fazladır.
İşaret ettiği gibi, “klasik” veri analizinin altında yatan teoriler, D < N ve N’nin sonsuza yaklaştığı varsayımlarına dayanmaktadır. Ancak D > N olduğunda, klasik durumda kullanılan temel metodoloji benzer şekilde uygulanabilir değildir.
2. Eğitim sınıflarının dengesizliği. Eğitim havuzundaki hedef sınıfın sayısı genellikle hedef olmayan sınıflara göre fazladır (N- >> N+). Örneğin, her sınıfın yaklaşık olarak aynı sayıda eğitim örneğine sahip olduğu bir k-sınıfı sınıflandırma probleminde, hedef sınıfın sayısı, k-1:1 oranında hedef olmayan sınıflara göre fazladır.
Dengesiz eğitim sınıflarının sınıf sınırı, k büyük olduğunda hedef sınıfa doğru eğilme eğilimindedir. Bu çarpıklık, sınıf tahminini daha az güvenilir hale getirir.
Bilgi erişim Sistemleri Nedir
Bilgi Erişim Ders notları
Bilgiye erişim
Yukarıdaki teknik zorlukları açıklamak için bir örnek kullanıyoruz. UC Santa Barbara’da 300.000 görüntülük bir veri kümesi üzerinde geliştirilen Algı Tabanlı Görüntü Alma (PBIR) prototipini kullanan bir örnek sorgu gösterin. Bu veri kümesi profesyoneller tarafından manuel olarak notlandırılmıştır.
Prototip, geri almayı desteklemek için anahtar kelimeleri ve algısal özellikleri sinerjik bir şekilde birleştirmek için PBIR öğrenme yöntemlerini kullanarak görüntülerden algısal özellikleri (bir sonraki bölümde açıklanmıştır) çıkardı.
Şekiller, arama sonuçlarını iyileştirmek için PBIR arama motoru tarafından yinelemeli bir süreçte bir sorgu kavramının nasıl öğrenildiğini göstermektedir. Kullanıcı arabirimi iki çerçeve gösterir. Sol taraftaki çerçeve, kullanıcının sorgu konseptiyle ilgili görüntüleri işaretlediği geri bildirim çerçevesidir. Sağ tarafta, arama motoru, görüntü veritabanından bu kadar uzakta eşleşen olarak yorumladığı şeyi döndürür.
“Kedi”yi sorgulamak için, ilk sonuç ekranını almak üzere sorgu kutusuna önce kedi anahtar kelimesini giriyoruz. Sağ taraftaki çerçeve, evcil kedileri içeren birkaç resmi, ancak kaplanları veya aslanları içeren birkaç resmi gösterir. Bunun nedeni, birçok kaplan/aslan resminin “vahşi kedi” veya “kedi” ile açıklanmış olmasıdır. Konsepti netleştirmek için, geri bildirim çerçevesinde (sol tarafta, gri kenarlıklar içinde) birkaç evcil kedi resmine tıklıyoruz.
Arama motoru buna göre sınıf sınırını düzeltir ve ardından ikinci ekrana geri döner. Bu şekilde, sonuç karesindeki (sağ taraf) görüntülerin çok daha iyi hale geldiğini görebiliriz. Döndürülen tüm resimler bir veya iki evcil kedi içerir. Bazı iyileştirmeler yapmak için birkaç tur daha geri bildirim yaptıktan sonra, gösterilen daha tatmin edici sonuçları elde ederiz.
Bu örnek üç kritik noktayı göstermektedir. İlk olarak, kelimelerin farklı anlamları veya duyuları olabileceğinden, anahtar kelimeler tek başına görüntüleri etkili bir şekilde alamazlar. Buna sözcük örtüşme sorunu denir. İkincisi, bir kullanıcıdan toplanabilecek etiketli örneklerin sayısı sınırlıdır.
Üç geri bildirim yinelemesi yoluyla, yalnızca 16 × 3 = 48 eğitim örneği toplayabiliriz, oysa bu veri kümesinin özellik boyutu 144’tür. Çoğu kullanıcı üçten fazla geri bildirim vermeye istekli olmayacağından, kıtlık sorunuyla karşılaşırız. Eğitim verileri. Üçüncüsü, negatiflerin sayısı, tıklanan ilgili veya pozitif örneklerin sayısından fazladır. Bu, dengesiz eğitim verileri sorunu olarak bilinir.
Bu makalenin geri kalan bölümlerinde, algısal özellikleri algıyla eşleştirmek için yukarıdaki zorluklarla başa çıkmak için önerdiğimiz istatistiksel yöntemleri sunuyoruz. Görüntüleri karakterize etmek için kullandığımız algısal özellikleri tasvir ediyoruz.
Daha sonra sunarız. eğitim verisi kıtlığı problemini daha ayrıntılı olarak ele alıyor ve önerilen üç çareyi özetliyor: aktif öğrenme, özyinelemeli altuzay birlikte eğitimi ve uyarlanabilir boyutluluk azaltma söz konusudur. “
Son olarak, görüntülere açıklama eklemek için bağlam ve içeriği (algısal özellikler) birleştirmek için önerilen bir mimari olan ve hem anahtar kelimeleri hem de algısal özellikleri dikkate alan aktif bir öğrenme algoritmasıdır.
Bilgi Erişim Ders notları Bilgi erişim Sistemleri Nedir Bilgiye erişim