Örüntü Tanıma Stratejileri – Multimedya Bölümü – Multimedya Bölümü Ödevleri – Multimedya Bölümü Tez Yaptırma –Multimedya Bölümü Ödev Ücretleri

0 (312) 276 75 93 - Essay Yazdırma, Proje Yaptırma, Tez Yazdırma, Ödev Yaptırma, Makale Yazdırma, Blog Yaptırma, Blog Makale Yaptırma *** Essay, Makale, Ödev, Tez, Proje Yazdırma Merkezi... *** 7/24 Hizmet Veriyoruz.... Mail kanallarını kullanarak fiyat teklifi alabilirsiniz. bestessayhomework@gmail.com , Makale YAZDIRMA siteleri, Parayla makale YAZDIRMA, Seo makale fiyatları, Sayfa başı yazı yazma ücreti, İngilizce makale yazdırma, Akademik makale YAZDIRMA, Makale Fiyatları 2022, Makale yazma, Blog Yazdırma, Blog Yazdırmak İstiyorum

Örüntü Tanıma Stratejileri – Multimedya Bölümü – Multimedya Bölümü Ödevleri – Multimedya Bölümü Tez Yaptırma –Multimedya Bölümü Ödev Ücretleri

22 Mart 2023 Örüntü tanıma Ders Notları Örüntü tanıma örnekleri Örüntü tanıma projeleri 0
Yazılım Temsilleri

Örüntü Tanıma Stratejileri

Çoğu dudak okuma sistemi, dinamik zaman atlama ve gizli Markov modelleri gibi geleneksel konuşma tanıma yaklaşımlarında benimsenen benzer örüntü tanıma stratejilerini kullanmıştır.

Kullanılan statik ileri beslemeli geri yayılım ağları, kullanılan TDNN’ler, kullanılan çok aşamalı TDNN’ler ve gözlem olasılıkları hesaplamasını gerçekleştirmek için sinir ağlarını kullanan HMM tanıyıcı gibi sinir ağı mimarileri de kapsamlı bir şekilde araştırılmıştır.

Yuhas’ın deneylerinde kullanılan konuşma verileri, iyi aydınlatılmış bir koşul altında bir erkek konuşmacıdan alındı. Saniyede 30 karelik bir NTSC videosuna dayanmaktadır. Dokuz farklı fonem tanındı.

Görsel özellikler için ağzın etrafında ortalanmış küçültülmüş bir alt görüntü (20 × 25) otomatik olarak tanımlandı ve bunlar daha sonra bir ileri beslemeli geri yayılım ağı tarafından karşılık gelen “temiz” sesli kısa süreli cepstrum büyüklük zarfına (STSAE) dönüştürüldü. Ortaya çıkan cepstrum, doğrudan ses sinyallerinden türetilen gürültülü cepstrum ile ağırlık ortalaması alındı.

Görsel dönüştürülmüş STSAE ile işitsel STSAE arasındaki ağırlık, ortamın SNR’sine göre belirlendi. Başka bir ileri beslemeli sinir ağı, birleştirilmiş STSAE’nin dizisini girdi olarak topladı ve sesli harflerin tanınmasını gerçekleştirdi.

Sunulan çalışma, beş konuşmacı için birleştirilmiş sesli ve görüntülü konuşma verilerini tanımak için bir TDNN kullandı. Deneylerinde, her 10 ms’de bir alınan görsel konuşma girdilerini tanımak için yalnızca video (VO) bir TDNN kullanıldı.

10 ms görsel çerçeveden, beş özellik (gürültü-çene ayrımı, ağız açıklığının dikey ayrımı, üst ve alt dudaklardan tahmin edilen yatay ayrımlar ve ağız açıklığının yatay ayrımı) tahmin edildi ve sınıflandırmayı oluşturmak için VO TDNN tarafından birleştirildi. son olasılıklar P (C|V ), burada C konuşulan 10 harften birini temsil eder.

Benzer şekilde, yine her 10 ms’de bir alınan sesli konuşma girişlerini tanımak için yalnızca sesli (AO) bir TDNN kullanıldı. 10 ms’lik ses çerçevesinden, 14 mel ölçekli katsayı (0’dan 5 KHz’e) tahmin edildi ve AO TDNN tarafından sınıflandırma sonsal olasılıkları P (C|A) üretmek için kullanıldı. Ortaya çıkan sınıflandırma sonsal olasılık P (C|V , A) olarak yaklaşık olarak hesaplanır.

Tek bir video-ses (VA) TDNN olan bu birleştirilmiş VO ve AO TDNN ağının, birleştirilmiş video ve ses özelliklerini (19 boyut) giriş olarak aldığı, böylece farklı ortam türleri için ayrı modüller benimsemenin önemini gösterdiği gösterilmiştir.

Carnegie Mellon Üniversitesi’nde geliştirilen See Me, Hear Me projesi, sürekli yazım görevlerinde karşılaşılan sürekli harf tanımanın gerçekleştirilmesinde iki ayrı (VO ve AO) TDNN kullanma fikrini genişletti. Ses özellikleri, 10 ms’lik kare hızında elde edilen 16 mel-ölçekli Fourier katsayısından oluşur.

Görsel özellikler, azaltılmış boyutsallık ile PCA dönüşümünden oluşturuldu (24 × 16 düzleştirilmiş öz dudaktan yalnızca 32’si). İki TDNN fonemi (62 üzerinden) ve visemi (42 üzerinden) tanımak için kullanıldı ve daha sonra dinamik zaman atlama algoritmasına dayalı olarak sürekli harf dizisinin tanınması için istatistiksel olarak birleştirildi.

Sunulan proje aynı zamanda etkili dudak okuma için akustik ve görsel özellikleri bir araya getirdi. Zamansal sıra sınıflandırıcı olarak sinir ağlarını kullanmak yerine, bu proje HMM’leri benimsedi ve gözlem olasılıklarını {P(fonem|ses, görsel)} hesaplamak için bir MLP kullandı.

Sistem, video verilerinden (yılan noktalarından PCA yerine) gri düzey matrisinden 10 sıralı PCA dönüşüm katsayılarını (ve/veya delta özelliklerini) ve ses verilerinden dokuz akustik özelliği birleştirdi. 

Viterbi algoritmasının ihtiyaç duyduğu gözlem olasılıklarını (bir alt kelime modelinin durumu verilen giriş konuşma verilerinin olasılığı) hesaplamak için ayrımcı olarak eğitilmiş bir MLP kullandılar.

Teorik olarak MLP, olasılık yerine, önceki olasılık bilgisini kullanarak Bayes kuralına göre kolayca olabilirliğe dönüştürülebilen sonsal olasılıkları sağlar. Bu iki modlu hibrit konuşma tanıma sistemi, çok konuşmacılı bir heceleme görevine hali hazırda uygulanmıştır ve bunu konuşmacıdan bağımsız bir kendiliğinden konuşma tanıma sistemi uygulamak için çalışmalar devam etmektedir.


Örüntü tanıma projeleri
Örüntü tanıma örnekleri
Örüntü tanıma Nedir
Örüntü tanıma Ders Notları
Örüntü tanıma Vize Soruları
İstatistiksel örüntü tanıma nedir
Örüntü tanıma dersi
Örüntü Tanıma PDF


Karar Entegrasyonu

Önceki alt bölümde tartışıldığı gibi, işitsel ve görsel özellikler, örüntü tanımadan önce tek bir vektörde birleştirilebilir; o zaman karar yalnızca örüntü tanıyıcının sonucuna dayalıdır. Bağımsız görsel ve işitsel değerlendirme yapan bazı dudak okuma sistemlerinde, iki değerlendirme puanını tek bir puanda birleştirmek için bazı kurallar gerekir.

Tipik örnekler, iki modalitenin değerlendirilmesinde fonemlerin göreli karıştırılabilirliği bilgisini birleştirmek için buluşsal kuralların kullanımını içerir; diğerleri her modalite için bağımsız değerlendirme puanlarının çarpımsal bir kombinasyonunu kullanmıştır.

Bu post-entegrasyon yöntemleri, kullanıcıya istenirse alt sistemlerden yalnızca birini kullanma esnekliği vermenin yanı sıra kavramsal ve uygulamasal basitlik avantajlarına sahiptir.

Görüntü ve Video Alma, Tarama ve İçerik Tabanlı İndeksleme

Dijital video işleme son zamanlarda önemli bir temel bilgi işleme teknolojisi haline geldi. MPEG-4 görsel-işitsel kodlama standartları, içerik tabanlı etkileşime, evrensel erişilebilirliğe ve yüksek derecede esneklik ve genişletilebilirliğe izin verme eğilimindedir.

Araştırmacılar, hacimli multimedya verilerini barındırmak için uzun süredir içerik tabanlı indeksleme ve geri alma paradigmasını önermektedir.

İçerik tabanlı akıllı işleme çok önemlidir çünkü video kodlama, sıkıştırma, videonun nesne yönelimli temsili, dijital kütüphanede içerik tabanlı erişim, video mozaikleme, video kompozisyon (doğal ve sentetik bir kombinasyon) dahil olmak üzere çeşitli uygulama alanlarını kapsar.

Görüntü ve video veritabanları için konu tabanlı erişim için sinir ağı tabanlı bir etiketleme algoritması önerilmiştir. Etiketleme için nesne sınıflandırması, DBNN kullanılarak çevrimdışı gerçekleştirilir. Bir görüntüde bir özellik aramanın arama alanını azaltmaya yardımcı olan hiyerarşik bir çoklu çözünürlük yaklaşımı kullanılır.

Sınıflandırma, önce renk kullanılarak iki aşamada gerçekleştirilir ve ardından sınıflandırmayı iyileştirmek için doku özellikleri uygulanır (her ikisi de DBNN aracılığıyla). Genel indeksleme şeması ve etiketleme prosedürü gösterilmektedir.

Sistem, müşterinin anlamsal konuyu sağlayarak görüntü veritabanında arama yapmasına izin verir. Görüntüler çevrimiçi aşamada doğrudan manipüle edilmez. Her görüntü, renk ve doku özellikleri ve sinir ağı teknikleri kullanılarak çevrimdışı olarak bir dizi önceden tanımlanmış konuya göre sınıflandırılır.

Sorgular, etiket veritabanı aranarak yanıtlanır. Şablonları veya düşük seviyeli görüntü parametrelerini kullanarak görüntüleri çevrimiçi olarak doğrudan değiştiren önceki yaklaşımların aksine, bu sistem görüntüleri çevrimdışı olarak etiketler ve bu da performansı büyük ölçüde artırır.

 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir