Metin Analizi – Multimedya Bölümü – Multimedya Bölümü Ödevleri – Multimedya Bölümü Tez Yaptırma –Multimedya Bölümü Ödev Ücretleri
Metin Analizi
Metin analizi alanı, son yıllarda internet ve diğer büyük metin veritabanları nedeniyle hızla ortaya çıkan metin verilerinde belirli bilgi ve yapı aramayı amaçlamaktadır. Arama ve gruplandırmanın genel yolları genellikle Boolean13 araması ve sorgu14 altkümesi seçimidir. Bu yöntemler basittir ancak istatistiksel modellemeye dayalı değildir. Büyük miktarda veri nedeniyle, herhangi bir istatistiksel yaklaşım çok zor olmuş ve ancak son yıllarda ciddi bir çaba sarf edilmiştir.
Pek çok metin analizi algoritmasının arkasındaki genel fikir, N-gram histogram olarak adlandırılandır. N -gram histogramı, N kelime veya terimin aynı anda geçtiği sayıma dayalıdır. Yalnızca 1 gramlık histogramları, pek çok kelime kombinasyonunun nadiren ortaya çıkması nedeniyle genellikle sonsuz küçük olasılık kütlesinin geniş alanlarına sahip olan daha yüksek dereceli histogramlar olarak kabul ediyoruz.
Histogram gösterilir ve terim/belge matrisi olarak anılır. Terim/belge matrisi, belgelerden çıkarılan özellikleri içerebilir ve PCA ve ICA için X sinyal matrisi olarak kullanılabilir. Son zamanlarda PCA ve ICA metin analizine uygulandı ve aşağıda MED veri setini kullanarak 1 gramlık histograma hem PCA hem de ICA uygulayacağız.
MED veri seti, tıbbi özetlerin yaygın olarak incelenen bir koleksiyonudur. 696 dokümana 30 etiket atanmış 1033 özetten oluşmaktadır.
Amaç, ICA’nın performansını diğer denetimsiz yöntemlerle karşılaştırmak değil, metin analizinde yeteneğini göstermektir. Sonuç olarak, çalışmayı 124 özet ile, yani MED veri setindeki aşağıdaki sözlü açıklamalarla karakterize edilebilecek ilk beş grup/sınıfla sınırladık:
- 1. İnsanlar da dahil olmak üzere omurgalılarda kristal lens.
- 2. Kan ve serebrospinal sıvı oksijen konsantrasyonları veya kısmi basınçlar arasındaki ilişki. İlgilenilen bir yöntem polarografidir.
- 3. Akciğer veya bronşların elektron mikroskobu.
- 4. Akciğer veya bronşiyal neoplazmların doku kültürü.
- 5. Yağ asitlerinin plasenta bariyerinden geçişi. Plasenta ve fetüste normal yağ asidi seviyeleri.
Histogram terim/doküman matrisi oluşturulurken terim kelimeleri olarak birden fazla özette geçen kelimeler seçilmiştir. Analizi kolaylaştırmak için yaygın olarak kullanılan kelimeler15 çıkarılmıştır; Matriste 1159 terim kaldı. Özetle, terim/belge matrisi X, M = 1159’a N = 124’tür. Bu örnekte kullanılan ICA algoritması, açıklanan gürültülü karıştırma algoritmasıdır.
Gizli Semantik Analiz
Hem arama hem de gruplama (kümeleme) için klasik bir yöntem, [11] tarafından tanıtılan gizli semantik analizdir (LSA). LSA’nın ilkesi, terim/belge matrisini oluşturmak ve PCA kullanarak daha iyi bir temel gösterim bulmaktır. SVD X = U DV ⊤’yi ele alalım; burada U, kovaryans matrisi XX⊤ teriminin özvektörlerini içerir.
Aynı şekilde V, belge kovaryans matrisi X⊤X’in özvektörlerini içerir. D, özdeğerlerin kareköküne eşit artan tekil değerlerin köşegen matrisidir.
Başka kelimelerle ifade edildiğinde U, farklı terimler arasındaki kovaryans için göreli koordinatlar ve benzer şekilde belgeler için V göreli koordinatlar sağlar. Belgelerde 3D PCA bazında temsil edilir. Net bir veri kümesi yapısı fark edilir.
Kümeleme teknikleri kullanılarak, belgeler artık benzer anlamlara sahip gruplar halinde kümelenebilir. Bu aynı zamanda, tanımlanan PCA temeline yansıtarak yeni bir belgenin karakterizasyonunu sağlar.
LSA’daki ICA’nın amacı, farklı semantik grupların ayrı bağımsız bileşenler tarafından temsil edilmesi için bir kümeleme algoritması olarak hizmet etmesi gerektiğidir. ICA algoritması, her sütunun belirli bir semantik kümeyle ilişkili bir histogramı temsil ettiği karıştırma matrisi A’yı üretir. Kaynak matrisi S, belgelerin anlamsal kümelere nasıl katkıda bulunduğunu ifade eder.
Terimler listesinde tipik olarak binlerce kelime ve muhtemelen çok daha az belgeyle ilgili sorunlarla karşılaştığımız için, bu, PCA projeksiyonu ile genelliği kaybetmeden çözülebilen, aşırı derecede yanlış oluşturulmuş bir öğrenme sorunudur. PCA, terim/belge matrisini öz histogramlarda ayrıştırır.
Metin analizi Örnekleri
Metin analizi nasıl yapılır
Felsefi metin analizi
Yapay Zeka ile metin analizi
Edebi metin analizi nasıl yapılır
Felsefi metin analizi nasıl yapılır
Nitel araştırma yöntemleri metin analizi
Metin Analizi Programı
Bu öz histogramlar, simetrik bir gerçek matrisin özvektörleri olan bir diklik kısıtlamasına tabidir. Diziler olarak bağımsız olan ancak histogram kelimesinde ortogonal olması gerekmeyen kaynakların biraz daha genel bir ayrımıyla ilgileniyoruz; yani, denklemdeki modele karşılık gelen veri matrisinin daha genel bir ayrıştırmasını yapabilmek istiyoruz.
ICA’yı gerçekleştirmeden önce, ICA problemini basitleştirmek için PCA’dan yararlanabiliriz. Buradaki yaklaşım, kısa görüntü dizilerinde denetimli öğrenmeyi basitleştirmek için kullanılan sözde “son derece kötü yapılandırılmış öğrenmenin tedavisi” problemine benzer.
İlk olarak, A’nın sütunlarının (histogramlar) bir fonksiyonu olarak kabul edilen olasılığın iki kısma ayrılabileceğini not ediyoruz: X’in M sıralarının yaydığı alt uzaya dik olan A1 kısmı ve alt uzayda yer alan A2 kısmı. X’in N sütunu tarafından dağıtılır.
İlk kısım, A1 = 0 koyarak kaynakların sıfır olmayan herhangi bir konfigürasyonu için önemsiz bir şekilde en aza indirilir. Verilerle “eşleşmez”. Kalan A2 kısmı, belgeler tarafından yayılan N-boyutlu bir hiperdüzlem üzerine yansıtılabilir. Bu şekilde, yüksek boyutlu ayırma problemini, N × N boyutunda bir kare (öngörülen) veri matrisinin ayrılmasına indirgiyoruz.
PCA alt uzayının boyutsallığını daha fazla sınırlandırmanın, dolayısıyla geri kalan problemin histogram boyutsallığını M daha da azaltmanın genellikle mümkün olabileceğini not ediyoruz. “Aşırı derecede kötü konumlanmış öğrenmenin tedavisi” yöntemi kullanılarak, problem, genelliği kaybetmeden M = 124’e N = 124 problemine indirgenir. Ancak, genelleştirilebilir bir model oluşturmak için daha da az bileşene ihtiyaç duyulmasını bekliyoruz.
124 set arasından rastgele seçilen 104 kalıptan oluşan eğitim setlerinde değerlendirilen test ve eğitim seti hatalarını gösteriyoruz. Test seti, her yeniden örneklemede kalan 20 belgeden oluşuyor.
Genelleştirme hatası, tahmin edilen karışım matrisinin karmaşıklığının bir fonksiyonu olarak sapma-varyans değiş tokuşunu yansıtan, P = 4 bağımsız bileşen için sığ bir minimum gösterir. En değişken bağımsız bileşenlerde dağılım grafiklerini gösteriyoruz.
Belgelerin dağılımı, PCA dağılım grafiklerinde oldukça iyi tanımlanmış bir grup yapısı oluştursa da, açıkça ICA dağılım grafikleri eksen hizalamasında çok daha iyidir. ICA tarafından bulunan ortogonal olmayan temelin grup yapısını daha iyi “açıkladığı” sonucuna vardık. Bu bulguyu daha fazla açıklamak için, ICA çözümünü basit bir buluşsal yöntemle bir model tanıma cihazına dönüştürdük.
Edebi metin analizi nasıl yapılır Felsefi metin analizi Felsefi metin analizi nasıl yapılır Metin analizi nasıl yapılır Metin analizi Örnekleri Metin Analizi Programı Nitel araştırma yöntemleri metin analizi Yapay Zeka ile metin analizi