Friday, July 05, 2024

Hiç Bilmeyenler için: Yapay sinir ağlarında Precision nedir? Accuracy nedir?

  

Başlangıç İçin...

Doğruluk Nedir? Yapay Sinir Ağlarında Kesinlik Nedir?

 


Doğruluk (Accuracy)

Doğruluk, toplam tahmin sayısına kıyasla doğru tahminlerin (hem doğru pozitifler hem de doğru negatifler) oranıdır. Modelin ne kadar iyi performans gösterdiğinin genel bir ölçüsüdür.

 

Formül:

Accuracy = Number of Correct Predictions  /  Total Number of Predictions

 

İkili sınıflandırma problemi için:

Accuracy = TP + TN  /  TP + TN + FP + FN

 

Burada:

  • TP (Doğru Pozitifler): Doğru olarak pozitif tahmin edilen örnekler
  • TN (Doğru Negatifler): Doğru olarak negatif tahmin edilen örnekler
  • FP (Yanlış Pozitifler): Yanlış olarak pozitif tahmin edilen örnekler
  • FN (Yanlış Negatifler): Yanlış olarak negatif tahmin edilen örnekler

 

 

Kesinlik (Precision)

Kesinlik, model tarafından yapılan tüm pozitif tahminler arasından doğru pozitif tahminlerin oranıdır. Pozitif tahminlerin doğruluğuna odaklanır.

 

Formül:

Precision = TP  /  TP+FP

 

Kesinlik, yanlış pozitiflerin maliyetinin yüksek olduğu durumlarda özellikle faydalıdır. Modelin pozitif olarak tahmin ettiği örneklerin ne kadarının gerçekten pozitif olduğunu gösterir.

 

Örnek

Doğruluk ve kesinliği açıklamak için bir örnek düşünelim:

  • TP (Doğru Pozitifler): 40
  • TN (Doğru Negatifler): 30
  • FP (Yanlış Pozitifler): 10
  • FN (Yanlış Negatifler): 20
  •  

Doğruluk:

Accuracy = TP+TN  /  TP + TN + FP + FN

Accuracy = 40 + 30  /  40 + 30 + 10 + 20 = 70  /  100 = 0.70      

Bu yüzden, doğruluk %70'dir.

 

Kesinlik:

 

Precision = TP  /  TP + FP = 40  /  40 + 10

Precision  = 40  /  50 = 0.80

Bu yüzden, kesinlik %80'dir.

 

Yapay Sinir Ağlarında Önemi

  • Doğruluk, modelin tüm sınıflarda ne kadar iyi performans gösterdiğine dair genel bir ölçüye ihtiyaç duyduğunuzda faydalıdır.
  • Kesinlik, yanlış pozitiflerin maliyetinin yüksek olduğu durumlarda, örneğin tıbbi teşhislerde (sağlıklı bir kişiyi yanlışlıkla hasta olarak teşhis etmek istemediğinizde) kritiktir.

Bu iki metriği birlikte kullanmak, özellikle bir sınıfın baskın olduğu dengesiz veri kümelerinde modelin performansını daha kapsamlı bir şekilde değerlendirmenizi sağlar.

 

Yapay Sinir Ağlarında Doğruluk

  • Performansın Genel Ölçüsü: Doğruluk, toplam tahminler içerisindeki doğru tahminlerin (hem doğru pozitifler hem de doğru negatifler) oranını hesaplayarak modelin ne kadar iyi performans gösterdiğine dair basit ve genel bir ölçü sağlar.
  • Sınırlama: Doğruluk faydalıdır, ancak özellikle dengesiz veri kümelerinde yanıltıcı olabilir.

Yapay Sinir Ağlarında Kesinlik

  • Yanlış Pozitiflerin Yüksek Maliyeti Durumunda Kritik: Kesinlik, model tarafından yapılan tüm pozitif tahminler arasından doğru pozitif tahminlerin oranını ölçer. Yanlış pozitiflerin maliyetinin yüksek olduğu durumlarda özellikle önemlidir. Örneğin:
    • Tıbbi Teşhis: Sağlıklı bir kişiyi hasta olarak yanlış teşhis etmek (yanlış pozitif), gereksiz strese, ek testlere ve tedavilere yol açabilir.
    • Spam Tespiti: Yasal bir e-postayı spam olarak işaretlemek (yanlış pozitif), kullanıcıların önemli mesajları kaçırmasına neden olabilir.

Dengesiz Veri Kümeleri

Dengesiz bir veri kümesi, sınıfların eşit şekilde temsil edilmediği bir veri kümesidir. Örneğin, tıbbi bir veri kümesinde %99 sağlıklı hastalar ve %1 hasta hastalar olabilir. Bu dengesizlik, model değerlendirmesi ve performansında sorunlara yol açabilir.

Örnek Senaryo

  • Veri Kümesi: 1000 örnek, 990 sağlıklı (negatif sınıf) ve 10 hasta (pozitif sınıf).
  • Model: Tüm hastaları sağlıklı olarak tahmin eden bir model, %99 doğruluğa sahip olacaktır (990/1000), ancak hiç hasta bir hastayı doğru şekilde tespit edemeyecektir.

Hem Doğruluk Hem de Kesinlik Kullanma

  • Kapsamlı Görünüm: Hem doğruluk hem de kesinlik kullanarak, modelin performansını daha ayrıntılı bir şekilde anlayabilirsiniz. Bu, özellikle bir sınıfın baskın olduğu dengesiz veri kümelerinde değerlidir.
    • Doğruluk: Modelin genel doğruluğunu gösterir.
    • Kesinlik: Modelin pozitif bir sınıfı tahmin ettiğinde doğru olma olasılığını sağlar.

Açıklayıcı Örnek

Bir dolandırıcılık tespit sistemi hayal edin:

  • Dengesiz Veri Kümesi: 10,000 işlem, 9,900 yasal (negatif sınıf) ve 100 dolandırıcı (pozitif sınıf).
  • Yüksek Doğruluk ama Düşük Kesinlik: Çoğu işlemi yasal olarak tahmin eden bir model, yüksek doğruluğa sahip olabilir, ancak birçok dolandırıcılık işlemini kaçırabilir ve düşük kesinliğe sahip olur.
  • Geliştirilmiş Model: Kesinliğe odaklanarak, model dolandırıcılık işlemlerini doğru bir şekilde tespit etme yeteneğini artırır, genel doğruluk biraz düşse bile.

Pratik İpuçları

  • Metriği Dengeleyin: Model performansını tam olarak anlamak için her zaman birden fazla metriği (doğruluk, kesinlik, geri çağırma, F1 skoru) dikkate alın.
  • Dengesizliği Ele Alma: Azınlık sınıfını yeniden örnekleme (over-sampling) veya çoğunluk sınıfını yeniden örnekleme (under-sampling), farklı değerlendirme metrikleri kullanma (örneğin, F1 skoru) veya dengesizliği ele almak için tasarlanmış gelişmiş algoritmalar uygulama gibi teknikler yardımcı olabilir.

Özet

Doğruluk ve kesinlik, yapay sinir ağlarında her ikisi de kritik metriklerdir:

  • Doğruluk: Performansın genel bir ölçüsü olarak faydalıdır, ancak dengesiz veri kümelerinde yanıltıcı olabilir.
  • Kesinlik: Yanlış pozitiflerin maliyetinin yüksek olduğu durumlarda önemlidir ve pozitif tahminlerin güvenilirliği hakkında daha net bir tablo sunar.
  • Dengesiz Veri Kümeleri: Gerçek dünya senaryolarında yaygındır ve sağlam bir model değerlendirmesi sağlamak için dikkatli bir şekilde ele alınması ve birden fazla metrik dikkate alınması gerekir.

Bu metriklerin bir kombinasyonunu kullanmak, modelin gerçekten ne kadar iyi performans gösterdiğini daha kapsamlı bir şekilde anlamanızı sağlar, özellikle bir sınıfın diğerine göre önemli ölçüde daha fazla olduğu durumlarda.