İstatistik Ders 3 : Ortanca (Medyan)

Geçen derste aritmetik ortalama (average) ölçümünü görmüştük. Bu derste ortanca kavramı ve hesaplanmasını göreceğiz. 

Ortanca Nedir?

Ortanca (Medyan), merkezi eğilim ölçümlerinden biridir. Genelde M ile gösterilir. Ortanca, bir veri grubundaki orta değerdir. Ortanca değer, veri grubumuzu ortadan ikiye ayırır. Veri grubundaki değerlerin %50’si bu noktanın altında, diğer %50’si ise bu noktanın üstündedir.

Şimdi ortanca değerinin nasıl hesaplandığına bakalım. Ortanca değeri hesaplamak için şu adımları takip ederiz:

  1. Veri grubundaki değerleri büyükten küçüğü ya da küçükten büyüğe sıralayınız.
  2. Bu sıralamadaki orta değer, ortancadır.

Şimdi bir kaç örnek yapalım. 

Senaryo 1

Beş kişilik bir şirkette çalışan kişilerin maaşları şu şekilde olsun:

1500 TL

4300 TL

2800 TL

10000 TL

5600 TL

Bu maaşları küçükten büyüğe sıralayalım:

1500 TL

2800 TL

4300 TL

5600 TL

10000 TL

Burada beş değerimiz vardır. Bu sıralamada orta değer yani ortanca 4300 TL’dir. Bu veri grubunun ortanca değeri 4300 TL’dir. 

Dikkat ederseniz 4300 TL veri grubumuzda tam ortasındaki noktadır. Veri grubundaki değerlerin, ortanca değer olan 4300 TL dahil edilmeden %50’si (10000 TL, 5600 TL) bu değerin üzerinde, diğer %50’si (1500 TL, 2800 TL) ise bu noktanın altındadır. 


Senaryo 2

Burada 5 değerimiz vardır. Bu tek sayı olduğundan ortanca değeri kolay bir şekilde hesapladık. Peki 6 değerimiz olsaydı ortanca değerimiz ne olacaktı? Şimdi şirketimize 1 kişi daha alındığını varsayalım ve bu kişinin de maaşı 3700 TL olsun. Yeni sıralamamız şu şekilde olacak:

1500 TL

2800 TL

3700 TL

4300 TL

5600 TL

10000 TL

Eğer çift sayıda değerimiz varsa, yani n tane değerden oluşan bir veri grubumuzda n çift sayı ise ortanca değerimizi farklı bir şekilde hesaplarız. Burada ortadaki iki değerin ortalaması alınarak ortanca değeri buluruz. Çünkü veri grubumuzu tam orta nokta yok. Yani, veri grubumuzu tam ikiye bölen bir değer yok. Veri grubumuzda ortadaki 3 ve 4 nolu maaşların ortalamasını alarak ortanca değeri hesaplarız.

Burada ortanca değerimiz 4000 TL’nin yukarısındaki değerler veri grubumuzun %50’sini, 4000 TL’nin aşağısındaki değerler ise veri grubumuzun %50’sini oluşturmaktadır. 


Senaryo 3

Şimdi de farklı bir senaryo olsun. Patron, 3700 TL maaş alan kişinin maaşını 4300 TL yaptığını açıkladı. Yeni veri grubumuz ve küçükten büyüğe sıralaması şu şekildedir:

1500 TL

2800 TL

4300 TL

4300 TL

5600 TL

10000 TL

Burada ortanca değerimiz 4300 TL’dir. Eleman sayısı (n)’nin çift ve ortadaki iki değer aynı ise ortanca değeri de aynı değer olur. Burada veri grubundaki değerlerin %50’si ortanca değerin üstünde, %50’si ortanca değerin altındadır.


Senaryo 4

Yukarıdaki örneklerde ortanca değerin yerini rahat bir şekilde görebiliyorduk. Peki veri grubumuz  daha fazla elemanda oluşsaydı? Bunu yeni bir örnekle açıklayalım. Bir kurstaki öğrencilerin yaşları şu şekilde olsun:

19, 20, 21, 21, 22, 24, 26, 26, 26, 23, 22, 18, 29, 28, 27, 30

Buradaki orta noktanın indeks değerini, yani kaçıncı sırada olduğunu şu formül ile buluruz.

Şimdi yaşları küçükten büyüğe sıralayalım. 

18, 19, 20, 21, 21, 22, 22, 23, 24, 26, 26, 26, 27, 28, 29, 30

Burada n = 16’dır. 16 yaş değeri var. Ortanca değerin bulunduğu indeksi şu şekilde hesaplarız.

(16 + 1) / 2 = 17 / 2 = 8.5

8.5’uncu indeks diye bir şey yoktur. 8.5 demek; ortanca değer, 8 ve 9. sıradaki sayıların arasında yer alıyor demektir. Burada 8 ve 9. sıradaki sayıların ortalamasını alırız. 8. sıradaki yaş 23; 9. sıradaki yaş ise 24’tür. Bu iki sayının ortalaması 23.5’tur. Yani ortanca değerimizi 23.5’tur. 


Ortanca Değer Ne İşe Yarar?

Ortanca değer, ortalama gelir veya maaş  hesaplamalarında, aritmetik ortalamaya göre daha doğru sonuç verebilir.

Senaryo 5

Şimdi senaryo 1’deki veri grubumuza 30000 TL maaş alan birini ekleyelim. Yeni veri grubumuz küçükten büyüğe sıralaması şu şekilde olacaktır.

1500 TL

2800 TL

4300 TL

5600 TL

10000 TL

30000 TL

Sizden bu şirkette ortalama maaş ne kadar diye hesaplama yapmanız istenirse hangi yöntemi kullanırsınız? Muhtemelen aritmetik ortalama alma ile hesaplamaya başlardınız. Şimdi bu veri grubunun aritmetik ortalamasını alalım.

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}} = \frac{1500 + 2800 + 4300 + 5600 + 10000 + 30000}{6} = 9033 }\]

Burada ortalama 9033 TL çıktı. Sizce bu şirkette çalışanların ortalama maaşı 9033 TL midir? Tabii ki hayır. Bu değer merkezi değil ve veri grubumuzun dağılımını temsil etmiyor. Aritmetik ortalama, uç değerlere karşı hassastır. Yani, veri grubumuzda uç bir değer varsa (30000 TL) aritmetik ortalama almak bizi hataya düşürür. 

Bu veri grubunda ortanca değeri hesaplamak, veri grubunun merkezi eğilimini daha doğru gösterir. Ortanca değer, uç değerlere karşı hassas değildir. Uç değerlerden hemen hemen hiç etkilenmezler.

Bu veri grubunda ortanca değer 4950’dir. Gördüğünüz gibi veri grubumuza da baktığımızda 4950’nin veri grubunun ortalamasını daha iyi yansıttığını söyleyebiliriz.

Yukarıdaki nedenlerden dolayı çoğu geliri içeren belirli sosyal ve ekonomik göstergelerde ortanca değer kullanılır. Örneğin, Türkiye İstatistik Kurumu’nun Adrese Dayalı Nüfus Kayıt Sistemi Sonuçları, 2017 çalışmasında Türkiye’deki vatandaşların yaş ortalaması analizinde aritmetik ortalamaya göre değil ortancaya göre merkezi eğilim ölçümü yapılmıştır. 

Türkiye nüfusunun ortanca yaşı yükseldi
Ülkemizde 2016 yılında 31,4 olan ortanca yaş, 2017 yılında önceki yıla göre artış göstererek 31,7 oldu. Ortanca yaş erkeklerde 31,1 iken, kadınlarda 32,4 olarak gerçekleşti. Ortanca yaşın en yüksek olduğu iller sırasıyla; 39,7 ile Sinop, 39,4 ile Balıkesir ve 38,9 ile Kastamonu ve Edirne oldu.  Ortanca yaşın en düşük olduğu iller ise sırasıyla; 19,6 ile Şanlıurfa, 20,1 ile Şırnak ve 20,9 ile Ağrı oldu

Ortanca kavramı ve hesaplama yöntemi bu şekildeydi. Bir sonraki derste merkezi eğilim ölçümlerinin sonuncusu olan tepe değeri (mode) kavramını göreceğiz. Hoşçakalın.

Deneyin

Aşağıda excel’de hazırlanmış basit ortalama ve ortanca alma çalışma sayfası vardır. Burada Maaş sütunun altına yeni değerler ekleyin ve ortalama ve ortanca nasıl değiştiğini gözlemleyin. Burada uç değerler de kullanın. Çalışma sayfasının gözükmesi için sayfayı yukarı aşağı veya sağa sola kaydırabilirsiniz. Maaş sütununa en fazla 5 sayı ekleyebilirsiniz. Yani maaş sütunumuz en fazla 10 değere sahip olabilir.

Python Notebook Kodları

Python notebook’ta ortanca hesaplamasını pandas kütüphanesindeki median() metodunu kullanarak yapabiliriz.

[advanced_iframe src=”https://yalinanaliz.com/wp-content/uploads/2018/09/İstatistik-Ders-3-Ortanca-1.html” width=”600″ height=”400″]

Kurs Katılım İstatistiği

Haziran ayında Udemy’de “Tableau İle Uygulamalı Veri Analizi & Veri Görselleştirme”  kursum yayımlanmıştı. Üç aylık süreçte (Haziran-Temmuz-Ağustos)  kursuma ait Tableau’da hazırladığım “Kurs Katılım İstatistiği” çalışmasını sizinle paylaşmak istiyorum.

Grafiğin üzerinde gezinebilirsiniz.

Python + Tableau (Web Kazıma -> Veri Görselleştirme) – 1

Merhaba, bu yazıda Python ve Tableau’yu kullanarak yaptığım bir çalışmadan kısaca bahsetmek istiyorum. Çalışmayı iki video şeklinde hazırladım. İlk videoda Python’ı kullanarak internet üzerinden verilerin çekilmesini, ikinci videoda ise bu verileri Tableau ile görselleştirilmesini anlatacağım. Çalışmanın akışı bu şekildedir.

İlk önce internet üzerindeki bir web sayfasından Türkiye’de meydana gelen büyük depremlerin (6 ve üzeri büyüklük) tarih verilerini çekeceğiz. Bu tarih verilerini çekme ve csv dosyasına aktarma aşamasında python’ın 3 kütüphanesi ve 1 modülünden yararlanacağım.

Bu internetten üzerinden veri çekme işlemine web kazıma (ingilizcesi web scrapping) denmektedir.

Daha sonra deprem tarihlerini içeren csv dosyasını Tableau’ya aktaracağım ve
veri görselleştirmesini Tableau’da oluşturacağım. Tableau’da üç farklı aşağıdaki bir zaman çizelgelerini (timeline) yapacağım.

Çalışmanın ilk videosu Python ile Web Kazıma (Web Scrapping) aşağıdadır.

Çalışmaya ait kodların bulunduğu jupyter notebook dosyası aşağıdadır.

[advanced_iframe src=”https://yalinanaliz.com/wp-content/uploads/2018/07/Deprem-Tarihleri-Web-Kazıma-Uygulaması-Notebook.html” width=”100%” height=”700″]

İstatistik Ders-2 : Ortalama Hesaplama

Ortalama Hesaplama

Ortalama hesaplamaya geçmeden önce hesaplama yaparken kullanacağım programdan bahsetmek istiyorum.

Jupyter Notebook

İstatistiksel hesaplama yaparken Jupyter Notebook (eski adı IPython Notebook) kullanacağım. Jupyter Notebook, açık-kaynak bir web uygulamasıdır. Bu uygulama ile içinde kod, denklemler, görseller ve metin içeren belgeler oluşturabilir ve paylaşabilirsiniz. Bu uygulamanın kullanım alanları arasında veri temizleme ve dönüştürme, sayısal simulasyon, istatistiki modelleme, veri görselleştirme, makina öğrenmesi ve daha bir çok alan vardır. Uygulamayı yüklemek isterseniz https://jupyter.org/ sitesini ziyaret edin. Excel, SPSS, R Studio veya başka bir program da kullanabilirsiniz. 

Ortalama Nasıl Hesaplanır?

Ortalama (average), bize bir veri grubunun tamamı hakkında bilgi verir.. Örneğin, bir sınıftaki öğrencilerin matematik dersinden aldıkları puanların ortalaması o sınıftaki öğrencilerin matematik dersindeki başarısı hakkında bize bilgi verir. 

İstatistikte ortalamalar (averages) merkezi eğilim ölçümleri (measures of central tendency) olarak da geçer ve üç farklı biçimde hesaplanır. Bunlar ortalama (mean), ortanca (median) ve mod (mode)’dur. Bunların her biri verilerin dağılımları hakkında farklı bir bakış açısı verir. Şimdi sırayla bunlara bakalım.

Ortalama (Mean)

Ortalama, en fazla bilinen ortalama hesaplama yöntemidir. Burada kısaca bir sayı grubundaki tüm değerler toplanır ve bir toplam değer elde edilir. Daha sonra kaç tane sayı varsa bu hesaplanır ve toplam değer, elde edilen bu sonuca bölünür. Bu yaptığımız işlem aritmetik ortalama olarak da geçer. Farklı ortalama alma yöntemleri de vardır. Bunlar geometrik ortalama, harmonik ortalama gibi. Fakat bunlar bu yazının konusu değildir. Şimdi bir örnek yapalım. Örneğin, bir önceki dersteki öğrencilerin yaşları toplamı 161’dir. Öğrenci sayısı ise 9’dur. Burada öğrencilerin yaşlarının ortalaması ise 161 / 9 = 17,8’dir. 

Ortalama almanın formülü şu şekildedir:

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}}$ \]

  • Burada X üzeri çizgi ($\overline{X}$) ortalama demektir.
  • Σ sembolü Yunan alfabesindeki Sigmadır. Toplam demektir. Kendisinden sonra gelen değerleri birlikte toplar.
  • X ise veri grubundaki tüm değerlerdir. Örneğin öğrencilerin aldığı puanlardır.
  • n ise ortalamasını almak istediğiniz grubun büyüklüğüdür. Buna istatistikte örneklem büyüklüğü denmektedir.

Şimdi bir örnek yapalım. Aşağıda, öğrencilerin aldıkları matematik dersinden aldıkları puanları gösteren bir tablo vardır. 

Öğrenci Adı Aldığı Puan
Hilal 75
Duru 80
Mehmet 70
Furkan 65

Şimdi bu puanların ortalamasını bulalım.

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}} = \frac{75 + 80 + 70 + 65}{4} = 72,5 }\]

Peki bunu Jupyter Notebook ile nasıl hesaplarım. Buna dair hesaplama aşağıdadır. 

[advanced_iframe src=”https://yalinanaliz.com/wp-content/uploads/2018/04/İstatistik-Ders2.html” width=”100%” height=”400″]

Formülüzdeki n’nin örneklem büyüklüğü olduğunu söylemiştik. Bir de N (büyük n) vardır. Bu da evren büyüklüğüdür. Buradaki evren büyüklüğünü o okuldaki matematik sınavına giren tüm öğrenci sayısı diyebiliriz. Ben burada sadece o okuldaki dört öğrenciden oluşan bir sınıfını örneklem olarak aldım. Yaptığım işlem ise bu örneklemin ortalamasını almaktır. Buna da örneklem ortalaması (sample mean) denir.

Bazı yerlerde evren (population) ifadesi kitle, anakütle  gibi farklı isimlerle geçebilir. Peki niye örneklem alıyoruz. Çünkü tüm evreni çalışmak bazı durumlarda maliyetli veya çok zor olabilir. Örneğin, Türkiye’deki seçimlerle ilgili bir çalışma yapmak istiyorsunuz. Burada evren Türkiye’deki tüm seçmen kitlesidir. Siz bu tüm seçmenlere ulaşıp tercihlerini sormanız çok zor ve maliyetlidir. Bunun yerine belirli seçmen kitlesini (buna örneklem diyoruz) seçip bunlar üzerinde çalışma yapmanız daha makuldur. Aşağıdaki şekilleri az önce verdiğim örneğe uyarlayabilirsiniz. 

Eğer tüm evreni (kitleyi) çalışıyor ve bunun ortalamasını alıyorsanız burada $\overline{X}$ yerine $\mu$ harfini kullanın. $\mu$ Yunan alfabesinden bir harftir ve mü diye okunur.

Ağırlıklıklı Ortalama

Bazı durumlarda bir değer birden fazla tekrar edebilir. Örneğin, bir sınıfta birden fazla kişi aynı puanı almış olabilir. Bu puanların ortalamasını bulmak için basit bir şekilde yan yana toplayıp kişi sayısına bölebilirsiniz ya da puanlar ve tekrar sayısından bir tablo oluşturup daha sonra bu iki değeri çarpar ve toplam frekansa bölebilirsiniz. İkinci yaptığınız işleme ağırlıklı ortalama (weighted mean) denmektedir. Aşağıda bunun bir uygulaması vardır. 

Puan Tekrar Sayısı (Frekans) Puan x Tekrar Sayısı
80 5 400
75 9 675
76 1 76
85 4 340
Toplam 19 1491

Burada ağırlıklı ortalama 1491 / 19 = 78,5’tir. Bu örnekte 80 puanını 5 kişi almıştır. 5 tane 80’i alt alta yazmaktansa tekrar sayısını yazıp hesaplamak daha kolaydır. Ağırlıklı ortalama bu şekildeydi.

Bazı durumlarda ortalama grubu tam yansıtmayabilir. Örneğin, 5 kişilik bir şirkette çalışanların maaşları 2000, 3000, 4000, 5000, 15000 şeklindedir. Bunları ortalaması 5800’dür. Buradan bu şirkette çalışanların ortalama maaşı yüksektir şeklinde bir sonuç  çıkarmanız hatalı olur.  Çünkü burada 15000 şeklinde bir uç değerimiz vardır. Bu değer ortalamayı yükseltir. Bu açıdan aritmetik ortalamalar uç değerlere karşı hassastır. Bir uç değer ortalamayı yükseltir ve yanlış yorumlara neden olur.  Bu tip gelir düzeyi ortalaması hesaplamalarında aritmetik ortalama değil ortanca (median) ortalama yöntemi kullanılır. Bir sonraki yazıda bu konudan bahsedeciğiz. Hoşçakalın.