İstatistik Ders 3 : Ortanca (Medyan)

Geçen derste aritmetik ortalama (average) ölçümünü görmüştük. Bu derste ortanca kavramı ve hesaplanmasını göreceğiz. 

Ortanca Nedir?

Ortanca (Medyan), merkezi eğilim ölçümlerinden biridir. Genelde M ile gösterilir. Ortanca, bir veri grubundaki orta değerdir. Ortanca değer, veri grubumuzu ortadan ikiye ayırır. Veri grubundaki değerlerin %50’si bu noktanın altında, diğer %50’si ise bu noktanın üstündedir.

Şimdi ortanca değerinin nasıl hesaplandığına bakalım. Ortanca değeri hesaplamak için şu adımları takip ederiz:

  1. Veri grubundaki değerleri büyükten küçüğü ya da küçükten büyüğe sıralayınız.
  2. Bu sıralamadaki orta değer, ortancadır.

Şimdi bir kaç örnek yapalım. 

Senaryo 1

Beş kişilik bir şirkette çalışan kişilerin maaşları şu şekilde olsun:

1500 TL

4300 TL

2800 TL

10000 TL

5600 TL

Bu maaşları küçükten büyüğe sıralayalım:

1500 TL

2800 TL

4300 TL

5600 TL

10000 TL

Burada beş değerimiz vardır. Bu sıralamada orta değer yani ortanca 4300 TL’dir. Bu veri grubunun ortanca değeri 4300 TL’dir. 

Dikkat ederseniz 4300 TL veri grubumuzda tam ortasındaki noktadır. Veri grubundaki değerlerin, ortanca değer olan 4300 TL dahil edilmeden %50’si (10000 TL, 5600 TL) bu değerin üzerinde, diğer %50’si (1500 TL, 2800 TL) ise bu noktanın altındadır. 


Senaryo 2

Burada 5 değerimiz vardır. Bu tek sayı olduğundan ortanca değeri kolay bir şekilde hesapladık. Peki 6 değerimiz olsaydı ortanca değerimiz ne olacaktı? Şimdi şirketimize 1 kişi daha alındığını varsayalım ve bu kişinin de maaşı 3700 TL olsun. Yeni sıralamamız şu şekilde olacak:

1500 TL

2800 TL

3700 TL

4300 TL

5600 TL

10000 TL

Eğer çift sayıda değerimiz varsa, yani n tane değerden oluşan bir veri grubumuzda n çift sayı ise ortanca değerimizi farklı bir şekilde hesaplarız. Burada ortadaki iki değerin ortalaması alınarak ortanca değeri buluruz. Çünkü veri grubumuzu tam orta nokta yok. Yani, veri grubumuzu tam ikiye bölen bir değer yok. Veri grubumuzda ortadaki 3 ve 4 nolu maaşların ortalamasını alarak ortanca değeri hesaplarız.

Burada ortanca değerimiz 4000 TL’nin yukarısındaki değerler veri grubumuzun %50’sini, 4000 TL’nin aşağısındaki değerler ise veri grubumuzun %50’sini oluşturmaktadır. 


Senaryo 3

Şimdi de farklı bir senaryo olsun. Patron, 3700 TL maaş alan kişinin maaşını 4300 TL yaptığını açıkladı. Yeni veri grubumuz ve küçükten büyüğe sıralaması şu şekildedir:

1500 TL

2800 TL

4300 TL

4300 TL

5600 TL

10000 TL

Burada ortanca değerimiz 4300 TL’dir. Eleman sayısı (n)’nin çift ve ortadaki iki değer aynı ise ortanca değeri de aynı değer olur. Burada veri grubundaki değerlerin %50’si ortanca değerin üstünde, %50’si ortanca değerin altındadır.


Senaryo 4

Yukarıdaki örneklerde ortanca değerin yerini rahat bir şekilde görebiliyorduk. Peki veri grubumuz  daha fazla elemanda oluşsaydı? Bunu yeni bir örnekle açıklayalım. Bir kurstaki öğrencilerin yaşları şu şekilde olsun:

19, 20, 21, 21, 22, 24, 26, 26, 26, 23, 22, 18, 29, 28, 27, 30

Buradaki orta noktanın indeks değerini, yani kaçıncı sırada olduğunu şu formül ile buluruz.

Şimdi yaşları küçükten büyüğe sıralayalım. 

18, 19, 20, 21, 21, 22, 22, 23, 24, 26, 26, 26, 27, 28, 29, 30

Burada n = 16’dır. 16 yaş değeri var. Ortanca değerin bulunduğu indeksi şu şekilde hesaplarız.

(16 + 1) / 2 = 17 / 2 = 8.5

8.5’uncu indeks diye bir şey yoktur. 8.5 demek; ortanca değer, 8 ve 9. sıradaki sayıların arasında yer alıyor demektir. Burada 8 ve 9. sıradaki sayıların ortalamasını alırız. 8. sıradaki yaş 23; 9. sıradaki yaş ise 24’tür. Bu iki sayının ortalaması 23.5’tur. Yani ortanca değerimizi 23.5’tur. 


Ortanca Değer Ne İşe Yarar?

Ortanca değer, ortalama gelir veya maaş  hesaplamalarında, aritmetik ortalamaya göre daha doğru sonuç verebilir.

Senaryo 5

Şimdi senaryo 1’deki veri grubumuza 30000 TL maaş alan birini ekleyelim. Yeni veri grubumuz küçükten büyüğe sıralaması şu şekilde olacaktır.

1500 TL

2800 TL

4300 TL

5600 TL

10000 TL

30000 TL

Sizden bu şirkette ortalama maaş ne kadar diye hesaplama yapmanız istenirse hangi yöntemi kullanırsınız? Muhtemelen aritmetik ortalama alma ile hesaplamaya başlardınız. Şimdi bu veri grubunun aritmetik ortalamasını alalım.

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}} = \frac{1500 + 2800 + 4300 + 5600 + 10000 + 30000}{6} = 9033 }\]

Burada ortalama 9033 TL çıktı. Sizce bu şirkette çalışanların ortalama maaşı 9033 TL midir? Tabii ki hayır. Bu değer merkezi değil ve veri grubumuzun dağılımını temsil etmiyor. Aritmetik ortalama, uç değerlere karşı hassastır. Yani, veri grubumuzda uç bir değer varsa (30000 TL) aritmetik ortalama almak bizi hataya düşürür. 

Bu veri grubunda ortanca değeri hesaplamak, veri grubunun merkezi eğilimini daha doğru gösterir. Ortanca değer, uç değerlere karşı hassas değildir. Uç değerlerden hemen hemen hiç etkilenmezler.

Bu veri grubunda ortanca değer 4950’dir. Gördüğünüz gibi veri grubumuza da baktığımızda 4950’nin veri grubunun ortalamasını daha iyi yansıttığını söyleyebiliriz.

Yukarıdaki nedenlerden dolayı çoğu geliri içeren belirli sosyal ve ekonomik göstergelerde ortanca değer kullanılır. Örneğin, Türkiye İstatistik Kurumu’nun Adrese Dayalı Nüfus Kayıt Sistemi Sonuçları, 2017 çalışmasında Türkiye’deki vatandaşların yaş ortalaması analizinde aritmetik ortalamaya göre değil ortancaya göre merkezi eğilim ölçümü yapılmıştır. 

Türkiye nüfusunun ortanca yaşı yükseldi
Ülkemizde 2016 yılında 31,4 olan ortanca yaş, 2017 yılında önceki yıla göre artış göstererek 31,7 oldu. Ortanca yaş erkeklerde 31,1 iken, kadınlarda 32,4 olarak gerçekleşti. Ortanca yaşın en yüksek olduğu iller sırasıyla; 39,7 ile Sinop, 39,4 ile Balıkesir ve 38,9 ile Kastamonu ve Edirne oldu.  Ortanca yaşın en düşük olduğu iller ise sırasıyla; 19,6 ile Şanlıurfa, 20,1 ile Şırnak ve 20,9 ile Ağrı oldu

Ortanca kavramı ve hesaplama yöntemi bu şekildeydi. Bir sonraki derste merkezi eğilim ölçümlerinin sonuncusu olan tepe değeri (mode) kavramını göreceğiz. Hoşçakalın.

Deneyin

Aşağıda excel’de hazırlanmış basit ortalama ve ortanca alma çalışma sayfası vardır. Burada Maaş sütunun altına yeni değerler ekleyin ve ortalama ve ortanca nasıl değiştiğini gözlemleyin. Burada uç değerler de kullanın. Çalışma sayfasının gözükmesi için sayfayı yukarı aşağı veya sağa sola kaydırabilirsiniz. Maaş sütununa en fazla 5 sayı ekleyebilirsiniz. Yani maaş sütunumuz en fazla 10 değere sahip olabilir.

Python Notebook Kodları

Python notebook’ta ortanca hesaplamasını pandas kütüphanesindeki median() metodunu kullanarak yapabiliriz.

[advanced_iframe src=”https://yalinanaliz.com/wp-content/uploads/2018/09/İstatistik-Ders-3-Ortanca-1.html” width=”600″ height=”400″]

İstatistik Ders-2 : Ortalama Hesaplama

Ortalama Hesaplama

Ortalama hesaplamaya geçmeden önce hesaplama yaparken kullanacağım programdan bahsetmek istiyorum.

Jupyter Notebook

İstatistiksel hesaplama yaparken Jupyter Notebook (eski adı IPython Notebook) kullanacağım. Jupyter Notebook, açık-kaynak bir web uygulamasıdır. Bu uygulama ile içinde kod, denklemler, görseller ve metin içeren belgeler oluşturabilir ve paylaşabilirsiniz. Bu uygulamanın kullanım alanları arasında veri temizleme ve dönüştürme, sayısal simulasyon, istatistiki modelleme, veri görselleştirme, makina öğrenmesi ve daha bir çok alan vardır. Uygulamayı yüklemek isterseniz https://jupyter.org/ sitesini ziyaret edin. Excel, SPSS, R Studio veya başka bir program da kullanabilirsiniz. 

Ortalama Nasıl Hesaplanır?

Ortalama (average), bize bir veri grubunun tamamı hakkında bilgi verir.. Örneğin, bir sınıftaki öğrencilerin matematik dersinden aldıkları puanların ortalaması o sınıftaki öğrencilerin matematik dersindeki başarısı hakkında bize bilgi verir. 

İstatistikte ortalamalar (averages) merkezi eğilim ölçümleri (measures of central tendency) olarak da geçer ve üç farklı biçimde hesaplanır. Bunlar ortalama (mean), ortanca (median) ve mod (mode)’dur. Bunların her biri verilerin dağılımları hakkında farklı bir bakış açısı verir. Şimdi sırayla bunlara bakalım.

Ortalama (Mean)

Ortalama, en fazla bilinen ortalama hesaplama yöntemidir. Burada kısaca bir sayı grubundaki tüm değerler toplanır ve bir toplam değer elde edilir. Daha sonra kaç tane sayı varsa bu hesaplanır ve toplam değer, elde edilen bu sonuca bölünür. Bu yaptığımız işlem aritmetik ortalama olarak da geçer. Farklı ortalama alma yöntemleri de vardır. Bunlar geometrik ortalama, harmonik ortalama gibi. Fakat bunlar bu yazının konusu değildir. Şimdi bir örnek yapalım. Örneğin, bir önceki dersteki öğrencilerin yaşları toplamı 161’dir. Öğrenci sayısı ise 9’dur. Burada öğrencilerin yaşlarının ortalaması ise 161 / 9 = 17,8’dir. 

Ortalama almanın formülü şu şekildedir:

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}}$ \]

  • Burada X üzeri çizgi ($\overline{X}$) ortalama demektir.
  • Σ sembolü Yunan alfabesindeki Sigmadır. Toplam demektir. Kendisinden sonra gelen değerleri birlikte toplar.
  • X ise veri grubundaki tüm değerlerdir. Örneğin öğrencilerin aldığı puanlardır.
  • n ise ortalamasını almak istediğiniz grubun büyüklüğüdür. Buna istatistikte örneklem büyüklüğü denmektedir.

Şimdi bir örnek yapalım. Aşağıda, öğrencilerin aldıkları matematik dersinden aldıkları puanları gösteren bir tablo vardır. 

Öğrenci Adı Aldığı Puan
Hilal 75
Duru 80
Mehmet 70
Furkan 65

Şimdi bu puanların ortalamasını bulalım.

[latexpage]\[\overline{X} = \frac{\Sigma{X}}{n}} = \frac{75 + 80 + 70 + 65}{4} = 72,5 }\]

Peki bunu Jupyter Notebook ile nasıl hesaplarım. Buna dair hesaplama aşağıdadır. 

[advanced_iframe src=”https://yalinanaliz.com/wp-content/uploads/2018/04/İstatistik-Ders2.html” width=”100%” height=”400″]

Formülüzdeki n’nin örneklem büyüklüğü olduğunu söylemiştik. Bir de N (büyük n) vardır. Bu da evren büyüklüğüdür. Buradaki evren büyüklüğünü o okuldaki matematik sınavına giren tüm öğrenci sayısı diyebiliriz. Ben burada sadece o okuldaki dört öğrenciden oluşan bir sınıfını örneklem olarak aldım. Yaptığım işlem ise bu örneklemin ortalamasını almaktır. Buna da örneklem ortalaması (sample mean) denir.

Bazı yerlerde evren (population) ifadesi kitle, anakütle  gibi farklı isimlerle geçebilir. Peki niye örneklem alıyoruz. Çünkü tüm evreni çalışmak bazı durumlarda maliyetli veya çok zor olabilir. Örneğin, Türkiye’deki seçimlerle ilgili bir çalışma yapmak istiyorsunuz. Burada evren Türkiye’deki tüm seçmen kitlesidir. Siz bu tüm seçmenlere ulaşıp tercihlerini sormanız çok zor ve maliyetlidir. Bunun yerine belirli seçmen kitlesini (buna örneklem diyoruz) seçip bunlar üzerinde çalışma yapmanız daha makuldur. Aşağıdaki şekilleri az önce verdiğim örneğe uyarlayabilirsiniz. 

Eğer tüm evreni (kitleyi) çalışıyor ve bunun ortalamasını alıyorsanız burada $\overline{X}$ yerine $\mu$ harfini kullanın. $\mu$ Yunan alfabesinden bir harftir ve mü diye okunur.

Ağırlıklıklı Ortalama

Bazı durumlarda bir değer birden fazla tekrar edebilir. Örneğin, bir sınıfta birden fazla kişi aynı puanı almış olabilir. Bu puanların ortalamasını bulmak için basit bir şekilde yan yana toplayıp kişi sayısına bölebilirsiniz ya da puanlar ve tekrar sayısından bir tablo oluşturup daha sonra bu iki değeri çarpar ve toplam frekansa bölebilirsiniz. İkinci yaptığınız işleme ağırlıklı ortalama (weighted mean) denmektedir. Aşağıda bunun bir uygulaması vardır. 

Puan Tekrar Sayısı (Frekans) Puan x Tekrar Sayısı
80 5 400
75 9 675
76 1 76
85 4 340
Toplam 19 1491

Burada ağırlıklı ortalama 1491 / 19 = 78,5’tir. Bu örnekte 80 puanını 5 kişi almıştır. 5 tane 80’i alt alta yazmaktansa tekrar sayısını yazıp hesaplamak daha kolaydır. Ağırlıklı ortalama bu şekildeydi.

Bazı durumlarda ortalama grubu tam yansıtmayabilir. Örneğin, 5 kişilik bir şirkette çalışanların maaşları 2000, 3000, 4000, 5000, 15000 şeklindedir. Bunları ortalaması 5800’dür. Buradan bu şirkette çalışanların ortalama maaşı yüksektir şeklinde bir sonuç  çıkarmanız hatalı olur.  Çünkü burada 15000 şeklinde bir uç değerimiz vardır. Bu değer ortalamayı yükseltir. Bu açıdan aritmetik ortalamalar uç değerlere karşı hassastır. Bir uç değer ortalamayı yükseltir ve yanlış yorumlara neden olur.  Bu tip gelir düzeyi ortalaması hesaplamalarında aritmetik ortalama değil ortanca (median) ortalama yöntemi kullanılır. Bir sonraki yazıda bu konudan bahsedeciğiz. Hoşçakalın.

 

İstatistik Ders-1 : Giriş

Giriş

İstatistik eğitim serisine başlamış bulunmaktayız. İstatistik birçok alanda kullanılan bir bilimdir. Eğer bir veriniz varsa ve bu veriyi analiz etmek istiyorsanız istatistik bilmeniz önemlidir. Ben de bu eğitim serisinde bu ihtiyacınızı karşılayacak temel istatistik bilgisini vermek istiyorum. Şimdi istatistikin tanımıyla başlayalım. İstatiskin tanımını şu şekilde yapabiliriz:

İstatistik, verinin ya da bilginin tanımlanması, düzenlenmesi ve yorumlanması için gerekli araçları ve yöntemleri tarif eden bir bilimdir.

Bu tanımda geçen veri, bir öğrencilerin bir dersten aldığı notlar, bir restorandaki ortalama yemek fiyatı, ortalama günde bir köprüden geçen araba sayısı olabilir. Bu veri toplandıktan sonra , düzenlenir, özetlenir ve yorumlanır. İşte bu eğitim serisinde ilk olarak verinin nasıl toplanacağını, düzenleneceğini ve özetleneceğini öğreneceğiz. Bu tanımlayıcı istatistik (descriptive statistics) olarak geçmektedir. Daha sonra verimizi yorumlamayı öğreneceğiz. Bu da çıkarımsal istatistik (inferential statistics) olarak geçmektedir. Şimdi bu iki kavramı biraz açalım.

Tanımlayıcı İstatistik Nedir?

Tanımlayıcı istatistik, bir veri setini düzenler ve veri setinin özelliğini tarif eder.  Örneğin aşağıdaki tablo A lisesindeki son sınıftan (B sınıfı) 9 öğrencinin ismini, kazandığı üniversite bölümünü ve yaşını göstermektedir. Bu sınıfta en çok hangi bölüm kazanılmış diye sorarsak, bunu cevaplamak için tanımlayıcı istatistikten yararlanabilirsiniz. Burada öğrencilerin kazandığı bölümlerden en fazla hangisi tekrar ediyor. Burada cevap psikolojidir. Çünkü 3 kez tekrar ediyor. Buna istatistik de mod (mode) denir. Eğer ortalama yaşı merak ediyorsanız bunun için yine tanımlayıcı istatistike başvururuz. Yaş sütunundaki değerleri toplar ve öğrenci sayısına böleriz. Cevap 17,8’dir. Kısaca ortalama (average) aldık.  Tanımlayıcı istatistik işte budur. Burada kısaca öğrenci verilerini topladık, sonra tablo haline getirerek düzenledik. Son olarak da ortalama ve mod alarak bazı açılardan özetledik.  Fakat yorumlamadık. Bu yorumlama konusu çıkarımsal istatistike girmektedir. Şimdi bundan bahsedelim.

İsim Bölüm Yaş
Bahadır Bilgisayar Mühendisliği 17
Selin Psikoloji 18
Cumali Astronomi ve Uzay Bilimleri 19
Arzu Okul Öncesi Öğretmenliği 18
Birsen Psikoloji 18
Hakan Halkla İlişkiler 17
Murat Psikoloji 18
 Burak Bilgisayar Mühendisliği  18
 Duru Okul Öncesi Öğretmenliği  18

 

Çıkarımsal İstatistik

Çıkarımsal istatistik çoğu zaman tanımlayıcı istatistikten sonra gelen bir adımdır. Verilerinizi topladınız ve özetlediniz. Bundan sonra bu özet veri hakkında yorumlama ve çıkarımlar yapmaya başlayabilirsiniz. Çıkarımsal istatistik daha küçük bir veri setini kullanarak daha büyük veri setleri hakkında çıkarımlar yapmak için kullanılır. Yukarıdaki örnekten gidersek bir lisedeki 9 kişilik sınıftan öğrencilerin gittiği bölümlerden (küçük veri seti), o lisedeki öğrencilerin gitmiş olabileceği bölümler (daha büyük veri seti) hakkında çıkarım yapmak çıkarımsal istatistike girer.

Buradaki daha küçük gruba (9 kişi) ya da kümeye örneklem (sample) deriz. Bir örneklem, bir evrenin (population) parçası ya da alt kümesi olarak ifade edilir. Örneğin, burada örneklem dokuz kişilik sınıf, evren ise bu lisenin son sınıfına giden öğrencilerdir. 

Basit anlamda çıkarımsal istatistik bu şekildeydi. İstatistik verinize değer katar. Bir sonraki yazıda (derste) tanımlayıcı istatistikteki araç ve yöntemleri görmeye başlayacağız. İlk olarak ortalama hesaplamayı göreceğiz. Hoşçakalın.