Veri Madenciliği için Sektörler Arası Standart Süreç (CRISP-DM)

Veri Madenciliği için Sektörler Arası Standart Süreç (Cross Industry Standard Process for Data Mining (CRISP-DM) ), bir problemi tanımlama ve analiz etmeye yönelik ortak yaklaşımları genelleştirmek için veri madencileri tarafından geliştirilmiştir. Kısaca "Problem Çözme Çerçevesi" olarak da ifade edilebilir.

Problem Çözme Çerçevesi 6 aşamadan oluşmaktadır.

İş Sorununu Anlama ( Business Issue Understanding)
Veriyi Anlama (Data Understanding)
Veriyi Hazırlama (Data Preparation)
Analiz / Modelleme (Analysis/Modeling)
Doğrulama (Validation)
Sunum / Görselleştirme (Presentation/Visualization)

Veri Madenciliği için Sektörler Arası Standart Süreç

1-İş Sorununu Anlama ( Business Issue Understanding)

Bu ilk aşama, proje hedeflerini ve gereksinimlerini bir iş perspektifinden anlamaya ve ardından bu bilgiyi bir veri madenciliği problem tanımına ve hedeflere ulaşmak için tasarlanmış bir ön plana dönüştürmeye odaklanır. Bu plan temel olarak problemi anlar ve çözüm için veri arasında bir bağlam ilişki kurmaya yönelik akıl yürütür.

Hangi kararların alınması gerekiyor?

Bu kararları almak için hangi bilgilere ihtiyaç var?

Bu kararları almak için gereken bilgileri ne tür bir analiz sağlayabilir?

2-Veriyi Anlama (Data Understanding)

Verileri anlama aşaması, ilk veri toplama ile başlar ve verilere aşina olmak, veri kalitesi sorunlarını belirlemek, verilerle ilgili ilk içgörüleri keşfetmek veya hipotezler oluşturmak amacıyla alt kümeleri tespit etmeye yönelik faaliyetlerden oluşur.

Hangi verilere ihtiyaç var?

Hangi veriler mevcut?

Verilerin önemli özellikleri nelerdir?

3-Veriyi Hazırlama (Data Preparation)

Veri hazırlama aşaması, ilk ham verilerden nihai veri setini (modelleme araçlarına besleyecek veriler) oluşturmak için tüm faaliyetleri kapsar. Veri hazırlama görevleri, önceden belirlenmiş herhangi bir sırayla değil, muhtemelen birden çok kez gerçekleştirilecektir. Görevler arasında tablo, kayıt ve öznitelik seçimi ile modelleme araçları için verilerin dönüştürülmesi ve temizlenmesi yer alır.

Veri Hazırlama Aşamasında Genelde Kullanılan Aşamalar

Toplama (Gathering): Veri toplarken, kuruluşunuzdaki birden çok kaynaktan veri toplamanız gerekebilir. (Bir uçaktaki sensörler üzerinden toplanan veri, hava durumu verisi vb.)

Temizleme (Cleansing) : Çalışılacak veri setinin analiz edilmeden önce üzerindeki sorunların çözülmesi. Eksik veya yanlış verilerin temizlenmesi, düzeltilmesi (Ortalamayı bozacak boş verilerin çıkarılması, veri giren personelin yaptığı harf hatasının düzeltilmesi)

Biçimlendirme (Formatting) : Veri tipleri, tablodaki yerleri, kolon adlarının değiştirilmesi gibi faaliyetlerdir. (String veri tipinde olan bir maaş tutarının numeric hale çevrilmesi gibi)

Blending (Karıştırma): Diğer veri kümeleri, tablolar ile verilerin birleştirilmesi karıştırılması, zenginleştirilmesidir. (SQL'deki join fonksiyonları gibi)

Sampling (Örnekleme) : Veri kümesini örneklemek ve daha yönetilebilir sayıda kayıtla çalışmak.

4-Analiz / Modelleme (Analysis/Modeling)

Bu aşamada, çeşitli modelleme teknikleri seçilir ve uygulanır ve parametreleri optimum değerlere ayarlanır.

Tipik olarak, aynı veri madenciliği problem türü için birkaç teknik vardır. Bazı tekniklerin veri formuna ilişkin özel gereksinimleri vardır. Bu nedenle, veri hazırlama aşamasına geri dönmek genellikle gereklidir.

Önemli Adımlar

Sorunu çözmek için hangi metodolojinin kullanılacağını belirleyin
Sorunun çözülmesine yardımcı olacak önemli faktörleri veya değişkenleri belirleyin
Sorunu çözmek için bir model oluşturun
Modeli çalıştırın ve doğrulama aşamasına geçin

5-Doğrulama (Validation)

Bir önceki aşamada veri analizi perspektifinden, yüksek kalitede görünen bir model oluşturdunuz. Modelin nihai dağıtımına geçmeden önce, modeli daha kapsamlı bir şekilde değerlendirmek ve iş hedeflerine uygun şekilde ulaştığından emin olmak için modeli oluşturmak için yürütülen adımları gözden geçirmek önemlidir. Temel amaçlardan biri, yeterince dikkate alınmamış bazı önemli ticari meselelerin olup olmadığını belirlemektir. Bu aşamanın sonunda, veri madenciliği sonuçlarının kullanımına ilişkin bir karara varılmalıdır.

Önemli Adımlar

Model üzerindeki temel sonuçları gözlemleyin
Sonuçların iş probleminin içeriği dahilinde anlamlı olmasını sağlayın
Bir sonraki adıma mı geçeceğinizi yoksa önceki bir aşamaya mı döneceğinizi belirleyin
Gerektiği kadar tekrarlayın

6-Sunum / Görselleştirme (Presentation/Visualization)

Modelin oluşturulması genellikle projenin sonu değildir. Modelin amacı verilere ilişkin bilgiyi artırmak olsa bile, kazanılan bilginin müşteriye yararlı olacak şekilde organize edilmesi ve sunulması gerekecektir. Gereksinimlere bağlı olarak, dağıtım aşaması, bir rapor oluşturmak kadar basit veya tekrarlanabilir bir veri puanlaması veya veri madenciliği süreci uygulamak kadar karmaşık olabilir. Çoğu durumda dağıtım adımlarını gerçekleştirecek kişi veri analisti değil müşteri olacaktır. Analist modeli devreye soksa bile, müşterinin oluşturulan modellerden fiilen yararlanmak için gerçekleştirilmesi gereken eylemleri önceden anlaması önemlidir.

Önemli Adımlar

Analize uygun içgörü sunmanın en iyi yöntemini belirleyin
İzleyicilere/hedef kitleye uygun içgörü sunmanın en iyi yöntemini belirleyin
Paylaşılan bilgi miktarının bunaltıcı olmadığından emin olun
Sonuçları kullanarak izleyicilere bir hikaye anlatın
Daha karmaşık analizler için, analitik problem çözme sürecinde izleyiciye yol göstermek isteyebilirsiniz.
Daima kullanılan veri kaynaklarına referans verin
Analizinizin alınması gereken kararları desteklediğinden emin olun

Metodoloji Haritası

Metodoloji haritası, belirli bir iş sorununu çözmek için uygun analitik teknik (ler) i belirlemeye yönelik bir kılavuzdur. Analitik Problem Çözme çerçevesi, bir iş problemi üzerinde sistematik olarak çalışmaya yardımcı olur; ancak hangi metodolojiyi kullanacağımızı probleme ve eldeki veriye göre biz karar veririz.

Harita, bir iş problemi için iki ana senaryoyu özetlemektedir:

1-Veri analizi

2-Tahmine dayalı analiz

Veri analizi, verileri bir araya getirme, trendler ve istatistikler hakkında raporlama gibi daha standart yaklaşımları ifade eder "Ortalama olarak, cafede haftada kaç kişi kahvenin yanında tatlı yiyor " gibi... Tahmine dayalı olmayan analizdir.

Tahmine dayalı olmayan veri analizi dört kategoriye ayrılır.

Jeo-uzamsal (Geospatial Analysis)

Bu tür analizler, sonuçlarınıza ulaşmanıza yardımcı olmak için konuma dayalı verileri kullanır. Örneğin müşterileri bir coğrafi bölgeye göre tanımlamayı, uzaktaki mağaza konumlarını hesaplamayı, bir hastanenin çevresinde yaşayan hasta sayısını hesaplamayı veya müşteri konumlarına göre bir ticaret alanı oluşturmayı içerir.

Segmentasyon (Segmentation Analysis)

Segmentasyon türkçeye de geçmiş bir kelimedir, verileri birlikte gruplama segmentlere ayırma işlemidir. Gruplar, farklı ürünler satın almış müşteriler kadar basit, müşterilerinin demografik özelliklerine göre benzer mağazaları tanımladığımız segmentasyon teknikleri kadar da kompleks olabilir.

Toplama (Aggregation Analysis)

Bu metodoloji, basitçe bir grup veya boyut üzerinden veri analizi için bir değer hesaplamak anlamına gelir. Örneğin, bir satış görevlisinin satış verilerini aya göre, her ay için kapatılan tüm satışları ekleyerek toplamak isteyebilirsiniz. Ardından, farklı satış bölgesi başına aylık satışlar gibi boyutlar arasında toplama, gruplama yapmak isteyebilirsiniz. Bu örnekteki bilgiler yöneticilerin karar vermesine ve performans görüntülemesine yardımcı olmak için raporlama da kullanılabilir.

Tanımlayıcı (Descriptive Analysis)

Tanımlayıcı istatistikler, bir veri örneğinin basit özetlerini sağlar. Örnekler, bir okula başvuranlar için ortalama not ortalamasını hesaplamak veya profesyonel bir beyzbol oyuncusunun vuruş ortalamasını hesaplamak olabilir. Elektrik tedarik senaryosunda saatlik, günlük veya tarih başına ortalama sıcaklığı hesaplamak için açıklayıcı istatistikler kullanabiliriz. Yaygın olarak kullanılan tanımlayıcı istatistiklerden bazıları Ortalama, Medyan, Mod, Standart Sapma ve Çeyrekler arası aralıktır (Interquartile range).

Tahmine Dayalı Analiz

Tahmine dayalı analiz işletmelerin "Ortalama kahve siparişi göz önüne alındığında, yeni bir kahve markası eklersem gelecek hafta ne kadar kahve satmayı bekleyebilirim?" gibi mevcut verilere dayalı olarak gelecekteki davranışları tahmin etmelerine yardımcı olacak içgörüler sağlar. Örneğin, bir şirket, talebi veya bir müşterinin bir reklam kampanyasına yanıt verip vermeyeceğini tahmin etmek için tahmine dayalı analitiği kullanabilir.

Zengin Veri ve Zayıf Veri

Tahmin etmeye çalıştığınız şey hakkında verileriniz var mı? Eğer öyleyse, zengin veri yolunda ilerleyebilirsiniz, aksi takdirde, veri yetersiz yolu tek seçeneğinizdir.

A / B Testleri

Sorunu çözmek için yeterli kullanılabilir veri yoksa, ihtiyacımız olan verileri elde etmemize yardımcı olacak bir deney oluşturmamız gerekir. İşletme bağlamındaki bir deney, genellikle A / B Testi olarak adlandırılır.

Büyük bir banka, tüm banka şubelerinde çalışma saatlerini değiştirmeyi planlamaktadır. Değişikliği tüm şubelerine yaymadan önce çalışma saatlerini değiştirmenin etkisini tahmin etmek için veriye dayalı bir yol kullanmak istiyorlar. Banka, banka şubelerinin farklı çalışma saatlerinde nasıl performans gösterdiğine dair herhangi bir veriye sahip olmadığından, değişikliğin yayılmasının etkisini tahmin etmek için bir A / B testi çalıştırması gerekecektir.

Sayısal ve Sayısal Olmayan Tahmine Dayalı Analiz

Analize devam etmek için zengin veriye sahip olduğumuzu varsayarsak, bir sonraki kararımız tahmin etmeye çalıştığımız sonuca bakmak ve bunun sayısal bir sonuç mu yoksa sayısal olmayan bir sonuç mu olduğunu belirlemektir.

Regresyon Modelleri

Sayısal sonuçlar, sonucun sadece bir sayı olduğu sonuçlardır. Elektrik talebini veya saatlik sıcaklığı tahmin etmek sayısal sonuçlardır. Sayısal verileri tahmin eden modellere regresyon modelleri denir.

Sınıflandırma Modelleri

Sayısal olmayan sonuçlar, bir müşterinin zamanında ödeme mi, geç ödeme mi yoksa bir ödeme için temerrüde düşme gibi bir davanın (ör. Müşteri) düştüğü kategoriyi tahmin etmeye çalıştığımız sonuçlardır. Diğer bir örnek, elektronik bir cihazın 1000 saatten önce arızalanmasıdır. Sayısal olmayan verileri tahmin eden modellere sınıflandırma modelleri denir.

Örnek Vakalar

Bisiklet Üreticisi Üretim Departmanı

Bir üreticinin beklenen talebi karşılamak için önümüzdeki altı ay içinde kaç bisiklet üretmesi gerektiğini bilmek için geçmiş üretim verilerini kullanmak istediğini hayal edelim. Üreticinin tahmin etmek istediği sonuç bir sayı olduğu için hedef değişken sayısaldır. Bu nedenle, bu sorunu çözmek için sayısal veya regresyon modeli kullanılır.

Hot & Fresh Pizza'nın Pazarlama Departmanı

Hot & Fresh Pizza, yeni mağazalarında kaç pizza satacaklarını tahmin etmek için mevcut mağazalarından alınan satış verilerini ve bu mağazalarla ilgili demografik verileri kullanmak istiyor. Hot & Fresh Pizza'nın tahmin etmeye çalıştığı sonuç pizza sayısı olduğundan, hedef değişken sayısaldır ve bu sorunu çözmek için sayısal veya regresyon modeli kullanırlar.

Bir Bankada Risk Yönetimi Bölümü

Bir banka, yeni bir müşterinin bir krediyi temerrüde düşüreceğini, her zaman zamanında ödeme yapıp yapmayacağını veya bazen ödeme yapıp yapmayacağını tahmin etmek için müşterilerinin geçmiş verilerini kullanmak istiyor. Bankanın tahmin etmeye çalıştığı sonuç, yeni müşterinin içine gireceği bir kategori olduğundan, bu sorunu çözmek için sayısal olmayan veya sınıflandırma modeli kullanırlar.

Numeric/Sayısal Modeller

Hedef değişkenler, tahmin etmeye çalıştığımız sonucu temsil eder. Doğru tahmin modelini seçmek için, önce hedef değişkenin sayısal olup olmadığını belirleriz. Sayısal veya sayısal olmayan hedef değişkenlerin türü, hangi modelin uygun olduğunu seçmemize yardımcı olacaktır. Sayısal değişkenlerle başlayalım.

Sayısal Değişken Türleri En yaygın üç sayısal değişken türü,

Devamlı, aralıksız (continuous)

Sürekli değişken, bir aralıktaki tüm değerleri alabilen değişkendir. Örneğin, boyunuz birçok ondalık basamağa kadar ölçülebilir. Hatta 1 cm 1 cm büyümeyiz.

Bir arkadaşınız, nişanlısına vermek üzere iyi bir elmas arıyor. Büyük bir elmas veri kümesinden her bir elmasın fiziksel özelliklerine göre fiyatının ne olması gerektiğini tahmin etmek istiyor. Sürekli bir sayısal değişken olan fiyat, tahmin edilmesi gereken değişkendir.

Zamana dayalı (time-based)

Zamana dayalı sayısal değişken, zaman içinde ne olacağını tahmin etmeye çalıştığınız yerdir. Bu genellikle tahminle ilgilidir.

Video oyunları yaratan ve satan bir şirket, arzı taleple senkronize etmek, rekabetçi bir altyapı oluşturmaya ve şirket performansını ölçmeye yardımcı olacak karar almaya yardımcı olmak için aylık satış verilerini tahmin etmek istiyor. Şirket geleceğe yönelik birkaç dönem öngördüğünden, bu problem bir zaman serisi modelini gerektirir.

Sayma, hesap (count)

Sayma değişkenleri, ayrı, pozitif tam sayılar olan sayılardır. Sayabileceğiniz değişkenleri analiz etmek için kullanıldığından bunlara sayma sayıları denir. Bu tür değişkenleri modellemek iş dünyasında pek yaygın değildir.

Sayısal Olmayan Değişkenler

Sayısal olmayan bir değişken genellikle kategorik olarak adlandırılır, çünkü değişkenin değerleri farklı sayıda olası değer veya kategori alır. Örnekler arasında bir elektronik cihazın 1000 saatten önce arızalanması; bir müşterinin zamanında mı ödeyeceği, gecikmeli mi yoksa bir ödemede temerrüde mi düşeceği veya bir mağazanın büyük, orta veya küçük olarak sınıflandırılıp sınıflandırılmayacağı.

Sınıflandırma Modelleri

İkili ve İkili olmayan kategorik değişkenleri modellerken, olası sonuçların sayısı önemli bir faktördür. Evet / Hayır veya Doğru / Yanlış gibi yalnızca iki olası kategorik sonuç varsa, değişken İkili(binary) olarak tanımlanabilir.

Küçük, orta veya büyük gibi ikiden fazla olası kategorik sonuç varsa veya zamanında ödeme, geç ödeme veya bir ödeme için temerrüt, bu durumda değişken ikili olmayan olarak tanımlanabilir.

Bir üretici, geçmiş üretim verilerini kullanarak önümüzdeki altı ay boyunca her ay kaç üç tekerlekli bisiklet üretmesi gerektiğini bilmek istiyor. Hedeflenen sonuç, üç tekerlekli bisikletlerin sayısıdır. Bu nedenle, bu problem için sayısal bir model kullanmalıyız. Zaman içindeki üç tekerlekli bisiklet sayısını tahmin etmeye çalıştığımız için, zamana dayalı ( Time-based Numeric )bir model kullanmalıyız.

Hot & Fresh Pizza, mağazalarından alınan satış verilerini ve bu mağazalarla ilgili demografik verileri kullanarak, yeni mağaza konumunda kaç pizza satacağını tahmin etmek istiyor. Hedeflenen sonuç pizza sayısıdır. Bu nedenle, bu problem için sayısal bir model kullanmalıyız. Pizza sayısı sürekli bir değişken olduğundan ve zamanla ilgili olmadığından, sürekli ( Continuous Numeric ) bir model kullanmalıyız.

Bir banka, yeni bir müşterinin bir krediyi temerrüde düşüreceğini, her zaman zamanında ödeme yapıp yapmayacağını veya bazen müşterilerinin geçmiş verilerini kullanarak ödeme yapıp yapmayacağını tahmin etmek ister. Üç olası hedef sonuç vardır - zamanında ödeme, bazen ödeme veya varsayılan. Bu nedenle, bu kategorik bir sonuçtur ve bir Sınıflandırma Modeli kullanmalıyız. Üç olası kategorik sonuç olduğundan, sonucu tahmin etmek için İkili Olmayan (İkili Olmayan Sınıflandırma) bir model kullanmalıyız.

Bir pazarlama kuruluşu, bir kişinin bir kuponu kullanıp kullanmayacağını tahmin etmek ister, çünkü maliyetleri en aza indirmek ve kuponları yalnızca bunları kullanma olasılığı olan kişilere göndermek ister. İki olası hedef sonuç vardır - kişi kuponu kullanacaktır veya kişi kuponu kullanmayacaktır. Bu nedenle, bu kategorik bir sonuçtur ve bir Sınıflandırma Modeli kullanmalıyız. Yalnızca iki olası kategorik sonuç olduğundan, sonucu tahmin etmek için bir İkili model( Binary Classification ) kullanmalıyız.

Doğrusal Regresyon

Doğrusal regresyon, iki veya daha fazla değişken arasındaki ilişkiye dayanarak birinin değerini diğerinden tahmin etmeyi sağlayan bir denklem (model) oluşturmayı içerir. Regresyon kelime anlamıyla ‘kaynağa inmek’ demektir. Kaynağa inip değişkenler parametreler arasındaki ilişkinin doğrusal ilişkisinden bağlamlar çıkarmaktır.

y = mx + b

Y = Hedef Değişkeni : ( Anlamaya ve tahmin etmeye çalıştığımız değişkendir. Aynı zamanda bağımlı değişken olarak da adlandırılır. )

X = Tahmin Değişkeni (Hedef değişkeni tahmin etmeye çalışmak için kullanılır ve aynı zamanda bağımsız değişkenler olarak da bilinir.)

m = doğrunun eğimi

b = y kesme nokta

Excel ya da Python'da Eğim fonksiyonunu SLOPE (veri_y, veri_x) kullanarak doğrunun eğimini bulabilirsiniz.

Analitik geometriyi hatırlarsak eğer iki noktası bilinen doğrunun eğimi de aşağıdaki şekilde bulunur.

A(x1,y1) ile B(x2,y2)

m = (y1 − y2) / (x1 − x2) veya

m = (y2 − y1) / (x2 − x1) ile bulunur.

Intercept fonksiyonunu INTERCEPT (veri_y, veri_x) kullanarak aynı alanlar y nin kesme noktasını buluruz.

Doğrulama( Validation)

Artık analizi gerçekleştirdiğimize ve Doğrusal Regresyon Modelini çalıştırdığımıza göre, modelin sonuçlarını doğrulamamız gerekiyor. Başka bir deyişle, modelin ne kadar iyi olduğunu ölçmenin bir yolu var mı? Veya bu durumda, hesapladığımız doğrusal ifade verilerimize uygun mu?

Adım 1: CORREL korelasyon fonksiyonunu (data_y, data_x) kullanarak, hedef ve tahmin değişkeni arasındaki korelasyonu hesaplayabiliriz. Bu değer genellikle r olarak adlandırılır. R aralığı -1 ile +1 arasındadır. R artı veya eksi 1'e ne kadar yakınsa, x ve y arasındaki korelasyon o kadar yüksek olur. + doğru - ise ters orantıyı gösterir.

Adım 2: R-kareyi hesaplayın. Güçlü bir korelasyon iyi olsa da, verilerin çizgimize ne kadar iyi uyduğunu gerçekten bilmek istiyoruz. Neyse ki, belirleme katsayısını veya R-kare hesaplayarak formülün verilere yaklaşma konusunda ne kadar iyi olduğunu anlayabiliriz. R-kare, model tarafından açıklanan gözlemlerdeki varyans yüzdesi veya modelin açıklayıcı gücü olarak yorumlanır. 1'e yakın bir R kare değeri, hedef değişkendeki neredeyse tüm varyansın model tarafından açıklandığı anlamına gelir. 0'a yakın bir R kare değeri, hedef değişkendeki varyansın neredeyse hiçbirinin model tarafından açıklanmadığı anlamına gelir.

R-kareyi Yorumlama Konusunda Uyarı !

R-kare'yi nasıl yorumladığınız, büyük ölçüde modellemeye çalıştığınız probleme ve kullandığınız verilere bağlıdır. Zor problemler için çok düşük bir R-kare kabul edilebilir. Ayrıca, yüksek bir R kare zayıf bir modelden kaynaklanabilir. Bununla birlikte, genel olarak, en güçlü öngörücü modeli belirlemek için özellikle tahmin değişkenlerini ekleyip çıkardıkça R kare ne kadar yüksekse o kadar iyidir.

R-Kare - Düzeltilmiş R-Kare

Modele ek değişkenler eklerken ortaya çıkan bir fenomen nedeniyle, ayarlanmış r-kare değeri çoklu doğrusal regresyonlarla kullanılmalıdır. Özetle, ne kadar çok değişken dahil edilirse, r-kare değeri o kadar yüksek olacaktır - ek değişkenler ile hedef değişken arasında bir ilişki olmasa bile. Bu nedenle, Düzeltilmiş R kare değerini kullanırız.

P Değeri

P değeri, gözlemlenen sonuçların (katsayı tahmininin) tesadüfen oluşma olasılığı ve yordayıcı (tahmin değişkeni) ile hedef değişken arasında gerçek bir ilişki bulunmaması olasılığıdır. Başka bir deyişle, p değeri, katsayının sıfır olma olasılığıdır. P değeri ne kadar düşükse, tahmin edici ve hedef değişken arasında bir ilişki olma olasılığı o kadar yüksek olur. P değeri yüksekse, katsayı tahminine güvenmemeliyiz. Bir tahmin değişkenin p değeri 0,05'in altında olduğunda, onunla hedef değişken arasındaki ilişkinin istatistiksel olarak anlamlı olduğu kabul edilir.

"İstatistiksel anlamlılık, rastgele oluşma olasılığı olmayan, daha ziyade belirli bir nedene atfedilebilecek bir sonuçtur."

Sayısal Olmayan Tahmin Değişkenleri Kullanan Doğrusal Regresyon

Öyleyse, tahmin değişkenlerinin karışımına kategorik bir değişken eklediğinizde doğrusal regresyonda neler olur? İşte iki tahmin değişkenli genel bir regresyon denklemi.

Y = β 0 + β1X1 + β2 X 2

Yukarıda söylediğimiz gibi, X'ler her değişken için değerleri temsil eder. Bunlar doğrudan verilerden gelir. Β'ler doğrusal regresyon modelinden gelir. β 0 kesişmedir. Diğer β'ler, tahmin değişkeni X ile hedef değişken Y arasındaki ilişkiyi temsil eder.

Kategorik Tahmin Değişkeni Ekleme

Şimdi, sayısal olmayan veya kategorik bir değişken olan üçüncü bir değişken eklediğinizi varsayalım. Bir kategorinin gerçek değerini bir denkleme koymak işe yaramayacaktır çünkü matematikte metinsel ifadelerle işlem yapamazsınız, bu yüzden değişkeni bir şekilde dönüştürmemiz gerekir. Deneyimsiz bir analist, her kategoriye basitçe bir numara atayabilir ve bunu modele yerleştirebilir.

Y = β 0 + β1X1 + β2 X 2 + β3 X 3

Doğrusal regresyonda, her bir tahmin değişkenin üzerindeki katsayı veya eğim, hedef değişkenle arasındaki ilişkiyi temsil eder. Dolayısıyla, bir kategoriyi sayısal değişkene dönüştürürseniz, hedef değişken ile kategori numarası arasında doğrusal bir ilişki olduğunu varsayarsınız. Kategori numarası genellikle keyfi olarak atandığından, bu mantıklı değil.

Kategorik Değişkenleri Dönüştürme

Amerika Birleşik Devletleri'ndeki 50 eyaletin her biri için bazı bilgiler içeren bir veri kümemiz var.

Regresyonda kategorik değişkenleri kullanmanın çok daha iyi bir yolu, kukla değişkenler (dummy variables) olarak adlandırılanları kullanmaktır. Bir kukla değişken, genellikle sıfır veya bir olmak üzere yalnızca iki değer alabilir. Kategorik değişkendeki benzersiz değerlerin sayısından daha az olan bir kukla değişken eklersiniz. Yani değişken ikili ise, bir kukla eklersiniz. Kategorik değişkendeki benzersiz değerlerin sayısından daha az olan bir kukla değişken eklersiniz. Yani değişken ikili ise, bir kukla eklersiniz. Dört kategori varsa, üç kukla değişken eklersiniz. Bir kukla değişkeni sabit veya referans almak gibi düşünebilirsiniz.

Batı, orta batı, kuzeydoğu ve güneydoğu olmak üzere dört kategoriyi temsil etmek için üç kukla değişken eklemeniz gerekir. Ortabatı, güneydoğu ve batı için kukla değişken oluşturalım.

Expenditures = β 0 + β1 Avg_Income + β2 Pct_Under_18 + β3 midwest + β4 southeast + β5 west

Değişkenlerin her biri 1 veya 0 değerini alır. Eyalet güneydoğudaysa, güneydoğu değişkeninin değeri 1 olurken diğer iki değişken sıfır olur.

Şimdi kuzeydoğu için bir değişken yaratmadık. Bunun nedeni, denklemin kukla bir değişkene kodlanmamış bir temel değere ihtiyaç duymasıdır. Bir eyalet kuzeydoğudaysa, üç kukla değişkenin değeri sıfır olacaktır. Bu kategori, bu durumda kuzeydoğu bölgesi, diğerlerinin karşılaştırıldığı kategori haline gelir.

Not: Alteryx gibi birçok yazılım aracı, kategorik değişkenleri otomatik olarak kukla değişkenlere dönüştürecektir.

Manuel olarak yapacak olsaydınız, veriler artık şöyle görünecektir:

Nasıl çalıştığını göstermek için manuel bir hesaplama yapalım. Aşağıdaki regresyon denklemiyle başlayalım.

School exp = -468 + (0.067 x avg income) + (1349 x pct under 18) - (14.4 x midwest) - (9.3 x southeast) + (16.5 x west)

School exp = -468 + (0.067 x avg income) + (1349 x pct under 18) - (14.4 x midwest) - (9.3 x southeast) + (16.5 x west)
School exp = -468 + (0.067 x 4011) + (1349 x 0.325) - (14.4 x 0) - (9.3 x 0) + (16.5 x 0)
School exp = -468 + 268.737 + 438.425 - 0 - 0 + 0
School exp = 239.162

Yukarıdaki kukla değişkenlerden birinin katsayısını açıklamanın bir yolu, diğer tüm değişkenlerin sabit tutulduğu varsayılarak, kuzeydoğu bölgesindeki eyaletlere kıyasla bir bölgedeki devlet harcamaları arasındaki ortalama farkı temsil etmesidir. Orta batıdaki bir eyalet, yüzde 18'in altında ve kuzeydoğudaki bir eyaletle ortalama gelire sahipse, öğrenci başına 14,4 dolar daha az harcayacağını tahmin ederiz.

*Bu yazı Udacity Bertelsmann Tech Scholarship Challenge Course - Introduction to Problem Solving with Advanced Analytics Nanodegree Program'ından Türkçe'ye çevirdiğim notları içermektedir.

volkanköse

"veritas, probitas, scienta"

Veri Madenciliği için Sektörler Arası Standart Süreç (CRISP-DM)

y = mx + b

Son Yazılar

Commentaires