Veri Analizi Giriş | Yol Haritası
Veri analizi elde mevcut olan işlenmemiş veriyi bir takım işlemlere tabi tutarak onlardan anlamlı bilgi üretme işlemidir. Veri analizinde kullanılan veri analiz sürecine dair yol haritasını bu yazımızda özet bir halde sizlere sunmaya çalıştık.
Yol Haritası
- Veri Analizi Nedir
- Veri Analizi Süreci
- Veri Toplama(Data Collection)
- Veri İşleme(Data Processing)
- Veri Ayıklama/Temizleme(Data Cleaning)
- Keşifsel Veri Analizi(Exploratory Data Analysis)
- Modelleme ve Algoritmalar(Modeling and Agorithms)
- Veri Ürün(Data product)
- Özet
- Tavsiyeler
1. Veri Analizi Nedir?
Veri analizini açıklamadan önce verinin(data) ne anlama geldiğine bakalım bu anlamamızı kolaylaştıracaktır. İşlenmemiş bilgiye veri denir. Eğer veri işlenir ve işlenen veriye ilişkin anlamlı bir sonuç çıkartılırsa buna bilgi diyoruz. Veri analizi elde mevcut olan işlenmemiş veriyi bir takım işlemlere tabi tutarak onlardan anlamlı bilgi üretme işlemidir.
Veri analizini özel olarak bir sektör kullanıyor diyemem çünkü günümüz çağında heryerde işlenmemiş veri bulunmakta ve bu veriler henüz işlenmedikleri için bir anlam ifade etmiyorlar. Bu yüzden her yerde iş bulabilirsiniz.
2. Veri Analiz Süreci
Veri analiz süreci 6 ana başlık ile sıralanır ve bu başlıklar birbirlerine zincir gibi bağlıdırlar. Aşağıda veri analiz sürecini sırasıyla görebilirsiniz.
2.1 Veri Toplama(Data Collection)
Önce verinin nerden gelmesi gerektiğine karar veriyoruz. İnternette tonlarca veri var demiştik, bunlardan bazıları API’ler olabilir (hava durumu analizi), veritabanı dosyaları olabilir (Kitap analizi; bu kitabı okuyanlar bunlarıda okudu), gibi birçok kaynak noktamız var.
2.2 Veri İşleme(Data Processing)
Toplanan veriler analiz için işlenmeli veya düzenlenmeli. Bu süreçte verilerin ilgili analiz araçları için gerekli yapıya uygun şekilde yapılandırılmasını içerir. Örnek vermek gerekirse Veriler bize JSON şeklinde geliyor ve biz bunları daha rahat anlayabilmek için satır ve sütünlara yerleştiriyoruz.
2.3 Veri Ayıklama(Data Cleaning):
Gelen veriler artık satır sütün formatında fakat bir sorun olabilir. Kayıtlar arasında verilerden bazıları eksik olabilir veya tekrarlı da olabilir. Bunun için bu adımda verilerimiz içinde boş olan alanları doldurmalı ve tekrarlı verilerden kurtulmalıyız.
2.4 Keşifsel Veri Analizi(Exploratory Data Analysis):
Artık elimizde ham veri seti mevcut ve başlıktan belli olacağı üzere veri üzerinde küçük bir keşif yapacağız. Örnek vermek gerekirse veri tipleri hakkında bilgi sahibi olabiliriz. Hangi özellikleri bize sağlıyor onlara bakacağız ve veri seti hakkında fikrimiz olacak .
2.5 Modelleme ve Algoritmalar (Modeling and Agorithms):
Bu kısımda artık veri hakkında yeterli bilgiye sahip olduktan sonra algoritmalar ile verimizi analiz ediyoruz. En çok kullanılan algoritmalar şunlar:
Doğrusal Regresyon (Linear Regression): Bir veya daha fazla tahmin değişkeni ve bir sonuç değişkeni arasındaki ilişkiyi ölçmektedir. detaylar için lütfen bakınız
Mantıksal Regresyon (Logistic Regression): Bu doğrusal regresyona benziyor fakat temel fark mantıksal regresyon da bir girdi değişkenidir. Örneğin bir kategoriye uyup uymadığını kontrol etmede kullanılabilir. Çıktı 0 ve 1 arasında bir değerdir. 1’e yakın sonuçlar giriş değişkeninin kategoriye daha net bir şekilde uyduğunu gösterir.
K-en yakın komşu algoritması (K-nearest neighbors algorithm): (Bu cümle alıntı olacak kitaptan aynen tanım alıyorum kitabın adı: Veri Madenciği Yöntemleri Dr. Yalçın ÖZKAN tarafından yazılmış 🙂 ) Bu yöntem,sınıfları belli olan bir örnek kümesindeki gözlem değerlerinden yararlanarak,örneğe katılacak yeni bir gözlemin hangi sınıfa ait olduğunu belirlemek amacıyla kullanılır. Bunlar gibi birçok algoritmalar mevcut.
2.6 Veri Ürün (Data Product):
Bu bölümde artık elimizde bilgi mevcut ve bu bilgiden yola çıkarak kendi çıkarımlarımızı yapıyor ve bitiriyoruz. Kısa bir örnek vermem gerekirse,kitap analizinden gideceğim tekrar, öğrencilerin aldıkları kitapları analiz edeceğiz. Bunun için kütüphaneye gelen öğrencilerin bir kısmının “Matematik” ve “Fizik” kitabı aldığını varsayalım. Bu bilgiler ışığında analizimize başlıyoruz yani algoritmalarımızı uyguluyoruz (bu süreçte elimizde ne kadar veri olursa o kadar iyi çünkü sapma payını azaltırız ve hata oranımız düşer). Analizimizin ve modellerimizin sonucu bu öğrencilerin ilgili kitaplara ilave olarak bir de “Mühendisliğe Giriş” kitabı aldığını gördüğümüzü varsayalım. Bu analizin sonucunda bizim yapacağımız çıkarım ise öğrencinin bir “Mühendislik Fakültesi” öğrencisi olabileceğidir. Çok basit anlatmaya çalıştım ama özetle elimizde ne kadar veri olursa o kadar iyi analiz edebiliriz 🙂
3. Özet
Özet olarak size veri analizi için yukardaki işlem basamaklarını atlamadan yapmanızı tavsiye ederim. Araya ilaveler girebilir elbette ama örnek vermek gerekirse modelleme kısmından sonra verileri çeşitli kütüphaneler ile görselleştirip daha güzel hale getirebilirsiniz.
4. Tavsiye
Tavsiye olarak verebileceğim yukarda verdiğim 3 algoritma dışında algoritmaları araştırmanız ve görselleştirme kütüphaneleri hakkında fikir sahibi olmanızdır. Belki ilerleyen zamanlarda onlar hakkında da yazılar yazabilirim ama aklınıza takılan bir soru olursa yorum kısmında yardımcı olmaya çalışacağım. Okuduğunuz için teşekkürler 🙂