Materi 3 ‐ Grafik Data Berkorelasi - ThesionMS/Exploratory-Data-Analysis GitHub Wiki

1. Konsep dasar korelasi dan asosiasi variabel

Korelasi dan asosiasi variabel adalah konsep krusial dalam analisis data statistik. Dalam ilmu statistik, penting bagi kita untuk memahami hubungan antara dua variabel atau lebih. Dalam pembahasan kali ini, kita akan membahas secara rinci mengenai konsep dasar dari korelasi dan asosiasi variabel untuk membantu Anda memahami esensi dari kedua istilah ini.

Korelasi: Mengukur Hubungan Antara Variabel

Korelasi adalah pengukuran sejauh mana dua variabel memiliki hubungan atau keterkaitan satu sama lain. Nilai korelasi berkisar antara -1 hingga 1.

  • Jika korelasi mendekati 1, maka kedua variabel cenderung memiliki hubungan yang kuat dan positif. Artinya, jika satu variabel meningkat, kemungkinan besar variabel lain juga akan meningkat.
  • Jika korelasi mendekati -1, maka kedua variabel memiliki hubungan yang kuat dan negatif. Ini berarti jika satu variabel meningkat, variabel lain kemungkinan besar akan menurun.
  • Jika korelasi mendekati 0, maka variabel tidak memiliki hubungan yang signifikan.

Asosiasi Variabel: Mengidentifikasi Ketergantungan

Asosiasi variabel adalah konsep yang mencakup identifikasi dan analisis hubungan antara variabel-variabel dalam dataset. Tujuannya adalah untuk memahami apakah satu variabel mempengaruhi variabel lainnya. Dalam menganalisis asosiasi variabel, berikut adalah hal-hal yang perlu diperhatikan:

  1. Ukuran dan Jenis Hubungan: Mengidentifikasi sejauh mana dan bagaimana dua variabel saling mempengaruhi. Apakah hubungannya linier, kuadratik, atau jenis hubungan lainnya.
  2. Dampak Variabel Independen: Menilai sejauh mana variabel independen mempengaruhi variabel dependen. Apakah pengaruhnya positif atau negatif.

Korelasi dan Asosiasi Variabel dalam Analisis Data

Dalam melakukan analisis data, penting untuk memahami korelasi dan asosiasi variabel untuk:

  • Mengidentifikasi Pola: Mengungkap pola hubungan antara variabel-variabel yang diamati.
  • Memprediksi: Memungkinkan untuk membuat prediksi atau perkiraan berdasarkan hubungan yang teridentifikasi.
  • Pengambilan Keputusan: Membantu dalam pengambilan keputusan yang lebih baik dengan memahami hubungan antar variabel.

Mengenal dan memahami konsep dasar korelasi dan asosiasi variabel adalah langkah awal yang penting dalam melakukan analisis data yang akurat. Korelasi membantu mengukur hubungan antara variabel, sedangkan asosiasi variabel membantu mengidentifikasi ketergantungan antara variabel-variabel tersebut. Pemahaman yang baik tentang kedua konsep ini akan membantu Anda dalam mengambil keputusan yang lebih baik dan melakukan analisis data yang efektif.

2. Korelasi spearman dalam mengetahui hubungan variabel

Apa Itu Korelasi Spearman?

Korelasi Spearman adalah metode statistik yang mengukur hubungan monotonik (tidak hanya linear) antara dua variabel. Metode ini lebih tepat digunakan jika data tidak memiliki distribusi normal atau memiliki outliers. Korelasi Spearman menghitung hubungan antara peringkat variabel, bukan nilai sebenarnya.

Korelasi Spearman juga membantu kita memahami arah dan kekuatan hubungan antara variabel, meskipun data yang dimiliki bersifat ordinal atau tidak terdistribusi secara normal. Hal ini memungkinkan pengambilan keputusan yang lebih baik dalam berbagai konteks, seperti riset ilmiah, ekonomi, dan sosiologi.

Contoh Penerapan Korelasi Spearman

Misalkan kita ingin mengetahui hubungan antara jumlah jam belajar dan nilai ujian mahasiswa. Dalam hal ini, kita dapat mengumpulkan data jumlah jam belajar dan nilai ujian dari sejumlah mahasiswa. Kemudian, dengan menggunakan rumus Korelasi Spearman, kita dapat menghitung seberapa erat hubungan antara kedua variabel ini.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import spearmanr

# Data jumlah jam belajar
jam_belajar = [5, 10, 2, 15, 12, 8, 7, 3, 6]

# Data nilai ujian mahasiswa
nilai_ujian = [85, 90, 70, 92, 88, 78, 80, 75, 82]

# Menghitung korelasi Spearman
korelasi_spearman, _ = spearmanr(jam_belajar, nilai_ujian)
print(f'Koefisien Korelasi Spearman: {korelasi_spearman}')

# Membuat scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(jam_belajar, nilai_ujian, color='red', label='Data')

# Menambahkan label sumbu dan judul
plt.xlabel('Jumlah Jam Belajar')
plt.ylabel('Nilai Ujian')
plt.title('Hubungan antara Jumlah Jam Belajar dan Nilai Ujian (Spearman)')

# Menampilkan legenda
plt.legend()

# Menampilkan plot
plt.grid(True)
plt.show()

Output :

3. Korelasi pearson dalam mengetahui hubungan variabel

Apa itu Korelasi Pearson?

Korelasi Pearson adalah metode statistik yang mengukur hubungan linear antara dua variabel. Metode ini cocok untuk data yang terdistribusi normal dan memiliki hubungan linier yang kuat antara variabel-variabel tersebut. Korelasi Pearson menghasilkan nilai antara -1 hingga 1

Korelasi Pearson sangat berguna dalam situasi di mana data memiliki distribusi normal dan hubungan antara variabel dapat dijelaskan dengan baik oleh garis lurus.

Kita juga bisa menggunakan contoh penerapan korelasi spearman tadi. Misalnya, kita memiliki data jumlah jam belajar (x) dan nilai ujian (y). Dengan menggunakan korelasi Pearson, kita dapat menilai apakah ada hubungan positif antara jumlah jam belajar dan nilai ujian siswa.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr

# Data jumlah jam belajar
jam_belajar = [5, 10, 2, 15, 12, 8, 7, 3, 6]

# Data nilai ujian mahasiswa
nilai_ujian = [85, 90, 70, 92, 88, 78, 80, 75, 82]

# Menghitung korelasi Pearson
korelasi_pearson, _ = pearsonr(jam_belajar, nilai_ujian)
print(f'Koefisien Korelasi Pearson: {korelasi_pearson}')

# Membuat scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(jam_belajar, nilai_ujian, color='blue', label='Data')

# Menambahkan label sumbu dan judul
plt.xlabel('Jumlah Jam Belajar')
plt.ylabel('Nilai Ujian')
plt.title('Hubungan antara Jumlah Jam Belajar dan Nilai Ujian (Pearson)')

# Menampilkan legenda
plt.legend()

# Menampilkan plot
plt.grid(True)
plt.show()

output :

Kapan Harus Menggunakan Korelasi Pearson dan Korelasi Spearman

Pemilihan antara Korelasi Pearson dan Korelasi Spearman tergantung pada jenis data yang Anda miliki dan sifat hubungan antar variabel. Jika Anda yakin data Anda terdistribusi normal dan hubungan antar variabel adalah linear, maka Korelasi Pearson adalah pilihan yang baik. Namun, jika Anda memiliki data yang tidak mengikuti distribusi normal atau memiliki outliers, lebih baik menggunakan Korelasi Spearman.

4. Scatter chart

Metrik yang Tepat untuk Scatter Chart

Metrik yang tepat adalah langkah awal yang krusial. Setiap bisnis atau proyek memiliki t ujuan dan sasaran yang berbeda-beda, dan karenanya, metrik yang relevan harus sesuai dengan tujuan tersebut. Misalnya, jika tujuan adalah meningkatkan penjualan, metrik yang harus difokuskan mungkin adalah tingkat konversi, nilai transaksi rata-rata, dan retensi pelanggan.

Scatter Chart Efektif Jika

Salah satu alat visual yang efektif untuk memahami hubungan antara dua variabel adalah Scatter Chart. Scatter Chart menampilkan titik-titik yang mewakili nilai dari dua variabel dan memungkinkan kita untuk melihat pola atau korelasi di antara keduanya dengan jelas. Dengan menggunakan Scatter Chart, kita dapat dengan cepat mengidentifikasi tren dan potensi pola yang mungkin tersembunyi.

Contoh Scatter Chart dalam Analisis Penjualan

Misalkan kita ingin menganalisis hubungan antara jumlah iklan yang dihabiskan dan peningkatan penjualan suatu produk. Scatter Chart dapat membantu Anda memvisualisasikan apakah peningkatan belanja iklan berdampak positif pada penjualan.

import matplotlib.pyplot as plt

# Data contoh: jumlah iklan yang dihabiskan dan peningkatan penjualan
jumlah_iklan = [50, 60, 70, 80, 90, 100, 110, 120, 130, 140]
peningkatan_penjualan = [20, 25, 35, 40, 45, 55, 60, 70, 80, 85]

# Membuat scatter plot
plt.scatter(jumlah_iklan, peningkatan_penjualan, color='blue', label='Data Penjualan')

# Menambahkan label sumbu dan judul
plt.xlabel('Jumlah Iklan yang Dihabiskan')
plt.ylabel('Peningkatan Penjualan Produk')
plt.title('Hubungan antara Jumlah Iklan dan Peningkatan Penjualan')

# Menampilkan legenda
plt.legend()

# Menampilkan plot
plt.grid(True)
plt.show()

Output:

Dalam Scatter Chart ini, sumbu-x menunjukkan jumlah iklan yang dihabiskan, sedangkan sumbu-y menunjukkan peningkatan penjualan produk. Titik-titik yang terbentuk dapat memberikan gambaran jelas tentang korelasi antara belanja iklan dan peningkatan penjualan.

Jadi, Menggunakan metrik yang tepat dan memanfaatkan alat visual seperti Scatter Chart adalah strategi yang bijak dalam mengoptimalkan kinerja bisnis atau proyek. Dengan memahami metrik yang relevan dan memanfaatkan Scatter Chart dengan baik, Anda dapat mengambil keputusan yang lebih baik dan memimpin dalam persaingan online.

5. Scatter plot matrix

Scatter plot matrix adalah representasi visual dari korelasi antar variabel dalam dataset. Ini membantu kita mengidentifikasi pola dan hubungan yang mungkin tersembunyi di tengah data yang kompleks. Dengan memahami korelasi ini, kita dapat mengambil keputusan yang lebih baik dalam bisnis, ilmu pengetahuan, atau bidang lain yang memerlukan analisis data yang mendalam.

Bagaimana Membaca Scatter Plot Matrix?

Ketika melihat scatter plot matrix, perhatikan pola yang muncul di setiap scatter plot. Jika titik-titik cenderung membentuk garis lurus, maka variabel tersebut memiliki korelasi yang kuat. Jika titik-titik tersebar luas, maka korelasinya lemah atau mungkin tidak ada korelasi sama sekali. Setelah Anda memahami scatter plot matrix dan menganalisisnya, langkah selanjutnya adalah mengambil keputusan yang didasarkan pada temuan Anda. Identifikasi pola dan hubungan yang paling relevan dengan tujuan Anda, dan ambil tindakan yang sesuai.

Contoh penerapan

Misalkan kita ingin memvisualisasikan hubungan antara jumlah jam belajar, nilai ujian, dan jumlah iklan yang dihabiskan untuk mempromosikan suatu produk.

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Data contoh: jumlah jam belajar, nilai ujian, dan jumlah iklan yang dihabiskan
data = {
    'Jam_Belajar': [5, 10, 2, 15, 12, 8, 7, 3, 6],
    'Nilai_Ujian': [85, 90, 70, 92, 88, 78, 80, 75, 82],
    'Jumlah_Iklan': [50, 60, 70, 80, 90, 100, 110, 120, 130]
}

# Membuat DataFrame dari data
df = pd.DataFrame(data)

# Membuat scatter plot matrix
scatter_matrix = sns.pairplot(df, kind='scatter')

# Menambahkan judul
scatter_matrix.fig.suptitle('Scatter Plot Matrix', y=1.02)

# Menampilkan plot
plt.show()

Output:

Interpretasi: Scatter plot matrix memungkinkan untuk melihat hubungan antara beberapa variabel sekaligus dalam satu tampilan. Dalam contoh ini, matriks menunjukkan bahwa jumlah jam belajar dan nilai ujian memiliki kecenderungan positif, di mana semakin banyak jam belajar, nilai ujian cenderung lebih tinggi. Namun, tidak ada hubungan yang jelas antara jumlah iklan yang dihabiskan dan variabel lainnya. Scatter plot matrix membantu mengidentifikasi pola korelasi antarvariabel dalam analisis data yang lebih kompleks.

6. Bubble chart

Bubble chart adalah alat visual yang kuat untuk memvisualisasikan dan menganalisis data yang kompleks. Dengan memahami prinsip-prinsip dan langkah-langkah pembuatan bubble chart yang efektif, Anda dapat menyajikan informasi secara komprehensif dan memudahkan pengambilan keputusan.

Bubble Chart biasanya digunakan untuk membandingkan dan menunjukkan hubungan antara label atau lingkaran yang dikategorikan, dengan menggunakan posisi dan proporsi. Gambaran keseluruhan dari bubble chart dapat digunakan untuk menganalisa pola atau korelasi. Namun yang perlu diperhatikan dalam penggunaan bubble chart adalah jika terlalu banyak bubble dapat membuat grafik sulit dibaca, sehingga bubble chart memiliki kapasitas ukuran data yang terbatas. Contoh kasus penerapan bubble chart adalah memvisualisasikan data penjualan produk berdasarkan lokasi geografis, di mana ukuran bubble mencerminkan jumlah penjualan di setiap lokasi.

import matplotlib.pyplot as plt

# Data contoh: lokasi geografis, jumlah penjualan, dan harga rata-rata
lokasi = ['Jakarta', 'Surabaya', 'Bandung', 'Medan', 'Makassar']
jumlah_penjualan = [500, 700, 400, 300, 600]  # Ukuran bubble
harga_rata_rata = [100, 120, 110, 90, 95]  # Warna bubble

# Membuat bubble chart
plt.scatter(lokasi, jumlah_penjualan, s=100*np.array(jumlah_penjualan), c=harga_rata_rata, cmap='Blues', alpha=0.7)

# Menambahkan label sumbu dan judul
plt.xlabel('Lokasi')
plt.ylabel('Jumlah Penjualan')
plt.title('Bubble Chart: Penjualan Produk berdasarkan Lokasi')

# Menambahkan colorbar
plt.colorbar(label='Harga Rata-rata')

# Menampilkan plot
plt.grid(True)
plt.xticks(rotation=45)
plt.show()

Output:

Interpretasi: Visualisasi bubble chart menggambarkan hubungan antara penjualan produk di berbagai lokasi geografis. Ukuran bubble merepresentasikan jumlah penjualan di setiap lokasi, di mana bubble yang lebih besar menandakan penjualan yang lebih tinggi. Selain itu, warna bubble menunjukkan harga rata-rata produk di lokasi tersebut, dengan nuansa warna biru yang lebih tua menunjukkan harga yang lebih tinggi. Dari visualisasi ini, terlihat bahwa Surabaya memiliki penjualan tertinggi dibandingkan lokasi lainnya, namun harga rata-rata di Medan lebih rendah meskipun penjualan relatif lebih rendah.