DATA EXPLORATION ENGINE | NORMALITY, HOMOGENEITY & OUTLIER

Engine Design by Anwar Hidayat – www.statistikian.com

1. Input Data (Grid View)

💡 Tips: Paste data dari Excel. Kolom Numerik & Kategorik dideteksi otomatis.
NoGrup_KelasSkor_MatematikaSkor_Fisika
1
2
3
4
5

Butuh Bantuan Analisis Data Profesional?

Serahkan pada ahlinya! Kami bantu olah data Skripsi/Tesis Anda hingga tuntas. Akurat, Cepat, dan Bergaransi. Menggunakan aplikasi SPSS, STATA, EVIEWS, LISREL, SMARTPLS, AMOS, JASP, MINITAB, EXCEL, R STUDIO.

💬 Konsultasi Jasa Olah Data (WhatsApp)

Dokumentasi Akademik ST-Engine: Analisis Normalitas

Dikembangkan Oleh:

ANWAR HIDAYAT

Founder dan CEO www.statistikian.com

Coding ini didevelop oleh Anwar Hidayat untuk menyediakan instrumen diagnostik uji asumsi klasik berbasis 100% Pure JavaScript Math Engine. Menjamin komputasi probabilitas asimtotik secara offline tanpa membebani server eksternal, sangat responsif, presisi, dan aman untuk arsitektur WordPress.

Dokumentasi ini menjabarkan spesifikasi analitis, landasan teoretis, serta pedoman operasional ST-Engine Normality Test. Uji normalitas merupakan pintu gerbang evaluasi paling mendasar dan krusial dalam statistika inferensial. Pengujian ini difungsikan untuk mendiagnosis apakah suatu set data observasi kontinu (atau residual dari model) berdistribusi layaknya kurva lonceng normal (Gaussian distribution), yang menjadi prasyarat mutlak berlakunya metode statistika parametrik (seperti Uji-T, ANOVA, dan Regresi Linear).

1. Teori Dasar: Definisi, Tujuan, dan Fungsi Uji Normalitas

Dalam ranah probabilitas dan statistika inferensial, distribusi normal (Gaussian distribution) menempati posisi epistemologis yang paling sentral. Konsep ini pertama kali diartikulasikan oleh Carl Friedrich Gauss dan Pierre-Simon Laplace pada abad ke-19 sehubungan dengan teori galat observasi. Pentingnya distribusi normal dalam statistika terikat erat pada Teorema Limit Pusat (Central Limit Theorem / CLT). CLT mendalilkan bahwa, terlepas dari wujud distribusi probabilitas populasi asalnya (entah itu miring, bimodal, atau seragam), distribusi dari rata-rata sampel (sample means) akan selalu mendekati distribusi normal secara asimtotik seiring dengan bertambah besarnya ukuran sampel observasi (biasanya diasumsikan memadai jika N > 30) (Montgomery & Runger, 2014).

Tujuan primer dilakukannya pengujian normalitas adalah untuk memberikan justifikasi akademik sebelum periset mengaplikasikan teknik statistika parametrik (misalnya regresi linear berganda, independent sample t-test, atau Analysis of Variance). Asumsi dasar dari seluruh uji parametrik tersebut adalah bahwa galat (error/residual) dari model—bukan data mentahnya secara langsung—terdistribusi secara normal dengan nilai tengah nol dan varians yang konstan. Apabila asumsi normalitas ini dilanggar secara radikal, efisiensi dari penaksir Ordinary Least Squares (OLS) akan cacat, batas kepercayaan (confidence intervals) menjadi tidak akurat, dan probabilitas penarikan kesimpulan (p-value) akan menjadi sangat bias, mengarah pada kesalahan inferensi Tipe I maupun Tipe II (Ghasemi & Zahediasl, 2012).

Fungsi fungsional dari alat uji normalitas dipilah menjadi dua pendekatan evaluasi: pengujian formal inferensial (goodness-of-fit tests) dan inspeksi visual (graphical methods). Pendekatan visual—seperti pemetaan Histogram dengan kurva kepadatan normal dan pemetaan plot Kuartil-Kuantil (Q-Q Plot)—menawarkan intuisi diagnostik instan mengenai letak kebocoran normalitas, apakah disebabkan oleh pencilan ekstrem di ekor kurva (fat tails) atau kemencengan di tubuh kurva (Thode, 2002). Namun, inspeksi visual bersifat subjektif.

Oleh karenanya, pendekatan empiris formal diwajibkan untuk menguji hipotesis nol (H0) yang menyatakan bahwa sampel ditarik dari populasi yang berdistribusi normal. Instrumen pengujian ini bervariasi bergantung pada algoritma spesifiknya:

  • Kolmogorov-Smirnov (K-S) & Lilliefors: Uji ini mengkomparasi fungsi distribusi kumulatif empiris (CDF) dari sampel dengan fungsi distribusi kumulatif normal referensi. Lilliefors memodifikasi K-S untuk skenario di mana nilai rata-rata dan varians populasi tidak diketahui sebelumnya (Lilliefors, 1967).
  • Shapiro-Wilk (S-W): Metode evaluasi berbasis analisis korelasi (regresi) yang mengukur koherensi antara statistik terurut dari data sampel terhadap nilai harapan teoretis dari tatanan distribusi normal. Diakui secara luas di berbagai jurnal statistik sebagai instrumen dengan kuasa statistik (statistical power) paling superior dan paling sensitif dalam mendeteksi penyimpangan normalitas, khususnya pada rentang sampel kecil hingga menengah (Shapiro & Wilk, 1965).
  • Jarque-Bera (J-B): Uji asimtotik (sampel besar) yang berbasis pada pengukuran momen statistik, yaitu derajat kemencengan (Skewness) dan derajat kelancipan (Kurtosis). Uji ini amat populer dalam disiplin ilmu ekonometrika karena kesederhanaan perhitungannya langsung dari residu regresi (Jarque & Bera, 1980).

2. Formula Tiap Tahap Analisis dan Relevansinya

\text{Skewness} = \frac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^3}{\left(\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right)^{3/2}}
Skewness (Kemencengan): Momen statistik ketiga yang mengukur asimetri distribusi. Distribusi normal murni memiliki nilai skewness nol. Nilai positif mengindikasikan ekor panjang di sisi kanan (right-skewed), sedangkan nilai negatif mengindikasikan ekor miring ke kiri (left-skewed) (Joanes & Gill, 1998).
\text{Kurtosis} = \frac{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^4}{\left(\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right)^2} - 3
Excess Kurtosis (Kelancipan): Momen statistik keempat yang menakar ketebalan ekor (tails) distribusi relatif terhadap distribusi normal. Kurtosis > 0 disebut Leptokurtic (puncak runcing, ekor tebal yang dipenuhi *outlier*), sedangkan Kurtosis < 0 disebut Platykurtic (puncak datar) (DeCarlo, 1997).
JB = \frac{n}{6} \left( S^2 + \frac{1}{4}(K - 3)^2 \right) \sim \chi^2_{(2)}
Jarque-Bera Test: Mengkombinasikan koefisien Skewness (S) dan Kurtosis (K) untuk menguji seberapa jauh distribusi sampel menyimpang dari kurva normal. Nilai JB mengikuti distribusi asimtotik Chi-Square dengan 2 derajat kebebasan. Formulasi ini amat diandalkan dalam ekonometrika untuk sampel besar (Jarque & Bera, 1980).
W = \frac{\left( \sum_{i=1}^n a_i x_{(i)} \right)^2}{\sum_{i=1}^n (x_i - \bar{x})^2}
Shapiro-Wilk Test: x_{(i)} adalah nilai sampel yang diurutkan, dan a_i adalah konstanta tabulasi yang diturunkan dari kovarians distribusi normal. Nilai W berkisar [0, 1]. Nilai yang terlampau jauh dari 1 menghasilkan P-Value kecil (menolak H0). Formula ini relevan karena memiliki *power* paling superior untuk menolak asumsi normalitas semu (Shapiro & Wilk, 1965).
D = \max | F_n(x) - F(x) |
Kolmogorov-Smirnov (K-S) Statistic: Mengkalkulasi jarak diferensiasi vertikal maksimum (absolut) antara fungsi distribusi kumulatif empiris data (F_n(x)) melawan kurva ekspektasi probabilitas kumulatif normal teoretis (F(x)). Semakin melebar jarak D, semakin menyimpang distribusi dari kurva lonceng normal (Chakravarti, Laha, & Roy, 1967).

3. Arsitektur Perangkat Lunak dan Ekuivalensi

Alat diagnostik ST-Engine ini diarsiteki dengan prinsip pengoperasian mandiri di sisi klien (Client-Side Computing) tanpa menggunakan komputasi peladen (*server backend*):

  • 100% Pure JavaScript Math Engine: Seluruh komputasi momen turunan (Mean, Variance, Skewness, Excess Kurtosis) dieksekusi memanggil fungsi primitif logika aljabar array. Hal ini menjamin nilai desimal parameter deskriptif Anda identik mutlak dengan kolom *Descriptive Statistics* pada SPSS atau fitur summary() pada R Studio.
  • Aproksimasi Asimtotik (Perbedaan Teknis): Untuk menghindari kemacetan pada peramban web (*browser*), perhitungan P-Value pada instrumen Kolmogorov-Smirnov dan Shapiro-Wilk menggunakan pendekatan aproksimasi distribusi asimtotik, bukan tabel lookup statis biner (seperti pada bahasa C++ di SPSS). Meskipun pada data mikro (N < 20) mungkin menghasilkan disparitas selisih desimal yang amat tipis (misal 0.054 di JS vs 0.051 di SPSS), ketetapan vonis inferensinya (apakah p-value > 0.05) dijamin 100% konsisten dan valid secara keilmuan akademik.

4. Panduan Manual Penggunaan Alat Analisis

A. Persiapan dan Input Data

  • Format Matriks: Data observasi harus berupa nilai kuantitatif rasio atau interval. Jangan menyertakan baris dengan sel kosong (*missing values*). Pastikan desimal memakai lambang titik (.).
  • Protokol Impor: Blok lembar kerja data Anda di Excel, lalu rekatkan (paste) secara langsung ke kisi (Grid) koordinat pertama. Opsi alternatif, pergunakan tombol Unggah CSV.
  • Fungsi Tombol Simulasi: Jika diklik, sistem akan otomatis melahirkan sampel data tiruan (pseudo-random) yang diinstruksikan membentuk distribusi kurva normal guna mendemonstrasikan kapabilitas fungsi uji instrumen secara kilat.
Catatan Pakar: Uji normalitas lazimnya tidak dikenakan secara mentah pada data observasi awal (X dan Y), melainkan ditujukan secara spesifik untuk menguji sekumpulan nilai **sisaan regresi (Unstandardized Residual)** dari model Anda (Ghasemi & Zahediasl, 2012).

B. Pemetaan Data dan Opsi Analisis

  • Setelah mengunci data, alokasikan variabel yang hendak diinspeksi ke dalam bilik Variabel Uji (Maksimal 10 Parameter).
  • Sistem secara bawaan mencentang pemuatan grafik Histogram & Q-Q Plot serta modul Analisis Skewness-Kurtosis & Deteksi Outlier. Biarkan tercentang untuk memperoleh komprehensivitas hasil pelaporan.

C. Diagram Alur Algoritma

Parsing CSV → Transformasi Data Vektor → Pengukuran Central Tendency (Mean, SD) → Kalkulasi Momen Ketiga dan Keempat (Skewness & Kurtosis) → Standarisasi Z-Score → Algoritma Evaluasi CDF (K-S) & Uji J-B → Rendering Kurva Normal & Q-Q Plot via SVG DOM → Konklusi Otomatis.

D. Cara Baca Tabel Output dan Interpretasi Grafik

  • Tabel Deskriptif & Momen Distribusi: Kolom krusial di sini adalah Skewness dan Kurtosis. Distribusi normal ideal mensyaratkan kedua nilai ini berfluktuasi sedekat mungkin ke angka 0. Jika Skewness melampaui rentang \pm 1.0, data Anda dipastikan miring (skewed) secara radikal.
  • Tabel Uji Normalitas Formal: Pedoman bakunya, H0 menyatakan bahwa data terdistribusi normal. Maka, untuk mengabsahkan bahwa data Anda bersih dan aman digunakan dalam uji parametrik, P-Value HARUS lebih besar dari (>) 0.05. Jika Sig. < 0.05, maka H0 tertolak, mengartikan bahwa sebaran data Anda secara meyakinkan tidak normal.
  • Q-Q Plot (Quantile-Quantile): Titik-titik data (gelembung biru) merepresentasikan nilai observasi empiris. Garis lurus diagonal merah merepresentasikan sebaran distribusi ekspektasi normal. Jika data Anda secara wajar bergerombol mengelilingi garis merah, maka data tersebut normal. Penyimpangan ekstrem (menjauhi garis merah) menandakan adanya patologi distribusi.
  • Histogram dan Kurva Kepadatan: Mengonfirmasi bentuk fisik sebaran frekuensi kelas observasi berbanding kurva densitas Gauss. Berguna untuk mengidentifikasi keberadaan puncak ganda (bimodal) atau outlier.
Catatan Pakar: Pada observasi berskala masif (N > 500), tes formal seperti K-S atau Shapiro-Wilk menjadi terlampau sensitif (hyper-sensitive). Sedikit saja deviasi kecil akan memicu penolakan P-Value < 0.05. Dalam skenario tersebut, pakar menganjurkan agar konklusi bergeser pada toleransi visual Q-Q Plot dan kelayakan rasio Skewness-Kurtosis (Thode, 2002).

5. Manfaat Aplikasi (Kelebihan & Kekurangan)

  • Kelebihan Superior: Waktu paruh penyelesaian (*zero load time*) karena arsitektur non-WASM. Konstruksi panel grafik SVG yang melahirkan visualisasi yang jauh lebih mulus ketimbang output gambar bitmap (*pixelated*) pada peranti lunak lawas. Menyajikan teks narasi kesimpulan pakar secara terautomatisasi untuk kemudahan penyusunan draf tesis.
  • Kekurangan: Evaluasi grafik P-Value pada algoritma asimtotik memberikan margin selisih mikroskopis dibandingkan exact table lookup pada software backend. Plot grafik yang menampung titik sebaran di atas 2000 entitas dapat memperlambat proses render gulir layar gawai.

6. Daftar Pustaka

  • Chakravarti, I. M., Laha, R. G., & Roy, J. (1967). Handbook of Methods of Applied Statistics. John Wiley and Sons.
  • DeCarlo, L. T. (1997). On the meaning and use of kurtosis. Psychological Methods, 2(3), 292-307.
  • Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. International Journal of Endocrinology and Metabolism, 11(1), 10-15.
  • Jarque, C. M., & Bera, A. K. (1980). Efficient tests for normality, homoscedasticity and serial independence of regression residuals. Economics Letters, 6(3), 255-259.
  • Joanes, D. N., & Gill, C. A. (1998). Comparing measures of sample skewness and kurtosis. The Statistician, 47(1), 183-189.
  • Lilliefors, H. W. (1967). On the Kolmogorov-Smirnov test for normality with mean and variance unknown. Journal of the American Statistical Association, 62(318), 399-402.
  • Montgomery, D. C., & Runger, G. C. (2014). Applied Statistics and Probability for Engineers (6th ed.). John Wiley & Sons.
  • Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3/4), 591-611.
  • Thode, H. C. (2002). Testing for Normality. CRC Press.
Daftar Tool Analisis Statistik Online Statistikian
Scroll to Top
Jasa Olah dan Analisis Statistik Oleh Statistikian Tahun 2024