Advanced Regression & Uji Asumsi Klasik

Data Analysis Engine by Anwar Hidayat – statistikian.com

1. Input Data (Grid View)

💡 Tips: Klik sel di bawah lalu tekan (Ctrl+V) untuk Paste data dari Excel.
NoVariabel_AVariabel_B
1
2
3
4
5

Dokumentasi Akademik ST-Engine: Regresi Linear Sederhana & Scatter Plot

Dikembangkan Oleh:

ANWAR HIDAYAT

Founder dan CEO www.statistikian.com

Alat analisis ini dibangun dan didevelop oleh Anwar Hidayat. Dioperasikan murni melalui Custom JavaScript Math Engine (Vanilla JS) tanpa penggunaan library komputasi tambahan. Instrumen ini menakar model kuadrat terkecil biasa (OLS) serta menyajikan visualisasi plot persebaran dinamis dan uji diagnostik secara independen di perangkat pengguna.

Dokumentasi ini menguraikan basis teoretis, formula matematis, serta prosedur operasional ST-Engine Simple Linear Regression. Regresi linear sederhana merupakan instrumen prediktif dan inferensial paling mendasar dalam statistika, difungsikan untuk mendeskripsikan dan mengevaluasi sifat hubungan antara satu variabel independen tunggal terhadap satu variabel dependen berskala rasio atau interval.

Lanjutkan membaca referensi teoretis, rumus matematis, dan panduan lengkap instrumen analisis ini.

1. Teori Dasar: Definisi, Tujuan, dan Fungsi Regresi Linear Sederhana

Konsep regresi secara historis pertama kali diperkenalkan oleh Sir Francis Galton pada abad ke-19 melalui studinya tentang “regresi menuju rata-rata” (regression to mediocrity) dalam genetika tinggi badan manusia. Namun, landasan matematis modern untuk regresi linear berakar pada Metode Kuadrat Terkecil (Method of Least Squares) yang diformulasikan secara independen oleh Carl Friedrich Gauss dan Adrien-Marie Legendre (Montgomery, Peck, & Vining, 2012). Regresi linear sederhana didefinisikan sebagai metodologi statistik untuk memodelkan hubungan fungsional antara tepat satu variabel bebas (prediktor atau $X$) dan satu variabel terikat (respons atau $Y$). Model ini mengasumsikan bahwa hubungan antara kedua peubah tersebut dapat direpresentasikan dengan sebuah garis lurus (linear) (Gujarati, 2004).

Tujuan utama dari penerapan regresi linear sederhana bersifat ganda. Pertama, Analisis Deskriptif dan Eksplanatori: untuk mengidentifikasi arah (positif atau negatif) dan kekuatan kuantitatif hubungan antara variabel $X$ dan $Y$. Kedua, Analisis Prediktif: untuk memprakirakan nilai harapan rata-rata variabel dependen berdasarkan probabilitas nilai tertentu dari variabel independen (Wooldridge, 2012). Mekanisme perhitungan penaksir (estimator) koefisien regresi pada alat ini menggunakan pendekatan Ordinary Least Squares (OLS). Fungsi objektif dari OLS adalah meminimalkan Jumlah Kuadrat Sisaan (Sum of Squared Residuals), yaitu total dari kuadrat selisih antara nilai $Y$ observasi dengan nilai $Y$ yang diprediksi oleh garis regresi. Prosedur minimalisasi ini memastikan bahwa garis regresi yang terbentuk adalah garis dengan galat prediksi agregat terkecil yang mungkin terjadi (Greene, 2003).

Berdasarkan Teorema Gauss-Markov, penaksir OLS dinobatkan sebagai BLUE (Best Linear Unbiased Estimator) – penaksir yang tidak bias dan memiliki varians minimum di antara semua penaksir linear lainnya – apabila memenuhi seperangkat asumsi klasik yang mendasarinya (Baltagi, 2005). Jika asumsi ini tidak terpenuhi, penaksir OLS mungkin masih tidak bias, namun kehilangan efisiensinya, yang berujung pada kesalahan penarikan kesimpulan probabilitas (P-Value). Uji asumsi klasik yang senantiasa menaungi analisis regresi meliputi:

  • Linearitas: Hubungan struktural antara rata-rata variabel dependen dan independen secara hakikat harus berupa fungsi linear. Pelanggaran linearitas dapat diidentifikasi secara visual melalui pola tebaran (*Scatter Plot*).
  • Normalitas Galat: Nilai sisaan (residuals) diasumsikan berdistribusi normal dengan rata-rata nol. Asumsi ini sangat krusial untuk legitimasi pengujian hipotesis (uji-t dan uji-F) pada ukuran sampel yang kecil. Ketidaknormalan sisaan dapat menyebabkan nilai batas kepercayaan (confidence interval) menjadi tidak akurat (Thode, 2002).
  • Homoskedastisitas: Varians dari sisaan harus bersifat konstan dan setara melintasi semua level dari variabel prediktor $X$. Kehadiran heteroskedastisitas (varians yang berfluktuasi) mendistorsi perhitungan *Standard Error*, sehingga uji signifikansi koefisien menjadi tidak andal. Evaluasi asimtotik yang sering digunakan adalah Uji Glejser dan Uji Breusch-Pagan (Breusch & Pagan, 1979).
  • Non-Autokorelasi: Nilai sisaan pada suatu titik observasi tidak boleh berkorelasi dengan sisaan pada observasi lainnya. Gejala ini sering muncul pada data berdimensi waktu (time series) dan umumnya dievaluasi melalui statistik Durbin-Watson (Durbin & Watson, 1950).

2. Formula Tiap Tahap Analisis dan Relevansinya

Y_i = \beta_0 + \beta_1 X_i + \epsilon_i
Persamaan Populasi Regresi Linear: Fungsi matematis utama yang menyatakan bahwa nilai respons individu (Y_i) adalah hasil penjumlahan dari intersep (\beta_0), pengaruh proporsional dari prediktor (\beta_1 X_i), serta galat stokastik (\epsilon_i) (Montgomery et al., 2012).
\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2} \quad ; \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}
Estimator Kuadrat Terkecil (OLS): Rumus derivasi parsial untuk memperoleh nilai dugaan terbaik. \hat{\beta}_1 melambangkan kemiringan garis, yang dihitung dari rasio kovarians terhadap varians X. \hat{\beta}_0 menjamin garis regresi akan selalu melewati titik rata-rata (\bar{X}, \bar{Y}) (Gujarati, 2004).
R^2 = \frac{ESS}{TSS} = \frac{\sum (\hat{Y}_i - \bar{Y})^2}{\sum (Y_i - \bar{Y})^2}
Koefisien Determinasi: Parameter evaluasi kekuatan model. Mendeskripsikan persentase rasio keragaman variabel dependen (TSS) yang sukses direplikasi oleh garis regresi prediksi (ESS) (Wooldridge, 2012).
t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \quad ; \quad SE(\hat{\beta}_1) = \sqrt{\frac{\sum \epsilon_i^2 / (n-2)}{\sum (X_i - \bar{X})^2}}
T-Statistic Uji Parsial: Digunakan untuk membuktikan hipotesis nol (\beta_1 = 0). Rasio antara koefisien taksiran dengan galat bakunya (standard error) menentukan apakah kemiringan relasi bersifat nyata atau terjadi murni akibat kebetulan pada sampel (Greene, 2003).
d = \frac{\sum_{i=2}^n (e_i - e_{i-1})^2}{\sum_{i=1}^n e_i^2}
Statistik Durbin-Watson (Autokorelasi): Mengkalkulasi derajat autokorelasi lag pertama pada sisaan. Evaluasi yang melampaui angka 1.5 dan mendekati 2.5 menandakan terbebasnya model dari keterikatan autokorelasi linier, sehingga menjaga integritas Standard Error (Durbin & Watson, 1950).

3. Arsitektur Perangkat Lunak

Sistem ini dirancang berbasis otonomi murni dengan **100% Custom JavaScript Math Engine (Vanilla JS)** tanpa konektivitas backend server maupun pemanggilan perpustakaan komputasi eksternal R.

  • Efisiensi Regresi Univariat: Alih-alih melakukan inversi matriks kompleks yang berat, persamaan regresi sederhana diselesaikan melalui kalkulasi momen pembilang dan penyebut deviasi linear yang berjalan seketika pada RAM peramban lokal.
  • Visualisasi Geometri SVG: Diagram penyebaran (Scatter Chart) dibangun langsung dengan rekayasa manipulasi Document Object Model (DOM) untuk menghasilkan grafik tajam tak berbasis piksel yang siap melukis ribuan titik dengan garis regresi interaktif.

4. Panduan Manual Penggunaan Alat Analisis

A. Persiapan Data, CSV, dan Simulasi

  • Konfigurasi Data: Matriks observasi berformat dua dimensi kontinu tanpa data rumpang (missing values).
  • Aktivasi Simulasi: Klik tombol Data Simulasi untuk menerbitkan himpunan sampel rekaan yang mengilustrasikan model regresi berdistribusi normal, fungsional untuk menguji logika sistem secara ringkas.
  • Proses Impor (Unggah / Paste): Letakkan sel salinan spreadsheet (Excel) ke dalam Grid kanvas aplikasi secara mendatar. Anda turut diperkenankan mengunggah format .csv untuk data deret besar.

B. Pemetaan Variabel (Mapping)

  • Klik tombol Kunci Data & Lanjut Pemetaan untuk merekam Array memori.
  • Variabel Dependen (Y): Target pengujian, yaitu variabel respons yang ingin Anda teliti (contoh: Nilai Ujian).
  • Variabel Independen (X): Determinan pengujian, yaitu variabel penjelas/prediktor (contoh: Jam Belajar). Karena instrumen ini merupakan regresi sederhana, pastikan hanya 1 (satu) variabel bebas yang terdaftar pada kolom ini.

C. Penetapan Opsi dan Diagram Alur Analisis

  • Sistem menyediakan panel opsi pengujian asumsi klasik komprehensif, mencakup Uji Normalitas, Autokorelasi, dan Heteroskedastisitas, serta rendering Scatter Plot. Sangat dianjurkan untuk tidak melepas centang opsi diagnostik ini guna menjaga justifikasi model.
  • Diagram Alur Komputasi: Pengecekan Vektor Tunggal → Perhitungan Momen Rata-rata dan Simpangan → Ekstraksi Koefisien $\beta_0$ dan $\beta_1$ → Pembuatan Sisaan Residual → Asesmen Glejser, Breusch-Pagan, dan Durbin-Watson → Aproksimasi P-Value T & F → Render SVG Chart → Formulasi Tabel dan Simpulan.

D. Cara Baca Tabel Output dan Persamaan

  • Scatter Chart & Garis Regresi: Sebaran titik merepresentasikan data mentah, sementara garis lurus melukiskan proyeksi teoretis rata-rata. Kedekatan titik-titik data terhadap garis mendemonstrasikan keakuratan model.
  • Tabel Model Summary: Indeks R-Square mengukur kapabilitas model. Nilai 0.65 bermakna 65% keragaman pada variabel target berhasil diintervensi oleh variabel bebas.
  • Tabel ANOVA: Mencantumkan Signifikansi Model. P-Value < 0.05 mensahkan model tersebut linier dan layak digunakan.
  • Tabel Coefficients (Parsial): Parameter *Unstandardized* memaparkan koefisien. Di kolom ujung kanan (Sig/P-Value), pastikan nilai probabilitas variabel prediktor X mencapai zona < 0.05. Ini mengkonfirmasi efek yang tidak menggunakan faktor probabilitas kebetulan acak semata.
  • Tabel Asumsi Klasik: Evaluasi mutlak kualitas model. Untuk memperoleh model yang sempurna, seluruh P-Value Uji Asumsi (Normalitas, Heteroskedastisitas) harus melampaui 0.05, yang menandakan ketiadaan gangguan galat.
  • Cara Baca Persamaan: Rumus Y = 1.25 + 0.8X diterjemahkan bahwa jika X bernilai nol, Y akan bernilai 1.25. Untuk setiap kenaikan satu satuan skor X, Y akan terdongkrak bertambah sebesar 0.8 secara konsisten.

5. Manfaat Aplikasi (Kelebihan & Kekurangan)

  • Kelebihan: Berlari dengan daya komputasi murni tanpa menggunakan koneksi pemrosesan server luar. Grafik penyebaran SVG memberikan keunggulan pelukisan resolusi tinggi yang fleksibel. Prosesor narasi kecerdasan algoritma merangkum esensi hipotesis langsung di bagian akhir. Mengakomodasi paket asumsi klasik lengkap secara *offline*.
  • Kekurangan: Hanya mendukung satu variabel eksogen spesifik. P-Value dirakit melalui perumusan fungsi asimtotik kontinu, sehingga pada jumlah sampel mikro memiliki pergeseran rentang diferensial nilai desimal ke-4 bila dibandingkan lookup table dari perangkat lunak dekstop berbayar, meski konklusi inferensial dipastikan tidak berbeda.

6. Daftar Pustaka

  • Baltagi, B. H. (2005). Econometric Analysis of Panel Data (3rd ed.). John Wiley & Sons.
  • Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica, 47(5), 1287-1294.
  • Durbin, J., & Watson, G. S. (1950). Testing for serial correlation in least squares regression: I. Biometrika, 37(3/4), 409-428.
  • Greene, W. H. (2003). Econometric Analysis (5th ed.). Prentice Hall.
  • Gujarati, D. N. (2004). Basic Econometrics (4th ed.). McGraw-Hill.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). John Wiley & Sons.
  • Thode, H. C. (2002). Testing for Normality. CRC Press.
  • Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach (5th ed.). Cengage Learning.

Daftar Tool Analisis Statistik Online Statistikian
Scroll to Top
Jasa Olah dan Analisis Statistik Oleh Statistikian Tahun 2024