Memuat Engine R-WASM (Stats Package)…
0% (Sedang inisialisasi WebR Engine…)
1. Input Data (Grid View)
Kolom Y wajib Kategorik (Misal: 0 dan 1).
| No | Var_X1 | Var_X2 | Var_X3 | Var_X4 | Var_Y_Biner |
|---|---|---|---|---|---|
| 1 | |||||
| 2 | |||||
| 3 | |||||
| 4 | |||||
| 5 |
Dokumentasi Akademik ST-Engine: Regresi Logistik Biner
Dikembangkan Oleh:
ANWAR HIDAYAT
Founder dan CEO www.statistikian.com
Coding ini didevelop oleh Anwar Hidayat untuk menyediakan instrumen analisis regresi logistik komprehensif berbasis WebAssembly (WASM). Alat ini menerapkan algoritma komputasi dari library glm R murni di sisi klien secara riil—lengkap dengan deteksi AUC dan matriks Information Criteria—dan dirancang khusus agar 100% stabil di ekosistem WordPress.
Dokumentasi ini menguraikan landasan teori, formulasi matematis, serta prosedur teknis untuk menggunakan instrumen ST-Engine Binary Logistic Regression. Regresi logistik biner merupakan alat analisis ekonometrika yang secara spesifik difungsikan untuk memodelkan probabilitas kejadian manakala variabel respons (dependen) bersifat dikotomis (binomial).
1. Teori Dasar: Definisi, Tujuan, dan Fungsi
Regresi Logistik Biner merupakan kerangka pemodelan statistika multivariat dari rumpun Generalized Linear Models (GLM). Model ini diaplikasikan untuk membedah kausalitas atau asosiasi prediktif antara variabel dependen yang berskala nominal dikotomis (dua kategori yang saling lepas) dengan serangkaian variabel independen. Dalam spesifikasi matematis standar, dua kategori pada variabel dependen tersebut dikodekan dengan angka biner 1 (merepresentasikan probabilitas keberhasilan atau terjadinya suatu fenomena minat/event of interest) dan angka 0 (merepresentasikan ketiadaan fenomena tersebut) (Hosmer, Lemeshow, & Sturdivant, 2013).
Tujuan fundamental dari regresi logistik bukanlah untuk mengestimasi titik nilai absolut (point value) secara linear sebagaimana pada metode Ordinary Least Squares (OLS), melainkan untuk mengestimasi secara matematis probabilitas bersyarat P(Y=1 | X). Pendekatan regresi linear konvensional gugur dan tidak sahih untuk diaplikasikan pada variabel dependen biner. Hal ini disebabkan karena fungsi linear tanpa batas dapat menghasilkan taksiran probabilitas di luar interval teoretis rasional [0, 1]. Lebih jauh lagi, OLS pada data biner secara mendasar melanggar asumsi homoskedastisitas galat (Gujarati, 2004). Mengingat varians dari distribusi Bernoulli secara inheren amat bergantung pada nilai probabilitas kejadiannya sendiri—yang dirumuskan sebagai p(1-p)—maka data berskala biner secara kodrati bersifat heteroskedastik (Baltagi, 2005).
Guna menetralkan dan mengatasi limitasi model linear tersebut, arsitektur regresi logistik menggunakan fungsi tautan (link function) yang merentangkan probabilitas kejadian ke dalam bentuk rasio peluang (odds ratio), yang kemudian diubah ke dalam bentuk logaritma natural (log-odds atau logit). Transformasi logit ini secara elegan memetakan nilai probabilitas (yang awalnya terikat kaku pada interval 0 hingga 1) menjadi distribusi teoretis kontinu yang membentang tanpa batas dari negatif tak terhingga hingga positif tak terhingga (-\infty hingga +\infty). Transformasi matematis inilah yang memfasilitasi pembangunan persamaan linear antara variabel prediktor eksogen dengan nilai log-odds dari variabel respons (McCullagh & Nelder, 1989).
Dalam proses penaksiran parameter (koefisien arah regresi), metode minimisasi sisaan kuadrat biasa (OLS) menjadi tidak relevan. Estimasi diselesaikan melalui pendekatan Maximum Likelihood Estimation (MLE). Metode MLE merupakan sebuah prosedur komputasi numerik iteratif (seperti algoritma Fisher Scoring) yang bekerja dengan cara memburu dan mencari kombinasi nilai koefisien regresi yang memproduksi probabilitas gabungan paling maksimal untuk melahirkan pola data sampel empiris yang diobservasi (McFadden, 1974). Evaluasi akhir terhadap arsitektur model diverifikasi melalui pengamatan nilai deviansi (Log-Likelihood), Pseudo R-Square, matriks Information Criteria (Akaike & Schwarz), hingga pembuktian kemampuan diskriminasi model menggunakan luasan area kurva ROC atau Area Under the Curve (Fawcett, 2006).
2. Formula Tiap Tahap Analisis
\text{Logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_kp = \frac{\exp(\beta_0 + \sum \beta_i X_i)}{1 + \exp(\beta_0 + \sum \beta_i X_i)}L(\beta) = \prod_{i=1}^{n} p_i^{y_i} (1 - p_i)^{1 - y_i}W = \left(\frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\right)^2 \sim \chi^2_{(1)}AIC = -2 \ln(L) + 2k \quad ; \quad BIC = -2 \ln(L) + k \ln(n)AUC = \int_{0}^{1} \text{TPR}(\text{FPR}^{-1}(t)) dt3. Arsitektur Perangkat Lunak
Alat ini dikonstruksi secara mutakhir dengan memanfaatkan pemrosesan murni sisi klien (Client-Side Computing) untuk mencegah transfer data rahasia ke peladen (server):
- Library R & WebR (WASM): Mengadopsi teknologi kompilasi bahasa statistika “R” melalui kerangka mesin WebR. Modul pemodelan dieksekusi memanggil fungsi inti
glm(family=binomial)dari pustakastats. Kalkulasi mencakup AUC, AIC, BIC, dan format variabel interaksi dikerjakan sepenuhnya di memori peramban untuk menjamin akurasi yang sepadan dengan perangkat lunak korporat. - Vanilla JavaScript: Pengelolaan elemen antarmuka (DOM), parsing CSV matriks, dan pengendalian asinkron dibangun menggunakan JavaScript murni (tanpa jQuery), memastikan kekebalan aplikasi dari konflik pengoptimal situs WordPress.
4. Panduan Manual Penggunaan Alat Analisis
A. Persiapan dan Input Data
Tahap awal mengharuskan ketersediaan data empiris dengan tata letak yang presisi.
- Siapkan matriks tabel observasi (baris untuk subjek, kolom untuk variabel). Variabel Dependen (Y) wajib dikodekan dalam bentuk biner (sebatas memuat angka
0dan1). Variabel penjelas (X) boleh diisi format kontinu maupun kategori numerik. Desimal menggunakan pemisah titik (.). - Tekan Upload CSV untuk memuat pangkalan data besar secara instan, atau cukup *copy* area data dari lembar Excel dan *paste* di atas kanvas Grid aplikasi.
- Fasilitas Data Simulasi Dinamis dapat digunakan untuk menyuntikkan data tiruan otomatis guna mempelajari karakteristik penyelesaian model logistik.
B. Pemetaan Variabel (Mapping Data)
Mendelegasikan fungsi kausalitas untuk persamaan logit.
- Bilik Independen (X): Tempatkan seluruh variabel kovariat dan prediktor. Anda diperkenankan menyeleksi lebih dari satu prediktor (tahan tombol Ctrl) lalu mengklik Tambah Interaksi untuk melahirkan variabel moderasi. Variabel interaksi akan dicetak dengan bungkus kurung, misal
(X1*X2). - Bilik Dependen (Y): Secara eksklusif mengawal dan hanya menampung satu variabel observasi biner murni.
C. Penyesuaian Opsi Analisis dan Diagram Alur
Tersedia sejumlah parameter opsi penyesuaian fungsi kemungkinan dan diagnosis tambahan (AIC/BIC, AUC, Hosmer-Lemeshow).
- Fungsi Tautan (Link Function): Logit adalah matriks asali (default) yang dominan. Gunakan Probit bila diyakini bahwa dasar teori utilitas laten ditarik dari distribusi kurva normal kumulatif.
- Diagram Alur Komputasi: Pengekstraksian Grid JSON → Injeksi
globalEnvWebR → Modifikasi Interaksi(A*B)→ Konvergensi Iterasiglm()Fisher-Scoring → Kalkulasi AIC/BIC & AUC → Serialisasi HTML.
D. Cara Baca Tabel Output
Interpretasi output dirancang selaras dengan spesifikasi keluaran pelaporan jurnal internasional.
- Omnibus Tests of Coefficients: Menguji signifikansi kerangka regresi secara kolektif. Bila Sig. < 0.05, model secara simultan dinyatakan mampu memperbaiki daya ramalan dibanding sekadar menebak acak.
- Model Summary (Pseudo R-Square): Nilai Nagelkerke R Square menguraikan persentase porsi variabilitas fluktuasi probabilitas respons yang sanggup dijelaskan oleh himpunan determinan (contoh 0.456 bermakna 45.6%).
- Hosmer and Lemeshow Test: Berbeda arah dari uji lainnya, uji kalibrasi ini WAJIB mendambakan nilai probabilitas p-value Sig. > 0.05. Temuan ini memvalidasi bahwa tidak ditemukan disparitas deviasi yang membengkak antara probabilitas dugaan dan sebaran insiden nyata.
- Information Criteria (AIC & BIC): Memberikan skor penalti (koreksi). Angka absolut AIC dan BIC bersifat relatif untuk membandingkan model. Model A dengan AIC yang lebih rendah daripada Model B dinobatkan sebagai konstruksi model yang lebih superior dan efisien secara informasi.
- Area Under Curve (AUC): Parameter kesaktian model membedakan kategori (diskriminasi). Rentang 0.7 – 0.8 dianggap adekuat (fair), > 0.8 dikategorikan baik (good), dan > 0.9 dinilai amat cemerlang (excellent).
- Variables in the Equation: Pada meja uji signifikansi parsial ini, kolom Sig. yang menukik < 0.05 menandakan penolakan hipotesis nol. Kolom Exp(B) merepresentasikan Odds Ratio (pelipatgandaan peluang kerentanan). Jika variabel interaksi
(Usia*Dosis)memiliki Sig < 0.05, maka terbukti adanya efek moderasi mutlak dalam log-odds.
E. Cara Baca Persamaan Matematis
ST-Engine mentranslasikan koefisien estimasi B menuju blok abstrak fungsional: Logit(p) = -2.15 + 0.75*X1 + 1.25*(X1*X2). Model matematis ini menyingkap bukti bahwa regresi dikotomis berjalan aditif dalam koridor log-odds, namun secara esensial bertindak eksponensial melengkung kurva ketika dikalkulasikan murni pada unit probabilitas lapangan.
5. Manfaat Aplikasi (Kelebihan & Kekurangan)
- Kelebihan Dominan: Mengekstrak dan menyamai pencapaian akurasi komputasi Maximum Likelihood dari peranti lunak raksasa industri statistika. Mengedepankan Air-Gapped Privacy, memastikan nol perpindahan transmisi matriks pengamatan ke peladen komputer eksternal (100% aman untuk riset korporat dan medis). Fitur penamaan variabel interaksi dengan format
(A*B)otomatis membuat luaran tabel siap untuk dipublikasikan. - Kekurangan Sistematis: Mengharuskan pendelegasian pengunduhan beban awal (cold-start preload) memori lingkungan biner “R” ke tembolok peramban di saat permulaan (memakan antrean waktu singkat berdurasi sekitar belasan detik). Komputasi raksasa pada iterasi berisiko menabrak keterbatasan daya tampung RAM piranti keras gawai penjelajah pengguna.
6. Daftar Pustaka
- Agresti, A. (2013). Categorical Data Analysis (3rd ed.). John Wiley & Sons.
- Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6), 716-723.
- Allison, P. D. (2012). Logistic Regression Using SAS: Theory and Application (2nd ed.). SAS Institute.
- Baltagi, B. H. (2005). Econometric Analysis of Panel Data (3rd ed.). John Wiley & Sons.
- Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B, 20(2), 215-232.
- Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.
- Gujarati, D. N. (2004). Basic Econometrics (4th ed.). McGraw-Hill.
- Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.
- McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman and Hall/CRC.
- McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In P. Zarembka (Ed.), Frontiers in Econometrics (pp. 105-142). Academic Press.
- Nagelkerke, N. J. D. (1991). A note on a general definition of the coefficient of determination. Biometrika, 78(3), 691-692.
- Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461-464.
