Binary Logistic Regression | Regresi Logistik Biner

Engine R-WASM (Library glm) – Advanced Diagnostics – www.statistikian.com

Memuat Engine R-WASM (Stats Package)…

0% (Sedang inisialisasi WebR Engine…)

1. Input Data (Grid View)

💡 Tips: Klik sel di bawah lalu Paste (Ctrl+V) data dari Excel.
Kolom Y wajib Kategorik (Misal: 0 dan 1).
NoVar_X1Var_X2Var_X3Var_X4Var_Y_Biner
1
2
3
4
5

Dokumentasi Akademik ST-Engine: Regresi Logistik Biner

Dikembangkan Oleh:

ANWAR HIDAYAT

Founder dan CEO www.statistikian.com

Coding ini didevelop oleh Anwar Hidayat untuk menyediakan instrumen analisis regresi logistik komprehensif berbasis WebAssembly (WASM). Alat ini menerapkan algoritma komputasi dari library glm R murni di sisi klien secara riil—lengkap dengan deteksi AUC dan matriks Information Criteria—dan dirancang khusus agar 100% stabil di ekosistem WordPress.

Dokumentasi ini menguraikan landasan teori, formulasi matematis, serta prosedur teknis untuk menggunakan instrumen ST-Engine Binary Logistic Regression. Regresi logistik biner merupakan alat analisis ekonometrika yang secara spesifik difungsikan untuk memodelkan probabilitas kejadian manakala variabel respons (dependen) bersifat dikotomis (binomial).

1. Teori Dasar: Definisi, Tujuan, dan Fungsi

Regresi Logistik Biner merupakan kerangka pemodelan statistika multivariat dari rumpun Generalized Linear Models (GLM). Model ini diaplikasikan untuk membedah kausalitas atau asosiasi prediktif antara variabel dependen yang berskala nominal dikotomis (dua kategori yang saling lepas) dengan serangkaian variabel independen. Dalam spesifikasi matematis standar, dua kategori pada variabel dependen tersebut dikodekan dengan angka biner 1 (merepresentasikan probabilitas keberhasilan atau terjadinya suatu fenomena minat/event of interest) dan angka 0 (merepresentasikan ketiadaan fenomena tersebut) (Hosmer, Lemeshow, & Sturdivant, 2013).

Tujuan fundamental dari regresi logistik bukanlah untuk mengestimasi titik nilai absolut (point value) secara linear sebagaimana pada metode Ordinary Least Squares (OLS), melainkan untuk mengestimasi secara matematis probabilitas bersyarat P(Y=1 | X). Pendekatan regresi linear konvensional gugur dan tidak sahih untuk diaplikasikan pada variabel dependen biner. Hal ini disebabkan karena fungsi linear tanpa batas dapat menghasilkan taksiran probabilitas di luar interval teoretis rasional [0, 1]. Lebih jauh lagi, OLS pada data biner secara mendasar melanggar asumsi homoskedastisitas galat (Gujarati, 2004). Mengingat varians dari distribusi Bernoulli secara inheren amat bergantung pada nilai probabilitas kejadiannya sendiri—yang dirumuskan sebagai p(1-p)—maka data berskala biner secara kodrati bersifat heteroskedastik (Baltagi, 2005).

Guna menetralkan dan mengatasi limitasi model linear tersebut, arsitektur regresi logistik menggunakan fungsi tautan (link function) yang merentangkan probabilitas kejadian ke dalam bentuk rasio peluang (odds ratio), yang kemudian diubah ke dalam bentuk logaritma natural (log-odds atau logit). Transformasi logit ini secara elegan memetakan nilai probabilitas (yang awalnya terikat kaku pada interval 0 hingga 1) menjadi distribusi teoretis kontinu yang membentang tanpa batas dari negatif tak terhingga hingga positif tak terhingga (-\infty hingga +\infty). Transformasi matematis inilah yang memfasilitasi pembangunan persamaan linear antara variabel prediktor eksogen dengan nilai log-odds dari variabel respons (McCullagh & Nelder, 1989).

Dalam proses penaksiran parameter (koefisien arah regresi), metode minimisasi sisaan kuadrat biasa (OLS) menjadi tidak relevan. Estimasi diselesaikan melalui pendekatan Maximum Likelihood Estimation (MLE). Metode MLE merupakan sebuah prosedur komputasi numerik iteratif (seperti algoritma Fisher Scoring) yang bekerja dengan cara memburu dan mencari kombinasi nilai koefisien regresi yang memproduksi probabilitas gabungan paling maksimal untuk melahirkan pola data sampel empiris yang diobservasi (McFadden, 1974). Evaluasi akhir terhadap arsitektur model diverifikasi melalui pengamatan nilai deviansi (Log-Likelihood), Pseudo R-Square, matriks Information Criteria (Akaike & Schwarz), hingga pembuktian kemampuan diskriminasi model menggunakan luasan area kurva ROC atau Area Under the Curve (Fawcett, 2006).

2. Formula Tiap Tahap Analisis

\text{Logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k
Fungsi Logit (Log-Odds): Persamaan ini mentransformasi probabilitas kejadian (p) menjadi logaritma natural dari peluang (odds). Transformasi ini merupakan langkah mutlak untuk melepaskan batas probabilitas absolut [0, 1] agar pemodelan kombinasi linear regresi di sisi kanan persamaan dapat dikalkulasi secara teoretis (Cox, 1958).
p = \frac{\exp(\beta_0 + \sum \beta_i X_i)}{1 + \exp(\beta_0 + \sum \beta_i X_i)}
Probabilitas Prediktif (Ogive Curve): Transformasi invers dari fungsi logit di atas. Karakteristik rasio eksponensial dalam persamaan ini memberikan garansi mutlak bahwa hasil estimasi probabilitas akhir (p) dari setiap subjek akan selalu terkurung dengan aman di dalam rentang proporsional angka 0 hingga 1 (Hosmer, Lemeshow, & Sturdivant, 2013).
L(\beta) = \prod_{i=1}^{n} p_i^{y_i} (1 - p_i)^{1 - y_i}
Maximum Likelihood Estimation (MLE): Mewakili fungsi kemungkinan (likelihood function) untuk sebaran sampel berdistribusi biner. Algoritma ini memecahkan teka-teki penaksiran dengan memburu dan menetapkan titik optimum pada koefisien yang memaksimumkan peluang kumulatif munculnya data pengamatan (McFadden, 1974).
W = \left(\frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}\right)^2 \sim \chi^2_{(1)}
Wald Test: Distribusi asimtotik statistik chi-square untuk melakukan komparasi antara koefisien taksiran prediksi dengan besaran standar galatnya. Tes ini relevan secara matematis untuk mengevaluasi signifikansi p-value parsial dari setiap variabel penjelas yang beroperasi di dalam model (Wald, 1943).
AIC = -2 \ln(L) + 2k \quad ; \quad BIC = -2 \ln(L) + k \ln(n)
Information Criteria (AIC & BIC): Metrik ini menghukum (memberi penalti) penyisipan parameter prediktor ekstra yang tidak efisien. Akaike Information Criterion (AIC) dan Bayesian Information Criterion (BIC) merupakan fondasi utama untuk mengkomparasi kelayakan dua atau lebih rancangan model yang saling bersaing. Semakin kecil angkanya, semakin tinggi efisiensi informasi model (Akaike, 1974; Schwarz, 1978).
AUC = \int_{0}^{1} \text{TPR}(\text{FPR}^{-1}(t)) dt
Area Under the ROC Curve (AUC): Area di bawah kurva Receiver Operating Characteristic (ROC). Menakar kapabilitas diskriminasi model dalam menyortir dengan tepat antara kelompok positif (1) dan kelompok negatif (0). Nilai yang mendekati 1.0 mendeskripsikan model dengan kemampuan diskriminasi yang superior dan sempurna (Fawcett, 2006).

3. Arsitektur Perangkat Lunak

Alat ini dikonstruksi secara mutakhir dengan memanfaatkan pemrosesan murni sisi klien (Client-Side Computing) untuk mencegah transfer data rahasia ke peladen (server):

  • Library R & WebR (WASM): Mengadopsi teknologi kompilasi bahasa statistika “R” melalui kerangka mesin WebR. Modul pemodelan dieksekusi memanggil fungsi inti glm(family=binomial) dari pustaka stats. Kalkulasi mencakup AUC, AIC, BIC, dan format variabel interaksi dikerjakan sepenuhnya di memori peramban untuk menjamin akurasi yang sepadan dengan perangkat lunak korporat.
  • Vanilla JavaScript: Pengelolaan elemen antarmuka (DOM), parsing CSV matriks, dan pengendalian asinkron dibangun menggunakan JavaScript murni (tanpa jQuery), memastikan kekebalan aplikasi dari konflik pengoptimal situs WordPress.

4. Panduan Manual Penggunaan Alat Analisis

A. Persiapan dan Input Data

Tahap awal mengharuskan ketersediaan data empiris dengan tata letak yang presisi.

  • Siapkan matriks tabel observasi (baris untuk subjek, kolom untuk variabel). Variabel Dependen (Y) wajib dikodekan dalam bentuk biner (sebatas memuat angka 0 dan 1). Variabel penjelas (X) boleh diisi format kontinu maupun kategori numerik. Desimal menggunakan pemisah titik (.).
  • Tekan Upload CSV untuk memuat pangkalan data besar secara instan, atau cukup *copy* area data dari lembar Excel dan *paste* di atas kanvas Grid aplikasi.
  • Fasilitas Data Simulasi Dinamis dapat digunakan untuk menyuntikkan data tiruan otomatis guna mempelajari karakteristik penyelesaian model logistik.
Catatan Pakar: Model Maximum Likelihood secara inheren amat ringkih terhadap kekosongan sel baris observasi (missing values). Anda berkewajiban membersihkan dan mengimputasi sel yang kosong sebelum memuatnya ke dalam model (Agresti, 2013).

B. Pemetaan Variabel (Mapping Data)

Mendelegasikan fungsi kausalitas untuk persamaan logit.

  • Bilik Independen (X): Tempatkan seluruh variabel kovariat dan prediktor. Anda diperkenankan menyeleksi lebih dari satu prediktor (tahan tombol Ctrl) lalu mengklik Tambah Interaksi untuk melahirkan variabel moderasi. Variabel interaksi akan dicetak dengan bungkus kurung, misal (X1*X2).
  • Bilik Dependen (Y): Secara eksklusif mengawal dan hanya menampung satu variabel observasi biner murni.

C. Penyesuaian Opsi Analisis dan Diagram Alur

Tersedia sejumlah parameter opsi penyesuaian fungsi kemungkinan dan diagnosis tambahan (AIC/BIC, AUC, Hosmer-Lemeshow).

  • Fungsi Tautan (Link Function): Logit adalah matriks asali (default) yang dominan. Gunakan Probit bila diyakini bahwa dasar teori utilitas laten ditarik dari distribusi kurva normal kumulatif.
  • Diagram Alur Komputasi: Pengekstraksian Grid JSON → Injeksi globalEnv WebR → Modifikasi Interaksi (A*B) → Konvergensi Iterasi glm() Fisher-Scoring → Kalkulasi AIC/BIC & AUC → Serialisasi HTML.

D. Cara Baca Tabel Output

Interpretasi output dirancang selaras dengan spesifikasi keluaran pelaporan jurnal internasional.

  • Omnibus Tests of Coefficients: Menguji signifikansi kerangka regresi secara kolektif. Bila Sig. < 0.05, model secara simultan dinyatakan mampu memperbaiki daya ramalan dibanding sekadar menebak acak.
  • Model Summary (Pseudo R-Square): Nilai Nagelkerke R Square menguraikan persentase porsi variabilitas fluktuasi probabilitas respons yang sanggup dijelaskan oleh himpunan determinan (contoh 0.456 bermakna 45.6%).
  • Hosmer and Lemeshow Test: Berbeda arah dari uji lainnya, uji kalibrasi ini WAJIB mendambakan nilai probabilitas p-value Sig. > 0.05. Temuan ini memvalidasi bahwa tidak ditemukan disparitas deviasi yang membengkak antara probabilitas dugaan dan sebaran insiden nyata.
  • Information Criteria (AIC & BIC): Memberikan skor penalti (koreksi). Angka absolut AIC dan BIC bersifat relatif untuk membandingkan model. Model A dengan AIC yang lebih rendah daripada Model B dinobatkan sebagai konstruksi model yang lebih superior dan efisien secara informasi.
  • Area Under Curve (AUC): Parameter kesaktian model membedakan kategori (diskriminasi). Rentang 0.7 – 0.8 dianggap adekuat (fair), > 0.8 dikategorikan baik (good), dan > 0.9 dinilai amat cemerlang (excellent).
  • Variables in the Equation: Pada meja uji signifikansi parsial ini, kolom Sig. yang menukik < 0.05 menandakan penolakan hipotesis nol. Kolom Exp(B) merepresentasikan Odds Ratio (pelipatgandaan peluang kerentanan). Jika variabel interaksi (Usia*Dosis) memiliki Sig < 0.05, maka terbukti adanya efek moderasi mutlak dalam log-odds.
Catatan Pakar: Gejala standar error (S.E.) parsial yang menggelembung teramat ekstrem (misal melampaui angka puluhan ribu) merupakan konfirmasi diagnosa terjadinya pemisahan sempurna (perfect separation) pada populasi sel tabel kontingensi atau benturan multikolinearitas eksesif (Allison, 2012).

E. Cara Baca Persamaan Matematis

ST-Engine mentranslasikan koefisien estimasi B menuju blok abstrak fungsional: Logit(p) = -2.15 + 0.75*X1 + 1.25*(X1*X2). Model matematis ini menyingkap bukti bahwa regresi dikotomis berjalan aditif dalam koridor log-odds, namun secara esensial bertindak eksponensial melengkung kurva ketika dikalkulasikan murni pada unit probabilitas lapangan.

5. Manfaat Aplikasi (Kelebihan & Kekurangan)

  • Kelebihan Dominan: Mengekstrak dan menyamai pencapaian akurasi komputasi Maximum Likelihood dari peranti lunak raksasa industri statistika. Mengedepankan Air-Gapped Privacy, memastikan nol perpindahan transmisi matriks pengamatan ke peladen komputer eksternal (100% aman untuk riset korporat dan medis). Fitur penamaan variabel interaksi dengan format (A*B) otomatis membuat luaran tabel siap untuk dipublikasikan.
  • Kekurangan Sistematis: Mengharuskan pendelegasian pengunduhan beban awal (cold-start preload) memori lingkungan biner “R” ke tembolok peramban di saat permulaan (memakan antrean waktu singkat berdurasi sekitar belasan detik). Komputasi raksasa pada iterasi berisiko menabrak keterbatasan daya tampung RAM piranti keras gawai penjelajah pengguna.

6. Daftar Pustaka

  • Agresti, A. (2013). Categorical Data Analysis (3rd ed.). John Wiley & Sons.
  • Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6), 716-723.
  • Allison, P. D. (2012). Logistic Regression Using SAS: Theory and Application (2nd ed.). SAS Institute.
  • Baltagi, B. H. (2005). Econometric Analysis of Panel Data (3rd ed.). John Wiley & Sons.
  • Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B, 20(2), 215-232.
  • Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.
  • Gujarati, D. N. (2004). Basic Econometrics (4th ed.). McGraw-Hill.
  • Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.
  • McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman and Hall/CRC.
  • McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In P. Zarembka (Ed.), Frontiers in Econometrics (pp. 105-142). Academic Press.
  • Nagelkerke, N. J. D. (1991). A note on a general definition of the coefficient of determination. Biometrika, 78(3), 691-692.
  • Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461-464.
Daftar Tool Analisis Statistik Online Statistikian
Scroll to Top
Jasa Olah dan Analisis Statistik Oleh Statistikian Tahun 2024