Sebuah Blog Untuk Belajar Jenis Uji Statistik, Penelitian, Statistik Berbasis Komputer, Statistik Dalam Excel, Tutorial SPSS, STATA dan Minitab.

Membuang Outlier Dengan Excel

Bagaimana caranya membuang atau eliminasi outliers menggunakan aplikasi MS Excel? Mungkin itu adalah pertanyaan yang sering diajukan para peneliti atau orang-orang yang sering berkecimpung di dunia statistik. Mengapa di sini kita membahas upaya eliminasi outlier menggunakan excel? Alasannya adalah Excel merupakan aplikasi yang banyak dimiliki oleh pengguna komputer. Jadi apabila anda mempunyai masalah dengan data anda berupa adanya outlier atau data pencilan, kemudian ingin mendeteksi dimana letak pencilan tersebut secara cepat, maka excel dapat melakukannya dengan mudah dan secara realtime, dibandingkan jika anda menggunakan aplikasi statistik seperti SPSS atau STATA.

Outlier Data dengan Excel
Outlier Data dengan Excel


Namun bagaimana caranya? itulah yang perlu kita jawab dalam bahasan kali ini. Tentunya setelah penulis menganggap bahwa para pembaca sudah membaca artikel kami tentang Outlier. Baiklah singkat cerita saja, anda siapkan aplikasi MS Excel anda.

Kemudian buatlah satu kolom data dengan nama kolom: "Data". Kemudian buatlah sederet sembarang angka. Agar mudah anda mempelajari, silahkan isi seperti file excel terlampir di bawah ini atau anda dapat mendownloadnya. 




Langkah selanjutnya:

  1. Isi data tersebut pada Cell A6:A25.
  2. Buat nilai rata-rata atau Mean dari sederet angka tersebut di kolom D5 dengan menggunakan formula: Average(A6:A25).
  3. Buat nilai standar deviasi dari sederet angka tersebut di kolom D6 dengan menggunakan formula: Stdev.s(A6:A25).
  4. Ketikkan label kolom secara berurutan pada Cell F5, G5 dan H5, yaitu dengan label: Standardize, Absolut Standardize dan Outlier.
  5. Hitung nilai standardize dari sederet angka di cell A6:A25 pada cell F6:F25, caranya ketikkan rumus pada cell F6, yaitu: =STANDARDIZE(A6,D$5,D$6). Nilai tersebut merupakan nilai pada langkah 1 yang terstandarisasi berdasarkan nilai Mean dan Standar Deviasi pada langkah 2 dan 3.
  6. Copy Cell F6 dan Paste pada cell F7 hingga F25.
  7. Selanjutnya hitung nilai absolut dari nilai terstandarisasi pada langkah 5 dan 6 dengan cara ketikkan formula pada cell G6, yaitu: =ABS(F6).
  8. Copy cell F6 dan paste pada cell F7 hingga F25.
  9. Untuk menentukan apakah sample atau observasi merupakan outlier atau tidak, maka pada cell H6, ketikkan formula: =IF(G6>3,"*","").
  10. Copy cell H6 dan Paste pada cell H7 hingga H25.
  11. Lihat hasilnya pada Cell H7:H25, apabila terdapat tanda *, maka observasi tersebut merupakan outlier. Selanjutnya terserah anda, apakah akan dilakukan transformasi atau membuang observasi tersebut apabila ingin dilanjutkan pada tahap analisis selanjutnya, misalkan Uji Anova atau Uji regresi linear.

Sebagai catatan: dalam menentukan batasan outlier seperti pada langkah 9, dalam tutorial ini menggunakan batasan < -3 atau > 3 atau apabila menggunakan nilai asbolut standardizes adalah > 3 seperti dalam langkah 4. Para pakar menentukan batasan outlier mungkin berbeda, bisa 2,5 atau 3 bahkan ada yang 3,5. Silahkan anda pilih yang mana, karena dalam bahasan kali ini kita tidak akan fokus ke masalah tersebut. Namun jika anda ingin menggunakan batasan absolut standardize yang berbeda dengan tutorial ini, misalkan dikatakan outlier jika > 2,5, maka pada langkah ke 9, silahkan anda ganti angka 3 dengan angka 2.5.

Catatan kedua: Outlier dalam bahasan ini adalah outlier dalam sebuah variabel dan tidak berkaitan langsung dengan jenis analisis. Apabila anda melakukan regresi linear, asumsi outlier adalah pada residual. Oleh karena itu silahkan baca kembali artikel kami tentang Mengatasi Outlier dengan SPSS.

Catatan ketiga: tutorial ini menggunakan komputer dengan setting Bahasa Inggris US. Apabila anda menggunakan komputer dengan setting bahasa Indonesia, akan ada sedikit perbedaan, yaitu pada formula: tanda "titik dua" pada array data misal: H7:H25 harus diganti dengan H7;H25. Sedangkan tanda "koma" pada formula misal: =IF(G6>3,"*",""), anda ganti dengan tanda "titik koma", misal: =IF(G6>3;"*";"").

Demikian ulasan singkat tentang mendeteksi dan membuang outlier data menggunakan aplikasi excel. Selanjutnya saya akan menulis artikel tentang mendeteksi outlier data menggunakan SPSS, dimana bahasan serta tujuannya berbeda dengan artikel kami sebelumnya yang berjudul: Mengatasi Outlier dengan SPSS.

Sebuah Blog Untuk Belajar Jenis Uji Statistik, Penelitian, Statistik Berbasis Komputer, Statistik Dalam Excel, Tutorial SPSS, STATA dan Minitab.

Cara Transformasi dengan STATA


Bagaimana cara melakukan transformasi menggunakan aplikasi STATA? Itulah jawaban yang akan kita jawab dalam artikel kali ini. Agar anda memahami keseluruhan artikel ini, harap baca dulu artikel kami yang berjudul Memilih Transformasi Data dengan STATA. Setelah anda paham bagaimana cara memilih transformasi data yang tepat untuk keperluan analisis anda, misal untuk mengatasi masalah normalitas pada regresi linear, maka akan bermanfaat jika anda membaca bahasan kali ini.

Kode Transformasi Data pada STATA
Kode Transformasi Data pada STATA


Anggap saja para pembaca sudah memahami apa arti dari transformasi data, selanjutnya kita akan mencoba belajar, bagaimana sih caranya menuliskan kode di dalam aplikasi STATA untuk melakukan transformasi data. Sebenarnya caranya sangat mudah. Mari kita mulai dari awal:

Langkah pertama adalah siapkan data anda. Bisa menggunakan data kami, silahkan download di sini! Atau download Syntax nya di sini!

Selanjutnya ketikkan syntax-syntax berikut. (Misal "x" sebagai variabel yang akan ditransfomasi).

1. Transformasi Square (Kuadrat)

Ketikkan kode:
gen square_x=x*x. Lalu tekan enter.  Lihat Output!

2. Transformasi Cubic (Pangkat Tiga)

Ketikkan kode:
gen cubic_x=x*x*x. Lalu tekan enter.  Lihat Output!

3. Transformasi Square Root (Akar Kuadrat)

Ketikkan kode:
gen square_root_x=sqrt(x). Lalu tekan enter.  Lihat Output!

4. Transformasi Inverse (Kebalikan atau satu per variabel)

Ketikkan kode:
gen inverse_x=1/x. Lalu tekan enter.  Lihat Output!

5. Transformasi Inverse Square (1 per kuadrat)

Ketikkan kode:
gen inverse_square_x=1/(x*x). Lalu tekan enter.  Lihat Output!

6. Transformasi Inverse Square Root (1 per akar kuadrat)

Ketikkan kode:
gen inverse_square_root_x=1/(sqrt(x)). Lalu tekan enter.  Lihat Output!

7. Transformasi Inverse Cubic (1 per pangkat tiga)

Ketikkan kode:
gen inverse_cubic_x=1/(x*x*x). Lalu tekan enter.  Lihat Output!

8. Transformasi Logaritma Natural (LN)

Ketikkan kode:
gen ln_x=ln(x). Lalu tekan enter.  Lihat Output!

9. Transformasi Inverse Logaritma Natural (1 per LN)

Ketikkan kode:
gen inverse_ln_x=1/(ln(x)). Lalu tekan enter.  Lihat Output!

Demikian artikel singkat ini, semoga bermanfaat untuk para pembaca, terutama yang sedang melakukan analisis STATA untuk penelitiannya.

Sebuah Blog Untuk Belajar Jenis Uji Statistik, Penelitian, Statistik Berbasis Komputer, Statistik Dalam Excel, Tutorial SPSS, STATA dan Minitab.

Mengatasi Outlier dengan SPSS

Setelah kita belajar bersama tentang outlier, maka selanjutnya dalam artikel ini kita akan membahas bagaimana caranya mengatasi outlier. Jika para pembaca sekalian sudah mempelajari artikel kami tentang outlier, maka kami anggap anda semua sudah paham alasan perlunya outlier ini di atasi. Bagaimana cara mengatasi outlier? Bagaimana cara mengatasi outlier dengan SPSS? baik univariat maupun multivariat? Baiklah langsung saja kita bahas. Pada dasarnya ada 2 tahap, yaitu tahap deteksi dan mengatasi.

Catatan Penting: Dalam bahasan ini, kita membahas Outlier dalam artian Outlier pada Regresi Linear. Sedangkan outlier pada data atau pada sebuah variabel, kami bahas pada artikel: Membuang outlier dengan Excel.

Deteksi Outlier

Langkah pertama adalah melakukan deteksi outlier. Dalam hal ini yang dideteksi adalah outlier univariat dan multivariat sekaligus. Caranya kita harus melakukan uji regresi linear seperti biasanya. Jika belum paham cara melakukan regresi linear dengan SPSS, anda bisa pelajari pada artikel-artikel kami di website ini. Sederhananya perhatikan langkah berikut:

Buat dataset untuk regresi linear berganda seperti gambar di bawah ini. Untuk mempermudah, anda bisa download file secara lengkap DISINI.


Dataset Regres Linear Deteksi Outlier
Dataset Regres Linear Deteksi Outlier

Setelah itu lakukan regresi seperti cara berikut: Klik Analyze pada Menu -> Regression -> Linear. Kemudian masukkan variabel yang akan dianalisis.


Langkah Regres Linear Deteksi Outlier
Langkah Regres Linear Deteksi Outlier


Klik tombol SAVE. Maka akan terbuka jendela seperti di bawah ini. Kemudian klik Studentized dan Mahalanobis. Lalu tekan tombol Continue.


Save Regresi Linear Deteksi Outlier
Save Regresi Linear Deteksi Outlier

Jika sudah kembali ke jendela utama, klik OK. Selanjutnya lihat Output.


Casewise Diagnostics Deteksi Outlier
Casewise Diagnostics Deteksi Outlier


Anda dapat melihat bahwa pada output terdapat tabel Casewise Diagnostics, hal itu menunjukkan bahwa terdapat observasi atau sampel dengan nilai absolut studentized residual lebih dari 3. Maka observasi tersebut menjadi outlier.

Langkah terakhir di atas, hanya dapat mendeteksi adanya outlier univariat saja. Untuk mendeteksi outlier univariat, maka anda harus melakukan langkah berikut: pada menu, klik Transform -> Compute Variable. Jika jendela baru terbuka, ketikkan target variable: Probabilitas Mahalanobis. Dan ketikkan kode ekspresi pada Numeric Expression sebagai berikut: CDF.CHISQ(Mah,3). Penjelasan kode: Mah: Mahalanobis Distance. 3 adalah banyaknya jumlah variabel bebas.


Probabilitas Mahalanobis
Probabilitas Mahalanobis

Mengatasi Outlier

Sebenarnya cara pertama yang kita lakukan adalah melakukan transformasi data untuk mereduksi adanya outlier tersebut. Untuk mempelajari caranya, anda bisa baca artikel kami tentang transformasi data. Dalam hal ini kita coba untuk mengatasinya dengan cara membuang outlier tersebut dari analisis regresi linear berganda, yaitu dengan langkah sebagai berikut: Pada menu, klik Data -> Select Case -> Pilih if condition satisfied -> tekan tombol If. 


Select Case Deteksi Outlier
Select Case Deteksi Outlier


Jika jendela baru terbuka, maka selanjutnya pada kolom isian ekspresi, ketikkan kode sebagai berikut: Abs(SRE_1)<3 and Probabilitas Mahalanobis>0.001. Maksud kode: Abs: Absolut, SRE_1: Studentized Residual.

Ekspresi Select Case Deteksi Outlier
Ekspresi Select Case Deteksi Outlier


Artinya kita akan membuang observasi yang mempunyai nilai absolut studentized residual lebih dari 3 dan/atau probabilitas kurang dari 0.001. Kemudian tekan tombol Continue. Di jendela utama tekan OK. Lihat pada dataset, ada tanda yang menunjukkan bahwa beberapa observasi dikeluarkan dari analisis.




Sampai di sini kita sudah berhasil mengeluarkan outlier. Apa yang harus kita lakukan selanjutnya? Jawabannya mudah, yaitu ulangi regresi linear berganda seperti langkah pertama, kemudian cek ulang apakah masih ada outlier. Jika sudah tidak ada, tentunya lihat dan nilai apakah ada masalah asumsi klasik lainnya. Jika ada, maka pandai-pandailah untuk mengatasinya. Dan anda bisa mempelajari semua cara untuk mengatasi masalah asumsi klasik di website kami ini.

Sebuah Blog Untuk Belajar Jenis Uji Statistik, Penelitian, Statistik Berbasis Komputer, Statistik Dalam Excel, Tutorial SPSS, STATA dan Minitab.

Outlier

Outlier disebut juga dengan data pencilan. Pengertian dari Outlier adalah data observasi yang muncul dengan nilai-nilai ekstrim, baik secara univariat ataupun multivariat. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya. Misalkan nilai ujian siswa dalam satu kelas yang berjumlah 40 siswa, sebanyak 39 siswa mendapatkan nilai ujian dalam kisaran 70 sampai 80. Kemudian ada 1 siswa yang nilainya sangat melenceng dari lainnya, yaitu mendapatkan nilai 30. Nah, tentunya 1 siswa tersebut memiliki nilai ekstrem sehingga disebut sebagai outlier atau pencilan.

Gambarannya seperti gambar di bawah ini:


Contoh Outlier
Outlier


Outlier dalam penelitian harus mendapatkan perlakuan khusus, karena dapat menyebabkan terjadinya bias pada hasil penelitian. Namun semuanya masih tergantung pada tujuan penelitian, sebab apabila nilai-nilai ekstrim yang dimaksud memang diupayakan untuk dinilai keberadaannya atau dinilai fenomenanya, maka outlier tersebut dibiarkan saja. Namun apabila tujuan penelitian adalah untuk generalisasi, apalagi untuk menentukan sebuah model prediksi seperti dalam regresi linear, maka outlier tersebut harus mendapatkan perlakuan khusus. Apakah perlakuan tersebut? yaitu kita bisa melakukan transformasi data jika nilai ekstrim masih bisa dikurangi jaraknya dengan kelompok yang lainnya. Jika terlalu jauh, maka anda bisa mengeluarkan outlier tersebut dari penelitian.

Sebuah contoh dalam analisis regresi linear, munculnya outlier dilihat dari nilai studentized residual. Studentized residual adalah nilai residual yang distandarisasi berdasarkan nilai mean dan standart deviasi. Apabila nilai absolut dari studentized residual lebih dari 3, maka observasi yang bersangkutan adalah sebagai outlier univariat. Untuk mengetahui outlier multivariat pada regresi linear bisa dilihat dari nilai leverage atau nilai probabilitas mahalanobis. Jika nilai probabilitas mahalanobis kurang dari 0,001 maka observasi yang bersangkutan menjadi outlier multivariat.

Apa yang dimaksud dengan outlier univariat? Outlier univariat adalah outlier yang disebabkan oleh variabel terikat atau variabel dependen. Dapat diartikan yaitu apabila variabel dependen terdapat outlier, maka besar kemungkinan akan terjadi outlier univariat. Apabila hal ini dibiarkan tanpa adanya perlakuan, maka dapat menyebakan masalah normalitas residual pada regresi linear. Dan tentunya nilai R dan R Squared akan menjadi Bias. Bias dalam regresi linear adalah nilai R Square tidak benar dalam menjelaskan variabel terikat. Bisa saja nilai R Square tinggi, namun sesungguhnya sebaliknya.

Apa yang dimaksud dengan outlier multivariat? Outlier Multivariat adalah outlier yang disebabkan oleh sekumpulan variabel bebas atau variabel independen. Apabila satu atau beberapa variabel bebas terdapat nilai-nilai ekstrim, maka ada kemungkinan bisa terjadi outlier multivariat.

Nah, demikian penjelasan singkat tentang outlier. Apabila anda tertarik untuk mempelajari cara menentukan outlier dalam regresi linear dengan SPSS, bisa anda pelajari artikel selanjutnya, yaitu Outlier Regresi Linear dengan SPSS.

Sebuah Blog Untuk Belajar Jenis Uji Statistik, Penelitian, Statistik Berbasis Komputer, Statistik Dalam Excel, Tutorial SPSS, STATA dan Minitab.

Interprestasi Regresi Logistik dengan SPSS

Setelah anda mempelajari tutorial Regresi Logistik dengan SPSS, maka saatnya kita belajar interprestasi dari output yang didapat. Langsung saja anda buka output yang dihasilkan!

Case Processing Summary Regresi Logistik
Case Processing Summary Regresi Logistik

Di atas pada tabel Case Processing Summary adalah ringkasan jumlah sampel, yaitu sebanyak 200 sampel.

Encoding Regresi Logistik
Encoding Regresi Logistik

Di atas adalah kode variabel dependen. Yaitu kategori "Tidak Mengalami Kanker" dengan kode 0 dan "Mengalami Kanker" dengan kode 1. Oleh karena yang diberi kode 1 adalah "Mengalami Kanker", maka "Mengalami Kanker" menjadi referensi atau efek dari sebab. Sebab yang dimaksud adalah kejadian yang dihipotesiskan sebagai penyebab munculnya efek atau masalah. Dalam hal ini, merokok (kode 1) dan ada riwayat keluarga (kode 1) menjadi sebab yang dapat meningkatkan resiko terjadinya kanker paru (kode 1).


Iteration Block 0 Regresi Logistik
Iteration Block 0 Regresi Logistik

Di atas: Tabel Iteration History pada block 0 atau saat variabel independen tidak dimasukkan dalam model: N=200 mendapatkan Nilai -2 Log Likelihood: 276,939.

Degree of Freedom (DF) = N - 1 = 200-1=199. Chi-Square (X2) Tabel Pada DF 199 dan Probabilitas 0.05 = 232,912.

Nilai -2 Log Likelihood (276,939) > X2 tabel (232,912) sehingga menolak H0, maka menunjukkan bahwa model sebelum memasukkan variabel independen adalah TIDAK FIT dengan data.

Classification Table Block 0 Regresi Logistik
Classification Table Block 0 Regresi Logistik

Di atas pada tabel Classifacation Table: Merupakan tabel kontingensi 2 x 2 yang seharusnya terjadi atau disebut juga frekuensi harapan berdasarkan data empiris variabel dependen, di mana jumlah sampel yang memiliki kategori variabel dependen referensi atau akibat buruk (kode 1) yaitu "Mengalami Kanker" sebanyak 104. Sedangkan yang "Tidak mengalami Kanker" sebanyak 96 orang.  Jumlah sampel sebanyak 200 orang. Sehingga nilai overall percentage sebelum variabel independen dimasukkan ke dalam model sebesar: 104/200 = 52,0%.

Variables In The Equation Block 0 Regresi Logistik
Variables In The Equation Block 0 Regresi Logistik

Di atas pada tabel Variables in The Equation: Saat sebelum var independen di masukkan ke dalam model, maka belum ada variabel independen di dalam model. Nilai Slope atau Koefisien Beta (B) dari Konstanta adalah sebesar 0,080 dengan Odds Ratio atau Exp(B) sebesar 1,083. Nilai Signifikansi atau p value dari uji Wald sebesar 0,572.

Perlu diingat bahwa nilai B identik dengan koefisien beta pada Ordinary Least Square (OLS) atau regresi linear. Sedangkan Uji Wald identik dengan t parsial pada OLS. Sedangkan Exp(B) adalah nilai eksponen dari B, maka Exp(0,080) = 1,083.

Variables Not In The Equation Block 0 Regresi Logistik
Variables Not In The Equation Block 0 Regresi Logistik

Di atas pada tabel Variables not in the Equation: Menunjukkan variabel yang belum dimasukkan ke dalam model regresi, yaitu variabel X1 dan X2. Di mana X1 adalah variabel merokok dan X2 adalah variabel riwayat keluarga.

Iteration History Block 1 Regresi Logistik
Iteration History Block 1 Regresi Logistik

Di atas pada tabel Iteration history Block 1 atau saat variabel independen dimasukkan dalam model: N=200. Degree of Freedom (DF) = N - jumlah variabel independen - 1 = 200-2-1=197. Chi-Square (X2) Tabel Pada DF 197 dan Prob 0.05 = 230,746. 

Nilai -2 Log Likelihood (207,575) < X2 tabel (230,746) sehingga menerima H0, maka menunjukkan bahwa model dengan memasukkan variabel independen adalah FIT dengan data. Hal ini berbeda dengan Block Beginning di atas, di mana saat sebelum variabel independen dimasukkan ke dalam model, model TIDAK FIT dengan data.

Omnibus Test


Omnibus Test Regresi Logistik
Omnibus Test Regresi Logistik

Tampak di atas bahwa selisihnya (-2 Log likelihood sebelum variabel independen masuk model: 276,939 dikurangi -2 Log likelihood setelah variabel independen masuk model: 207,575 = 69,364) adalah nilai chi-square 69,394. 

Nilai X2 69,394 > X2 tabel pada DF 2 (jumlah variabel independen 2) yaitu 5,991 atau dengan signifikansi sebesar 0,000 (< 0,05) sehingga menolak H0, yang menunjukkan bahwa penambahan variabel independen DAPAT memberikan pengaruh nyata terhadap model, atau dengan kata lain model dinyatakan FIT. 

Perlu diingat jika pada OLS untuk menguji signifikansi simultan menggunakan uji F, sedangkan pada regresi logistik menggunakan nilai Chi-Square dari selisih antara -2 Log likelihood sebelum variabel independen masuk model dan -2 Log likelihood setelah variabel independen masuk model. Pengujian ini disebut juga dengan pengujian Maximum likelihood.

Sehingga jawaban terhadap hipotesis pengaruh simultan variabel independen terhadap variabel dependen adalah menerima H1 dan menolak H0 atau yang berarti ada pengaruh signifikan secara simultan merokok dan riwayat keluarga terhadap kejadian kanker paru oleh karena nilai p value Chi-Square sebesar 0,000 di mana < Alpha 0,05 atau nilai Chi-Square Hitung 69,364 > Chi-Square tabel 5,991.

Pseudo R Square


Pseudo R-Square Regresi Logistik
Pseudo R-Square Regresi Logistik

Di atas pada tabel Model Summary: Untuk melihat kemampuan variabel independen dalam menjelaskan variabel dependen, digunakan nilai Cox & Snell R Square dan Nagelkerke R Square. Nilai-nilai tersebut disebut juga dengan Pseudo R-Square atau jika pada regresi linear (OLS) lebih dikenal dengan istilah R-Square.

Nilai Nagelkerke R Square sebesar 0,391 dan Cox & Snell R Square 0,293, yang menunjukkan bahwa kemampuan variabel independen dalam menjelaskan variabel dependen adalah sebesar 0,391 atau 39,1% dan terdapat 100% - 39,1% = 60,9% faktor lain di luar model yang menjelaskan variabel dependen.

Hosmer and Lemeshow Test

Hosmer and Lemeshow Test adalah uji Goodness of fit test (GoF), yaitu uji untuk menentukan apakah model yang dibentuk sudah tepat atau tidak. Dikatakan tepat apabila tidak ada perbedaan signifikan antara model dengan nilai observasinya.

Hosmer and Lemeshow Regresi Logistik
Hosmer and Lemeshow Regresi Logistik

Nilai Chi Square tabel untuk DF 1 (Jumlah variabel independen - 1) pada taraf signifikansi 0,05 adalah sebesar 3,841. Karena nilai Chi Square Hosmer and Lemeshow hitung 13,671 > Chi Square table 3,841 atau nilai signifikansi sebesar 0,000 (< 0,05) sehingga menolak H0, yang menunjukkan bahwa model TIDAK dapat diterima dan pengujian hipotesis TIDAK dapat dilakukan sebab ada perbedaan signifikan antara model dengan nilai observasinya.

Oleh karena dalam tutorial ini, nilai Hosmer and Lemeshow Test menolak H0, sebaiknya anda mencoba untuk membuat agar nilai Hosmer and Lemeshow Test menerima H0. Caranya adalah dengan mengubah model persamaan regresi logistik dengan menambahkan variabel interaksi antar variabel independen. Misal pada kasus di sini, dengan menambahkan variabel interaksi antara X1 dan X2. Lebih jelasnya akan saya bahas pada bagian akhir dalam artikel ini yaitu pada bagian VARIABEL INTERAKSI. Sehingga anda untuk sementara bisa melanjutkan pembelajaran ini, seolah-olah hasil uji Hosmer and Lemeshow Test menerima H0.

Classification Result


Classification Table Block 1 Regresi Logistik
Classification Table Block 1 Regresi Logistik

Berdasarkan tabel Classification Table di atas, jumlah sampel yang tidak mengalami kanker 78 + 18 = 96 orang. Yang benar-benar tidak mengalami kanker sebanyak 78 orang dan yang seharusnya tidak mengalami kanker namun mengalami, sebanyak 18 orang. Jumlah sampel yang mengalami kanker 27 + 77 = 104 orang. Yang benar-benar mengalami kanker sebanyak 27 orang dan yang seharusnya mengalami kanker namun tidak mengalami, sebanyak 77 orang.

Tabel di atas memberikan nilai overall percentage sebesar (78+77)/200 = 77,5% yang berarti ketepatan model penelitian ini adalah sebesar 77,5%.

Pendugaan Parameter


Variables In The Equation Block 1 Regresi Logistik
Variables In The Equation Block 1 Regresi Logistik

Lihat tabel Variabel in the equation di atas: semua variabel independen nilai P value uji wald (Sig) < 0,05, artinya masing-masing variabel mempunyai pengaruh parsial yang signifikan terhadap Y di dalam model. X1 atau merokok mempunyai nilai Sig Wald 0,000 < 0,05 sehingga menolak H0 atau yang berarti merokok memberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru. X2 atau riwayat keluarga mempunyai nilai Sig Wald 0,031 < 0,05 sehingga menolak H0 atau yang berarti riwayat keluarga memberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru.

Besarnya pengaruh ditunjukkan dengan nilai EXP (B) atau disebut juga ODDS RATIO (OR). Variabel Merokok dengan OR 6,277 maka orang yang merokok (kode 1 variabel independen), lebih beresiko mengalami kanker paru (kode 1 variabel dependen) sebanyak 6,277 kali lipat di bandingkan orang yang tidak merokok (kode 0 variabel independen). Nilai B = Logaritma Natural dari 6,277 = 1,837. Oleh karena nilai B bernilai positif, maka merokok mempunyai hubungan positif dengan kejadian kanker.

Variabel Riwayat Keluarga dengan OR 2,645 maka orang yang ada riwayat keluarga (kode 1 variabel independen), lebih beresiko mengalami kanker paru (kode 1 variabel dependen) sebanyak 2,645 kali lipat di bandingkan orang yang tidak ada riwayat keluarga (kode 0 variabel independen). Nilai B = Logaritma Natural dari 2,645 = 0,973. Oleh karena nilai B bernilai positif, maka riwayat keluarga mempunyai hubungan positif dengan kejadian kanker.

Berdasarkan nilai-nilai B pada perhitungan di atas, maka model persamaan yang dibentuk adalah sebagai berikut:
Ln P/1-P = -1,214 + 1,837 Rokok + 0,973 Riwayat Keluarga.

Atau bisa menggunakan rumus turunan dari persamaan di atas, yaitu:
Probabilitas = exp(-1,214 + 1,837 Rokok + 0,973 Riwayat Keluarga) / 1 + exp(-1,214 + 1,837 Rokok + 0,973 Riwayat Keluarga).

Misalkan sampel yang merokok dan ada riwayat keluarga, maka merokok=1 dan riwayat keluarga=1. Jika dimasukkan ke dalam model persamaan di atas, maka sebagai berikut:
Probabilitas atau Predicted = (exp(-1,214 + (1,837 x 1) + (0,973 x 1))) / (1 + exp(-1,214 + (1,837 x 1) + (0,973 x 1))).
Probabilitas atau Predicted = (exp(-1,214 + (1,837) + (0,973))) / (1 + exp(-1,214 + (1,837) + (0,973))).
Probabilitas atau Predicted = 0.8315.

Oleh karena Predicted: 0,8315 > 0,5 maka nilai Predicted Group Membership dari sampel di atas adalah 1. Di mana 1 adalah kode mengalami kanker. Jadi jika sampel merokok (kode 1) dan ada riwayat keluarga (kode 1) maka prediksinya adalah mengalami kanker (kode 1). Jika seandainya sampel yang bersangkutan ternyata faktanya tidak mengalami kanker (kode 0) maka sampel tersebut keluar dari nilai prediksi.

Besarnya perbedaan atau yang disebut dengan ResidualPredicted Group Membership - Predicted. Pada kasus di atas di mana orang yang merokok dan ada riwayat keluarga namun faktanya tidak mengalami kanker, maka Residual = 0 - 0,8315 = -0,8315.


Classification Plot Regresi Logistik
Classification Plot Regresi Logistik

Di atas adalah grafik klasifikasi dari observed group dan predicted group membership.

Outlier


Casewise Diagnostics Regresi Logistik
Casewise Diagnostics Regresi Logistik

Di atas adalah hasil deteksi outlier atau data pencilan. Pada kasus dalam tutorial ini tidak ada outlier dengan notifikasi seperti di atas, yaitu: The casewise plot is not produced because no outliers were found. Seandainya ada outlier, maka tampilan akan berubah dalam bentuk tabel yang berisi daftar sampel yang menjadi outlier beserta nilai Studentized Residual.

Dinyatakan outlier apabila nilai Absolut dari Studentized Residual dari sampel tersebut lebih dari 2 (> 2). Di mana Studentized Residual adalah standarisasi berdasarkan Mean dan standart deviasi dari nilai Residual yang telah dibahas di atas.

Variabel Interaksi

Variabel interaksi adalah variabel yang merupakan hasil interaksi antar variabel independen. Variabel ini ada kalanya diperlukan untuk dimasukkan ke dalam model regresi logistik dengan alasan karena secara substantif memang ada hubungan antar variabel independen atau untuk mengatasi masalah Goodness of Fit Test di mana menolak H0.

Caranya adalah dengan menambahkan variabel interaksi ke dalam variabel independen, yaitu pada saat memasukkan variabel independen, seleksi variabel-variabel independen yang akan diinteraksikan, kemudian klik tombol ">a*b>".

Interactions Regresi Logistik
Interactions Regresi Logistik

Selanjutnya lakukan proses seperti yang sudah dijelaskan di atas.