Memuat Engine R-WASM (Time Series)…
0% (Sedang inisialisasi WebR Engine…)
Tahap 1: Input Data Kasus (Time Series Grid)
| Time | Y_Sales | X1_Promo | X2_Price |
|---|---|---|---|
| 1 | |||
| 2 | |||
| 3 | |||
| 4 | |||
| 5 |
Dokumentasi Akademik ST-Engine: ARIMA & ARIMAX Forecasting
Dikembangkan Oleh:
ANWAR HIDAYAT
Founder dan CEO www.statistikian.com
Coding ini dibangun dan didevelop oleh Anwar Hidayat. Aplikasi ini menggunakan arsitektur mutakhir WebR (R-WASM), yang menjalankan perintah stats::arima secara murni di memori lokal peramban klien. Menyajikan hasil yang 100% ekuivalen dengan R Studio dan mereplikasi antarmuka analitik EViews, alat ini didesain presisi dan aman untuk ekosistem WordPress.
Dokumentasi ini menjabarkan spesifikasi analitis, formulasi matematis, serta prosedur teknis untuk pengoperasian alat ST-Engine ARIMA / ARIMAX Forecasting. Metode Autoregressive Integrated Moving Average (ARIMA) merupakan kerangka kerja standar emas dalam ekonometrika deret waktu (time series) yang berfokus pada proyeksi nilai masa depan berdasarkan pola historis dan inersia galat (sisaan) masa lalu.
1. Teori Dasar: Definisi, Tujuan, dan Fungsi Pemodelan ARIMA
Metodologi Autoregressive Integrated Moving Average (ARIMA) diperkenalkan dan dipopulerkan secara komprehensif oleh George Box dan Gwilym Jenkins melalui karya monumental mereka pada tahun 1970. Karena sumbangsih tersebut, pendekatan pemodelan ini secara luas dikenal sebagai Metodologi Box-Jenkins. Secara fundamental, ARIMA merupakan kelas model deret waktu yang bersifat linear, di mana tujuan utamanya adalah untuk mendeskripsikan autokorelasi (korelasi antar-waktu) yang terdapat pada suatu data historis, guna mengekstrapolasi perilaku dan melakukan peramalan (forecasting) untuk masa yang akan datang (Box & Jenkins, 1976). Berbeda dengan regresi linear berganda struktural yang secara eksklusif menggunakan variabel penjelas luar (eksogen) untuk memprediksi suatu variabel terikat, pemodelan ARIMA murni univariat (ARIMA dasar) beroperasi dengan asumsi filosofis bahwa “biarkan data berbicara untuk dirinya sendiri” (*let the data speak for themselves*). Artinya, nilai masa depan dari variabel Y diestimasi murni berdasarkan kombinasi nilai masa lalu dari Y itu sendiri dan guncangan sisaan (shocks/errors) yang terjadi sebelumnya (Enders, 2014).
Model ARIMA dispesifikasikan oleh tiga parameter ordo utama, yang lazim dituliskan sebagai ARIMA(p, d, q). Masing-masing komponen parameter tersebut merepresentasikan tahapan pemodelan sebagai berikut:
- AR (Autoregressive) bertipe p: Komponen ini memodelkan hubungan linear antara nilai observasi saat ini dengan sejumlah p nilai observasi masa lalunya (lags). Jika
p = 1, artinya nilai pada waktutsecara signifikan dipengaruhi oleh nilai pada waktut-1. Komponen ini menangkap fenomena inersia atau memori jangka panjang dalam data (Hamilton, 1994). - I (Integrated) bertipe d: Komponen ini merepresentasikan transformasi pembedaan (differencing). Prasyarat mutlak dari metodologi Box-Jenkins adalah bahwa deret waktu yang dimodelkan haruslah stasioner (mean dan variansnya stabil sepanjang waktu). Jika data mentah mengandung akar unit (unit root) atau tren, data tersebut harus dikurangkan dari nilai sebelumnya sebanyak d kali. Derajat d menunjukkan jumlah proses diferensiasi yang diperlukan untuk memaksa deret yang tidak stasioner menjadi stasioner (Hyndman & Athanasopoulos, 2018).
- MA (Moving Average) bertipe q: Alih-alih menggunakan nilai masa lalu dari variabel itu sendiri, komponen ini memodelkan korelasi antara observasi saat ini dengan sejumlah q galat sisaan (residuals/shocks) masa lalu yang tidak terobservasi. Komponen MA mengoreksi pergerakan data dari guncangan acak berumur pendek (Box & Jenkins, 1976).
Seiring dengan perkembangan zaman, model ARIMA univariat diperluas kemampuannya untuk mengikutsertakan variabel penjelas eksternal (eksogen). Spesifikasi modifikasi ini dinamakan ARIMAX (ARIMA with Explanatory Variables). Kehadiran variabel independen eksternal berfungsi untuk menyerap pengaruh dari determinan makroekonomi (seperti promosi harga, inflasi, atau suku bunga) yang mungkin menggerakkan variabel target, sementara komponen AR dan MA tetap difungsikan untuk membersihkan struktur autokorelasi sisaan dari model regresi linear tersebut (Hyndman & Athanasopoulos, 2018). Dalam praktiknya, prosedur Box-Jenkins dipecah menjadi tiga siklus tahapan utama secara sekuensial. Pertama, Identifikasi Model (penentuan nilai p, d, q dengan menginspeksi plot fungsi autokorelasi / ACF dan fungsi autokorelasi parsial / PACF). Kedua, Estimasi Parameter (umumnya dipecahkan menggunakan metode komputasi iteratif Maximum Likelihood). Ketiga, Diagnostic Checking, yakni serangkaian pengujian asumsi untuk memastikan bahwa galat sisaan model telah terbebas dari seluruh sinyal informasi dan murni hanya meninggalkan derau putih (White Noise) yang acak dan berdistribusi normal (Enders, 2014).
2. Formula Tiap Tahap Analisis dan Relevansinya
Y'_t = c + \phi_1 Y'_{t-1} + \dots + \phi_p Y'_{t-p} + \theta_1 \varepsilon_{t-1} + \dots + \theta_q \varepsilon_{t-q} + \varepsilon_tY'_t adalah data yang telah didiferensiasi sejauh d kali. \phi melambangkan parameter koefisien Autoregressive (AR), sedangkan \theta melambangkan parameter koefisien Moving Average (MA). \varepsilon_t merepresentasikan galat (white noise) (Box & Jenkins, 1976).\text{AIC} = -2 \ln(L) + 2k \quad ; \quad \text{BIC} = -2 \ln(L) + k \ln(n)L adalah fungsi kemungkinan maksimum (Maximum Likelihood), k adalah jumlah parameter, dan n adalah jumlah observasi. Relevansinya adalah untuk komparasi; spesifikasi model dengan nilai AIC dan BIC terendah dinobatkan sebagai model yang paling parsimoni (terbaik secara efisiensi) (Akaike, 1974; Schwarz, 1978).Q = n(n+2) \sum_{k=1}^h \frac{\hat{\rho}_k^2}{n-k} \sim \chi^2_{(h)}\hat{\rho}_k) pada sisaan berbeda secara signifikan dari nol hingga *lag* ke-h. Untuk meloloskan asumsi diagnostik, P-value harus > 0.05, yang menegaskan sisaan bersifat murni acak / *White Noise* (Ljung & Box, 1978).\varepsilon_t^2 = \alpha_0 + \alpha_1 \varepsilon_{t-1}^2 + \dots + \alpha_p \varepsilon_{t-p}^2\text{MAPE} = \frac{100\%}{n} \sum_{t=1}^n \left| \frac{Y_t - \hat{Y}_t}{Y_t} \right|3. Arsitektur Perangkat Lunak dan Komparasi Ekuivalensi
Alat ini merupakan sebuah masterpiece komputasi berbasis web karena tidak menggunakan rekayasa rumusan JavaScript buatan, melainkan MENGGUNAKAN LIBRARY R SECARA HARFIAH (WebR / R-WASM) yang tertanam pada sesi latar belakang peramban Anda.
Kesamaan dan Ekuivalensi (Akurasi 99.9% – 100%):
- Estimasi Parameter (100% Identik dengan R Studio): Panggilan perintah
arima(order=c(p,d,q), xreg=x_mat)dari pustaka bawaanstatsmilik R dieksekusi secara asali. Karenanya, nilai Estimate, Standard Error, Z-Value, P-Value, hingga Log-Likelihood dijamin kembar identik secara absolut dengan layar konsol R Studio. - Diagnostik Asumsi Klasik: Tiga serangkai uji diagnostik runtun waktu (Uji Normalitas Jarque-Bera, Uji Autokorelasi Ljung-Box, dan Uji Volatilitas ARCH-LM) diekstraksi dari sisaan dan direplikasi sedemikian rupa sehingga menyajikan tampilan ringkasan ekuivalen mutlak dengan antarmuka menu diagnostik EViews.
- Visualisasi Parity Plot: Grafik kurva aktual, fitted, dan out-of-sample forecast (+6 periode) berserta rentang pita fluktuasi galat (95% Confidence Interval) digambar mandiri melalui SVG yang merepresentasikan identitas charting klasik di STATA dan EViews.
Perbedaan Teknis terhadap EViews dan SPSS:
- Metode Optimasi Maximum Likelihood: Modul
stats::arimapada R (yang diadaptasi pada alat ini) beroperasi dengan strategi optimasi CSS-ML (Conditional Sum of Squares yang diperhalus dengan Maximum Likelihood). Perangkat seperti EViews atau SPSS mungkin secara bawaan memilih metode algoritma iteratif yang sedikit berbeda (seperti Exact ML menggunakan BHHH). Karenanya, pada data yang teramat kompleks, taksiran desimal mungkin berselisih sangat tipis (pada desimal ke-4), yang mana dalam disiplin ekonometrika ini adalah lumrah dan bukan indikasi kesalahan kalkulasi matematis. - Disiplin Konstanta (Drift): Aplikasi komersial seperti SPSS terkadang memperkenankan pengguna memaksa memasukkan Konstanta (Mean) meski data telah melewati tahap diferensiasi (
d > 0). Alat ini (dan sistem bahasa R) mengadopsi standar kedisiplinan matematis yang ketat: ia akan memblokir dan menolak perhitungan konstanta apabilad > 0guna mengeliminasi ancaman patologi multikolinearitas struktural, di mana pengguna akan mendapatkan pesan peringatan otomatis di antarmuka.
4. Panduan Manual Penggunaan Alat Analisis
A. Persiapan Data, Simulasi & Upload
- Siapkan himpunan data metrik kontinu yang disusun berdasarkan frekuensi kronologis rill (bulan, kuartal, tahun). Baris tidak boleh mengandung sel yang bolong (NA).
- Tekan tombol Data Simulasi untuk mencetak kerangka data percobaan (*pseudo-time-series*) yang mewakili interaksi antara penjualan (Y) dengan variabel promosi dan harga (X).
- Fasilitas Upload CSV mendukung pembacaan matriks berkapasitas besar. Anda juga bisa mengandalkan fitur rekat (copy-paste) dari Excel.
B. Pemetaan Data dan Orde Model
- Klik tombol Simpan Data & Lanjut Mapping.
- Pada bilik Y, pilih tepat satu Variabel Target. Pada bilik X, Anda dapat membubuhkan ragam variabel eksogen independen (model akan otomatis bertransformasi dari ARIMA menjadi ARIMAX).
- Konfigurasikan spesifikasi ordo: nilai p (AR), d (Integration/Difference), dan q (MA). Gunakan uji ACF/PACF eksternal untuk melacak identifikasi dugaan orde tersebut. Jika nilai
d > 0, checkbox Konstanta akan dilumpuhkan otomatis oleh sistem. - Jika menggunakan ARIMAX (terdapat variabel X), tetapkan transformasi diferensi variabel X tersebut di dalam tabel agar berkorespondensi selaras dengan variabel Y.
C. Diagram Alur WebR
Loading WebR Core (~30MB) → CSV Parsing → Variabel Definition → Transformasi Diff(X) → Execute stats::arima() → Ekstraksi AIC/BIC/LogLik → Residual Diagnostics (JB, Ljung-Box, ARCH) → predict(n.ahead=6) → JSON Export → SVG Plotting.
D. Cara Baca Output
- Estimasi Parameter (P-Value): Menilai signifikansi efek komponen masa lalu. Jika P-Value < 0.05, parameter AR, MA, atau kovariat X diakui secara sah memiliki andil pengubah taksiran variabel Y secara dinamis.
- Residual Diagnostics (Asumsi Time Series): Berbeda dengan uji koefisien, untuk diagnostik sisaan (Jarque-Bera, Ljung-Box, dan ARCH), Anda justru MENGHARAPKAN nilai P-Value > 0.05. Artinya, sisaan terdistribusi normal, terbebas dari rantai autokorelasi (murni *White Noise*), dan bervariansi konstan (Homoskedastik). Pelanggaran asumsi di fase ini menuntut Anda untuk mengubah rancang bangun orde p, d, q.
- Akurasi Kinerja (MAPE): Di bawah 10% adalah “Sangat Akurat”, 10%-20% adalah “Akurat”, dan melampaui 50% “Tidak Akurat” (Lewis, 1982). Nilai prediksi 6 langkah ke depan dicantumkan utuh beserta interval keyakinannya.
5. Manfaat Aplikasi (Kelebihan & Kekurangan)
- Kelebihan Mutlak: Memindahkan kapabilitas superior R Studio ke dalam bingkai penjelajah internet secara transparan. Privasi data bersifat tertutup mutlak tanpa ketergantungan API *cloud* (Air-Gapped Local Computation). Plot vektor interaktif memadukan gaya laporan khas jurnal EViews.
- Kekurangan Bawaan: Beban inisialisasi lingkungan WebR mewajibkan pengunjung mencadangkan 30MB tembolok (*cache*) saat mengakses alat untuk pertama kali (“Cold Start” yang berlangsung ±15 detik). Algoritma R-WASM pada data raksasa berpotensi menabrak dinding alokasi RAM peramban komputer lokal.
6. Daftar Pustaka
- Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6), 716-723.
- Box, G. E. P., & Jenkins, G. M. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.
- Enders, W. (2014). Applied Econometric Time Series (4th ed.). John Wiley & Sons.
- Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation. Econometrica, 50(4), 987-1007.
- Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.
- Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and Practice (2nd ed.). OTexts.
- Jarque, C. M., & Bera, A. K. (1980). Efficient tests for normality, homoscedasticity and serial independence of regression residuals. Economics Letters, 6(3), 255-259.
- Lewis, C. D. (1982). Industrial and Business Forecasting Methods. Butterworths.
- Ljung, G. M., & Box, G. E. P. (1978). On a measure of lack of fit in time series models. Biometrika, 65(2), 297-303.
- Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461-464.
