Kalkulator signifikansi statistik ini dapat digunakan untuk menghitung nilai p dengan mudah dan menentukan apakah perbedaan antara dua proporsi atau rata-rata (kelompok independen) signifikan secara statistik. Ini juga akan menampilkan skor-Z atau skor-T untuk perbedaannya. Kesimpulan tentang perbedaan absolut dan relatif (perubahan persentase, efek persen) didukung. Penjelasan terperinci tentang apa itu nilai-p, bagaimana menggunakan dan menafsirkannya. Cocok untuk analisis pengujian A/B sederhana.
Menggunakan kalkulator nilai-p
Kalkulator signifikansi statistik ini memungkinkan Anda untuk melakukan evaluasi statistik post-hoc dari sekumpulan data ketika hasil yang diinginkan adalah perbedaan dua proporsi (data binomial, misalnya tingkat konversi atau tingkat peristiwa) atau perbedaan dua cara (data berkelanjutan, misalnya tinggi, berat, kecepatan, waktu, pendapatan, dll.). Anda dapat menggunakan uji-Z (disarankan) atau uji-Tuntuk menemukan tingkat signifikansi yang diamati (statistik p-value). Uji-T Student direkomendasikan sebagian besar untuk ukuran sampel yang sangat kecil, misalnya n <30. Untuk menghindari inflasi kesalahan tipe I yang mungkin terjadi dengan varians yang tidak sama, kalkulator secara otomatis menerapkan uji-T Welch dan bukan Uji-T Student jika ukuran sampel berbeda secara signifikan atau jika salah satunya kurang dari 30 dan rasio pengambilan sampel berbeda dari satu.
Jika memasukkan data proporsi, Anda perlu mengetahui ukuran sampel dari kedua kelompok serta jumlah atau tingkat kejadian. Anda dapat memasukkannya sebagai proporsi (misalnya 0,10), persentase (misalnya 10%) atau hanya jumlah mentah peristiwa (misalnya 50).
Jika memasukkan data berarti di kalkulator, Anda hanya perlu menyalin/menempel atau mengetik data mentah, setiap pengamatan dipisahkan dengan koma, spasi, baris atau tab baru. Salin-tempel dari spreadsheet Google atau Excel berfungsi dengan baik.
Kalkulator nilai-p akan menampilkan : nilai-p, tingkat signifikansi, nilai-T atau nilai-Z (tergantung pada pilihan uji hipotesis statistik), derajat kebebasan, dan perbedaan yang diamati. Untuk data rata-rata, itu juga akan menampilkan ukuran sampel, rata-rata, dan kesalahan standar gabungan dari rata-rata. Nilai p adalah untuk hipotesis satu sisi (uji satu sisi), memungkinkan Anda untuk menyimpulkan arah efeknya (lebih pada uji satu arah vs. dua sisi ). Namun, nilai probabilitas untuk hipotesis dua sisi (nilai p dua sisi) juga dihitung dan ditampilkan, meskipun seharusnya tidak ada aplikasi praktisnya.
Peringatan: Anda harus telah menetapkan ukuran sampel / waktu penghentian percobaan Anda sebelumnya, jika tidak, Anda akan bersalah atas penghentian opsional (memancing signifikansi) yang akan meningkatkan kesalahan tipe I dari pengujian yang membuat tingkat signifikansi statistik tidak dapat digunakan. Selain itu, Anda tidak boleh menggunakan kalkulator signifikansi ini untuk perbandingan lebih dari dua rata-rata atau proporsi, atau untuk perbandingan dua kelompok berdasarkan lebih dari satu metrik. Jika tes melibatkan lebih dari satu kelompok perlakuan atau lebih dari satu variabel hasil, Anda memerlukan alat yang lebih canggih yang mengoreksi beberapa perbandingan dan beberapa pengujian. Kalkulator statistik ini mungkin bisa membantu.
Apa itu “nilai-p” dan “tingkat signifikansi”
Nilai-p adalah statistik uji yang banyak digunakan yang mengukur ketidakpastian pengukuran tertentu, biasanya sebagai bagian dari eksperimen, percobaan medis, serta dalam studi observasional. Secara definisi, tidak terlepas dari inferensi melalui Null-Hypothesis Statistical Test (NHST). Di dalamnya kalkulator ini mengajukan hipotesis nol yang mencerminkan teori atau model dunia yang ada saat ini yang tidak ingin diabaikan tanpa bukti yang kuat (hipotesis yang diuji), dan hipotesis alternatif: model alternatif dunia. Misalnya, hipotesis nol statistik bisa jadi bahwa paparan sinar ultraviolet untuk jangka waktu yang lama memiliki efek positif atau netral mengenai perkembangan kanker kulit, sedangkan hipotesis alternatif dapat memiliki efek negatif pada perkembangan kanker kulit.
Dalam kerangka ini nilai p didefinisikan sebagai probabilitas mengamati hasil yang diamati, atau yang lebih ekstrim, dengan asumsi hipotesis nol benar . Dalam notasi ini dinyatakan sebagai:
p(x 0 ) = Pr(d(X) > d(x 0 ); H 0 )
di mana x 0 adalah data yang diamati (x 1 ,x 2 …x n ), d adalah fungsi khusus (statistik, misalnya menghitung skor-Z), X adalah sampel acak (X 1 ,X 2 … X n ) dari distribusi sampling hipotesis nol. Persamaan ini digunakan dalam kalkulator nilai-p ini dan dapat divisualisasikan sebagai berikut:

Oleh karena itu nilai-p menyatakan kemungkinan melakukan kesalahan tipe I : menolak hipotesis nol jika ternyata benar. Lihat di bawah untuk interpretasi penuh yang tepat dari statistik nilai-p .
Cara lain untuk memikirkan nilai-p adalah sebagai ekspresi yang lebih mudah digunakan tentang berapa banyak standar deviasi dari normal pengamatan yang diberikan. Misalnya, dalam uji signifikansi satu arah untuk variabel yang terdistribusi normal seperti selisih dua rata-rata, hasil yang berjarak 1,6448 standar deviasi (1,6448σ) menghasilkan nilai-p 0,05.
Istilah “signifikansi statistik” atau “tingkat signifikansi” sering digunakan dalam hubungannya dengan nilai-p, baik untuk mengatakan bahwa suatu hasil adalah “signifikan secara statistik”, yang memiliki arti khusus dalam inferensi statistik ( lihat interpretasi di bawah ), atau untuk mengacu pada representasi persentase tingkat signifikansi: (1 – nilai p), misalnya nilai p 0,05 setara dengan tingkat signifikansi 95% (1 – 0,05 * 100). Tingkat signifikansi juga dapat dinyatakan sebagai skor-T atau skor-Z, misalnya hasil akan dianggap signifikan hanya jika skor-Z berada di wilayah kritis di atas 1,96 (setara dengan nilai-p 0,025).
Rumus nilai-p
Ada berbagai cara untuk sampai pada nilai-p tergantung pada asumsi tentang distribusi yang mendasarinya. Alat ini mendukung dua distribusi seperti itu: distribusi-T Student dan distribusi-Z normal (Gaussian) yang masing-masing menghasilkan uji T dan uji Z.
Dalam kedua kasus, untuk menemukan nilai p dimulai dengan memperkirakan varians dan standar deviasi, kemudian menurunkan kesalahan standar mean, setelah itu skor standar ditemukan menggunakan rumus [2] :

X (dibaca “X bar”) adalah mean aritmatika dari populasi baseline atau kontrol, 0 adalah mean yang diamati / mean kelompok perlakuan, sedangkan x adalah standar error dari mean (SEM, atau standar deviasi dari error dari rata-rata).
Saat menghitung nilai-p menggunakan distribusi-Z , rumusnya adalah (Z) atau (-Z) masing-masing untuk pengujian bagian bawah dan atas. adalah fungsi distribusi kumulatif normal standar dan skor-Z dihitung.
Saat menggunakan distribusi-T , rumusnya adalah T n (Z) atau T n (-Z) masing-masing untuk pengujian bagian bawah dan atas. T n adalah fungsi distribusi kumulatif untuk distribusi-T dengan n derajat kebebasan sehingga skor-T dihitung.
Standar deviasi populasi seringkali tidak diketahui dan dengan demikian diperkirakan dari sampel, biasanya dari varians sampel yang dikumpulkan. Mengetahui atau memperkirakan simpangan baku merupakan prasyarat untuk menggunakan kalkulator signifikansi. Perhatikan bahwa perbedaan rata-rata atau proporsi terdistribusi secara normal menurut Teorema Batas Pusat (CLT) sehingga skor-Z adalah statistik yang relevan untuk pengujian semacam itu.
Mengapa kita membutuhkan nilai-p?
Jika Anda berada di bidang sains, itu sering menjadi persyaratan jurnal ilmiah. Jika Anda menerapkan dalam eksperimen bisnis (misalnya pengujian A/B), hal ini dilaporkan bersama interval kepercayaan dan perkiraan lainnya. Namun, apa kegunaan nilai-p dan dengan perluasan tingkat signifikansi?
Pertama, mari kita definisikan masalah yang ingin dipecahkan oleh nilai-p. Orang perlu berbagi informasi tentang kekuatan bukti data yang dapat dengan mudah dipahami dan mudah dibandingkan antar eksperimen. Gambar di bawah mewakili, meskipun tidak sempurna, hasil dari dua percobaan sederhana, masing-masing berakhir dengan kontrol dengan kelompok perlakuan tingkat kejadian 10% pada tingkat kejadian 12%.

Namun, jelas bahwa input bukti dari data tidak sama, menunjukkan bahwa mengomunikasikan hanya proporsi yang diamati atau perbedaannya (ukuran efek) tidak cukup untuk memperkirakan dan mengomunikasikan kekuatan bukti percobaan. Untuk sepenuhnya menggambarkan bukti dan ketidakpastian yang terkait , beberapa statistik perlu dikomunikasikan, misalnya, ukuran sampel, proporsi sampel, dan bentuk distribusi kesalahan. Interaksi mereka tidak sepele untuk dipahami, sehingga mengomunikasikannya secara terpisah membuat sangat sulit bagi seseorang untuk memahami informasi apa yang ada dalam data. Apa yang akan Anda simpulkan jika diberi tahu bahwa proporsi yang diamati adalah 0,1 dan 0,12 (misalnya tingkat konversi 10% dan 12%), ukuran sampel masing-masing 10.000 pengguna, dan distribusi kesalahan binomial?
Alih-alih mengomunikasikan beberapa statistik, satu statistik dikembangkan yang mengomunikasikan semua informasi yang diperlukan dalam satu bagian: nilai -p . Nilai p pertama kali diturunkan pada akhir abad ke-18 oleh Pierre-Simon Laplace, ketika ia mengamati data sekitar satu juta kelahiran yang menunjukkan kelebihan anak laki-laki, dibandingkan dengan anak perempuan. Dengan menggunakan perhitungan signifikansi, dia berpendapat bahwa efeknya nyata tetapi tidak dapat dijelaskan pada saat itu. Kita tahu ini sekarang benar dan ada beberapa penjelasan untuk fenomena yang berasal dari biologi evolusioner. Perhitungan signifikansi statistik secara resmi diperkenalkan pada awal abad ke-20 oleh Pearson dan dipopulerkan oleh Sir Ronald Fisher dalam karyanya, terutama “The Design of Experiments” (1935) [1]di mana nilai-p ditampilkan secara ekstensif. Dalam pengaturan bisnis, tingkat signifikansi dan nilai-p terlihat digunakan secara luas dalam kontrol proses dan berbagai eksperimen bisnis (seperti pengujian A/B online, yaitu sebagai bagian dari pengoptimalan tingkat konversi, pengoptimalan pemasaran, dll.).
Bagaimana menginterpretasikan hasil yang signifikan secara statistik / nilai p rendah
Mengatakan bahwa suatu hasil signifikan secara statistik berarti bahwa nilai-p berada di bawah ambang batas pembuktian (tingkat signifikansi) yang diputuskan untuk uji statistik sebelum dilakukan. Misalnya, jika mengamati sesuatu yang hanya akan terjadi 1 dari 20 kali jika hipotesis nol itu benar dianggap sebagai bukti yang cukup untuk menolak hipotesis nol, ambang batasnya adalah 0,05. Dalam kasus seperti itu, mengamati nilai p 0,025 akan berarti bahwa hasilnya diinterpretasikan sebagai signifikan secara statistik.
Tapi, apa arti sebenarnya? Kesimpulan apa yang dapat kita buat dari melihat hasil yang sangat tidak mungkin jika nol itu benar?
Mengamati nilai p rendah yang diberikan dapat berarti salah satu dari tiga hal [3] :
- Ada efek nyata dari pengobatan atau intervensi yang diuji.
- Tidak ada efek yang sebenarnya, tetapi kalkulator ini kebetulan mengamati hasil yang langka. Semakin rendah nilai p, semakin jarang (kecil kemungkinannya, semakin kecil kemungkinannya) hasilnya.
- Model statistik tidak valid (tidak mencerminkan kenyataan).
Jelas, seseorang tidak bisa begitu saja melompat ke kesimpulan 1.) dan mengklaimnya dengan kepastian seratus persen, karena ini akan bertentangan dengan seluruh gagasan tentang nilai-p dan signifikansi statistik. Untuk menggunakan nilai-p sebagai bagian dari proses keputusan, faktor eksternal bagian dari proses desain eksperimental perlu dipertimbangkan yang mencakup memutuskan tingkat signifikansi (ambang batas), ukuran sampel dan kekuatan (analisis daya), dan efek yang diharapkan. ukuran, antara lain. Jika Anda senang maju dengan ketidakpastian sebanyak ini (atau sedikit ini) seperti yang ditunjukkan oleh perhitungan nilai-p yang disarankan, maka Anda memiliki beberapa jaminan terukur terkait dengan efek dan kinerja masa depan dari apa pun yang Anda uji, misalnya kemanjuran a vaksin atau tingkat konversi keranjang belanja online.
Perhatikan bahwa tidak benar untuk menyatakan bahwa skor-Z atau nilai-p yang diperoleh dari kalkulator signifikansi statistik memberi tahu seberapa besar kemungkinan bahwa pengamatan itu “karena kebetulan” atau sebaliknya – betapa kecil kemungkinannya untuk mengamati hasil seperti itu karena untuk “kebetulan saja”. Nilai-P dihitung berdasarkan model statistik tertentu sehingga ‘kesempatan’ hanya dapat digunakan mengacu pada mekanisme penghasil data tertentu dan memiliki arti teknis yang sangat berbeda dari yang sehari-hari. Untuk pemahaman yang lebih dalam tentang makna dan interpretasi nilai-p, termasuk salah tafsir umum, lihat: definisi dan interpretasi nilai-p dalam statistik .
Nilai-P dan signifikansi untuk perbedaan relatif dalam cara atau proporsi
Ketika membandingkan dua kelompok independen dan variabel yang diminati adalah relatif (alias perubahan relatif, perbedaan relatif, perubahan persen, perbedaan persentase), sebagai lawan dari perbedaan mutlak antara dua cara atau proporsi, standar deviasi variabel berbeda yang memaksa cara yang berbeda untuk menghitung nilai-p [5]. Perlunya uji statistik yang berbeda adalah karena fakta bahwa dalam menghitung perbedaan relatif melibatkan melakukan pembagian tambahan oleh variabel acak: tingkat kejadian kontrol selama percobaan yang menambahkan lebih banyak varians ke estimasi dan signifikansi statistik yang dihasilkan biasanya lebih tinggi (hasilnya akan kurang signifikan secara statistik). Apa artinya ini adalah bahwa nilai-p dari uji hipotesis statistik untuk perbedaan absolut dalam rata-rata akan secara nominal memenuhi tingkat signifikansi, tetapi mereka tidak akan memadai mengingat inferensi statistik untuk hipotesis yang ada.
Dalam simulasi yang saya lakukan, perbedaan dalam nilai-p adalah sekitar 50% dari nilai nominal: nilai-p 0,05 untuk perbedaan absolut berhubungan dengan probabilitas sekitar 0,075 untuk mengamati perbedaan relatif yang sesuai dengan perbedaan absolut yang diamati. Oleh karena itu, jika Anda menggunakan nilai-p yang dihitung untuk perbedaan absolut saat membuat kesimpulan tentang perbedaan persentase, kemungkinan Anda melaporkan tingkat kesalahan sekitar 50% dari yang sebenarnya, sehingga secara signifikan melebih-lebihkan signifikansi statistik dari hasil Anda dan meremehkan ketidakpastian yang menyertainya. ke mereka.
Singkatnya – beralih dari absolut ke perbedaan relatif membutuhkan uji hipotesis statistik yang berbeda. Dengan kalkulator ini Anda dapat menghindari kesalahan menggunakan tes yang salah hanya dengan menunjukkan kesimpulan yang ingin Anda buat.
Referensi: