Tutorial A/B Testing: Dari Pemula Hingga Pro Dalam Postingan Blog 2022 Di 2025

Ditulis.ID – A/B Testing membagi traffic 50/50 antara kontrol dan variasi. Pengujian split A/B adalah istilah baru untuk teknik lama — eksperimen terkontrol.

Namun untuk semua konten di luar sana, orang masih menguji hal yang salah dan menjalankan A/B testing dengan tidak benar.

Inilah yang akan kita bahas dalam tutorial ini:

Daftar Isi

Dasar-Dasar A/B Testing

apa itu a/b testing, ab testing adalah, google ab test, google optimize ab test, ab test wordpress, test ab marketing, ab test google optimize, apa itu ab testing, ab test instagram, elementor ab test, optimize ab test, ab test elementor, test ab calculator, vwo abtesting, nelio abtesting, contoh ab testing, ab testing berfungsi untuk, ab testing tools, a b testing dalam digital marketing, ebi testing, conversions adalah, cara melakukan ab testing, usability testing adalah, contoh ab testing dalam digital marketing, hypothesis testing, concept testing adalah, cara melakukan a/b testing, a/b testing tools, a/b testing berfungsi untuk, conversion adalah — Dasar-Dasar A/B Testing

Ketika peneliti menguji kemanjuran obat baru, mereka menggunakan “split test.” Faktanya, sebagian besar eksperimen riset bisa dianggap sebagai “split test”, lengkap dengan hipotesis, kontrol, variasi, dan hasil yang dihitung secara statistik.

Itu dia. Misalnya, jika kamu menjalankan A/B testing sederhana, traffic akan dibagi 50/50 antara laman orisinal dan variasi:

A/B Testing membagi traffic 50/50 antara kontrol dan variasi.

Untuk optimasi konversi, perbedaan utama adalah variabilitas traffic Internet. Di lab, lebih mudah untuk mengontrol variabel eksternal. Online, kamu bisa menguranginya, tetapi sulit untuk membuat tes yang sepenuhnya terkontrol.

Selain itu, pengujian obat baru membutuhkan tingkat akurasi yang hampir pasti. Nyawa dipertaruhkan. Dalam istilah teknis, periode “eksplorasi” kamu bisa lebih lama, karena kamu ingin memastikan bahwa kamu tidak melakukan kesalahan Tipe I (positif palsu).

Secara online, proses split-testing A/B mempertimbangkan tujuan bisnis. Ini mempertimbangkan risiko vs. penghargaan, eksplorasi vs. eksploitasi, sains vs. bisnis. Oleh karena itu, kami melihat hasil melalui lensa yang berbeda dan membuat keputusan secara berbeda dari tes yang dijalankan di laboratorium.

kamu tentu saja bisa membuat lebih dari dua variasi. Pengujian dengan lebih dari dua variasi dikenal sebagai A/B testing/n. Jika kamu mempunyai traffic yang cukup, kamu bisa menguji variasi sebanyak yang kamu suka. Berikut adalah contoh A/B testing/C/D, dan berapa banyak traffic yang dialokasikan untuk setiap variasi:

A/B Testing/n membagi traffic secara merata di antara kontrol dan beberapa variasi laman.

A/B Testing/n sangat bagus untuk menerapkan lebih banyak variasi dari hipotesis yang sama, tetapi memerlukan lebih banyak traffic karena membaginya di antara lebih banyak halaman.

A/B Testing, meskipun yang paling populer, hanyalah salah satu jenis eksperimen online. Kamu juga bisa menjalankan tes multivariate dan bandit.

A/B Testing, Multivariate Testing, Dan Algoritma Bandit: Apa Bedanya?

A/B Testing/n adalah eksperimen terkontrol yang menjalankan satu atau beberapa variasi terhadap laman original. Hasil membandingkan rasio konversi diantara variasi berdasarkan satu perubahan.

Pengujian multivariate menguji beberapa versi halaman untuk mengisolasi atribut mana yang menyebabkan dampak terbesar. Dengan kata lain, pengujian multivariat seperti A/B testing/n yang menguji yang asli terhadap variasi, tetapi setiap variasi berisi elemen desain yang berbeda. Sebagai contoh:

contoh pengujian multivarian pada halaman web.

Setiap elemen mempunyai dampak dan kasus penggunaan khusus untuk membantu kamu mendapatkan hasil maksimal dari website kamu. Berikut caranya:

Gunakan A/B testing untuk menentukan tata letak terbaik.
Gunakan multivariate testing untuk memoles tata letak dan memastikan semua elemen berinteraksi dengan baik bersama-sama.

kamu membutuhkan banyak traffic ke halaman yang kamu uji bahkan sebelum mempertimbangkan multivariate testing. Tetapi jika kamu mempunyai traffic yang cukup, kamu harus menggunakan kedua jenis pengujian dalam program pengoptimalan kamu.

Sebagian besar agensi memprioritaskan A/B testing karena kamu biasanya menguji perubahan yang lebih signifikan (dengan potensi dampak yang lebih besar),dan karena lebih mudah dijalankan. Seperti yang pernah dikatakan Peep, “Sebagian besar agensi top yang pernah saya ajak bicara tentang uji coba ini ~10 A/B untuk setiap 1 MVT.”

Artikel Menarik: Pengertian Kemampuan Menulis Dan 5 Contohnya

Algoritma bandit adalah A/B testing/n yang diperbarui secara real time berdasarkan kinerja setiap variasi.

Intinya, algoritma bandit dimulai dengan mengirimkan traffic ke dua (atau lebih) halaman: halaman asli dan variasinya. Kemudian, untuk “lebih sering menarik lengan mesin slot yang menang”, algoritma diperbarui berdasarkan variasi mana yang “menang”. Akhirnya, algoritma sepenuhnya mengeksploitasi opsi terbaik:

Salah satu manfaat bandit testing adalah bandit mengurangi “penyesalan”, yang merupakan peluang konversi yang hilang yang kamu alami saat menguji variasi yang berpotensi lebih buruk. Bagan ini dari Google menjelaskannya dengan sangat baik:

Bandit dan tes A/B/n masing-masing mempunyai tujuan. Secara umum, bandit sangat bagus untuk:

Headlines dan short-term campaigns;
Otomatisasi untuk skala;
Penargetan;
Memadukan pengoptimalan dengan atribusi.

Apa pun jenis tes yang kamu jalankan, penting untuk mempunyai proses yang meningkatkan peluang keberhasilan kamu. Ini berarti menjalankan lebih banyak tes, memenangkan lebih banyak tes, dan membuat peningkatan yang lebih besar.

Cara Meningkatkan Hasil A/B testing

Abaikan postingan blog yang memberitahumu “Panduan Cara Split Test Iklan Facebook Yang Efektif 2021”. Mereka membuang-buang waktu dan traffic. Sebuah proses akan membuat kamu lebih banyak uang.

Sekitar 74% pengoptimal dengan pendekatan terstruktur untuk konversi juga mengklaim peningkatan penjualan. Mereka yang tidak mempunyai pendekatan terstruktur akan tetap berada dalam apa yang disebut Craig Sullivan sebagai “Trough of Disillusionment.” (Kecuali hasilnya dipenuhi dengan positif palsu, yang akan kita bahas nanti.)

Untuk menyederhanakan proses kemenangan, strukturnya seperti ini:

Riset;
Prioritas;
Percobaan;
Analisis, pelajari, ulangi.

Riset: Mendapatkan Wawasan Berdasarkan Data

Untuk memulai pengoptimalan, kamu perlu mengetahui apa yang dilakukan pengguna kamu dan alasannya.

Namun, sebelum kamu memikirkan pengoptimalan dan pengujian, perkuat strategi tingkat tinggi kamu dan turun dari sana. Jadi, pikirkan dalam urutan ini:

Tentukan tujuan bisnis kamu.
Tentukan tujuan website kamu.
Tentukan Indikator Kinerja Utama kamu.
Tentukan matrik target kamu.

diagram alur yang menunjukkan kemajuan dari tujuan bisnis ke metrik target.

Setelah kamu tahu ke mana kamu ingin pergi, kamu bisa mengumpulkan data yang diperlukan untuk sampai ke sana. Untuk melakukan ini, kami merekomendasikan Kerangka ResearchXL.

Berikut ringkasan eksekutif dari proses yang kami gunakan di Ditulis:

Analisis heuristik;
Analisis teknis;
Analisis analisis web ;
Mouse-tracking analysis;
Survei kualitatif;
User testing dan copy testing.

Analisis heuristik hampir mendekati “praktik terbaik”. Bahkan setelah bertahun-tahun pengalaman, kamu masih tidak tahu persis apa yang akan berhasil. Tetapi kamu bisa mengidentifikasi area peluang.

Kerendahan hati sangat penting. Ini juga membantu untuk mempunyai kerangka kerja. Saat melakukan analisis heuristik, kami menilai setiap halaman berdasarkan hal berikut:

Relevansi;
Kejelasan;
Nilai;
Gesekan;
Gangguan.

Analisis teknis adalah area yang sering diabaikan. Bug—jika ada—adalah pembunuh konversi. Kamu mungkin berpikir website kamu bekerja dengan sempurna dalam hal pengalaman dan fungsionalitas pengguna. Tetapi apakah ini berfungsi sama baiknya dengan setiap browser dan perangkat? Mungkin tidak.

Ini adalah buah yang menggantung rendah—dan sangat menguntungkan. Jadi, mulailah dengan:

Melakukan pengujian lintas browser dan lintas perangkat.
Melakukan analisis kecepatan.

Analisis analisis web adalah yang berikutnya. Hal pertama yang pertama: Pastikan semuanya berfungsi. (kamu akan terkejut dengan banyaknya penyiapan analitik yang rusak.)

Google Analytics (dan penyiapan analitik lainnya) adalah kursus tersendiri, jadi saya akan memberi kamu beberapa tautan bermanfaat:

Google Analytics 4 vs Universal Analytics, Mana Yang Lebih Bagus?

Berikutnya adalah mouse-tracking analysis, yang mencakup heat maps, scroll maps, click maps, form analytics, dan user session replays. Jangan terbawa oleh visualisasi click maps yang cantik. Pastikan kamu menginformasikan tujuan kamu yang lebih besar dengan langkah ini.

Riset kualitatif memberi tahu kamu mengapa analisis kuantitatif itu meleset. Banyak orang berpikir bahwa analisis kualitatif “lebih lembut” atau lebih mudah daripada kuantitatif, tetapi analisis ini harus sama ketatnya dan bisa memberikan wawasan yang sama pentingnya dengan analisis.

Artikel Menarik: Jurusan Teknik Komputer Dan Jaringan Adalah

Untuk riset kualitatif, gunakan hal-hal seperti:

Survei di tempat ;
Survei pelanggan;
Wawancara pelanggan dan kelompok fokus.

Akhirnya Ada user testing. Premisnya sederhana: Amati bagaimana orang sebenarnya menggunakan dan berinteraksi dengan website kamu saat mereka menceritakan proses pemikiran mereka dengan keras. Perhatikan apa yang mereka katakan dan apa yang mereka alami.

Dengan copy testing, kamu mempelajari bagaimana audiens target kamu yang sebenarnya memandang salinan, apa yang jelas atau tidak jelas, argumen apa yang mereka pedulikan atau tidak.

Setelah riset konversi menyeluruh, kamu akan mempunyai banyak data. Langkah selanjutnya adalah memprioritaskan data tersebut untuk pengujian.

Bagaimana Memprioritaskan Hipotesis A/B Test

Ada banyak kerangka kerja untuk memprioritaskan A/B testing kamu, dan kamu bahkan bisa berinovasi dengan formula kamu sendiri. Berikut cara memprioritaskan pekerjaan yang dibagikan oleh Craig Sullivan.

Setelah kamu melalui keenam langkah tersebut, kamu akan menemukan masalah—sebagian parah, sebagian kecil. Alokasikan setiap temuan ke dalam salah satu dari lima ember:

Test. Bucket ini adalah tempat kamu meletakkan barang-barang untuk pengujian.
Instrumen. Ini bisa melibatkan perbaikan, penambahan, atau peningkatan penanganan tag/peristiwa dalam analitik.
Mengadakan hipotesa. Di sinilah kamu menemukan halaman, widget, atau proses yang tidak bekerja dengan baik tetapi tidak mengungkapkan solusi yang jelas.
Lakukan saja. Berikut ember untuk no-brainers. Lakukan saja.
Menyelidiki. Jika ada item dalam ember ini, kamu perlu mengajukan pertanyaan atau menggali lebih dalam.

Beri peringkat setiap masalah dari 1 hingga 5 bintang (1 = minor, 5 = kritis). Ada dua kriteria yang lebih penting daripada yang lain ketika memberikan skor:

Kemudahan implementasi (waktu/kompleksitas/risiko). Terkadang, data memberitahumu untuk membuat fitur yang membutuhkan waktu berbulan-bulan untuk dikembangkan. Jangan mulai dari sana.
Peluang. Skor masalah secara subjektif berdasarkan seberapa besar peningkatan atau perubahan yang mungkin dihasilkannya.

Buat spreadsheet dengan semua data kamu. Kamu akan mempunyai roadmap pengujian yang diprioritaskan.

Kami menciptakan model prioritas kami sendiri untuk menyingkirkan subjektivitas (mungkin). Ini didasarkan pada kebutuhan untuk membawa data ke meja. Ini disebut PXL dan terlihat seperti ini:

contoh kerangka prioritas pengujian a/b.

Ambil salinan kamu sendiri dari template spreadsheet ini di sini. Cukup klik File > Make a Copy untuk menjadikannya milik kamu.

Alih-alih menebak apa dampaknya, kerangka kerja ini mengajukan serangkaian pertanyaan kepada kamu tentang hal itu:

Apakah perubahan di paro atas ? Lebih banyak orang melihat perubahan paruh atas. Dengan demikian, perubahan tersebut lebih mungkin berdampak.
Apakah perubahannya terlihat dalam waktu kurang dari 5 detik? Perlihatkan kontrol kepada sekelompok orang dan kemudian variasinya. Bisakah mereka membedakannya setelah 5 detik? Jika tidak, kemungkinan dampaknya akan lebih kecil.
Apakah itu menambah atau menghapus sesuatu? Perubahan yang lebih besar seperti menghilangkan gangguan atau menambahkan informasi penting cenderung mempunyai dampak yang lebih besar.
Apakah pengujian berjalan pada halaman dengan traffic tinggi? Peningkatan pada halaman dengan traffic tinggi menghasilkan pengembalian yang lebih besar.

Banyak variabel uji potensial memerlukan data untuk memprioritaskan hipotesis kamu. Diskusi mingguan yang menanyakan empat pertanyaan ini akan membantu kamu memprioritaskan pengujian berdasarkan data, bukan opini:

Apakah ini mengatasi masalah yang ditemukan melalui user testing?
Apakah itu menangani masalah yang ditemukan melalui umpan balik kualitatif (survei, jajak pendapat, wawancara)?
Apakah hipotesis didukung oleh mouse-tracking, heat maps, atau eye tracking?
Apakah itu mengatasi wawasan yang ditemukan melalui analitik digital?

Kami juga memberikan batasan pada Kemudahan implementasi dengan memberi tanda kurung pada jawaban sesuai dengan perkiraan waktu. Idealnya, pengembang pengujian adalah bagian dari diskusi penentuan prioritas.

Penilaian PXL

Kami mengasumsikan skala biner: kamu harus memilih satu atau yang lain. Jadi, untuk sebagian besar variabel (kecuali dinyatakan lain), kamu memilih 0 atau 1.

Artikel Menarik: Apa Itu Conversion Rate? 2 Cara Meningkatkan Conversion Rate Dan Cara Menghitungnya

Tetapi kami juga ingin memberi bobot pada variabel berdasarkan kepentingan—seberapa nyata perubahannya, jika ada sesuatu yang ditambahkan/dihapus, kemudahan implementasi. Untuk variabel ini, kami secara khusus mengatakan bagaimana hal-hal berubah. Misalnya, pada variabel Noticeability of the Change, kamu menandainya dengan 2 atau 0.

Kustomisasi

Kami membangun model ini dengan keyakinan bahwa kamu bisa dan harus menyesuaikan variabel berdasarkan apa yang penting bagi bisnis kamu.

Misalnya, mungkin kamu bekerja dengan tim branding atau pengalaman pengguna, dan hipotesis harus sesuai dengan pedoman merek. Tambahkan sebagai variabel.

Mungkin kamu berada di startup yang mesin akuisisinya didorong oleh SEO. Mungkin pendanaan kamu bergantung pada aliran pelanggan itu. Tambahkan kategori seperti, “tidak mengganggu SEO”, yang mungkin mengubah beberapa judul atau copy testing.

Semua organisasi beroperasi di bawah asumsi yang berbeda. Menyesuaikan template bisa menjelaskannya dan mengoptimalkan program pengoptimalan kamu.

Kerangka kerja apa pun yang kamu gunakan, buatlah sistematis dan bisa dipahami oleh siapa pun di tim, serta pemangku kepentingan.

Berapa Lama Untuk Menjalankan A/B Testing

Aturan pertama: Jangan menghentikan tes hanya karena mencapai signifikansi statistik. Ini mungkin kesalahan paling umum yang dilakukan oleh pengoptimal pemula dengan niat baik.

Jika kamu memanggil pengujian saat kamu mencapai signifikansi, kamu akan menemukan bahwa sebagian besar peningkatan tidak berarti peningkatan pendapatan (bagaimanapun juga, itulah tujuannya). “ Lift ” itu, pada kenyataannya, adalah imajiner.

Pertimbangkan ini: Ketika 1.000 pengujian A/A (dua halaman identik) dijalankan:

771 percobaan dari 1.000 mencapai signifikansi 90% di beberapa titik.
531 percobaan dari 1.000 mencapai signifikansi 95% di beberapa titik.

Menghentikan pengujian pada signifikansi berisiko positif palsu dan mengecualikan ancaman validitas eksternal, seperti musiman.

Tentukan ukuran sampel dan jalankan pengujian selama berminggu-minggu penuh, biasanya setidaknya dua siklus bisnis.

Bagaimana kamu menentukan ukuran sampel sebelumnya? Ada banyak alat yang hebat. Inilah cara kamu menghitung ukuran sampel kamu dengan alat Evan Miller:

contoh kalkulator ukuran sampel untuk tes a/b.

Dalam contoh ini, kami memberi tahu alat tersebut bahwa kami mempunyai rasio konversi 3% dan ingin mendeteksi setidaknya peningkatan 10%. Alat ini memberitahu kita bahwa kita membutuhkan 51.486 pengunjung per variasi sebelum kita bisa melihat tingkat signifikansi statistik.

Sebagai tambahannyamaknatingkat, ada sesuatu yang disebut kekuatan statistik. Kekuatan statistik berusaha untuk menghindari kesalahan Tipe II (negatif palsu). Dengan kata lain, kemungkinan besar kamu akan mendeteksi efek jika memang ada.

Untuk tujuan praktis, ketahuilah bahwa daya 80% adalah standar untuk alat A/B testing. Untuk mencapai tingkat seperti itu, kamu memerlukan ukuran sampel yang besar, ukuran efek yang besar, atau uji durasi yang lebih lama.

Tidak Ada Angka Ajaib

Banyak posting blog semuanya angka ajaib seperti “100 konversi” atau “1.000 pengunjung” sebagai titik pemberhentian. Matematika bukanlah sihir. Matematika adalah matematika, dan apa yang kita hadapi sedikit lebih kompleks daripada heuristik sederhana seperti angka-angka itu. Andrew Anderson dari Malwarebytes menjelaskannya dengan baik:

“Ini bukan tentang berapa banyak konversi. Ini tentang mempunyai data yang cukup untuk divalidasi berdasarkan sampel yang representatif dan perilaku yang representatif.
Seratus konversi dimungkinkan hanya dalam kasus yang paling jauh dan dengan delta perilaku yang sangat tinggi, tetapi hanya jika persyaratan lain seperti perilaku dari waktu ke waktu, konsistensi, dan distribusi normal terjadi. Meski begitu, ia mempunyai peluang kesalahan Tipe I yang sangat tinggi, positif palsu.”
Andrew Anderson

Kami ingin sampel yang representatif. Bagaimana kita bisa mendapatkan itu? Uji dua siklus bisnis untuk mengurangi faktor eksternal:

Hari di minggu ini. Traffic (pengunjung) harian kamu bisa sangat bervariasi.
Sumber traffic. Kecuali jika kamu ingin mempersonalisasi pengalaman untuk sumber khusus.
Posting blog dan jadwal penerbitan buletin.
Pengunjung kembali. Orang mungkin mengunjungi website kamu, memikirkan pembelian, lalu kembali 10 hari kemudian untuk membelinya.
Acara eksternal. Hari gajian pertengahan bulan bisa mempengaruhi pembelian, misalnya.

Artikel Menarik: Apa Tujuan Hidup Menurut Islam? Ini Penjelasan Al-Qur’an dan Hadits

Hati-hati dengan ukuran sampel yang kecil. Internet penuh dengan studi kasus yang mendalami matematika yang menyebalkan. Sebagian besar studi (jika mereka pernah merilis angka lengkap) akan mengungkapkan bahwa penayang menilai variasi pengujian pada 100 pengunjung atau peningkatan dari 12 menjadi 22 konversi.

Setelah kamu mengatur semuanya dengan benar, hindari mengintip (atau membiarkan atasan kamu mengintip) hasil tes sebelum tes selesai. Hal ini bisa mengakibatkan pemanggilan hasil lebih awal karena “menemukan tren” (tidak mungkin). Apa yang akan kamu temukan adalah bahwa banyak hasil tes mundur ke mean.

Regresi Bermakna

Seringkali, kamu akan melihat hasil yang sangat bervariasi dalam beberapa hari pertama tes. Benar saja, mereka cenderung bertemu saat tes berlanjut selama beberapa minggu ke depan. Berikut ini contoh dari website e-niaga:

contoh hasil pengujian a/b di situs e-niaga yang mundur ke rata-rata dari waktu ke waktu.

Pertama Beberapa hari: Biru (variasi #3) menang besar—seperti $16 per pengunjung vs. $12,50 untuk Kontrol. Banyak orang akan (secara keliru) mengakhiri tes di sini.
Setelah 7 hari: Biru masih menang, dan perbedaan relatifnya besar.
Setelah 14 hari: Oranye (#4) menang!
Setelah 21 hari: Oranye masih menang!
Akhir: Tidak ada perbedaan.

Jika kamu melakukan tes kurang dari empat minggu, kamu akan membuat kesimpulan yang salah.

Ada masalah terkait: efek kebaruan. Kebaruan perubahan kamu (misalnya, tombol biru yang lebih besar) membawa lebih banyak perhatian pada variasi. Seiring waktu, lift menghilang karena perubahannya tidak lagi baru.

Ini adalah salah satu dari banyak kerumitan yang terkait dengan A/B testing.

Bisakah Kamu Menjalankan Beberapa A/B Testing Secara Bersamaan?

kamu ingin mempercepat program pengujian dan menjalankan lebih banyak pengujian— pengujian tempo tinggi. Tetapi dapatkah kamu menjalankan lebih dari satu A/B testing secara bersamaan?? Apakah itu akan meningkatkan potensi pertumbuhan Anda atau mencemari data kamu?

Beberapa ahli mengatakan kamu tidak boleh melakukan beberapa tes secara bersamaan. Ada yang bilang baik-baik saja. Dalam kebanyakan kasus, kamu akan baik-baik saja menjalankan beberapa tes simultan; interaksi ekstrim tidak mungkin.

Kecuali kamu menguji hal-hal yang sangat penting (misalnya, sesuatu yang mempengaruhi model bisnis kamu, masa depan perusahaan), manfaat dari volume pengujian kemungkinan akan lebih besar daripada kebisingan dalam data kamu dan kadang-kadang positif palsu.

Jika ada risiko tinggi interaksi antara beberapa pengujian, kurangi jumlah pengujian simultan dan/atau biarkan pengujian berjalan lebih lama untuk meningkatkan akurasi.

Cara Menyiapkan A/B Testing

Setelah kamu mendapatkan daftar ide pengujian yang diprioritaskan, saatnya untuk membuat hipotesis dan menjalankan eksperimen. Sebuah hipotesis mendefinisikan mengapa kamu yakin suatu masalah terjadi. Selanjutnya, hipotesis yang baik:

Dapat diuji. Itu bisa diukur, jadi bisa diuji.
Memecahkan masalah konversi. Split-testing memecahkan masalah konversi.
Memberikan wawasan pasar. Dengan hipotesis yang diartikulasikan dengan baik, hasil split-testing kamu memberi kamu informasi tentang pelanggan kamu, apakah pengujian “menang” atau “kalah”.

bagan yang menunjukkan aliran dari masalah ke hipotesis ke ide uji a/b.

Craig Sullivan mempunyai kit hipotesis untuk menyederhanakan proses:

Karena kami melihat (data/umpan balik),
Kami berharap bahwa (perubahan) akan menyebabkan (dampak).
Kami akan mengukur ini menggunakan (metrik data).

Dan yang canggih:

Karena kami melihat (data kualitatif dan kuantitatif),
Kami berharap bahwa (perubahan) untuk (populasi) akan menyebabkan (dampak [s]).
Kami berharap untuk melihat (metrik data berubah) selama periode (siklus bisnis X).

Hal-Hal Teknis

Inilah bagian yang menyenangkan: kamu akhirnya bisa berpikir untuk memilih alat.

Meskipun ini adalah hal pertama yang dipikirkan banyak orang, itu bukan yang paling penting. Strategi dan pengetahuan statistik diutamakan.

Yang mengatakan, ada beberapa perbedaan yang perlu diingat. Salah satu kategorisasi utama dalam alat adalah apakah alat tersebut adalah testing tools sisi server atau sisi klien.

Alat sisi server membuat kode di tingkat server. Mereka mengirim versi halaman secara acak ke pemirsa tanpa modifikasi pada browser pengunjung. Alat sisi klien mengirim halaman yang sama, tetapi JavaScript di browser klien memanipulasi tampilan aslinya dan variasinya.

Artikel Menarik: 30+ Tumbuhan Gurun Asli yang Bisa Tumbuh Di Iklim Ekstrim

Testing tools sisi klien termasuk Optimizely, VWO, dan Adobe Target. Conductrics mempunyai kemampuan untuk keduanya, dan SiteSpect melakukan metode sisi server proxy.

Apa artinya semua ini bagi kamu? Jika kamu ingin menghemat waktu di awal, atau jika tim kamu kecil atau kekurangan sumber daya pengembangan, alat sisi klien bisa membuat kamu bangun dan berjalan lebih cepat. Sisi server membutuhkan sumber daya pengembangan tetapi seringkali bisa lebih kuat.

Meskipun menyiapkan pengujian sedikit berbeda tergantung pada alat yang kamu gunakan, sering kali semudah mendaftar ke alat favorit kamu dan mengikuti petunjuknya, seperti meletakkan cuplikan JavaScript di website kamu.

Di luar itu, kamu perlu menyiapkan Sasaran (untuk mengetahui kapan konversi telah dilakukan). Testing tools kamu akan melacak kapan setiap variasi mengubah pengunjung menjadi pelanggan.

Halaman terima kasih bisa berfungsi sebagai tujuan tujuan di Google Analytics.

Keterampilan yang berguna saat menyiapkan A/B testing adalah HTML, CSS, dan JavaScript/JQuery, serta keterampilan desain dan copywriting untuk membuat variasi. Beberapa alat memungkinkan penggunaan editor visual, tetapi itu membatasi fleksibilitas dan kontrol kamu.

Cara Menganalisis Hasil A/B Testing

Baik. Kamu telah melakukan riset kamu, mengatur tes kamu dengan benar, dan tes akhirnya matang. Sekarang, ke analisis. Ini tidak sesederhana melihat grafik dari testing tools kamu.

Satu hal yang harus selalu kamu lakukan: Analisis hasil pengujian kamu di Google Analytics. Itu tidak hanya meningkatkan kemampuan analisis kamu; itu juga memungkinkan kamu untuk lebih percaya diri dalam pengambilan data dan keputusan kamu.

Testing tools kamu mungkin salah merekam data. Jika kamu tidak mempunyai sumber lain untuk data pengujian kamu, kamu tidak akan pernah yakin apakah akan mempercayainya. Buat beberapa sumber data.

Apa yang terjadi jika tidak ada perbedaan antara variasi? Jangan terlalu cepat move on. Pertama, sadari dua hal:

1. Hipotesis kamu mungkin benar, tetapi implementasinya salah.

Katakanlah riset kualitatif kamu mengatakan bahwa kekhawatiran tentang keamanan adalah sebuah masalah. Berapa banyak cara kamu bisa meningkatkan persepsi keamanan ? Tak terbatas.

Nama gim ini adalah pengujian berulang, jadi jika kamu menyukai sesuatu, cobalah beberapa iterasi.

2. Bahkan jika tidak ada perbedaan secara keseluruhan, variasi mungkin mengalahkan kontrol dalam satu atau dua segmen.

Jika kamu mendapatkan peningkatan untuk pengunjung yang kembali dan pengunjung seluler—tetapi penurunan untuk pengunjung baru dan pengguna desktop—segmen tersebut mungkin saling membatalkan, membuatnya tampak seperti “tidak ada perbedaan”. Analisis pengujian kamu di seluruh segmen utama untuk menyelidiki kemungkinan itu.

Segmentasi data untuk A/B testing

Kunci untuk belajar dalam A/B testing adalah segmentasi. Meskipun B mungkin kalah dari A dalam hasil keseluruhan, B mungkin mengalahkan A di segmen tertentu (organik, Facebook, seluler, dll).

grafik visualisasi segmentasi data hasil pengujian a/b.

Ada banyak sekali segmen yang bisa kamu analisis. Daftar Optimizely kemungkinan berikut:

Jenis browser ;
Jenis sumber;
Seluler vs. desktop, atau menurut perangkat;
Pengunjung yang masuk vs. yang keluar;
Campaign PPC/SEM;
Wilayah geografis (kota, negara bagian/provinsi, negara);
Pengunjung baru vs. pengunjung kembali;
Pembeli baru vs. pembeli berulang;
Pengguna kuat vs. pengunjung biasa;
Pria vs wanita;
Rentang usia;
Prospek baru vs. yang sudah dikirim;
Jenis paket atau tingkat program loyalitas;
Pelanggan saat ini, calon, dan mantan;
Peran (jika website kamu mempunyai, misalnya, peran pembeli dan penjual).

Paling tidak—dengan asumsi kamu mempunyai ukuran sampel yang memadai—lihat segmen-segmen ini:

Desktop vs. tablet/seluler;
Baru vs. Kembali;
Traffic (pengunjung) yang mendarat di halaman vs. traffic dari tautan internal.

Pastikan kamu mempunyai ukuran sampel yang cukup dalam segmen tersebut. Hitung terlebih dahulu, dan berhati-hatilah jika kurang dari 250–350 konversi per variasi dalam segmen tertentu.

Jika perawatan kamu berkinerja baik untuk segmen tertentu, inilah saatnya untuk mempertimbangkan pendekatan yang dipersonalisasi untuk pengguna tersebut.

Cara mengarsipkan A/B testing sebelumnya

A/B Testing bukan hanya tentang peningkatan, kemenangan, kekalahan, dan pengujian acak. Seperti yang dikatakan Matt Gershoff, pengoptimalan adalah tentang “mengumpulkan informasi untuk menginformasikan keputusan”, dan pembelajaran dari A/B testing yang valid secara statistik berkontribusi pada tujuan pertumbuhan dan pengoptimalan yang lebih besar.

Artikel Menarik: Bersyukur - Apa Itu Dan Bagaimana Cara Berlatih Bersyukur?

Organisasi pintar mengarsipkan hasil pengujian mereka dan merencanakan pendekatan mereka untuk pengujian secara sistematis. Pendekatan terstruktur untuk pengoptimalan menghasilkan pertumbuhan yang lebih besar dan jarang dibatasi oleh maxima lokal.

Jadi inilah bagian yang sulit: Tidak ada satu cara terbaik untuk menyusun manajemen pengetahuan kamu. Beberapa perusahaan menggunakan alat canggih yang dibuat secara internal; beberapa menggunakan alat pihak ketiga; dan beberapa menggunakan Excel dan Trello.

Jika membantu, berikut adalah tiga alat yang dibuat khusus untuk manajemen proyek pengoptimalan konversi:

Sangat penting untuk berkomunikasi lintas departemen dan eksekutif. Seringkali, hasil A/B testing tidak intuitif bagi orang awam. Visualisasi membantu.

Annemarie Klaassen dan Ton Wesseling menulis posting yang luar biasa tentang memvisualisasikan hasil tes A/B. Inilah yang mereka temukan:

contoh cara memvisualisasikan hasil tes a/b.

Statistik A/B testing

Pengetahuan statistik berguna saat menganalisis hasil A/B testing. Kami membahas beberapa di bagian di atas, tetapi masih ada lagi yang perlu dibahas.

Mengapa kamu perlu mengetahui statistik? Matt Gershoff suka mengutip profesor matematika kampusnya: “Bagaimana kamu bisa membuat keju jika kamu tidak tahu dari mana susu berasal?!”

Ada tiga istilah yang harus kamu ketahui sebelum kita menyelami seluk beluk statistik A/B testing :

Berarti. Kami tidak mengukur semua rasio konversi, hanya sampel. Rata-rata mewakili keseluruhan.
Perbedaan. Apa variabilitas alami suatu populasi? Itu mempengaruhi hasil kami dan cara kami menggunakannya.
Contoh. Kami tidak bisa mengukur tingkat konversi yang sebenarnya, jadi kami memilih sampel yang (semoga) representatif.

Apa itu p-value?

Banyak yang menggunakan istilah “signifikansi statistik” secara tidak akurat. Signifikansi statistik dengan sendirinya bukanlah aturan penghentian, jadi apa itu dan mengapa itu penting?

Untuk memulainya, mari kita bahas p-values , yang juga sangat di salah pahami. Seperti yang baru-baru ini ditunjukkan oleh FiveThirtyEight, bahkan para ilmuwan tidak bisa dengan mudah menjelaskan p-value.

P-value adalah ukuran bukti terhadap hipotesis nol (kontrol, dalam bahasa A/B testing). Nilai p tidak memberi tahu kita probabilitas bahwa B lebih baik dari A.

Demikian pula, itu tidak memberi tahu kita kemungkinan bahwa kita akan membuat kesalahan dalam memilih B daripada A. Ini adalah kesalahpahaman umum.

Nilai p adalah probabilitas untuk melihat hasil saat ini atau hasil yang lebih ekstrim mengingat hipotesis nol itu benar. Atau, “Seberapa mengejutkan hasil ini?”

bagan yang menunjukkan titik-titik di mana nilai-p menunjukkan betapa mengejutkannya suatu hasil.

Singkatnya, signifikansi statistik (atau hasil yang signifikan secara statistik) dicapai ketika p-value kurang dari tingkat signifikansi (yang biasanya ditetapkan pada 0,05).

Signifikansi dalam hal pengujian hipotesis statistik juga di mana seluruh masalah ” one-tail vs. two-tail ” muncul.

Tes A/B One-Tail Vs. Two-Tail

Tes satu arah memungkinkan efek dalam satu arah. Tes dua sisi mencari efek dalam dua arah—positif atau negatif.

Tidak perlu terlalu sibuk dengan hal ini. Gershoff dari Conductrics menyimpulkannya dengan baik:

“Jika software pengujian kamu hanya melakukan satu jenis atau yang lain, jangan khawatir. Sangat mudah untuk mengonversi satu jenis ke jenis lainnya (tetapi kamu perlu melakukan ini SEBELUM menjalankan tes) karena semua matematika persis sama di kedua tes. Yang membedakan hanyalah tingkat ambang batas signifikansinya.
Jika software kamu menggunakan uji satu sisi, cukup bagi nilai p yang terkait dengan tingkat kepercayaan yang kamu cari untuk menjalankan pengujian dengan dua. Jadi, jika kamu ingin tes dua sisi kamu berada pada tingkat kepercayaan 95%, maka kamu benar-benar akan memasukkan tingkat kepercayaan 97,5%, atau jika pada 99%, maka kamu perlu memasukkan 99,5%. Kamu kemudian bisa membaca tes seolah-olah itu adalah dua sisi. ”
Matt Gershoff

Confidence Intervals Dan Margin Of Error

Tingkat konversi kamu tidak hanya mengatakan X%. Ia mengatakan sesuatu seperti X% (+/- Y). Angka kedua itu adalah confidence intervals, dan sangat penting untuk memahami hasil tes kamu.

Artikel Menarik: 5 Jenis Feedback Yang Membuat Perbedaan (Dan Cara Menggunakannya)

Contoh confidence intervals. ( Sumber gambar )

Dalam A/B testing, kami menggunakan confidence intervals untuk mengurangi risiko kesalahan pengambilan sampel. Dalam hal ini, kami mengelola risiko yang terkait dengan penerapan variasi baru.

Jadi, jika alat kamu mengatakan sesuatu seperti, “Kami 95% yakin bahwa rasio konversi adalah X% +/- Y%,” maka kamu perlu memperhitungkan +/- Y% sebagai margin of error.

Seberapa yakin kamu dengan hasil kamu sangat bergantung pada seberapa besar margin of error nya. Jika kedua rentang konversi tumpang tindih, kamu harus terus menguji untuk mendapatkan hasil yang valid.

Matt Gershoff memberikan ilustrasi yang bagus tentang cara kerja margin of error:

“Katakanlah temanmu akan mengunjungimu dari Round Rock dan menggunakan TX-1 pada jam 5 sore. Dia ingin tahu berapa lama waktu yang dibutuhkannya. Kamu mengatakan saya mempunyai keyakinan 95% bahwa itu akan membawa kamu sekitar 60 menit plus atau minus 20 menit. Jadi margin of error kamu adalah 20 menit, atau 33%.
Jika dia datang pada jam 11 pagi, kamu mungkin berkata, “kamu membutuhkan waktu 40 menit, plus atau minus 10 menit,” jadi margin of error nya adalah 10 menit, atau 25%. Jadi meskipun keduanya berada pada tingkat kepercayaan 95%, margin of error nya berbeda.”
Matt Gershoff

Ancaman Validitas Eksternal

Ada tantangan dalam menjalankan A/B testing: Data tidak stasioner.

Deret waktu stasioner adalah deret waktu yang sifat statistiknya (rata-rata, varians, autokorelasi, dll.) konstan sepanjang waktu. Untuk banyak alasan, data website tidak stasioner, yang berarti kami tidak bisa membuat asumsi yang sama dengan data stasioner. Berikut adalah beberapa alasan mengapa data bisa berfluktuasi:

Musim;
Hari di minggu ini;
Liburan;
Sebutan pers positif atau negatif;
Marketing campaigns lainnya;
PPC/SEM;
SEO;
Dari mulut ke mulut.

Lainnya termasuk polusi sampel, efek kedipan, kesalahan pelacakan pendapatan, bias pemilihan, dan banyak lagi. Ini adalah hal-hal yang perlu diingat saat merencanakan dan menganalisis A/B testing kamu.

Statistik Bayesian Atau Frequentist

A/B Testing Bayesian atau Frequentist adalah topik hangat lainnya. Banyak alat populer telah membangun kembali mesin statistik mereka untuk menampilkan metodologi Bayesian.

Inilah perbedaannya (sangat disederhanakan): Dalam pandangan Bayesian, probabilitas ditetapkan ke hipotesis. Dalam tampilan Frequentist, hipotesis diuji tanpa diberi probabilitas.

Rob Balon, yang menyandang gelar PhD dalam statistik dan riset pasar, mengatakan perdebatan itu sebagian besar adalah kibasan ekor esoteris dari menara gading. “Sebenarnya,” katanya, “kebanyakan analis dari menara gading tidak terlalu peduli, jika sama sekali, tentang Bayesian vs. Frequentist.”

Jangan salah paham, ada implikasi bisnis praktis untuk setiap metodologi. Tetapi jika kamu baru mengenal A/B testing, ada banyak hal yang lebih penting untuk dikhawatirkan.

Alat Dan Sumber Daya A/B Testing

Di seluruh panduan ini berserakan banyak tautan ke sumber daya eksternal: artikel, alat, buku, dll. Untuk memudahkan kamu, berikut adalah beberapa yang terbaik (dibagi berdasarkan kategori).

Alat A/B Testing

Ada banyak alat untuk eksperimen online. Berikut daftar 19 alat pengoptimalan konversi, semuanya ditinjau oleh para ahli. Beberapa alat A/B testing yang paling populer meliputi:

Kalkulator A/B Testing

Sumber Daya Statistik A/B Testing

Sumber Daya Strategi A/B Testing/CRO

Kesimpulan

A/B Testing adalah sumber daya yang tak ternilai bagi siapa pun yang membuat keputusan di lingkungan online. Dengan sedikit pengetahuan dan banyak ketekunan, kamu bisa mengurangi banyak risiko yang dihadapi sebagian besar pengoptimal pemula.

Jika kamu benar-benar menggali informasi di sini, kamu akan berada di depan 90% orang yang menjalankan tes. Jika kamu percaya pada kekuatan A/B testing untuk pertumbuhan pendapatan yang berkelanjutan, itu adalah tempat yang fantastis.

Pengetahuan adalah faktor pembatas yang hanya bisa dilampaui oleh pengalaman dan pembelajaran berulang. Jadi dapatkan pengujian!