16.1. A/B Test16.1.1. 테스트 대상16.1.2. A/B Testing 도구16.2. A/B Test 방법 16.2.1. 실험 설계 순서 16.2.2. 실험 설계 예시 16.3. A/B Test 해석 16.3.1. 평가 지표 16.4. A/B Test 대표 사례 16.4.1. 오바마 선거 16.4.2. Netflix 랜딩 페이지 16.5. Uplift Modeling16.5.1. A/B Test와의 차이16.5.2. Uplift 사분면 16.6. Uplift Modeling 방법16.6.1. 모델링 설계 순서16.7. Uplift Modeling 해석16.7.1. 평가 지표 16.8. Uplift Modeling 사례 16.8.1. 오바마 선거16.8.2. Nexon 게임 광고
16.1. A/B Test
A/B Test는 통계적 가설 검정의 한 형태로, 실제 디지털 환경에서 두 가지 버전을 비교하여 더 높은 성과를 보이는 버전을 확인하는 방법론입니다. 가설을 입증하기 위해 임의의 사용자를 대상으로 대조군(Control Group)과 실험군(Experimental Group)으로 나누어 비교하여 사용자가 무엇에 관심을 두고 반응하는지를 확인합니다.

대조군(Control Group)은 기존 버전, 실험군(Experimental Group)은 변경 사항이 포함된 버전을 의미하며, 이를 통해 실험군을 비교하여 대조군을 검증합니다. 마케팅이나 웹/앱에서 새로운 기능의 효과를 테스트하거나 최적화 버전을 확인하기 위해 주로 사용됩니다. A/B Test가 주로 사용되는 웹은 사용자 로그를 트래킹할 수 있으므로 실제 유저들의 행동을 파악하고 이를 통해 최적화된 서비스 버전을 확인할 수 있습니다.
A/B Test는 최적화에 매우 유용한 방법이지만 A/B Test만으로 의사결정을 하는 것이 아니라 웹 로그 분석, 사용자 인터뷰와 같은 보완적인 방법들을 함께 사용해야 합니다. 또한, A/B Test는 정기적으로 테스트를 지속 운영할 때 제일 효과적입니다. 테스트 결과가 축적되고 이를 반복할수록 사용자에 대한 이해도가 높아져 더 나은 가설을 세우고, 더 높은 성과를 도출할 수 있기 때문입니다.
16.1.1. 테스트 대상
A/B Test의 대상은 사용자의 행동에 영향을 줄 수 있는 요소이고, 대표적 예시들은 다음과 같습니다.
- (우호적인) 이메일 제목/ 이메일 발신자 주소
- 광고 문안
- 이미지
- 디자인/ 레이아웃
- 로고와 슬로건
- 소셜 미디어 버튼/ 기타 버튼 (CTA 버튼)
16.1.2. A/B Testing 도구
- Google Optimize360 : Google에서 만든 웹사이트 최적화 도구입니다.
[2023년 9월 지원 종료]로 GA4로 대체할 수 있습니다.
- Optimizely : 여러 페이지와 플랫폼에서 동시에 A/B Test 실행이 가능합니다.
- VWO : A/B Test, 다변량 테스트 등을 제공하며, 결과를 대시보드로 제공합니다.
- AB Tasty : 웹사이트와 모바일 앱에서 직관적인 A/B Test를 제공합니다.
- 그 외 : 기업 자체 A/B Testing Platform
16.2. A/B Test 방법
실제 환경에서 사용자의 반응도를 알아보기 위해 실험을 설계합니다.
16.2.1. 실험 설계 순서
- 지표 선정
테스트 목표에 맞는 지표를 설정하는 단계입니다. 지표 선정 시 퍼널 분석(Funnel Analysis)을 통해 단계별로 분류해 보고, A/B Test로 개선이 필요한 지표를 선택합니다. 웹/앱 서비스에 적용한다면 클릭률(CTR)이나 전환율(Conversion Rate)이 핵심 지표가 될 수 있습니다. 또한, 부가 지표와 가드레일 지표를 함께 고려해야 합니다.
- 핵심 지표 : 실험을 통해 궁극적으로 개선하고 싶은 지표
- 부가 지표 : 실험 목적에 부합하는 대상은 아닐지라도 함께 개선되리라 예상하는 지표
- 가드레일 지표 : 실험을 통해 악화할 여지가 있는 지표
- 가설 수립
목표와 지표가 정해졌다면 이 지표를 향상시킬 수 있는 변화를 가설로 수립합니다. 여러 가설이 있다면 효과가 크고 실행하기 쉬운 가설부터 실험합니다.
- 귀무가설 H0 : 차이가 없다
- 대립가설 H1 : 차이가 있다 (ex. 광고 문구 개선을 통해 사용자의 전환율이 증가할 것이다)
- 표본과 기간 설정
- 표본(=트래픽) 크기 :
- 실험 기간 :
모집단을 전부 실험할 수 없기에 표본을 선택해야 하는데, 표본은 목표 지표의 대상이 되는 모집단을 충분히 반영하는 집단이어야 합니다.
표본의 크기(Sample Size)는 A 안과 B 안의 예상되는 차이에 의해 결정될 수 있습니다. 표본이 많을수록 A 안과 B 안의 차이가 작더라도 통계적으로 유의미할 수 있고, 반대로 표본이 작더라도 A 안과 B 안의 차이가 크다면 통계적으로 유의미할 수 있습니다. 표본이 많다면 작은 차이여도 우연이라고 볼 수 없다고 판단하는 것입니다.
표본, 즉 트래픽은 특정 날짜나 요일에 영향을 크게 받기 때문에 이러한 부분을 고려하여 기간을 설정해야 합니다. 최소 7일 이상이 권장됩니다.
- 표본(트래픽) 분리 및 실험 진행
- 분기 단위 :
분기 단위란 트래픽을 대조군과 실험군으로 나누는 기준을 의미합니다. 주로 개인 식별이 가능한 ID 값 또는 Cookie나 Event를 기준으로 트래픽을 분리합니다. 트래픽 비율은 주로 반반으로 설정하지만, 원하는 비율로 설정할 수도 있습니다.
트래픽을 분리했다면 사용자에게 A와 B를 각각 노출하여 실험을 진행합니다.
A/B Test를 실시하는 요인 외에는 모두 동일한 조건이어야 함을 유의해야 합니다. 다른 외부 요인은 모두 동일하게 두고 A와 B 요인만 다르게 설정하여야 A와 B가 목표 지표에 영향을 미치는 요인이라 해석할 수 있기 때문입니다.
- 결과 분석 및 검증
실험이 종료되었다면 먼저 실험 과정에 문제가 없었는지를 확인하기 위해 불변 지표를 확인합니다. 불변 지표가 변화하였다면 시스템상의 오류나 외부 요인이 작용한 것으로 볼 수 있기 때문입니다.
A/B Test의 통계적 유의성은 앞서 16.1.2. 절에서 언급했던 A/B Testing 툴을 이용해 계산할 수 있습니다.
16.2.2. 실험 설계 예시
예시 : 광고 문구 A/B 테스트
1. 핵심 지표 : 전환율
2. 가설 : 광고 문구 변경 시 사용자의 전환율이 증가할 것이다.
3. - 표본 크기 : 10,000명의 방문자 대상으로 실험을 진행한다.
- 실험 기간 : 2주간
4. 대조군과 실험군 : 웹사이트 방문자를 무작위로 50%씩 대조군과 실험군으로 나눈다.
5. 결과 분석 : 전환율 1% 증가
16.3. A/B Test 해석
16.3.1. 평가 지표
- 통계적 유의성 : 유의수준(α), p-value(유의 확률)
A/B Test 요소가 핵심 지표에 영향을 미치는지, 그리고 해당 영향이 우연인지 아닌지는 유의수준과 p-value로 판단할 수 있습니다. 먼저 사용되는 용어들은 다음과 같습니다.
신뢰수준 : 실험 결과가 내가 생각한 범위 내의 결과를 도출하는지를 의미합니다. 즉, 실험의 타당성을 뜻합니다. (ex. 신뢰수준 95% : 100번의 실험 중 95번은 내가 생각한 범위 내이다. 나머지 5번은 아닐 수 있다)
cf. 신뢰수준 = 1 - 유의수준
유의 수준(α) : A와 B의 차이가 유의미한지, 즉 우연이 아니라고 판단할 마지노선을 의미합니다. (ex. 유의수준 5% : 우연에 의해 결과가 발생해도 5번까지는 넘어가겠다. 5번이 넘어간다면 A와 B에는 차이가 없고, 차이가 있는 것처럼 보여도 이는 우연이라 판단하겠다)
대표적 유의수준은 0.05로, p-value(유의 확률)가 0.05보다 작거나 같으면 귀무가설을 기각하고 대립가설을 채택합니다.
p-value(유의 확률) : 귀무가설이 맞는다는 전제하에, 관측된 통곗값보다 같거나 클 확률입니다. 즉, 어떤 값이 우연히 발생할 확률을 뜻합니다.
cf. 귀무가설 참이지만 이를 기각할 확률 (1종 오류)
-1종 오류가 발생할 최대 확률 : 유의수준
-1종 오류를 저지를 확률 : p-value
선택한 신뢰수준이 95%, 즉 유의 수준이 5%라면 테스트 결과에서 p-value가 0.05보다 작거나 같으면 귀무가설을 기각하고 대립가설을 채택합니다. 즉, A와 B에는 유의미한 차이가 있다고 판단합니다. 유의미하지 않다는 결론이 나오면 애초에 두 그룹 사이에 차이가 없는 경우이거나, 차이가 있을 수는 있는데 표본이 부족해서 알 수 없는 경우일 수 있습니다.
- 현실적 유의성
통계적으로 유의미한 결과가 나왔더라도 현실적으로 유의미한지까지도 확인해 봐야 합니다. 비즈니스에 따라 유의미의 기준이 다를 수 있기에 이를 고려하여 통계적 결과가 유의미한 숫자인지 확인합니다. 예를 들어, 웹/앱의 경우에는 1~2%만 되어도 의미 있는 차이로 봅니다.
16.4. A/B Test 대표 사례
16.4.1. 오바마 선거
2008년 오바마 전 미국 대통령의 선거캠프는 A/B Test의 대표적 성공 사례로 유명합니다. 오바마 선거캠프는 기부 절차 단계와 기부금 모집 페이지의 이미지 등에 대해 A/B Test를 적용하여 효과적인 기부금 모집으로 선거 활동을 성공적으로 이끌었습니다.
- 기부 절차 단계 변경
먼저 기부 절차 흐름에 대하여 A/B Test를 시행했습니다. 하나의 단계로 여러 항목을 배치한 기존 프로세스와 4단계로 흐름을 늘린 대신 각 단계에서의 항목을 최소화한 프로세스를 비교하였습니다. 결과적으로 여러 단계적 흐름일 때 전환율 지표 +5%를 확인할 수 있었습니다.
- 이미지 변경
또한 주요 이미지를 변경하여 A/B Test를 적용했습니다. A 안으로 오바마에게 포커스를 맞춘 이미지를 활용하였고, B 안으로는 오바마와 영부인, 게스트들이 함께 사진에 포함된 이미지를 활용하였습니다. A/B Test 결과, B 안에서 전환율 지표 +19%의 효과를 확인할 수 있었습니다.
16.4.2. Netflix 랜딩 페이지
두 번째 사례는 A/B Test를 통해 서비스의 대부분을 개선하고 있는 기업, Netflix입니다. Netflix는 설문조사를 통해 사용자들을 대상으로 회원 가입 전 화면에 대한 조사를 실시하였고, 그 결과를 반영하여 다양한 콘텐츠 목록이 제공되는 B 안을 만들었습니다. 기존 A 안과 새롭게 개선한 B 안을 A/B Test한 결과, 기존 A 안에 비해 B 안의 가입 전환율이 오히려 낮아진 결과를 확인할 수 있었습니다. 회원 가입 전 화면에서 다양한 콘텐츠가 제공됨에 따라 탐색으로 인하여 가입 전환 영역에서 벗어나게 되고, 원하는 콘텐츠가 없으면 이탈하게 되었기 때문입니다.
따라서 Netflix는 가입 전 시청 가능한 목록을 배경으로 배치하고 가입 링크를 맨 앞으로 배치하여 사용자들이 시청 가능한 목록도 확인하면서, 실제 가입으로 전환될 수 있도록 랜딩 페이지를 변경했습니다.
16.5. Uplift Modeling
Uplift Modeling은 타겟 마케팅에 따른 고객 성과의 차이, 즉 마케팅 증분 효과를 추정하는 머신러닝 기법입니다. 마케팅 활동을 할 때와 하지 않을 때 고객 행동의 차이를 고객별로 추정합니다. 기존 반응 모델과 달리 마케팅 미수행 시의 확률까지 고려하는 것이 핵심입니다. 고객을 분류하여 “구매하지 않을 고객”이나 “원래 구매하려던 고객”에게 마케팅하는 비용을 줄이고, “설득 시 구매로 이어지는 고객”을 파악하여 마케팅 효율을 높이는 것이 목적입니다.
마케터의 감에 의존하는 것이 아니라 정량적 수치로 사용자 타겟팅 효율을 측정하기 위해 필요합니다. 고객의 세그먼트를 결정하고, 마케팅을 통해 고객의 구매로 이어지는 확률을 결정하기 때문에 한정된 마케팅 예산 아래에서 전체 효과를 최대로 이끌 수 있습니다.
16.5.1. A/B Test와의 차이
A/B Test는 반응 여부만 확인하는 반면, Uplift Modeling은 어떤 특징을 갖고 있는 표본이 반응하거나 하지 않았는지를 확인합니다. 이를 통해 효과가 있는 대상을 예측해 선별적으로 개입합니다.
16.5.2. Uplift 사분면
아래의 이미지와 같이 고객을 고객의 행동에 따라 4가지 유형으로 분류할 수 있습니다.

- Persuadables : 마케팅에 노출이 되면 구매를 하지만 노출되지 않으면 구매하지 않는 그룹
- Sure things : 마케팅과 관계없이 구매할 예정인 그룹
- Lost causes : 마케팅과 관계없이 구매하지 않을 그룹
- Sleeping dogs : 마케팅에 노출되지 않으면 구매하지만 오히려 노출될 경우 구매하지 않는 그룹
즉, Uplift Modeling에서 “Persuadables” 그룹이 목표 마케팅 대상이며 “Sleeping dogs” 그룹은 광고나 마케팅 시 피해야 할 대상입니다.
16.6. Uplift Modeling 방법
16.6.1. 모델링 설계 순서
- 전환(conversion) 기준 선정
마케팅 시 고객의 반응을 예측하는 기준을 정의해야 합니다. 전환 기준 예시로는 ‘구매’나 ‘방문’, ‘복귀’ 등이 있습니다.
- 테스트 진행
예측 모델의 학습 데이터를 수집하는 단계로 볼 수 있습니다. 실험 대상을 대조군과 실험군으로 분리한 뒤 실험군에 한정하여 테스트 마케팅을 노출합니다. 즉, A/B Test를 진행합니다. 만약 두 그룹의 전환율 차이가 크다면 이는 마케팅이 실험 대상에게 유의미함을 의미하므로 마케팅 처치(treatment)의 효율을 신뢰한 상태로 예측 모델링을 진행할 수 있습니다.
단, 실험군의 전환율이 대조군보다 높아야만 마케팅 처치(treatment)가 유의미했다고 해석할 수 있습니다.
- 모델링
- 데이터 수집 및 전처리
- 모델 학습 및 예측
- Uplift score 산출
마케팅에 따른 두 그룹 간의 전환율 차이가 유의미하다는 가설을 입증했다면 이를 바탕으로 예측 모델을 생성합니다.
테스트를 통해 알고 싶은 목표 변수와 모델 학습을 위한 설명변수를 설정합니다. 데이터를 수집한 후 모델 학습을 위하여 Feature Engineering(결측치 제거, 스케일링, 기타 전처리) 작업을 수행합니다.
모델은 기본적으로 트리 기반 알고리즘이며 신경망 모델(Neural Networks)로 동작합니다. Two Models 방식으로 접근한다면 실험 대상에서 대조군과 실험군 모델을 각각 학습시켜 예측을 진행합니다. 예를 들어, 실험 대상 데이터의 90%는 학습에 적용하고 예측 및 검증을 위해 10% 데이터를 적용해 볼 수 있습니다.
이후 각 모델을 통해 반환되는 예측값의 차이를 계산하여 uplift score를 산출해 낼 수 있습니다. uplift score는 -1과 1 사이의 값으로 1에 가까울수록 마케팅 효과가 크게 작용하는 고객, 0 또는 -1에 가까울수록 마케팅이 영향이 없거나 부작용을 일으키는 고객으로 해석할 수 있습니다.
- 실전 적용 및 평가
실제 고객을 바탕으로 모델을 적용하는 단계입니다. 실제 상황을 모델에 대입하고 평가합니다.
2단계에서 진행한 테스트 마케팅의 조건이 4단계의 실전 적용 마케팅 조건과 유사해야 합니다. 다른 조건이나 가정으로 실시된다면 모델의 성능을 보장하기 어렵기 때문입니다.
16.7. Uplift Modeling 해석
16.7.1. 평가 지표
- 예측 : uplift score 분포
생성된 Uplift Modeling을 통해 고객의 전환율을 예측한 결과로 uplift score 값을 산출했다면, 그 값의 분포를 확인합니다. uplift score의 분포가 1에 가까울수록 마케팅 시 긍정적인 효과를 추론할 수 있습니다. 반대로 -1에 가까운 분포를 띈다면 마케팅 처치를 하지 않았을 때 오히려 전환율이 더 높아진다는 것을 의미하므로 마케팅의 부정적 효과를 의심해 볼 수 있습니다.
- 분류 : Uplift 사분면
Uplift Modeling 예측을 통해 얻은 uplift score를 기준으로 이제 전체 고객을 16.5.2. 절의 4가지 타입(Persuadables, Sure things, Sleeping dogs, Lost causes)으로 분류할 수 있습니다. 광고 증분 효과를 기대할 수 있는 “Persuadables” 그룹 대상으로만 광고를 진행하고, “Sure things” 그룹은 광고로부터 제외해야 함을 나타냅니다.
- 평가 : ROI(투자 대비 효율), ROAS(광고 지출 대비 수익률)
ROI와 ROAS 지표를 통해 마케팅 효율을 평가해 볼 수 있습니다. Uplift Modeling을 적용하지 않는 경우는 전 고객을 대상으로 광고비를 지출하므로 전환과 그에 따른 수익이 많아 보일 수 있지만 “Sleeping dogs” 그룹에서 마케팅 노출에 따른 손실이 발생합니다. 하지만 Uplift Modeling을 적용하는 경우는 “Persuadables” 그룹에만 광고비를 지출하기에 전체 광고비 절감 효과가 있으며, 마케팅 부작용 집단인 “Sleeping dogs”에 대한 손실을 피할 수 있어 ROI가 증가함을 확인할 수 있습니다.
16.8. Uplift Modeling 사례
16.8.1. 오바마 선거
오바마 전 미국 대통령 선거단의 데이터 사이언티스트였던 대니얼 포터는 최대한 많은 유권자를 대상으로 홍보하여 지지도를 높이려는 기존 선거운동과 달리, 지지도를 높여줄 특정 유권자에게 홍보 메시지를 전달하는 방식의 새로운 선거운동을 제시했습니다.
Uplift Modeling을 적용하여 Persuadables, 즉 “오바마의 유세를 접한다면 그에게 투표할 유권자”들을 정확히 파악하는 동시에 “상대 후보였던 롬니 후보자를 강력히 지지하는 유권자”들에게 홍보하는 비용을 방지하는 것이 목표였습니다. 실제로 오바마 선거단은 투표일 직전 Uplift Modeling을 통해 식별된 “Persuadables” 유권자들을 대상으로 표적 캠페인을 벌였고, 이는 모두가 알다시피 예상을 뒤엎는 투표 결과를 만들어 냈습니다.
16.8.2. Nexon 게임 광고
실전 상황 가정 : 게임 광고 Uplift Modeling
1. - 전환 기준 : 서비스 복귀
- 마케팅 대상 : 서비스 이탈유저
- 마케팅 처치 : 배너 광고
2. 실험 대상 : 50,000명
3. - 목표 변수 : 마케팅에 따른 유저별 전환 유무
- 설명 변수 : 인구 통계, 접속, 이벤트 참여 등 해당 유저의 정보
4. - 1인당 광고비 : 100원
- 1인당 복귀에 따른 기대 수익 : 1,000원
- 예측
uplift score 분포가 1에 가까운 것을 확인했고, 이를 통해 대부분 유저는 마케팅 시 전환에서 긍정적인 효과를 보일 것이라 추론할 수 있습니다.
- 분류
Uplift score를 기준으로 전체 유저를 아래와 같이 4가지 유형으로 분류할 수 있습니다. 따라서 “Persuadables” 그룹 25,322명에게만 광고를 진행하고, “Sure Things” 그룹 10,349명은 광고로부터 제외합니다.
ㅤ | Persuadables | Sure things | Sleeping dogs | Lost causes |
유저 규모 | 25,322 | 10,349 | 9,412 | 4,917 |
- 평가
예측 모델을 통해 전환 성과와 광고 효율을 살펴보면 다음과 같습니다. Uplift Modeling 미적용 시에는 광고 수익에서 광고비 지출과 “Sleeping dogs” 그룹에 광고를 노출함에 따른 손실을 차감하여 최종 7,861,000원의 순이익을 기대할 수 있습니다. 반면, Uplift Modeling 적용 시에는 “Persuaduables” 그룹에만 광고를 진행하므로 부작용 집단에 대한 손실이 없고, 수익으로부터 광고비 지출만 차감하면 8,700,800원의 순이익을 기대할 수 있습니다.
결과적으로 모델 미적용 대비 적용 시 순이익은 약 11% 더 많고, ROI 효율은 2배 이상 증가함을 확인할 수 있습니다.
ㅤ | Uplift Modeling 미적용 | Uplift Modeling 적용 |
광고 대상 | Persuadables, Sure things, Sleeping dogs, Lost causes | Persuadables |
광고비 | 5,000,000원 | 2,532,200원 |
전환수 | 16,025명 | 11,233명 |
수익 | 16,025,000원 | 11,233,000원 |
손실 | -3,164,000원 | 0원 |
이익 | 7,861,000원 | 8,700,800원 |
ROAS | 321% | 444% |
ROI | 157% | 344% |