우리가 측정하던 것이 틀렸을 때
몇 주 동안 eval 점수를 올리려 애썼는데, 실제 사용자는 전혀 다른 지점에서 제품 가치를 느낄 수 있어요. 그래서 PurplePrint는 점수보다 실제 완주 경험을 다시 보게 됐어요.
몇 주 동안 synthesis 품질 점수를 0.1씩 올리려고 애썼어요. 그런데 나중에 돌아보니 사용자가 실제로 가치를 느낀 지점은 그 점수랑 정확히 같지 않았어요. 그래서 저는 개선 이전에 측정 대상 자체를 의심해야 하는 순간이 있다고 생각하게 됐어요.
처음엔 점수를 올리는 게 제일 중요한 일처럼 보였어요
overlay를 바꾸고, seeded와 unseeded를 나눠 보고, score와 variance를 다시 재면서 어떻게든 더 좋은 조합을 찾으려고 했어요. 실제로 seeded regime에서는 좋아 보이는 신호도 있었고요.
그런데 production-like 조건으로 가면 이야기가 달라졌어요
tone은 seeded에선 좋아졌지만 unseeded에선 noise-bound였어요. proposal도 평균은 올라갔지만 최종적으로는 statistically significant improvement로 남지 못했어요. 숫자만 보면 열심히 올린 게 실제 생산 환경에선 그대로 재현되지 않았던 거예요.
이때 보이기 시작한 게 있었어요
우리가 측정하고 있던 게 진짜 제품 가치와 정확히 같은 것인가 하는 질문이었어요. 사용자는 품질 점수 0.1 차이보다, 추천 프리셋만으로도 끊기지 않고 끝까지 완주할 수 있었는지에서 더 큰 가치를 느낄 수 있었거든요.
교훈은 단순해요
- •측정 대상 자체를 의심해야 하는 순간이 있어요
- •좋은 eval 점수가 실제 좋은 경험을 보장하진 않아요
- •실측은 나중 검증이 아니라 측정 설계의 일부여야 해요
저는 이게 AI product를 만들 때 꽤 자주 생기는 함정이라고 생각해요. 숫자는 분명 중요하지만, 숫자가 무엇을 대신 말하고 있는지까지 같이 봐야 해요.
문제는 점수가 낮았던 게 아니라, 우리가 점수로 무엇을 보려고 했는지가 어긋나 있었을 수 있다는 점이에요.
Zero to Builders
혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.
새 글 알림 받기
빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.
구독 상태를 확인하고 있어요.