HOW2026.04.10 · 5분 읽기

우리가 측정하던 것이 틀렸을 때

몇 주 동안 eval 점수를 올리려 애썼는데, 실제 사용자는 전혀 다른 지점에서 제품 가치를 느낄 수 있어요. 그래서 PurplePrint는 점수보다 실제 완주 경험을 다시 보게 됐어요.

TL;DR

몇 주 동안 synthesis 품질 점수를 0.1씩 올리려고 애썼어요. 그런데 나중에 돌아보니 사용자가 실제로 가치를 느낀 지점은 그 점수랑 정확히 같지 않았어요. 그래서 저는 개선 이전에 측정 대상 자체를 의심해야 하는 순간이 있다고 생각하게 됐어요.

처음엔 점수를 올리는 게 제일 중요한 일처럼 보였어요

overlay를 바꾸고, seeded와 unseeded를 나눠 보고, score와 variance를 다시 재면서 어떻게든 더 좋은 조합을 찾으려고 했어요. 실제로 seeded regime에서는 좋아 보이는 신호도 있었고요.

그런데 production-like 조건으로 가면 이야기가 달라졌어요

tone은 seeded에선 좋아졌지만 unseeded에선 noise-bound였어요. proposal도 평균은 올라갔지만 최종적으로는 statistically significant improvement로 남지 못했어요. 숫자만 보면 열심히 올린 게 실제 생산 환경에선 그대로 재현되지 않았던 거예요.

이때 보이기 시작한 게 있었어요

우리가 측정하고 있던 게 진짜 제품 가치와 정확히 같은 것인가 하는 질문이었어요. 사용자는 품질 점수 0.1 차이보다, 추천 프리셋만으로도 끊기지 않고 끝까지 완주할 수 있었는지에서 더 큰 가치를 느낄 수 있었거든요.

교훈은 단순해요

•측정 대상 자체를 의심해야 하는 순간이 있어요
•좋은 eval 점수가 실제 좋은 경험을 보장하진 않아요
•실측은 나중 검증이 아니라 측정 설계의 일부여야 해요

저는 이게 AI product를 만들 때 꽤 자주 생기는 함정이라고 생각해요. 숫자는 분명 중요하지만, 숫자가 무엇을 대신 말하고 있는지까지 같이 봐야 해요.

문제는 점수가 낮았던 게 아니라, 우리가 점수로 무엇을 보려고 했는지가 어긋나 있었을 수 있다는 점이에요.

내 아이디어로 직접 해보세요

10~20분 안에 “내가 뭘 만들려는지” 말할 수 있게 돼요.

데모 체험 내 프로젝트 시작

Zero to Builders

혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.

오픈채팅방 참여하기 →

새 글 알림 받기

빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.

구독 상태를 확인하고 있어요.

우리가 측정하던 것이 틀렸을 때

처음엔 점수를 올리는 게 제일 중요한 일처럼 보였어요

그런데 production-like 조건으로 가면 이야기가 달라졌어요

이때 보이기 시작한 게 있었어요

교훈은 단순해요

다른 글도 읽어보세요

2시간 동안 실제로 무슨 일이 일어나는가

그럼 대체 어떻게 Zero to Builder가 되는가

한 번 끝나고 나면 뭐가 남느냐