PurplePrintAI
데모 체험
← 블로그 목록
PROOF2026.04.10 · 4분 읽기

4개 AI 모델에게 같은 질문을 던졌다 — 결과가 이렇게 다르다

같은 질문을 던져도 모델마다 점수, 속도, 비용, 실제 응답 결이 다르게 나와요. PurplePrint는 그래서 어떤 AI를, 왜, 얼마에 쓰는지까지 공개하려고 해요.

TL;DR

퍼플프린트AI에 어떤 AI를 쓸지 고르기 위해 같은 질문을 여러 모델에 던져봤어요. 점수, 속도, 비용이 모델마다 꽤 다르게 나왔고, 그래서 AI를 쓴다는 말은 결국 어떤 모델을 왜 얼마에 쓰느냐까지 같이 공개해야 의미가 있다고 느꼈어요.

같은 질문을 4개 모델에 던졌어요

질문은 같았어요. 취준생의 자기소개서 막막함을 해결하는 서비스를 설계해달라고 던졌고, 어떤 모델이 PurplePrint 구조에 더 잘 맞는지 비교해봤어요.

  • Gemini 2.5 Flash — 3.9점 / 9.9초 / 0.13원
  • Gemini 2.5 Flash-Lite — 3.9점 / 2.6초 / 0.04원
  • Mistral Small 3.2 — 3.6점 / 4.7초 / 0.03원
  • Qwen 3 32B (Groq) — 3.9점 / 2.8초 / 0.13원

재밌는 건 가장 비싼 모델이 가장 좋은 건 아니었다는 점이에요

Flash-Lite가 Flash와 같은 점수인데 훨씬 빠르고 더 쌌어요. 결국 비싼 모델을 붙인다고 무조건 더 좋은 사용자 경험이 나오는 건 아니라는 뜻이에요.

속도와 비용은 그냥 부가 지표가 아니에요

2.6초와 9.9초는 체감 차이가 꽤 커요. 비용도 세션 단위로 보면 작아 보여도 운영 규모가 커지면 바로 의미가 달라져요.

그래도 점수만 보면 안 돼요

실제 응답을 읽어보면 모델마다 결이 달라요. 그래서 PurplePrint는 숫자만 보고 모델을 고르기보다, 실제 대화 흐름과 UX까지 같이 보려고 해요.

AI를 쓴다는 말이 너무 추상적으로 들릴 때가 많아요. 저는 어떤 모델을 왜 얼마에 쓰는지까지 보여주는 게 훨씬 솔직한 방식이라고 생각해요.

내 아이디어로 직접 해보세요

10~20분 안에 “내가 뭘 만들려는지” 말할 수 있게 돼요.

데모 체험내 프로젝트 시작

Zero to Builders

혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.

오픈채팅방 참여하기 →

새 글 알림 받기

빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.

구독 상태를 확인하고 있어요.

다른 글도 읽어보세요

PROOF

아무것도 모르던 내 동생이 1.5시간 만에 웹사이트를 배포한 이야기

2026.03.29 · 6
PROOF

나는 왜 퇴사하는 팀원에게 아이디어로 만드는 법을 가르쳤는가

2026.03.29 · 6
PROOF

퍼플프린트 시스템으로 퍼플프린트 서비스를 만들고 있다

2026.04.10 · 4