AI 모델의 정확도와 정밀도 제대로 이해하기

AI-모델의-성능-평가-지표

많은 사람이 AI 모델의 성능을 이야기할 때 ‘정확도(Accuracy)’라는 단어만 사용하곤 합니다. 하지만 실제 AI 모델을 평가할 때는 ‘정밀도(Precision)’와 ‘재현율(Recall)’이라는 더 중요한 지표를 함께 고려해야 합니다. 이 세 가지 개념은 서로 비슷해 보이지만, 그 의미와 용도가 완전히 다릅니다.

이 글에서는 비유와 구체적인 예시를 통해 이 세 가지 지표의 차이점을 명확하게 설명하고, 왜 이들이 중요한지 알려드릴게요.

Table of Contents

정확도: AI의 ‘전체 시험 성적’

정확도는 가장 직관적인 지표로, AI 모델이 전체 문제 중 얼마나 많이 맞혔는가를 나타냅니다.

마치 100문제가 있는 시험에서 90문제를 맞혔다면 정확도가 90%라고 말하는 것과 같습니다.

개념: AI가 예측한 결과(긍정/부정)가 실제 결과와 일치하는 비율입니다.
쉬운 예시: 100명의 사진 중 80명은 고양이, 20명은 강아지입니다. AI가 70명의 고양이를 맞히고 10명의 강아지를 맞혔다면, 정확도는 (70+10) / 100 = 80%가 됩니다.

정확도는 전체적인 성능을 한눈에 보여주지만, 치명적인 단점이 있습니다.

데이터가 한쪽으로 치우쳐 있을 때(불균형 데이터)는 정확도만으로 AI 모델을 제대로 평가하기 어렵습니다.

예를 들어, 100개의 이메일 중 99개가 정상이고 1개만 스팸이라고 가정해볼게요.

AI가 모든 이메일을 ‘정상’이라고 예측해도 정확도는 99%가 됩니다. 하지만 이 AI는 스팸을 전혀 잡아내지 못하므로 실제로는 쓸모가 없죠.

정밀도와 재현율: 놓쳐서는 안 될 중요한 지표

정확도의 한계를 보완하기 위해 정밀도와 재현율이라는 지표가 등장합니다.

이 두 지표는 AI 모델의 예측이 얼마나 신뢰할 만한지, 그리고 얼마나 많은 것을 찾아냈는지를 보여줍니다.

정밀도(Precision): ‘AI가 옳다고 말한 것 중, 실제로 옳은 것’의 비율

ai-정밀도

정밀도는 AI가 ‘긍정(Positive)’이라고 예측한 것들 중에서 실제로 정답인 것의 비율을 말합니다. 다시 말해, ‘AI의 예측이 얼마나 정확했는가’를 평가합니다.

쉬운 예시: AI 스팸 필터가 100개의 이메일을 ‘스팸’이라고 예측했습니다. 이 중 90개가 실제로 스팸이고 10개는 정상 메일이었다면, 이 AI의 정밀도는 90%가 됩니다. 즉, AI가 ‘스팸’이라고 판단한 메일을 믿을 수 있는 신뢰도가 90%인 것이죠.
중요한 활용 분야: 잘못된 예측이 큰 문제를 일으키는 분야(예: 사기 탐지, 의료 진단)에서 특히 중요합니다. AI가 사기라고 예측했는데 실제로는 아니었다면(잘못된 예측), 선량한 고객에게 불편을 줄 수 있기 때문입니다.

재현율(Recall): ‘실제 정답 중 AI가 찾아낸 것’의 비율

ai-재현율

재현율은 실제 정답 중에서 AI가 얼마나 많이 찾아냈는가를 말합니다. 다른 말로는 ‘민감도(Sensitivity)’라고도 부릅니다.

쉬운 예시: 실제 스팸 메일이 총 100개 있습니다. AI 스팸 필터가 이 중에서 90개를 스팸으로 분류하고 10개를 놓쳤다면, 이 AI의 재현율은 90%가 됩니다. 즉, AI가 실제 스팸 메일을 찾아내는 능력이 90%라는 의미입니다.
중요한 활용 분야: 정답을 놓치는 것이 치명적인 분야(예: 질병 진단, 테러리스트 탐지)에서 특히 중요합니다. 암 환자를 놓치거나(잘못된 예측), 위험한 인물을 식별하지 못하는 것(잘못된 예측)은 심각한 결과를 초래할 수 있기 때문입니다.

정밀도 vs. 재현율: 상반되는 목표

정밀도와 재현율은 종종 서로 상충되는 관계에 있습니다. 즉, 한쪽을 높이려 하면 다른 쪽은 낮아지는 경향이 있습니다.

정밀도를 높이려면: AI가 매우 신중하게 ‘긍정’ 예측을 하도록 만듭니다. ‘이건 정말 스팸이 확실해!’라는 확신이 들 때만 ‘스팸’으로 분류하는 것이죠. 이렇게 하면 잘못된 예측(오탐지)은 줄어들지만, 놓치는 스팸 메일(미탐지)이 많아질 수 있습니다.
재현율을 높이려면: AI가 모든 가능성을 고려해 최대한 많은 ‘긍정’ 예측을 하도록 만듭니다. ‘스팸일 수도 있어!’라는 작은 가능성만 있어도 일단 ‘스팸’으로 분류하는 것입니다. 이렇게 하면 실제 스팸을 놓치는 일은 줄어들지만, 정상 메일까지 스팸으로 오분류하는 경우가 많아집니다.

어떤 지표가 더 중요한지는 AI 모델의 용도에 따라 달라집니다.

의료 진단 모델: 암 환자를 한 명이라도 놓치는 것이 위험하므로, 재현율이 매우 중요합니다.
유튜브 동영상 추천: 내가 원하지 않는 영상이 추천될 수 있지만(낮은 정밀도), 내가 좋아할 만한 모든 영상을 놓치지 않고 찾아주는 것(높은 재현율)이 중요합니다.
자율 주행 시스템: 보행자를 ‘사람’이 아닌 ‘장애물’로 잘못 예측하는 것이 치명적이므로, 정밀도와 재현율 모두 매우 높아야 합니다.

하나의 지표로는 부족한 AI 평가

AI 모델의 성능을 평가할 때는 단순히 ‘정확도’만 볼 것이 아니라, ‘정밀도’와 ‘재현율’을 함께 고려해야 합니다.

특히 데이터가 불균형하거나 오분류의 위험이 큰 분야에서는 이 두 지표가 AI의 실제 가치를 보여주는 핵심적인 역할을 합니다.

AI 모델이 어떤 문제를 해결하는지, 그리고 어떤 오류가 더 치명적인지를 이해한다면, 우리는 그 모델을 더 정확하게 평가하고 현명하게 활용할 수 있을 것입니다.

인공 신경망의 작동 원리

인공 신경망의 작동 원리

정확도: AI의 ‘전체 시험 성적’

정밀도와 재현율: 놓쳐서는 안 될 중요한 지표

정밀도(Precision): ‘AI가 옳다고 말한 것 중, 실제로 옳은 것’의 비율

재현율(Recall): ‘실제 정답 중 AI가 찾아낸 것’의 비율

정밀도 vs. 재현율: 상반되는 목표

하나의 지표로는 부족한 AI 평가

You Might Also Like

AI 기술의 블랙박스 문제와 해결 노력

인공지능(AI)이란 무엇인가? 초보자도 이해할 수 있는 쉬운 설명

인공 신경망의 작동 원리

답글 남기기 응답 취소