AI를 허용한 평가에서 주의할 점

카테고리 없음

AI를 허용한 평가에서 주의할 점

world1000 2026. 1. 5. 02:22

아~~~~~ 이 난관을 어떻게 극복해야 할까. 머리카락이 다 빠져버릴 것 같다.

나의 실수

AI 사용을 허용하면서 프롬프트를 제출하라고 했다. "어떻게 AI를 활용했는가"를 볼 수 있을 거라고 생각했다.

막상 뚜껑을 열어보니 상황은 내가 예측하지 못한 방향으로 흘렀다. 프롬프트를 아예 제출하지 않은 사람들이 있었다. 제출란이 아니라 피드백란에 제출한 사람들이 있었다. 개별 사본을 저장해 작업하라는 지시를 놓친 사람들이 내 계정 세션에 한데 엉켜 작업하면서, 그들의 사유 궤적이 담겨야 할 프롬프트 기록이 증발해버렸다.

사고의 발자취가 사라진 빈 화면 앞에서 처음 세웠던 채점 기준은 흔들릴 수밖에 없었다.

더 큰 문제: 모두가 똑같다

그보다 더 큰 문제가 있었다. 거의 모든 사람의 코드가 똑같았다. 설명도 거의 똑같았다.

어려운 문제일 거라고 생각했다. 학생들이 아직은 잘 모르는 알고리즘으로 데이터의 최댓값을 찾고, 그래프가 그리는 상황을 파악하는 것. 코드를 주고 오류를 수정하게 한 뒤, 실행 과정에서 벌어지는 변화를 관찰하며 답을 쓰게 했다.

그런데 코랩에 연결된 AI는 내 계정에서 돌아가는 것이었다. 내가 문제를 검증하면서 나눈 대화를 AI가 기억하고 있었던 것 같다. 질문하면 AI는 기꺼이 모든 이론을 끄집어내 줬다. 정확하게.

결과적으로 "답만 맞으면 점수"라는 기준을 적용하면, 모든 사람이 만점에 가까워지는 상황이 됐다.

그래서 프롬프트를 봐야 했다

답이 똑같으니, 답으로는 구분할 수 없었다. 남은 건 "이 사람이 어떻게 이 답에 도달했는가"뿐이었다.

프롬프트를 보면 보인다. "문제 풀어줘"라고 한 사람과 "이 조건에서 이렇게 동작하는 코드 짜줘"라고 한 사람은 다르다. "답 줘"라고 한 사람과 "왜 이렇게 되는 거야?"라고 물은 사람은 다르다.

그런데 프롬프트가 사라진 사람은 어떻게 해야 할까? 프롬프트 없이 결과물만 보고 "이 사람이 이해했는가"를 어떻게 판단할 수 있을까?

데이터라는 마지막 보루

결국 내가 매달린 유일한 기준은 데이터였다.

답안 속에 실제 데이터 수치를 언급했는지, 그 수치를 근거로 상황을 해석하려 노력했는지를 확인하는 것. 데이터만이 이 사람이 실제로 그 문제와 씨름했다는 유일한 증거였기 때문이다.

"지역 최적점에서 탈출한다"는 그래프를 안 봐도 쓸 수 있는 문장이다. 하지만 "x≈4에서 x≈15로 넘어가는 패턴이 300회 부근에서 처음 나타난다"는 그래프를 본 사람만 쓸 수 있는 문장이다.

내가 세운 기준

"실행하지 않고, 그래프를 보지 않고, 데이터를 보지 않고 말할 수 있는 것은 아무것도 없다."

이 문장이 평가 기준의 뼈대가 됐다. 구체적으로는 세 가지를 봤다.

첫째, 코드가 실제로 실행됐는가?

마크다운에 코드를 적어두는 것과 코드 셀에서 실행하는 것은 다르다. 출력이 없으면 실행한 게 아니다. 아무리 그럴듯한 설명을 덧붙여도 0점이다.

둘째, 데이터를 언급했는가?

"그리디 전략은 지역 최적점에 빠지기 쉽다"는 AI의 표준 답변이다. "x=4 근처에서만 머물고 x=15로는 한 번도 넘어가지 못했다"는 데이터를 본 사람의 문장이다.

셋째, 본인의 언어가 있는가?

AI가 생성한 문장은 정돈되어 있지만 구체성이 없다. 본인이 쓴 문장은 어눌하더라도 "내가 본 것"이 담겨 있다.

실제로 마주친 경우들

코드는 있는데 실행이 없다

어떤 사람은 시각화 코드를 마크다운 셀에 적어두고, 정작 코드 셀에서는 실행하지 않았다. 그러면서 "그래프를 보면..."이라고 분석을 적었다. 무슨 그래프를 봤다는 걸까?

히스토그램 없이 "히스토그램을 비교해보면"

sd를 바꿔가며 실험하라는 문제였다. 어떤 사람은 히스토그램 출력이 단 하나도 없으면서 "시각화된 히스토그램을 비교해 볼 때, sd=2.0이 가장 유사하다"고 적었다. 뭘 보고 비교했다는 건가.

AI의 문장을 그대로 가져왔다

"지역 최적점에서 탈출", "탐색의 다양성 확보", "전역 최적점 발견 가능성 증가" — 번호 리스트에 이 세 문장이 나란히 있으면, 데이터를 보지 않고 AI에게 물어봤다는 걸 알 수 있다. x≈4도, x≈15도, 구체적인 패턴도 없다.

어눌하지만 본인의 관찰이 있다

"sd=2일 때도 시작 지점에서 잘 안 벗어나는 것 같다"는 문장은 문법적으로 완벽하지 않다. 하지만 이건 히스토그램을 본 사람만 쓸 수 있는 문장이다.

본인의 생각이 들어갔다

"뒷걸음치다 쥐잡기 같은 느낌이다"라고 쓴 사람이 있었다. 세련된 표현은 아니지만, 이건 AI가 생성하지 않는 문장이다. 본인이 이해한 것을 본인의 방식으로 표현한 것이다.

가장 허탈했던 순간

남들과 다른 시선으로 접근해 보길 바랐다. 데이터가 어떻게 생긴 것인지 보고, 이 알고리즘이 어떤 것을 나타내는 것인지 깨닫길 바랐다.

하지만 많은 사람이 AI가 내뱉은 답변을 그대로 복사해 붙여넣었다. 그래프가 왜 그렇게 휘어지는지, 알고리즘이 왜 그 지점에서 멈췄는지에 대한 '자신의 언어'는 어디에도 없었다.

AI라는 도구는 사유의 시간을 단축해 주는 대신, 사유 자체를 생략하게 만드는 유혹이 되었다.

이게 정답인지는 모르겠다

솔직히, 이 기준이 완벽하다고 생각하지 않는다. "데이터 언급이 없다"와 "이해하지 못했다"가 항상 같은 것은 아니다. 글로 표현하는 능력과 이해하는 능력은 다를 수 있다.

그래도 나는 이 기준을 유지하려 한다. 데이터를 다루는 일에서 "봤다"와 "안 봤다"는 결정적인 차이이기 때문이다. AI가 정답을 복제해내는 시대에, "본인이 했다"를 증명하는 가장 확실한 방법은 데이터에서 본 것을 본인의 언어로 쓰는 것이다.

성찰은 그렇게 쉽게 오지 않는다

내가 원했던 건 '성찰'이었다. 그런데 성찰이 뭔가.

성찰은 하루아침에 오지 않는다. 먼저 관찰이 있어야 한다. 눈앞의 데이터를 들여다보고, 숫자가 어떻게 움직이는지 지켜보는 것. 그 관찰이 한 번으로 끝나면 아무것도 아니다. 반복해서 보고, 또 보고, 그것이 경험이 되어야 한다.

경험이 켜켜이 쌓이면 습관이 된다. 데이터를 보면 자연스럽게 "왜?"라고 묻게 되는 습관. 그래프의 굴곡 앞에서 멈춰 서서 생각하는 습관. 그 습관이 몸에 배어야 비로소 통찰이 온다. "아, 이게 이런 거였구나"라는 순간.

그런데 거기서 끝이 아니다. 통찰이 왔다고 성찰이 되는 게 아니다. 그 통찰 위에 또다시 경험이 쌓이고, 습관이 쌓이고, 그것이 삶의 다른 국면과 연결되기 시작할 때. 데이터에서 본 패턴이 인생의 어떤 장면과 겹쳐 보일 때. 그때 비로소 성찰이 된다.

AI는 3초 만에 정답을 준다. 하지만 AI가 줄 수 없는 게 있다. 관찰의 시간, 경험의 축적, 습관의 형성, 통찰의 순간, 그리고 그 모든 것이 삶을 꿰뚫어 보는 눈으로 영글어가는 과정. 그건 오직 본인만이, 시간을 들여서만, 얻을 수 있다.

복사해서 붙여넣은 답안지 앞에서 내가 허탈했던 건, 정답이 틀려서가 아니었다. 그 시간을 스스로 포기해버렸다는 것. 관찰도, 경험도, 습관도, 통찰도 없이 곧바로 '정답'으로 건너뛰어 버렸다는 것. 그래서 허탈했다.

"실행하지 않고, 그래프를 보지 않고, 데이터를 보지 않고 말할 수 있는 것은 아무것도 없다."

이 원칙만은 계속 붙들고 가려 한다. 관찰이 없으면 성찰도 없다. 그 첫 걸음만큼은 지키고 싶다.

현재글AI를 허용한 평가에서 주의할 점

world1000 님의 블로그

world1000 님의 블로그 입니다.

“원리”, 챗봇”, 개인정보보호방침, 애드센스 블로그용 프롬프트작성법 #생성형ai 만드는 법, 클로드, 애드센스에서 ai 티 안내기, 구글 애드센스 #블로그쓰기, ChatGPT, “ai”, GEMINI, 구글 애드센스 카테고리 설정, 블로그 수익화, 챗봇, ai가 쓴글, “자연어 처리”, 구글 애드센스, “종류”, 개인정보처리방침, Perplexity, 애드센스 승인,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

world1000 님의 블로그