카테고리 없음

AI를 써서 데이터를 다룰 때, 무엇이 나의 것으로 남는가

world1000 2026. 1. 5. 02:37
반응형

AI가 코드를 대신 짜주는 시대가 되었다. "이거 분석해줘"라고 하면 3초 만에 코드가 나온다. 설명도 붙고, 해석도 붙는다. 처음 이 경험을 하면 놀랍다. 이렇게 쉬워도 되나 싶다.

그런데 같은 도구를 쓰는데도 결과가 다른 경우가 있다. 어떤 사람은 에러 수정에 시간을 다 쓰고, 어떤 사람은 깔끔한 분석을 완성한다. 어떤 사람은 AI가 준 답을 그대로 가져가고, 어떤 사람은 그 답을 자기 이해로 바꿔놓는다.

그 차이가 어디서 오는지, 그리고 어떻게 하면 AI를 더 잘 쓸 수 있는지 이야기해보려 한다.


통째로 맡기면 생기는 일

처음 AI를 쓸 때 자연스럽게 하게 되는 방식이 있다. 데이터를 받으면 "이거 분석해줘"라고 한 번에 던지는 것이다.

코드가 나온다. 길다. 50줄, 100줄이 한꺼번에 쏟아진다. 일단 돌려본다. 에러가 난다. 어디가 문제인지 모르겠다. 전체를 통째로 받았기 때문이다. 다시 AI에게 묻는다. "에러 나는데 고쳐줘." 고쳐준다. 또 에러가 난다. 이 과정을 반복하다 보면 어느새 시간이 다 간다.

이 방식이 잘 안 되는 이유는 단순하다. 한 번에 많은 것을 시키면 AI도 실수할 확률이 높아진다. 코드가 길어질수록 어딘가에서 논리적 오류가 생기기 쉽다. 그리고 무엇보다, 중간에 무슨 일이 일어나고 있는지 내가 볼 수가 없다.


단계를 나누면 달라지는 것

다른 방식이 있다. 처음부터 "분석해줘"라고 하지 않는 것이다.

"이 CSV 파일을 불러오고 데이터 구조를 파악하는 코드를 작성해줘."

AI가 코드를 준다. 10줄 남짓이다. 실행한다. 데이터프레임이 출력된다. 칼럼이 몇 개인지, 행이 몇 개인지, 어떤 타입인지 눈으로 확인한다. 이상한 점이 없는지 본다. 확인이 끝나면 다음으로 넘어간다.

"결측치를 처리하고 범주형 변수를 인코딩하는 로직을 추가해줘."

AI가 코드를 준다. 실행한다. 결측치가 몇 개 있었는지, 어떻게 처리되었는지 출력으로 확인한다. 의도한 대로 되었는지 본다.

"변수 간의 상관관계를 보여주는 히트맵을 그려줘."

AI가 코드를 준다. 실행한다. 히트맵이 뜬다. 어떤 변수들이 서로 연관되어 있는지 눈으로 본다.

이렇게 한 단계씩 가면 좋은 점이 있다. 중간에 에러가 나도 어느 지점에서 문제가 생겼는지 바로 알 수 있다. 그리고 무엇보다, 내가 지금 무엇을 하고 있는지 놓치지 않는다. 데이터가 어떻게 생겼는지 보면서 가는 것과, 결과만 받아드는 것은 다르다.


AI는 데이터가 무엇인지 모른다

한 가지 더 알아두면 좋은 것이 있다. AI는 데이터가 무엇을 의미하는지 모른다.

"코드 짜줘"라고만 하면 AI는 칼럼 이름만 보고 추측한다. Age가 있으면 나이겠거니 한다. 그런데 그 Age가 가입 시점의 나이인지, 현재 나이인지, 아니면 제품의 출시 연도인지 AI는 알 수 없다.

그래서 맥락을 주면 결과가 달라진다.

"이 데이터는 로봇이 10000번 이동한 위치를 기록한 것이다. x=4에서 시작해서 더 높은 가치를 가진 위치를 찾아 움직이는 시뮬레이션이다. position 칼럼은 각 스텝에서 로봇이 멈춘 x 좌표이고, value 칼럼은 그 위치의 가치 함수 값이다. 이 데이터의 히스토그램을 그려서 로봇이 어느 위치에 가장 많이 머물렀는지 보여줘."

이렇게 설명하면 AI가 엉뚱한 방향으로 갈 확률이 줄어든다. 칼럼의 의미, 변수의 타입, 분석의 목적을 알려주면 더 정확한 답이 나오는 경향이 있다.


답을 받고 나서가 중요하다

AI가 답을 줬다. 코드도 있고 설명도 있다. 여기서 어떻게 하느냐가 갈림길이다.

한 가지 방식은 그대로 가져가는 것이다. 복사해서 붙여넣는다. 빠르다.

다른 방식은 거기서 멈추지 않는 것이다.

"이 코드가 왜 이렇게 동작하는 거야?"

AI가 설명해준다.

"그러면 여기서 r이 1보다 크면 어떤 의미야?"

AI가 또 설명해준다.

"그러면 가치가 더 낮은 쪽으로도 가끔 이동한다는 거네?"

"맞다."

"그 '가끔'이 왜 중요한데?"

이런 질문들은 정보를 더 얻으려는 질문이 아니다. 이해가 될 때까지 붙잡고 있는 질문이다. 답을 받았는데도 "왜?"라고 다시 묻는 것, 그 반복이 쌓여서 나의 이해가 된다.

AI는 답을 준다. 하지만 이해는 주지 않는다. 이해는 질문하는 사람 쪽에서 만들어진다.


도구로 쓰는 것과 사고를 맡기는 것은 다르다

"코드 짜줘"는 도구를 쓴 것이다. 문제없다.

그런데 이런 요청은 결이 다르다.

"전문가가 쓸 것 같은 말투로 바꿔줘." "여기에 본인의 생각이 들어갈 수 있게 해줘."

처음에는 똑똑한 요청처럼 보일 수 있다. 더 그럴듯한 결과물이 나올 거라고 기대하는 것이다.

하지만 "내 생각을 써줘"라고 하면, AI는 "그럴듯한 생각"을 만들어낸다. 그건 내 생각이 아니다. 내가 무엇을 봤는지, 무엇을 느꼈는지, 무엇을 이해했는지가 빠져 있다.

그리고 그 빈자리는 보이는 경우가 많다. 데이터를 본 사람의 문장과, AI에게 "적당히 써달라"고 한 문장은 느낌이 다르다.


실행하고 보는 것의 의미

이런 문장은 누구나 쓸 수 있다. 데이터를 보지 않아도 쓸 수 있다.

"그리디 전략은 지역 최적점에 빠지기 쉽다."

AI에게 물어보면 바로 나오는 문장이다.

하지만 이런 문장은 다르다.

"x=4 근처에서만 머물고 x=15로는 한 번도 넘어가지 못했다."

이 문장은 히스토그램을 본 사람만 쓸 수 있다. 코드를 실행하고, 출력된 그래프를 들여다보고, 거기서 무언가를 읽어낸 사람만 쓸 수 있다.

실행하지 않으면 출력이 없다. 출력이 없으면 본 게 아니다. 보지 않으면 나의 관찰이 아니다.

코드를 받으면 실행해보자. 그래프가 나오면 보자. 숫자가 나오면 읽어보자. 그 과정에서 "어, 이게 왜 이렇지?"라는 순간이 온다. 그 순간이 이해의 시작이다.


자기 말로 바꾸는 연습

AI가 준 문장을 그대로 쓰지 않는 연습을 해보자.

AI가 이렇게 썼다고 하자.

"P = V(x_cand)/V(x)"

이것을 이렇게 바꿔볼 수 있다.

"이동 확률 P는 후보지의 가치를 현재 위치의 가치로 나눈 것이다."

"후보지의 가치", "현재 위치의 가치"라는 말은 내가 붙인 것이다. 기호에 의미를 부여하는 순간, 그것은 외운 것이 아니라 이해한 것이 된다.

세련되지 않아도 괜찮다. 어눌해도 괜찮다. 중요한 것은 그 표현이 나의 이해에서 나왔느냐는 것이다.


결론

단계를 나눈다. 한 번에 다 시키지 않는다. 데이터 로드, 구조 확인, 전처리, 시각화, 분석. 한 단계가 끝나면 실행하고, 출력을 확인하고, 이해한 뒤에 다음으로 넘어간다.

맥락을 준다. 데이터가 무엇인지, 칼럼이 무엇을 의미하는지, 최종적으로 알고 싶은 것이 무엇인지 설명한다. AI는 데이터의 의미를 모른다.

"왜?"라고 묻는다. 답을 받으면 거기서 끝내지 않는다. 이해가 될 때까지 대화를 이어간다.

실행하고 본다. 코드를 받으면 반드시 실행한다. 그래프가 나오면 본다. 출력이 없으면 본 것이 아니다.

자기 말로 쓴다. AI 문장을 그대로 복사하지 않는다. 이해한 것을 나의 방식으로 표현한다.


AI는 강력한 도구다. 예전에는 몇 시간 걸리던 일을 몇 분 만에 끝낼 수 있게 해준다.

하지만 AI가 대신해줄 수 없는 것이 있다. 화면에 뜬 그래프를 들여다보는 시간, "이게 왜 이렇지?"라고 멈춰 서는 시간, 이해가 될 때까지 붙잡고 있는 시간이다. 그 시간은 누구도 대신 써줄 수 없다.

AI에게 정답을 구하는 것이 목적이 아니다. AI를 통해 나의 이해를 만들어가는 것이 목적이다.

실행하지 않고, 그래프를 보지 않고, 데이터를 보지 않고 말할 수 있는 것은 아무것도 없다.

AI가 아무리 잘해주어도, 내가 보지 않으면 그것은 나의 것이 아니다.