집단 AI컨닝 사태-연세대 집단 컨닝/ 그 대책들

얼마전부터 우려되던 일들이 속속 현실로 나타나고 있습니다. 이전에 조국의 아들 온라인 시험때 부모가 도와준 일을 두고 부정이다, 이미 예고된 것을 감안한 시험이다 갑론을박했던 기억이 떠오릅니다. 

단체로 AI의 도움을 받아 답을 작성했다는 학생들이 자백을 했다고 하는군요. 그럴 우려가 있어 답을 작성하는 모습을 영상으로 찍어 제출했고 그 과정중 컨닝모습이 포착되어 해당 교수가 실토를 요구했다는데요. 참! 명문대 입학을 위해 십대를 포기한 애들이 성적을 위해서라면 뭐든 했겠다싶은 생각이 들며 씁쓸합니다. 

미국의 아이비리그에서도 이런 일이있었다고 합니다. 시험은 뭐니뭐니해도 온라인으로 하지 말아야할 것 같습니다. 600명이었다고 하는데 그 정도 인원이 들어갈만한 장소는 얼마든 가능할 거고 말입니다. 

 

그래서 알아보았습니다. 이미 여러나라에서 이루어지는 사고에 대해 해당 기관들이 방법을 찾고 있을테니말이죠.

 

다양한 방법들

 

1. 평가 설계 변경 AI에 취약한 기계적시험을 피함

오픈북·프로젝트·실무기반 평가, 구술시험(oral viva), 실기·현장평가 등으로 바꿔 학생의 순간적 독립 수행을 확인. 학계 권고는 감지 중심에서 평가 설계 중심으로 전환하라고 권함.

 

2. ‘보안·감시기술 적용(원격감독·락다운 등)

웹캠·화면녹화·락다운 브라우저(: Respondus, Proctorio, Honorlock )로 시험 환경을 통제. , 프라이버시·차별 문제 (장애·네트워크·인종적 편향 등)로 반발·법적 문제 제기되었다고 함-쉽지 않네요.ㅎㅎ

 

3. AI 생성물 탐지 도구 보조 사용

Turnitin AI 탐지 기능을 도입하는 대학이 있으나(정확성·오탐 우려) 감시 보조 수단으로만 권장. 탐지 도구만으로 결론내리지 말라는 권고가 많다고 함.

 

4. 정책·절차(혼합 전략)

“Two-lane” (시험은 감독·AI 금지, 숙제는 AI 허용) 등 명확한 규정으로 허용 범위를 선별하는 대학 사례. 감독시험(교실·감독자비감독(개방형) 평가를 병행. -이게 제일 낫지 않을ᄁᆞ하는 개인적 생각도 듭니다만 실제로 이렇게하고 잇는 게 현실아닐까요.

 

5. 조직적·교육적 접근(예방)

학생·교수 대상 AI 사용 가이드·학습지원, 학칙 강화(징계 체계)와 함께 학문적 정직성 교육강화. 단순 처벌보다 교육적 접근 권장.

 

국가·기관별 실제 움직임

1. 호주 (TEQSA 권고): AI 보조 부정행위는 사실상 탐지가 불완전하니, 각 과목에 한 번 이상의 안전(감독) 평가를 포함시키고 비대면·비감독 과제에 대해서는 평가 설계를 재검토하라는 규제권고가 나왔습니다. (감지 도구 과신 경고)

 

2. 호주(대학 사례): 시드니대 등은 두 차선(two-lane)’ 접근 시험·실기·구두평가는 AI 금지·감독, 과제는 AI 허용(또는 명시적 허용범위)으로 구분.

 

3. 영국·EU: 원격감독(proctoring)에 대해 프라이버시·차별성 문제 제기가 활발. 일부 법원·기구가 조건부 허용·검토 판결을 내림. 대학들은 대안평가 권고를 받음.

 

4. 미국: Proctorio/Honorlock 등 상용 원격감독 서비스가 널리 쓰이나 학생·교수 반발, 오탐 사례 보도 다수. 탐지 툴은 보조 수단으로 활용 중.

 

실무 체크리스트 — 대학/시험 담당자가 당장 적용할 수 있는 조치들

 

1. 평가 재설계(우선)

기계적 복붙으로 대체 가능한 문제 제거 케이스 분석, 응용·비판형 문제, 개인화된 문제(학생별 데이터/케이스) 도입.

 

2. 한 과목 당 1개 이상의 안전(감독) 평가포함

규제 권고와 사례(TEQSA )를 참고해 필수 감독 평가를 반영.

 

3. 시험 환경 통제(가능하면)

교내 시험실(시험센터) 우선 불가 시 원격감독 + 락다운 브라우저 + 화면/카메라 기록(, 개인정보 최소화·대체 방안 마련).

 

4. 무작위화·문항은행·시간창 통제

문항군에서 랜덤 출제, 문제별 난이도·순서 무작위화, 충분히 짧은 응시시간(하지만 합리적) 적용.

 

5. 구술·실기·면담으로 검증’-이게 제일 맘에 듭니다 개인적으로. 말로 할 수 있는 게 가장 정확한 이해도를 측정한다고 믿어지거든요. 

 의심 사례는 짧은 구술 확인(510)으로 작품·답변 이해도 확인 AI 생성물인지 빠르게 판별 가능.-이거 좋을 것 같기도한데 연세대 600명이라면 교수가 시도하기는 참 쉽지 않기도 합니다.

 

6. AI 탐지 도구는 보조로만 사용

탐지툴 결과를 단독 증거로 삼지 말고, 교과수행·원본·메타데이터(로그)와 교차검증.

 

7. 명확한 규정·사전 고지

어떤 평가에서 AI 사용이 허용/금지인지, 위반 시 절차·징계(및 재심 절차)를 명문화하고 학생에게 고지.

 

8. 프라이버시·공정성 고려

원격감독 도입 시 장애·네트워크·문화적 차이를 고려해 예외·대체 수단 제공.

 

집단(또는 ‘대리’) AI 컨닝 — 특별 권장 전략

개인별 시험인데 집단적으로 벌어진 이번 연세대 사건과 달리 조별과제 등 집단의 과제에 대해서는 이런 방법들이 있을 수 있을 겁니다.

 

1. 로그·메타데이터 분석 강화: 동일한 문장·타임스탬프·IP·파일 메타가 유사하면 집단 사례 의심. (뛰는 놈 위에 나는 놈인 방법이되겠죠.)

 

2. 팀/조별 과제 설계: 집단 컨닝을 억제하려면 개인별 기여 증빙’(작업로그, 초안, 회의록) 요구.

 

3. 소규모 구술/코드 리뷰 세션: 무작위로 짧은 면담/시연을 요청해 개별 기여 확인.

 

4. 계약형 부정행위(cheating-for-hire) ·정책 연계: 일부 국가(호주 등)는 계약부정행위 처벌 움직임이 있으므로 내부 징계 외 법적 대응 고려.

 

이런 사태에 대해 심도있는 의견을 가지신 분의 글을 읽고 공유합니다. 어설픈 방법모색이전에 생각해야할 것을 제안하시니 인상적입니다.

https://brunch.co.kr/@parkchulwoo/1457

 

우문에 현답이 불가능한 시대

대학생들의 ChatGPT 시험 부정행위에 덧붙여 | 정답이 없는 시험장 ― 영화 <배드 지니어스> 태국의 명문 고등학교에 다니는 린(추티몬 추엥차로엔수키잉)은 탁월한 수학 실력을 지닌 장학생이다.

brunch.co.kr

 

한 줄 정리

탐지 기술(프로토콜·AI 탐지)은 보조수단일 뿐, 근본적 해결책은 평가의 진정성(authenticity)’을 높이고 감독 가능한 방식으로 재설계하는 것인 것 같습니다.

말은 그럴 듯한데..... 

각 조치마다 프라이버시·형평성 문제가 있으니(영상으로 시험에 임하는 것을 찍어 보내는데도 이런 함정이 있으리라곤 생각지 못했습니다.) 도입 전 충분히 생각하고 시도해야할 것 같습니다. 교수들도 힘들겠습니다. 얼마전 교수인 친구에게 듣고 놀랐는데요. 학부모가 자신의 딸의 성적을 따지기도 하고 학생이 반발한 결과에 대해 증거를 가지고 입을 다물게 했다는데 세상 참 쉽지 않습니다.