[2006 정시] Cutraced Report™ 2006 서울대판에서 발생한 추적 오류의 원인과 대응 방안

게시글 주소: https://app.orbi.kr/0001289250

　오르비스 옵티무스의 커트레이서에서 추적 오류가 일어난 원인을 알기 위해서는 커트레이서가 작동하는 방식에 대해 이해할 필요가 있습니다. 이전의 게시물 중에 고대 국제어문학과의 추적 과정에 대한 루머가 발생했을 때 커트레이서의 작동 원리에 대해 기술(예증)한 것이 있어 해당 게시물을 하기에 인용합니다.

　의예과 Portal 5584번 게시물에서 (전문을 보려면 여기를 클릭하십시오.) :
　커트레이서는 경쟁률에 의거한 단순 비례법을 사용하지 않으며, 과거 커트레이서 표본으로부터 추출된 편중 경향 정보에 의거하여 표본의 분포를 보정한 후, T분포와 그 외 자체적인 정보들을 고려하여 추정치를 산출합니다. 따라서 진학.사가 사용한다고 알려져있는 방법과는 전혀 다릅니다. 단순 비례법을 이용하면 한 모집 단위의 추정치를 뽑아내는데 1분도 걸리지 않으며, 심지어는 전과정을 자동화할 수도 있습니다.
　그러나 표본의 치우침이 심하거나, 치우침이 있더라도 그 정도가 일정치 않으면 보정작업만으로는 한계가 따르는 것도 사실입니다. 저희에게는 2004학년도의 편중 경향에 대한 자료는 있으나, (커트레이서 2005가 실시되지 않았으므로) 2005학년도의 편중 경향에 대한 자료는 없다는 것도 많은 부담이 됩니다. 그리고 여러 단계의 보정작업을 거치더라도 부적절한 표본으로부터 얻어진 자료가, 매우 적절한 표본으로부터 얻어진 보정작업을 거치지 않은 자료의 품질을 능가하는 데에도 많은 어려움이 따릅니다.

　연고대 Portal 8746번 게시물에서 (전문을 보려면 여기를 클릭하십시오.) :
　위에서 언급한 방식에 의거하여, 커트레이서의 작동 방식에 대해 의구심을 갖고 계신 분들께 문제로 지적된 고대 국제어문 표본에 대한 풀이 과정을 예증해 드리겠습니다.
　고대 국제어문 표본의 왜도(skew rate)는 0.70으로 정규분포 그래프에 비해 상향편중되어 있어 표본이 특정 점수대에서 모집단에 비해 과대평가되어 있을 가능성을 제시하고 있습니다. 표본의 첨도(kurt)는 1.75로, 정규분포 그래프에 비해 뾰족한 모양을 띠고 있어 점수대에 따라서 보정 결과가 급격히 변할 수 있을 가능성을 제시하고 있습니다. 1배수 커트라인으로 제시된 877.318점은 표본에서 상위 35.48%에 해당하나, 분포의 왜곡에 대한 보정 후 (정규분포 기준) 43.06%가 됩니다. 국제어문의 경우 표본이 30개 이상으로, 랜덤 추출 과정에서 통상적으로 일어나는 자연스러운 에러는 상쇄될 수 있다고 기대되며 (근거: 자유도가 30 이상인 T분포는 정규분포에 근사. 일종의 큰 수의 법칙) T분포로 보정한 877.318점의 순위는 상위 43.12%에 해당합니다. 우리는 30개에 근접한 표본에 대해서는 Z분포의 값을, 20개 이하의 표본으로 구성된 모집 단위에 대해서는 T분포의 값을 우선적으로 신뢰하고 추정작업을 진행합니다. 예전에 제가 최악의 경우 9개의 표본으로도 아주 거친 추정치를 근사해낼 수 있다고 말씀드렸던 것에 대한 통계학적인 근거는, T분포는 자유도가 10 근처인 시점에서부터 아주 기형적인 모양을 벗어난다는 데 있습니다. 실제로 커트레이서 2004에서 표본이 9개인 의예과 모집 단위에 대해서 성공적인 추정을 해낸 사례가 있습니다. (물론, 표본이 적은 모집 단위에서는 랜덤 추출에 의한 오류가 상쇄될 기회가 줄어들기 때문에, 추정 실패의 가능성이 더욱 높아집니다.)

(중략)

　이러한 보정과정만으로 표본의 집단적인 바이어스 (모집단으로부터 랜덤하게 표본이 추출되지 못하고, 특정 속성을 가진, 모집단을 대표하지 못하는 표본이 구성됨으로써 나타나는 바이어스) 를 제거할 수는 없기 때문에, 커트레이서 2003~2004에서의 표본의 분포와 실제 합격선 간의 차이로부터 밝혀진, 표본의 상향편중 혹은 하향편중 경향으로부터 상위 43.06% (혹은 상위 43.12%) 라는 해당 점수를 보정하여 모집단에서의 순위를 다시 추정합니다. 가령 100명을 뽑는 모집 단위에서 원서가 200개 들어가 경쟁률이 2:1이 되고, 추출된 표본이 20개라면, 1.4배수 합격선은 표본이 랜덤추출되었을 경우 표본에서 14등이 되어야 합니다. 그러나 표본에 바이어스가 있을 경우 실제로는 표본의 17등에서 1.4배수 합격선이 형성될 수 있습니다. 그렇게 되면 우리는 17등 이하에서 약 4개의 표본이 추출되지 않아 바이어스가 발생했음을 알게 됩니다. (∵ 17 / 24 ∼ 0.7 = 140 / 200 ) 그리하여 다음 추정에서는 정규 분포 그래프를 심하게 훼손하지 않는 수준에서 4개의 팬텀 표본을 삽입해 주게 됩니다. 이 과정을 각각의 점수대에 대하여 반복합니다. 여기가 커트레이서의 코어에 해당하는 부분으로 우리의 노하우입니다. 재보정 결과 경쟁률에 의한 1배수 합격선인 상위 35.57%에 가장 근접한 표본의 값으로서 877.318이 선택되었습니다.
　요컨대, 877.318점이 1배수 커트라인으로 제시된 것은 경쟁률에 의한 단순 비례 계산에 의한 결과가 아니라, 두 차례의 보정작업을 거치면서, 한 번은 (+)방향으로 보정이되고, 한 번은 (-)방향으로 보정이 되면서 결과적으로 추정값이 원래 위치로 돌아왔기 때문입니다. 소수점 셋째자리까지 표본과 수치가 같은 것은 별도의 함수를 만들어 새로운 값을 추정해 내는 것이 아니라 표본 중에서 최종 계산값과 가장 근접한 것을 선별해 내기 때문입니다. 이것은 함수 자체를 구성하기가 매우 어려울 뿐만 아니라, 논리적으로도 이 대학의 자체 산출 방식에 의거한 점수가 불연속적으로 존재하기 때문입니다. 예를 들면 877.318점은 존재하지만 877.311점은 존재할 수 없을 것입니다. 그것이 이러한 방식을 사용하는 이유입니다.
　1.2배수 추정치와 1.4배수 추정치가 876.780과 875.936이라는 값을 얻게된 것도 단순히 값을 2~3개 밑으로 내린 것이 아니라, 해당 점수대에서 나타나는 표본의 바이어스 경향이 결과적으로 그 정도로 보정된 값을 갖게 되기 때문에 해당 값이 추정치로 선정이 된 것입니다. 가령 1.4배수를 예로 들면, 875.936이라는 값은 표본에서는 상위 67.74%에 해당하는 값이나 일차 보정 후 이 값은 62.20% (62.09%) 로 교정됩니다. 1배수 합격선 근방에서 하향 보정되는 것과는 달리 상향 보정되는 것을 알 수 있습니다. 여기에 표본 편중으로 인한 변수를 상쇄하는 2차 보정 과정을 거치면 경쟁률에 의한 1.4배수 합격선에 해당하는 상위 49.79%에 가장 근접한 수치가 표본 중에서는 875.936이 됩니다.
　여기까지가 고려대 국제어문학과의 커트레이서 추정치가 계산된 과정입니다.

　다음은 Cutracer™ 2006: 서울대에서 발생한 추적 오류에 대한 원인의 분석입니다. 본 문서에서 제기하고 있지 않은 다른 요소가 추적에 영향을 주었을 수 있습니다만, 가장 주요하다고 여겨지는 문제점들을 나열하였습니다.

1. Cutracer™ 2004 에서와 다른 표본 수집 방법이 불러온 표본의 품질 저하
　이전의 Cutracer™ 2003이나 Cutracer™ 2004와는 달리, Cutracer™ 2006은 눈가림 게시판 (완전한 익명 시스템이 아니라 오르비스 옵티무스의 실명 인증 방식을 통해 인증을 받은 회원들에 한하여 표본 참여 권한을 부여) 에서 댓글을 통해 표본을 수집하는 방식을 택하였습니다. 기존의 2004판에서도 실명 권한을 가진 회원들만이 투표에 참여하였으나, 당시의 표본 수집 방식은 투표제에 기반한 것으로 댓글을 통해 표본을 수집하는 현행 방식과는 차이가 있었습니다. 표본의 개수에는 큰 차이가 없었으나 표본을 수집하는 방식에서의 차이가, 기존의 방식보다 더 심한 표본 편중을 불러일으켰습니다.
　커트레이서 시스템의 팬텀 표본이 유효하기 위해서는 표본의 편중 정도가 2004학년도와 2006학년도에서 큰 차이가 없었어야 하는데, 이번 2006학년도의 표본에서는 경쟁률이 3.40:2에 이르렀던 인문계열1의 최저점 표본이 166.02로, 실제 합격선으로 추정되는 165.86에 비해 더 높았습니다. 경쟁률이 3.47:2였던 수리과학부통계학과군에서도 최저점 표본이 164.50점으로 실제 커트라인으로 추정되는 164.38에 비해 더 높았습니다. 경쟁률이 낮았던 모집 단위들에서는 이러한 경향이 더욱 심해, 경쟁률이 2.2:2였던 법과대학의 경우 수집된 최저점 표본이 165.54점으로 커트라인으로 제시되는 162.20점에 비해 3점 이상 높았습니다. 그 외에도 무려 72개의 표본이 수집된 사회과학계에서도 최저점 표본이 165.30으로, 실제 커트라인으로 추정되는 164.69에 비해 거의 1점 가량 높은 모습을 보였습니다. 그 외에도 여러 모집 단위들에서 표본 전원이 1차 합격을 하는 기현상이 발생했습니다.
　법과대학이나 사회과학계열과 같이 2점대 경쟁률의 모집 단위에서 합격선이 추락하는 것은 흔한 일이며, 이러한 모집 단위에 대하여 추정 작업을 진행하는 것은 거의 불가능합니다. 그렇지만 경쟁률이 낮지 않았던 인문계열1과 같은 모집 단위에서마저 표본 전체가 합격하는 상황에서 그러한 표본만으로 합격선을 추정한다는 것은 불가능한 일입니다. 이러한 상황을 비유하자면, A 대통령 후보를 지지하는 국민이 절대적으로 우세한 남서부 지역과 B 대통령 후보를 지지하는 국민이 절대적으로 우세한 남동부 지역을 갖고 있는 가상의 국가에서, 남서부에서 추출한 표본에서 A 대통령 후보의 지지율이 100%가 나왔을 때, 인구 비례에 대한 정보도 없이, 100%의 지지율을 기록한 이 정보만으로 전체 국가에서의 A 후보와 B 후보의 득표율을 예측하라는 것과 같은 것입니다.

2. 경쟁률이 2:2에 근접한 모집 단위에서의 추정 위험
　1번 항목의 연장선상에 있는 원인으로, 일부 모집 단위의 낮은 경쟁률은 추정 오차를 더욱 확대시켰습니다. 가령 법과대학의 경우 정상적인 지원이 이루어져도 허수 지원 변수 때문에 정확한 추적이 어려운데, 2006학년도의 경우 경쟁률이 2.21:2로, 지원자의 90.57%가 1차 합격을 하게 되었습니다. 이러한 모집 단위들에 대한 추정 작업은 막대한 어려움이 따릅니다. 문과 계열 상위권 모집 단위들이 대부분 2점대의 경쟁률을 기록해 추정 오차를 확대시키는 데 일조하였습니다.

3. 비교내신 추정의 실패
　특히 서울대 내에서도 최상위권 표본이 밀집되는 의예과의 경우 비교내신 추정 방식에 따라 추적 결과가 크게 달라질 수 있습니다. 서울대에서 발표한 신입생 모집 요강 자료를 기반으로 하여 오르비스 옵티무스는 비교내신 비적용자와 비교내신 적용자들의 수능 점수와 내신 점수를 수집하여 합리적인 방법으로 비교내신 점수를 추정하기 위해 노력하였습니다만, 실제 서울대의 비교내신 적용 방식은 우리의 추정 방식과 큰 차이가 있었습니다. 우리의 추정 방식은 비교내신 비적용자의 내신 점수와 비교내신 적용자의 수능 점수를 실질적으로 1대1 대응하는 방식이었으나, 서울대의 방식은 그렇지 않았습니다. 우리의 추정 방식을 적용하면 자연계 67.84점 획득자의 비교내신 점수는 99.90점에 이르나, 서울대에서 실제로 적용된 비교내신 점수는 99.31점 미만인 것으로 알려졌습니다. 그 결과 우리가 최종판에서 제시하였던 의예과 합격선 167.51점보다 0.36점 낮은 지점에서 합격자가 발생하였으나, 비교내신 적용자 중에서는 우리가 제시한 67.64점보다 0.20점 높았던 67.84점 득점자는 불합격하는 사례가 발생하였습니다.
　서울대에서 발표한 비교내신 적용 방법은 다음과 같습니다 (예체능계열 모집 단위 제외): 계열별로 학생부 적용 대상자를 기준으로 하여 지원자 중 동등한 수준의 대학수학능력시험 성취도를 보인 학생부 적용 대상자의 교과 성적을 기준으로 반영한다. 단, 비교내신 적용 대상자 중 더 높은 수능 점수를 받은 학생이 더 낮은 교과 성적을 받지 않도록 보정한다.
　그런데 99.31점의 내신 점수는 오르비스 옵티무스에서 수집된 표본 중 상위 65%에 해당하는 내신으로, 67.84점의 수능 점수가 수집된 표본 중 상위 10%에 해당하는 것임을 고려해 볼 때, 실제 비교내신 성적의 계산 과정에 사전에 우리가 예견하기 어려웠을 비합리적인 과정이 내포되어 있었음을 강하게 시사하고 있습니다. 우리는 커트레이서 1판을 발표할 때, 계열별로 자료를 분리하지는 않았으나, 학생부 적용자들의 내신 성적과 비교내신 적용자들의 수능 성적을 표준화 한 후 각각에 대응시킨 후 선형변환하여 비교내신 점수를 산출하였는데, 계열별로 자료를 분리할 경우 서울대의 추정과 다소 흡사한 결과를 얻게 됩니다. 이 방법을 이용하면 비교내신 점수 산출 공식을 한 줄로 정리할 수 있게 되며, 비교내신 점수를 산출하는 함수도 생성할 수 있게 됩니다. 우리는 1판에서 이 방식을 사용해 비교내신 점수를 추정한 후, 수능 초고득점자와 수능 저득점자 사이에 비교내신 점수가 큰 차이가 나지 않는다고 판단, 이 방법을 적용하는 것을 포기하였으나, 이번 실제 비교내신 적용자들의 1차 발표 결과에서 자연계 67점대 후반 득점자와 65점대 초반 득점자 사이에 비교내신 점수가 거의 차이가 없는 (0.2~0.3점 정도) 것으로 밝혀져 표준화를 통한 선형 변환 방식이 실제 적용되는 방식이 아닌지에 대한 강한 의구심을 갖게 하고 있습니다.
　우리는 2002년에 이미 이 방법을 이용해서 서울대학교의 2003학년도 비교내신 점수를 추정한 사례가 있는데, 여기를 클릭하여 해당 게시물을 확인할 수 있습니다. 당시의 내신 점수 계산 방식은 현재와 큰 차이가 있어 수능 점수 변화에 따른 내신 점수 변동 폭이 커 보이지만, 올해의 자료를 대상으로 당시와 같은 방법을 적용하면 그 변동폭이 대폭 줄어듭니다.

　이와 같은 원인들로 인해 우리는 Cutracer™ 2003이나 2004에서의 적중 결과가 부끄러울 정도로 Cutracer™ 2006 에서 만족스러운 추적 결과를 얻는데 실패하였습니다. 2006학년도에 밝혀진 문제점을 해결하고 Cutracer™ 2007 에서는 더 정확도가 높은 추적 결과를 얻기 위해서 우리는 1년 동안 다음과 같은 노력을 기울여야 할 것입니다.

　1. 합리적인, 다시 말해 현실적으로 최소한으로 편중된 표본을 수집해야 합니다. 표본의 수는 각 모집 단위 별로 30개 정도를 넘어가면 사실 큰 문제가 되지 않으며, 수보다 훨씬 더 중요한 것은 표본의 편중 정도(bias)입니다. 상향 지원을 한 저득점자들이 표본 제공을 꺼리는 현 상황에서 랜덤 표본을 추출하는 것은 불가능합니다. 다만, 팬텀 표본의 삽입을 통한 보정 과정이 유효한 수준으로는 편중 정도가 낮아야 하는데 그러한 표본을 얻을 수 있는 수집 방법에 대한 대책이 필요합니다. 그러나 수집 방법의 변경은 팬텀 표본을 삽입할 수 있게 하는 사전 정보를 소실시키므로 역시 시행 첫 해에는 정확한 추적의 가능성을 낮추는 요인이 된다는 점에서 양날의 검과 같은 성격을 띱니다. 표본 수집 방법만 만족스러운 수준으로 개선이 된다면 사실 거의 모든 문제는 해결된다고 할 수 있습니다.

　2. 비교내신 적용 방법의 분석이 필요합니다. 이에 대해서는 표준화를 통한 선형변환일 가능성이 높다는 단서가 이미 포착된 상태입니다. 이 방법은 특히 수능 초고득점자에게 매우 비합리적이지만 실제 결과를 보면 이 방법 혹은 이와 매우 유사한 방법이 적용되고 있음을 시사하는 사례들이 많습니다.

　한정된 노동력의 여건 하에서 우리는 최선의 노력을 기울였습니다만, 올해는 Cutracer™를 통해 회원 여러분들께 만족스러운 추적 결과를 제공해 드리는 데에 실패하였습니다. 선의에도 불구하고 회원 여러분들께 어떠한 이유에 의해서든지 오차가 큰 자료로 심려를 끼쳐드린 점에 대해 사과드립니다. 우리는 상기에 기술한 바와 같이 Cutracer™ 2006 에서 발생한 문제의 원인을 분석하고, Cutracer™의 알고리즘을 개선하여 Cutracer™ 2007에서는 보다 더 만족스러운 추적 결과를 발표할 수 있도록 통상 이상의 노력을 기울이겠습니다. 아직 모자라고 부족한 점이 많은 우리의 자료를 항상 기다려주시고 그에 대해 감사의 마음을 표현해주시는 회원 여러분들께 우리 운영진도 항상 감사한 마음 뿐이며 더 나은 자료들로 보답하겠다는 마음을 잊지 않고 있습니다.

　감사합니다.