文部科学省大学入学者選抜改革推進委託事業

「情報学的アプローチによる『情報科』大学入学者選抜における評価手法の研究開発」第2回シンポジウム

大阪大学・東京大学1年生で実施した情報入試模擬試験結果の分析

東京大学 角谷良彦先生

2017年の夏に阪大と東大の学生に対して実施した、情報入試の模擬試験の結果についてご報告します。

 

まず、試験の概要をご説明します。試験時間は60分で、問題構成は大問4問からなり、配点は各25点です。

 

各問がどのような問題になっているかと言いますと、第1問はオムニバス形式で、この中にもう少し細かい問題が4題用意されています。第2問はアルゴリズムの表現に関する問題です。第3問は情報倫理に関連した社会系の問題です。ここは、他の問題と違って文章を書いて答える記述式の問題でした。第4問は、まさにプログラムの問題です。コードを直接書くわけではありませんが、実際にプログラミングの手順を考えて並べ替える形式のものになっています。

 

受験者は大学1年生です。この試験は、次の学習指導要領を想定していますので、現在の高校生よりも情報の授業を受講した大学生のほうが、実態により近いのではないかと考えてのことです。

 

阪大と東大で協力してくれる学生を募集したところ、176人集まりました。内訳は、阪大から71人、東大から105人です。文理で言うと、文系が76人、理系99人で、回答なし1人でした。

 

平均点は55.9点。文系・理系で差が大きく、問題によって偏りも大きい

この176人の平均点は、100点満点で55.9点、標準偏差は17点でした。文系の平均が47.7点、理系の平均が62.3点ですので、文系と理系の差がかなり大きく出る結果となりました。

 

大問ごとの平均点を出してみると、総じて理系のほう高かったのですが、情報倫理に関する第3問だけは、わずかですが文系のほうが点数が高いという結果になりました。第4問はプログラミングの問題ですが、これは他の問題よりも文系と理系で大きな差が付きました。

 

得点分布を、箱ひげ図としてプロットしました。図の読み方は皆さんご存知と思いますが、受験者を得点順に並べて、外れ値は除いて最下位、下から25%、50%、75%、そして最高位の人の各得点をプロットして、真ん中を箱状したものです。箱の中に全体の50%の受験者が入ることになります。

 

文系理系を合わせた成績では、やはり第4問の箱が大きくなっています。また第2問では、箱の中央の線がなくなってしまっています。この図からはわかりませんが、箱の下端にくっついてしまっている、つまり25%から50%まで同じ得点で並んでいることになります。

 

文系だけの集計では、第2問に中央の線が現れていますが、第4問ではなくなってしまっています。第4問について、先ほどの第2問と同じことが起きています。

 

一方理系は、第2問の中央の線がなくなってしまうのと、第4問の箱が満点にくっ付いてしまっています。これも、分布に偏りがあるということを意味しています。

 

以上をまとめます。全体の第2問、文系の第4問で中央の線が消えているということは、受験者の25%が同じ得点になっているということになります。

 

その原因として、部分点が粗すぎるのではないかということが考えられます。大問で評価するために25点配点をしていて、その中で理想的には25段階に分けて評価できればよいのですが、採点側の都合で「ここまでできたら何点」としていくと、段階がもっと少なくなってしまいますよね。その結果、本来意図した分解ができていない可能性があるのではないかということです。

 

また先ほどもお話ししたように、理系では第4問の上位25%がつぶれていました。この問題はプログラミングの能力を測ろうとしたのですが、上位の人は皆満点が取れてしまっているので、プログラミングが得意な人にとっては、少し易し過ぎたのかもしれません。

 

得点は正規分布にはならなかったが、単なる知識問題とは異なる特徴と考えられるかも

これをヒストグラムで見てみましょう。全体はこのような形になっています。このくらいのサンプル数があれば、正規分布に似た形状になることも多いのですが、きれいな山にはなっていません。

 

文系と理系のヒストグラムを並べてみました。青が文系で、緑が理系です。全体に平均点が高かった理系の方が高得点(右側)にシフトしていますが、どちらも、ピークは1つではないように見えます。文系の方は、特に1カ所が突出しているようにも見えます。 

いずれも正規分布には見えませんが、念のため検定してみると、p値は0.02、文系・理系それぞれで見ても、p=0.05、0.07となっていました。値が小さいほど正規分布からは得られにくいデータということになります。

ただ、聞くところによると、数学など理数系の科目の試験では、きれいな山にならないことも、結構あるということなので、この試験自体がよくなかったという評価には、必ずしもつながらないと思います。

 

単なる知識問題であれば、得点分布は正規分布に近くなるかもしれませんが、今回の試験は思考力・判断力・表現力を問うことを目的にしたものですので、むしろ単なる知識問題とは異なる力を測定したという、一つの証拠と言うことができるのかもしれません。もちろん、その点のみで結論付けてしまうことはできませんが、知識問題ではない場合に、正規分布にならないことと試験の良否を結び付けても仕方ないのではないかと思います。

 

 

プログラミングと総得点との相関は高い

下図は、問題同士の相関です。この図の見方は、横軸に左から第1問、第2問、第3問、第4問、合計点。縦軸が上から、第1問、第2問、第3問、第4問、合計点となっていて、縦と横のそれぞれの問題のぶつかるところが、問題同士の相関係数ということになります。

 

これを見ると、第3問と他の問題の相関の値が低いことがわかります。それ以外は、そこそこの相関が出ているので、第3問だけは少し異質な問題だったのかもしれないということが伺えます。

下図は、問題間相関の有意性を示したものです。値の意味は、各問題同士が独立であると仮定したとき、この分布が得られる確率です。1が完全に独立で、1に近いほど白く、0に近いほど黒くなっています。これを見ても、第3問は他の問題との独立性が高いということがわかります。つまり、第3問は他の問題とは違う能力を測っている可能性が高いということになります。

まとめると、第3問は他の問題に比べて合計得点との相関も低いので、第3問の得点は、今回の総合成績への関与は低いと考えられます。逆に第4問は合計点と相関が高く、今回のテストの総合的な評価はプログラミングの能力に近いものを問うているということができると思います。

 

第3問=情報倫理の記述問題だけは、別の能力を測っていた?

各問題についてもう少し詳しく分析してみます。受験者を総得点による順位で5つのグループに分けました。グラフでは、そのグループが横軸に配置されています。縦軸は、各問題がどのくらいできたかを示しています。第1問のグラフに4本の線があるのは、小問が4つあったからです。右にいくほど総得点の高いグループなので、何か所かグラフが上下している部分はありますが、だいたい右肩上がりになります。

 

こちらは第2問です。

 

特徴的なのは第3問で、小問3を示す赤い線の傾きが途中で逆になっています。これは、総得点と第3問の得点の相関が低かったということの裏返しでもあるわけです。総得点でグルーピングしたものに対して、右肩上がりになってない部分があるということは、やはり第3問は能力としてとは異なるものを問うていたということになります。

 

逆に、第4問のプログラミングは、上下の幅がゼロから1まで分かれて、きれいな結果が出ていることがわかります。

 

総得点の順位だけでなく、分野ごとの結果を多次元的に出力することが必要か

入試で情報の試験をするのであれば、総得点で直線的に順位を付けることになりますが、必ずしもそれが適切かどうかはわからないと思います。情報という学問は、様々な分野の要素を含んでいるので、情報の能力というのは一次元的ではないという可能性があります。

 

その意味で、もしかすると試験結果も分野別に多次元で出力したほうが、学力をより反映したものになる可能性があるのではないかと思います。そして、それを元に、各大学が自分のところでは、こういう学生が欲しいということに合わせて、分野別の得点にウエイトを付け、それに合わせて学生を採ればよいのではないかと思います。ただし、今申し上げた情報の能力というのが、思考力・判断力・表現力とどのような関係になっているかについては、まだ明確ではありません。

 

今回は能力の自己評価と得点の相関は高くなかったが…

最後に、今回の受験者に対して行った自己評価アンケートの結果を見てみます。アンケートでは、「マニュアルの理解が得意か」とか「将棋は得意か」といったことを聞きました。この設問を思考力・判断力・表現力で分類して、得点との相関を見てみましたが、総じてあまり高い相関はありませんでした。

ただ、相関の有意性を見てみると、プログラミングの問題と思考力の部分は、相関の絶対値は低いものの、相関がなくはないかもしれないという結果になっています。

今回は自己評価と得点の相関は高くなかったのですが、自己評価のアンケートの聞き方が適当だったかどうかという問題もありますので、今後検討が必要です。

 

また、このプロジェクトには直接関係がありませんが、国立情報学研究所の新井紀子先生が、最近読解力について非常に力を入れて研究されています。そこでは、リーディングスキルテストなどで測定される「読解力」と、読書の好き嫌いには相関がないということが、言われています。我々の試験でも読解力が問われていますが、読書の好き嫌いのようなアンケートと試験の得点に相関がないというのは、自然なことなのかもしれません。

 

今後に向けて

今後は、今回の試験のサブセットを使って高校で受験してもらうことを予定しています。そして、来年度の試験では、IRTの有効性についても検討してみたいと思います。また、CBTの性質を活用するような問題では、今回とは異なる結果が出てくるかどうかということも見ていきたいと思います。

 

文部科学省大学入学者選抜改革推進委託事業

「情報学的アプローチによる『情報科』大学入学者選抜における評価手法の研究開発」

第2回シンポジウム 講演より