大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2024
EMIU情報模試2024夏 結果報告
慶應義塾大学 植原啓介先生
「大学入試を中心とした情報分野の学力評価手法の検討」プロジェクトの概要
まず、このプロジェクト全体の概要をお話しします。
大学入学共通テスト(以下、共通テスト)を始めとして、大学入試に教科「情報」の導入が検討されたり、決定したりする大学が増えています。「情報」は重要な分野ですので、入試に入ることによって、大学でもより高度なことができるようになり、私自身ももちろん歓迎しています。
ただ、何分にも他の教科に比べると、特に入試の面では歴史の浅い、新しい分野です。
そのため、たとえ情報学を専門にしている教員であっても、評価手法というものが今一つ固まっていない状況にあります。円滑な高大接続のためには、高校・大学双方の共通認識を持って入試をしなければならないということで、高校で学んだ情報の知識やスキルを的確に評価する手法を確立しようということで、この事業を始めました。
枠組みとしては、昨年2023年に科研費の基盤Aに採択され、そこから5年間の予定で行っています。今年が2年目になります。研究代表は私が務めさせていただいていますが、非常に頼もしい11人の先生方にご参加いただき、合計12人で進めているプロジェクトです。プロジェクトのWebページ(※1)をご覧いただければ、各種情報が出ております。
※1 https://emiu.sfc.keio.ac.jp/wp/
実はこのプロジェクトのメンバーの多くが、文部科学省の「大学入学者選抜改革推進委託事業」の情報分野(※2)(こちらは大阪大学さんが代表をされていたので「阪大プロジェクト」と呼ばれていました)に関わっていました。先行研究となるこの阪大プロジェクトでは、ルーブリックや、知識体系の評価軸の構築などを行いました。
※2 https://www.mext.go.jp/a_menu/koutou/senbatsu/1397824.htm
※クリックすると拡大します
今回のプロジェクトは、この知識体系を再確認しつつ、これをベースに、情報分野の能力を測るためのいわゆる「典型的な問い(従来の一般的な問題)」による評価手法、多肢選択によるIRTに基づく評価手法の指針やマニュアル作り、さらにCBTシステムの開発を目指します。
具体的には、グループ1で従来の一般的な問題で、受験生を評価するためにはどのような作問をすればよいかを、グループ2ではIRTを適用できる多肢選択問題を作題をするためにはどのような手順を踏めばよいかを、グループ3ではCBTならではの問題を出題するためのシステムを作るためにはどのようなことが考えられるかを検討します。そして、研究ですので、各グルーブで検討して作成したガイドラインや指針が正しいかを評価するために、グループ4で実際に模試を行って、それらが正しかったかを検証していくということを、1年に1回ないし2回行って、情報の力を評価する問題を作るための指針や手順書を確立していきます。今夏実施した模試が、このグループ4の模試ということになります。
EMIU情報模試2024夏
■実施目的と設計
このプロジェクトで想定されるアウトプットとしては、まず先ほどお話しした典型的な問題や多肢選択問題の作問マニュアル、そしてCBTならではの問題をシステムごと作ろうとしています。また、出題形態ごとに、情報の知識体系のどのような部分が評価可能で、どこに限界があるかを示すドキュメントを作っていきたいと思っています。
例えばIRTは、この分野は評価しやすいが、こういった分野は難しいのではないか、という仮説を持って、それを検証していきます。さらに、出題形態ごとのベストプラクティスも示していきたいと思います。
今回の模試の位置付けは、まず「評価手法の妥当性の検証」の実施のための予備調査となります。まず一度、先ほどの研究の流れでご説明したサイクルを回してみて、十分な評価ができるか、システムは正しく機能するか、ということを確認します。もう一つは、IRTを想定した多肢選択問題と、従来の一般的な問題について、2つの相関は取れるかを確認するとともに、作問マニュアル作成に関するヒントを収集したいと思います。
※クリックすると拡大します
今回の模試の実施時間は、高校の50分の授業時間内で実施できるよう、40分としました。ただ、結果として、授業内で強制的にやっていただくことにすると倫理審査に通らない、ということがわかりました。ですので、結果的には40分にこだわらなくてもよかったのですが、一応40分で準備をしました。
全国から受験していただくために、インターネットを介したCBTで実施しました。システムは、オンラインテストのフレームワークとして名の通っている、Open Assessment Technology社のTAOを使っています。
出題範囲は、「情報Ⅰ」の学習指導要領の「(3)コンピュータとプログラミング」のアルゴリズム、モデル化とシミュレーションの部分、および「(4)情報通信ネットワークとデータの活用」のモデル化とシミュレーションに必要な部分としました。
問題セットは、IRTを想定した解答時間1分想定の小問を20問と、従来の一般的な問題として10分想定の中問を、それぞれの分野から1問ずつ、合計40分となっています。
各問題の詳しい内容については、各グループの発表でご紹介します。
■作問方針
先ほどお話ししたように、このプロジェクトの趣旨は「情報の力を測る問題をどのように作ればよいか、というところを研究することにあるので、それぞれの問題を、ある方針に基づいて作っていくことが必要になります。
まず、IRTを想定した多肢選択問題に関しては、情報に関連する語句のリストがあると想定した場合に、このスライドのように、上から下に段階を踏んで難しくなっていくことが想定でき、このようなイメージを念頭に置きながら作問していくとよいではないか、と考えて作問しました。
一方で、一般的な問題の作問方針としては、ここに挙げたように、従来の一般的な問題の中から、PBTとCBTのいずれでも出題しうる出題方法の中から、多肢選択問題と数値解答問題をいて作問しました。
CBTに特化してもよかったのですが、大学の個別入試を考えると、いきなりCBTを行うのは、現実的に難しいところも多いので、マークシートによる出題にも自動採点にも対応可能で、多数の受験者がいる場合にも耐えうる形式ということで、「多肢選択問題」と「数値解答問題」で作問しました。
スライドの「文献10」は、「阪大プロジェクト」の最終報告書です。こちらで作ったルーブリックに沿って難易度を調整しました。
※3 https://www.mext.go.jp/content/1412881_3_1_1.pdf
※クリックすると拡大します
■模擬試験の実施
模擬試験は、6月1日から7月31日までの2か月間実施しました。今回の対象は高校生です。受験してくださる人へのメリットとして、9月1日に受験結果を返却する、ということを行いました。
今回はあくまで研究であるため、倫理的配慮が必要なので慶應義塾大学の倫理審査を受けた上で実施しました。最終的に、520人の生徒さんに受験していただきました。
模擬試験のイメージです。問題セットを8セット作成しました。
P1、P2というのが「プログラミング」の問題セット、M1、M2が「モデル化とデータ分析」問題セットです。さらにIRTの問題が2セットあるので、2×2×2の合計8セットを作成して、これをランダムに受験生に割り当てる形で実施しました。
IRTの問題2セットの内訳は、両方のセットに出てくる問題が5問、枝番付きの、どちらかのセットだけに出てくる問題が15問の、合計20問です。一番正解率が高かった問題がスライドに挙げたようなイメージです。
※クリックすると拡大します
一方で、プログラミングの問題(P1、P2)とモデル化の問題(M1、M2)は、一般的な形の文章題です。これらの問題を出題して、解答の分析を行っています。
私からは、IRTの問題と一般的な出題の両方に関わることを少しお話しして、それぞれの一般的な出題(グループ1)、IRTの出題 (グループ2) の分析については、後ほど各グループの発表の中で詳しくお話しします。
※クリックすると拡大します
■模擬試験の結果~プログラミング・モデル化では、IRT方式と一般的な問題の間で高い相関
IRTを想定した多肢選択問題の得点と、モデル化・プログラミングの一般的な問題の得点の相関がこちらです。
グラフの軸のP-SCOREがプログラミングの一般的な出題方法の問題の得点、M-SCOREが、モデル化の一般的な出題方法の問題の得点、Q-SCOREがIRT方式で出題した問題の得点、そしてPM-SCOREがP-SCOREとM-SCOREの合計です。
まず、右下の紫で囲んだところ、IRTを想定した多肢選択問題と、モデル化一般的な問題の得点分布は、それぞれはほぼ上に凸で真ん中辺りが多いというグラフになっており、適切な出題ができたと考えています。
次にプログラミングの一般的な問題は、緑で囲んだところを見ると、一番左が多くて、だんだん右肩下がりになっていますので、やはりプログラミングの問題はできていないということになります。
原因としては、プログラミングの問題が難しすぎたのか、あるいは最初から諦めて取り組んでない受験生が多いのか、ということで、今のところそこまでは分析しきれていませんが、このような状況になっています。
そして、黄色で囲んだのがプログラミング問題とモデル化問題の合計(PM-SCORE)と、IRTの出題(Q-SCORE)の相関で、r=0.74とかなり高い相関が得られました。その意味で、プログラミングやモデル化とシミュレーションの分野に関しては、IRTでも、ある程度スキルを測ることができる可能性があると言えるのかな、と胸をなでおろしたところです。この部分については、今後より深い研究を進めてまいります。
※クリックすると拡大します
今回の成果としては、プログラミング分野およびモデル化とシミュレーション分野においては、IRTを想定した多肢選択問題と、従来の一般的な問題の間で高い相関が見られました。
プログラミング問題に関しては、問題の難易度が高すぎたのか、あるいは受験した生徒がまだ学んでいなかったということが考えられるので、これらが今後の課題になる、ということです。
そして、CBTによる実施でも、受験生は問題なく受験でき、分析に耐えるデータが得られましたので、今後もCBTで模試を実施する体制が整ったと考えています。ここまでを全体のご報告として、ここからは各グループからの発表を行います。
大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2024 講演