大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2023
グループ2 多肢選択問題によるIRTに基づく評価手法の構築
慶應義塾大学 植原啓介先生
グループ2の目標: 多肢選択問題等の自動採点可能な問題による評価手法の開発
グループ2の目的は、多肢選択等の自動採点可能な問題による評価手法を開発することです。
自動採点可能と言っても、先ほどの石岡先生のご講演で、AIで正解・不正解を判断するというお話がありましたが、今回はAIを使わずとも正解・不正解がはっきりしているもの、数字や選択肢で答えるもののみを対象としています。
こういった自動採点可能な問題による作問のBCP(Best Current Practice)として手順書を作る、というところを目的としています。
多肢選択問題で、何が・どこまで問えるかを明らかにする
こういうお話をすると、皆さんは「そもそも、4択問題を100個やったからと言って、本当に受験生の能力を問うことができるのか」という疑問を持たれると思います。私自身も、持っています。
ですので、正直なところ本当にそれができるのか・できないのか、というところはまだわかりません。言い換えれば、そこを明らかにしたいというのが、この研究の意図であるということです。
これまでの議論の中で、多肢選択問題で評価をする場合の得意・不得意ということはあるだろう、ということを考えてきました。
そのとき、範囲(いわゆる分野)による違いは大きいのではないか。例えば、学習指導要領のある分野は多肢選択問題で問いやすいけれど、別の分野は問いにくいということはありそうに思います。
また問題の深さやレベルの問題もあります。どちらかと言えば、簡単な知識問題であれば多肢選択問題で十分かもしれませんが、複雑なことを聞くことはできない、といったこともあるかもしれません。
あるいは、最近よく大学入試やルーブリックで話題になる「思考力・判断力・表現力」に「応用力」を加えたものを、多肢選択問題で評価できるのか、というのは結構なビッグクエスチョンです。グループ2では、こういったことを明らかにしていきたいと思っています。
スライドは、今お話しした3つを模式的に3次元で描いてみたものですが、我々も思考力・判断力・表現力・応用力が1軸にまとめられるとは思っておりません。ただ、4次元で図を描くのはなかなか難しいので、このような形で表現しました。こういった軸を描いたときに、領域としてこの辺りは多肢選択問題に向いているけれど、この辺りは向いていないというところがあるのではないかと思っています。それを明らかにしていきたいというのが、グループ2の目的です。
異時刻・異問題で評価できるという、IRTのメリットを最大限に生かす工夫
多肢選択問題でIRT(Item Response Theory)という話をすると、先ほどの石岡先生のお話にもありましたが、社会的受容性の問題が出てきます。
日本においては、大学入試、特に一般入試というのは、受験生が同じ時刻に、同じ問題を解いて、それで合否が判断される、ということが前提となっています。CBTでは、これが異時刻・異問題で実施されることになります。
例えばTOEFLは、「TOEFLの得点が100点」というのが、今日の試験で取ったのか、1週間前の試験なのか、1年前の試験なのか、ということは問われず、どれも同じ100点として扱われます。さすがに、15年前に100点だった、というのは別として、基本的には同じ点数を取ったのであれば、同じ能力があると扱われます。そういった形のテストというのは、日本の大学入試では、まだ社会的な受容性がないのではないかと考えられていますが、もしかしたら今後変化するかもしれません。
先ほど石岡先生が、大学入試センターのCBTのシンポジウムを紹介してくださいましたが、そういったアプローチを繰り返していくことで、「大学入試がCBT、IRTでもいいんじゃないか」という話になるかもしれません。本研究では、そうなったときのことを考えて、現時点での社会的受容性の問題は取りあえず脇に置いておいて、IRTの最大のメリットである異時刻・異問題での実施ということを考えていきたいと思っています。
ですので、当面はIRTを前提として、自動採点可能な問題の中でも多肢選択問題に注力するということになります。自動採点可能な問題としては、例えば「計算問題で数を答えなさい」といったものであれば、答えが1つに決められるのであれば採点可能ですが、今のところは(少なくとも今年度中は)そういう問題については対象とせず、多肢選択問題だけに注力することを考えています。
多肢選択問題の作問方法のバリエーション
現在、多肢選択問題の作問方法について検討を進めている状況です。現在のところ、情報に関連する語句のリストがあった場合、このような方法で問題を作ることができるのではないかということを考えたのが、こちらのスライドです。
この語句リストについては、電気通信大学の角田博保先生をはじめとする先生方が、情報処理学会などで発表されている情報科の各教科書の巻末の索引に出ている用語集がありますが、このようなリストを想定しています。
1つ目は、説明文を読んで適切な句を選ばせるもの。これは語句を知っているかどうかを問うような問題です。
2つ目は、語句の説明として正しいものを選ばせるもの。これは、語句を説明できるかどうか、というものの中でも、簡単な問題を想定しています。
3つ目は、語句の説明文の空欄を埋めさせるもの。これも「語句の説明ができる」に近いものです。
4つ目は、例えば基数変換などの操作をさせるなどで、実際に知識を使う問題になります。
5つ目は、知識を使って美しく解答を導く。「美しく回答を導く」というのは、私自身がこの言葉が好きなのでここに書いたのですが、要は、語句の内容をきちんと理解して、正しく応用することができれば簡単に解けるけれど、力技で解こうとするとえらく時間がかかる問題がありますよね。
そういった問題で、きちんと知識を使って問題を美しくスムーズに解くことができるかどうか、といったところを問うていく作問ができるのではないかと思っています。現在、こういった方針で作問を進めているという状況です。
一般的な問題と多肢選択問題の結果には相関はあるか
研究の方針としては、先ほどから模擬試験をする、という話が出ておりますが、グループ1が作っているような従来の一般的な問題と、こういった多肢選択の問題を同時に出題して相関関係を見るということ考えています。
具体的には、一般的な問題の得点が高ければ多肢選択問題の点数が高い、という関係にあるのか、あるいは、全く相関がなくてばらばらな結果になるのか、といったところを見て、一般的な問題と多肢選択問題での傾向の差が出るのかというところを、見ていきたいと思っています。
ただ、従来の一般的な問題による学力評価が正しいとは限りません。一般的な問題を学力評価で得点が高かった人が、授業の内容をきちんと理解していたかどうかということは、必ずしも分からないからです。
これについては、多分高校の先生方は、定期試験などのご経験があって、大体こんな問題であれば評価ができる、という感触を持った上でなさっていると思います。
とはいえ、例えば「たまたまこの分野は得意だった」とか「この問題はやったことがあったからできた」ということは避けられないわけで、「必ずしも正解であるとは限らない」ということには、そういう意味もあります。
ですから、相関を出すこと自体は可能ですが、多肢選択問題向きなのか、そうではないのかという評価は、この結果だけを以て決められるものではないと思います。この辺りについては、さらに評価方法を検討していく必要があると認識しています。
また、IRTを実施することになると、IRTの様々なパラメータを算出する必要がありますが、IRT向きではない分野やレベルの問題の場合、分散が非常に大きくなって、そのパラメータがうまく算出できないことになる可能性もあります。そういった結果によって、「これはIRT向きではない」ということが明確に言えるのかもしれないと思っています。
我々のもともとの問題意識は、IRTでどのくらい情報科に関する理解度を評価できるのかというところですが、その他にもう一つ、こんなこともできるのではないかという話が出てきました。
それが、教科「情報」が入試に導入されることになったことによる生徒の理解度の変化です。入試に入るということになると、「やはり『情報』も勉強しなくちゃ!」と勉強する人も現れるので、それによってある程度の底上げがされるのではないかということも考えられます。
我々の本来の研究目的とは異なりますが、たまたまこの時期に研究を始めたので、こういったとことも計測できるのではないか、というようなことも考えられます。ですので、同じような問題を毎年、出題することによって、経年変化も見ていけると面白いのではないかということを考えています。