文部科学省大学入学者選抜改革推進委託事業「情報学的アプローチによる「情報科」大学入学者選抜における評価手法の研究開発」   

第3回シンポジウム「2025年度 高校教科「情報」入試を考える -思考力・判断力・表現力を評価する試験問題の作問方法- 」講演 

データ分析

慶應義塾大学 植原啓介先生

データ分析は学習指導要領改訂の目玉の一つ

情報Iの学習指導要領では、「(4)情報通信ネットワークとデータの活用」の中で、データ分析に関しては下図でアミをかけた部分で示すように教えるようにと書かれています。データ分析は今回の学習指導要領の改訂で大きく変更があった部分で、一つの目玉とも言えます。

 

※クリックすると拡大します

 

これに関して、私たちはルーブリックとして、4つのレベル、全体で6つの区分けを設定しましたのでご紹介します。全体像が下図です。

 

このあと各レベルについてそれぞれ具体例をあげ、どのような問題作成ができるかを検討していきます。

 

※クリックすると拡大します

 

<レベル1-1>データを収集し整理・整形することができる

レベル1-1「データを収集し整理、整形することができる」の例題です。あるクラスで生徒の生活と成績について関係を調べ、円グラフに示したものを表計算ソフトを使ってまとめてみる、というものです。

※クリックすると拡大します

 

 

評価のポイントは、もとの円グラフに表示されている項目表示や粒度が違っているのを整理できているかどうか。また集計を間違えると1日が24時間にならないこともあります。データをきちんと処理できる形に整形するという課題です。

 

一方、この問題についてはそもそも出題が悪いという意見もあがりました。では、どう直したらきちんとした調査になるかという問題を出すのも、可能ではないかと思います。

 

<レベル1-2>整理・整形されたデータに対して指定された方法でモデル化やデータ処理を行うことができる

レベル1-2では、いわゆる記述統計ができれば良いとしました。一方で気になるのは、情報Ⅰは数学Ⅰ、情報Ⅱは数学Bと連携を取るよう指示があることです。数学では母集団に対するサンプリングなどの話は出てこないため、ここで出てくるSTDEV.P()とSTDEV.S()の違いといったものは連携しえません。しかし、これは数学の問題ではないため、統計ソフトや表計算ソフトを使って目的のグラフを書くことや、目的の統計量を出すことができるかどうかは、情報としては出題範囲になると考えます。

 

※クリックすると拡大します

 

 

<レベル2-1>モデル化やデータ処理によって、データを解釈・表現することができる

レベル2-1の辺りになると、統計と情報の区別がつけづらくなります。クラスの生徒の睡眠時間と勉強時間についてどのような関係があるかを、既出のグラフや表などを使って解釈し説明できるかという問題です。

 

 

さらに、表からピボットテーブルにし、それをグラフ化するということも考えられます。これらは、表計算ソフトなどを使うことから自然と出てくる問題であると思います。

 

※クリックすると拡大します

 

 

<レベル2-2>異なる目的に沿って指定されたモデルやデータ処理の方法を適切に変更・拡張し、データ解釈、表現をすることができる

レベル2-2では、2-1に加えて「異なる目的に沿って指定されたモデルやデータ処理の方法を適切に変更・拡張する」ということが入ります。

 

例えば運動部、文化部、帰宅部のような属性を使った分析を行い、それぞれで何か違いがあるのか、ないのか、といったことを分析し答えられるようになると良いかと思います。

 

※クリックすると拡大します

 

 

<レベル3>データのより効果的な解釈・表現のために、モデル化やデータ処理の方法を比較して、より適切なものを選択することができる

レベル3は、複数のモデル化の中から適切なものを選択するというものですが、ここまでくると大学の内容とも殆ど変わらないくらい難しくなってきて出題の難度が上がります。

 

今回はアンスコムの例(※)をご紹介します。これはデータが1系列、2系列、3系列、4系列とあり、記述統計量を出すとほぼ全部同じです。しかも回帰直線が全部同じになります。しかし、散布図でプロットをすると図のようになります。記述統計や回帰直線からは、あまりわからないこともあるということを知っておかなければいけません。

 

※回帰分析において、散布図はそれぞれ異なるのに回帰直線やその他の統計量が同じになってしまう現象について統計学者のフランク・アンスコム(英語版)が1973年に紹介した例。

 (Wikipediaより)

 

※クリックすると拡大します

 

 

また、下図の右側は最近話題になったグラフなのですが、プロットされた点は全て同じで、それを様々なモデルで表現しています。それぞれ示したいことが異なるため、示したいことに合わせてどのようなフィッティングをしていけば良いかを考えるという話になります。

 

※クリックすると拡大します

 

もちろん、これは本来すべきでないことなのですが、こういうこともあるのでデータを解釈する際には注意を払わないといけない、知っておかなければならないという喚起として使用できるものだと思います。

 

<レベル4>モデル化やデータ処理の方法を評価し、モデル化や処理、解釈・表現の方法を改善することができる

情報Ⅱのデータサイエンスは、さらに難度が上がります。

 

下図に黄色のラインで示しましたが、重回帰分析や条件付き確率、近傍法、木構造、二変量のデータに関する回帰直線、多項式による近似曲線、画像や音声データの分類などといった段階に上がっていき、ある意味何でもありというレベルになっているとも言えます。

 

※クリックすると拡大します

 

 

下図の真ん中の写真はディープラーニングが流行った時に有名になった猫の画像です。また、いちばん右は画像認識の学習をしようとすると初めに出てくるMNISTと言われる文字サンプルです。情報IIでは、こういったものを使って演習をしていくことが求められています。

 

このレベルになると、何を試験に出すべきか大変難しくなりますが、学習指導要領にはこういったことが載っていることをご理解いただくために紹介しました。

 

※クリックすると拡大します

 

 

まとめますと、この分野では数学Ⅰ、数学B との連携が非常に重要になります。ですから、数学の先生方ともよく相談し、連携を取りながら授業を進める必要があるだろうということです。

 

また、数学の統計と線引きができるよう、情報技術のスキルをきちんと使った問題を作らなければいけません。そういった意味で、CBTは今後キーになってくるのではないかと考えています。