【授業事例3】
「データ分析」に挑戦
-統計の重要性を知り、分析力をつける
神奈川県立平塚湘風高等学校 諏訪間雅行先生
(神奈川県高等学校教科研究会「情報部会」 第5回「情報の授業・実践事例報告会」より)
生徒に統計に関心を持ってもらう
日本人の統計スキルはかなり低いと言われていますが、新しい学習指導要領では、以前と比べ、統計的な手法の活用に力を入れるようになっています。「社会と情報」の教科書を見ても、これまでの「情報B」や「情報C」になかったような内容も盛り込まれ、また、数Ⅰでも統計が重視されるようになっています。
私は授業の前振りとして、次のような話を生徒たちにしています。統計でよく出る話題ですのでご存知の先生も多いでしょう。アメリカの大手スーパー「ウォルマート」で、ある商品の隣に缶ビールを置いたら、缶ビールの売り上げが劇的に上がった。その商品は一体なんでしょうか。答えは紙おむつです。膨大なデータの中で、紙おむつを買う人と缶ビールを買う人は相関が強いという調査結果が出て、隣に並べたら実際に効果があった。「統計データをこのようにうまく扱うと、商売がいろいろうまくいく時代になっているんですよ」と統計の重要性を伝え、同時に、身の回りにはいろいろな統計があるということに関心を持ってもらいます。
今回報告するのは3年生の選択科目「情報B」で、昨年9月から実施した内容ですが、その前に、本校の情報教育の概要をお伝えしておきます。「情報A」は1年の必須履修で、2年で「情報C」、3年で「情報B」を選ぶことができます。他に「情報実習」「課題研究」があり、前期はP検(パソコン検定試験)を受けるための勉強を、後期はエクセルなどの実習を行っています。加えて「プログラム入門」などもあり、私は「情報B」を中心に、「課題研究」「プログラム入門」も受け持っています。
分析する力をつけるのが授業の狙い
一番の狙いは、データの特徴を読み取って文章化させること。特徴を視覚的に捉えやすくするために、グラフを作成させています。今回は、ダルビッシュ投手の投球について、特徴がわかるグラフを自分で作り、分析ができるようになることをゴールとしました。
扱った概念としては平均・中央値・標準偏差のほか、相関・近似曲線・推定などにも触れています。主に作成したグラフはヒストグラム(棒グラフ)、パレート図などです。
授業は1コマ90分で週1回、まずは全員へ説明する時間をとったあと、各自で考える時間を設けています。心がけたのは、コンピュータ上の複雑な操作をしなくても課題に取り組める環境を作ることで、アクセスではなくエクセルを使っています。授業ではつねに「エクセルの操作ができるようになるのが目的ではない。毎日使っていれば誰だってできるようになるんだから、そんなことにこだわらず、わからないことはどんどん聞きなさい」と言っています。また、理論的な内容に踏み込むと本校の生徒たちは一瞬で固まってしまうので、理論的な内容にはあまり踏み込まず、直感的な説明で話を進めるようにしています。
主に用いたツールはフィルタとピボットテーブルで、これだけでほとんどのデータを抽出することができます。加えてヒストグラムや相関などの分析ツールも少し使っています。
実践<前半> クラスごとのテスト結果比較を用いて、グラフの意味を知る
最初の授業では、クラスごとの出席番号とテストの成績が書かれたデータを渡して、「クラスごとにどういう特徴があるかを考えて」という話から始めました。ここで「平均値を出そう」「最大・最小値を出そう」くらいは考えられるのですが、実はこれは私が意図的に作ったデータで、平均は全クラス50点にしています。ですからそれだけでは特徴はわからない。そこで「グラフを作ってみよう」ということで、ヒストグラムを使って作成してみせます。
使い方をちょっと紹介します。エクセルのデフォルトではデータ分析は使えないので、「オプション」から「アドイン」を押して「分析ツール」にチェックを入れると、データ分析が出てきます。この中のヒストグラムと相関が使えるように設定をすると、頻度とグラフが出てくるようになっています。
次に、グラフを見ながらそれぞれどんな特徴があるかという話をします。たとえば、「1組と3組を比べると点数の広がり方が違う」という特徴から標準偏差に関する話をして、日本人の平均年収や野球選手の平均年俸に関する話を例に、「平均値と中央値の違い」について説明します。また「2組のヒストグラムには山が2つあり、このような場合は性格の違う集団が2つ入っていることが多い」という話をして、本校は1年生の選択科目に数Aがあるので、数Aを選択しているか否かでテストの成績が分かれるのではないかなどと推測させたりします。
最後にグラフを2つくらい重ねて見ながら、各クラスの特徴を文章でまとめさせます。慣れていない段階ではなかなかまとめることができないので、まず私が1つ例を挙げ、「とにかく書かれた量が多ければ評価を上げます。つまらないことと思っても、とにかく書いてみなさい」と話しています。
実践<後半> 松坂とダルビッシュの投球データの分析を自分の力で行う
そのあとの授業では、ネット上にあるデータを用いて、松坂大輔の投球データを分析しました。打者・走者名/ランナーの状況/球種と球速などが挙げられている膨大なデータをもとに、最初は球速別にグラフを作ってみます。しかしこれだけでは特徴が出せないということで、あらためて球種別のデータに分けて、箱ひげ図を作っていきます。
最終的に、ダルビッシュの投球データとの比較を行います。このあたりからは、各自で視点を決め、グラフを作らせていきます。膨大なデータにフィルタをかけたりピボットテーブルを使ったりすることによってどんな度数が出てくるかを自分で確認していくわけですが、「ランナーが3塁にいるときの球種」「打者が見送ったときの球種」など、私が考えつく以上にさまざまな視点が出ています。
以上のように、授業では、まずはいろんな例を示すことで、データの中のどの項目を抽出すべきかという視点をもってもらいます。最初の段階では、私がグラフの作り方を指定し、自分たちでグラフを作成、特徴を読み取りワードにまとめさせます。そして、最終的には、どんな視点でグラフを作るかを考えさせ、グラフ作成、特徴のまとめまで行います。
最後に参考文献と授業で使える統計のデータを紹介しておきます。
○参考文献
・『ウソを見破る統計学』神永正博 BLUEBACKS
○サイト
・算数・数学の資料やデータ分析のための科学の道具箱(JST)
http://rikanet2.jst.go.jp/contents/cp0530/start.html
例 ダルビッシュ投手の投球データ、
夏休み調査のデータ(夏休みの過ごし方・予算・日数)等
・データで学ぶ!統計活用授業のための教材サイト
http://estat.sci.kagoshima-u.ac.jp/data/
例 松坂大輔投球データ(球種別ヒストグラム)