事例84

統計の学びの集大成として機械学習によるデータ分析を学ぶ~データサイエンスを軸に組み立てる情報の授業

早稲田大学高等学院 武沢護先生

数学+情報でどこまでデータサイエンスを学べるか

2022年4月から全面実施される新学習指導要領では、統計教育の充実のために、数学科と情報科を連携させようという動きが進んでいます。数学で、統計を活用するための基本的な知識や技能、考え方を育み、情報科では、統計を活用して問題を解決する力を育むという切り分けとなっていますが、実際にどのような活動をするかについては、今のところは具体的に示されていません。

 

「統計を活用して問題を解決する力を育む」のであれば、Excelの使い方だけでもよいのか、あるいは選択科目の「情報II」につながるようなデータサイエンス的なものまで視野に入れていくのか。教材として何を選び、どこまでを狙うのか。様々なバリエーションが考えられます。

 

中央教育審議会  初等中等教育分科会 教育課程部会 算数・数学ワーキンググループ第8回 配付資料より

※クリックすると拡大します

 

このコーナーでも何回か取り上げている早稲田大学高等学院は、文部科学省の情報教育推進校(IE- School)」調査研究事業の研究指定校として、2016・2017年度の2年間、クラウド型教育環境と電子教材を利活用して、コンピュータプログラミング、情報セキュリティと並んでデータサイエンスを中核としたカリキュラムの作成に取り組んでいます。

 

早稲田大学高等学院では、必修科目の「社会と情報」を1年生・2年生でそれぞれ1単位ずつ履修しています。具体的には、1年生では基本は情報社会を生き抜く基礎的な力を身に付けるために、情報モラル、著作権、ネットワークの仕組み、セキュリティについて学びます。2年生は学年を通して統計の内容を扱い、1学期にExcelを使った記述統計、2学期にR言語を使ったプログラミング、3学期はマイクロソフト社のクラウドサービス「Azure」のAzure Machine Learning Studio(以下Azure MLS※)を使ったデータ分析の仕方をもとにした探究活動を行います。

 

https://azure.microsoft.com/ja-jp/services/machine-learning-studio/

 

卒業論文作成に向けた大きなカリキュラム設計の中に統計教育を位置付ける

早稲田大学高等学院では、3年生の「総合的な学習の時間」で、各自がテーマを設定して卒業論文を執筆します。最低12,000字程度を目安として執筆した本格的なもので、各教科の学びはこの卒業論文の作成に結び付く大きなカリキュラム設計がなされています。テーマによっては既存の統計データや自分たちで作成したアンケート結果などの分析も行うため、データをどのように扱い、どのように分析するかについての方法論を知っておく必要があります。言い換えれば、情報科で学んだ考え方や手法を使って問題解決をするために、卒業論文という場が与えられているのです。

 

R(2学期)とAzure MLS(3学期)の学習内容

※クリックすると拡大します

 

今回は、Azure MLSの操作方法を学ぶ授業を見学しました。(2018年1月18日)

「まず触ってみる」ことから操作に慣れる

見学した授業は3学期の2回目、Azureを使った回帰分析の手法を学ぶ単元です。回帰分析については、数学Iでデータの分析を学んだ後、2年生の1学期のExcel、2学期のRで扱っているので、今回のAzureで3つの手法で学ぶことになります。

 

授業は、武沢先生と荒巻恵子先生の2クラス(24名×2クラス)合同の形で行われました。最初に武沢先生から、データをクラウドアプリケーション上で操作することと、機械学習の簡単な解説を受けたあと、5分ほどの動画で操作方法を見てから、実際にクラウド上にデータをアップロードして、処理フローの設計を行っていきます。今回の課題は、2000年から2010年までの人口データを学習用データ(pop.csv)として読み込み、2011年から2020年までの予測データを書き出すというものです。

 

荒巻恵子先生
荒巻恵子先生

先生からの手順の細かい説明はなく、「まず触って動かしてみよう」という形です。ざっくりした流れは、2人に1台の提示用のモニターに表示され、大部分の生徒はこの画面を見ながら進めていますが、中には、ハンドアウトを見て先に進んでいく人もいます。

 

わからないところは周りの人と相談して解決していこうという姿勢が身に付いており、またどうしてもわからないところは、机間巡視している先生に質問して解決していくので、行き詰って困るという生徒はありません。むしろ、多少変なところをさわってしまっても、先生や友達に聞いて修正していけることで、安心して自分でいろいろ試しながら動かしてみることができていました。

 

段階を踏んだ上だからこそわかる、Azureのありがたさ

自分たちがExcelやRのプログラミングで悪戦苦闘したデータ処理とグラフ化が、Azure MLS では即座にできるのを見て、教室のあちこちから「すげぇ!」という歓声があがりました。

 

Azure MLSは、コードをいちいち書かなくても、画面上で学習データや分析手法を選択してつなげるだけで、機械学習のモデル作成ができます。ですから、Rによる回帰分析のコマンドを正確に知らなくても、指定された手順に従うだけで、予測結果を出すことができます。しかし、生徒たちはこの授業に至るまでに、様々な段階を踏んで回帰分析とは何か、どのように求めるかを学んできているので、Azure MLSによって導かれた結果の意味と、その裏でどのような処理が動いているかを理解することができるのです。

 

今回の授業は、シンプルな学習データを用いて操作の手法を経験することに主眼が置かれました。

さらに、宿題として、

・演習1 与えられた学習データを使った回帰分析の実行と、散布図の作成、相関係数の算出、回帰直線の方程式の作成などの課題

・演習2  この学習データを活用する際に、対象となる変数を考えつくこと

が出されました。

 

これは、早稲田大学高等学院のLMS(Learning Management System)のCourse N@vi上に提出します。

 

次の回では、説明変数の数を増やし、多変量解析を行います。また、成績評価は、今回とデータセットを変えたもので回帰分析を行う実技試験と、Azure MLSとRの違いについて考えをまとめるレポートとで行います。

 

[武沢先生のお話]

「データ社会」で役立つ、データを科学的に理解させる力を身に付けるために

今年の2年生は、1年生の時から、2年次にデータサイエンスを軸とした問題解決の手法を学ぶことを目標に置いて作ってきたカリキュラムで学んできています。今回、Azure MLSによる機械学習を初めて使ってみましたが、なかなかよい反応だったと思います。

 

Azureは、今後データサイエンスの標準になってくると思います。ですから、機械学習そのものについて何が起きているかは詳しくはわからないとしても、高校時代に統計の基礎を学んだ上で、こんな感じで分析ができるということを体験し、使えるようになっておくことは大事だと思います。実際、先週は同じことをRでやってさんざん苦労していますから、Azureのありがたみが実感できていたと思いますよ。

 

Azureに入る前に、2学期にRの基本操作とプログラミングを学んでいますが、実は実際にプログラミングを行うコマ数は3コマだけです。アルゴリズムまでは踏み込まず、順次・条件分岐・繰り返しの基礎的な文法を押さえるところまでにとどめています。プログラミングは生徒によって興味の差が出やすいため、特に初学者の場合は時間をかければ効果が上がるというわけではありませんので。

 

プログラミングを授業で扱う時には、プログラミングをすることで何ができるかということが重要であると思います。問題解決のリアリティがないと、生徒は興味を持ってくれません。そして、本当に役に立つようなものを作ろうとすると、生徒が書ける程度ではとても間に合わず、システムを組むレベルが必要です。その点、Rは汎用的なプログラミング言語とはかなり違って、統計解析に特化しているので、問題解決の方向がはっきりしています。

 

Azureは今年の2年生が来年卒論を書く時期まで使えるので、自分の研究の中で活用の場を作っていけることを期待しています。