高校教科「情報」シンポジウム2024秋
情報科全教科書用語リスト
電気通信大学 角田博保先生
なぜ用語リストが必要なのか
「情報科全教科書用語リスト」は、学会のページ(※)からダウンロードできますので、ぜひこちらをご覧ください。
※ https://www.ipsj.or.jp/topics/20240412_word.html
※クリックすると拡大します。
まず、なぜそのようなリストを作るのか、ということからご説明します。
教科「情報」の個別入試は20年以上前からありましたが、いよいよ大学入学共通テスト(以下、共通テスト)として始まります。
すでに多くの出版社から問題集も出ていますし、模試も行われていますから、問題を作ること自体はできるのだろう、ということにはなっていますが、そこでどのような単語を使ったらよいのか、ということには基準がありません。
例えば「クイックソート」という言葉は、情報学の世界では当たり前に使われますが、これを入試で出題するとき、何の説明も付けずに使ってよいのか、迷うところです。
入試問題の出題にあたっては、分野ごとの知識体系がしっかりあって、この単語は使ってよい、この内容は皆が学んでいるはずだ、ということが明らかになっている状況で実施するべきなのですが、教科「情報」は始まったばかりで歴史も浅く、変化も激しいため、きちんとした知識体系というものがありません。ではどうしよう、ということがあったわけです。
例えば、どのような用語が使えるか、ということについては、教科の基本となる学習指導要領に用語リストが附属していればよいのですが、現在の学習指導要領は概略が書かれているだけなので、そこから類推するとともに、実際の教育状況を見て、この単語は必要だ、これは知っているはずだ、と推測していくことになります。
本用語リスト作成にあたって使用したのが、「情報Ⅰ」の教科書です。文部科学省の検定済みの教科書は、文部科学省が内容をチェックして、この教科書の内容はよい、そこに出てくる単語も妥当である、としているので、それを使うことにしました。
本当は、教科書に載っている全ての単語を集めてリストを作れたらよいのですが、作業量が膨大になることから、各教科書の索引に載っている用語に限定しました。
このリストをまとめることは、「情報」の知識体系を整理することになり、出題側は、そこに載っている重要な用語であるから問題に使うことができる。受験する側も、大事な用語だからこれを勉強しよう、ということになる。つまり、出題側にも受験者側にも利益になる、ということです。
さまざまな用語が載っているが、教科書ごとのバラつきが大きい
索引にどのくらいの用語が出ているのか、ということを、数学と比べてみたのがこちらです。
「情報Ⅰ」の教科書は、現在12冊出ています。実際は13冊ですが、そのうち2冊は本体と分冊という形になっているので、索引としては12冊分です。
「情報Ⅰ」の1冊あたりの索引の用語掲載数は、平均すると448語、重複を除くと全部で1855語でした。そして、ある用語が何冊の教科書に載っているかを調べたのがこちらのグラフです。1冊にしか載っていない用語が、800語近くある一方で、12冊すべてに載っているのは40語程度です。
ただ、古くからある教科・科目は全ての教科書が同じような索引か、といえばそんなことはありません。例えば「数学Ⅰ」は17冊の教科書が出ていますが、全ての教科書の索引に登場する用語が30語、1冊にしか出て来ないものが約100語あります。索引の掲載数は平均168語、全404語です。
一方、「情報Ⅰ」は1855語で4倍以上です。これは、「情報」という教科が社会的な内容から理工学的な内容まで、さまざまな分野を含んでいるため、もともと用語の数が多いことは仕方ない。一方で、「数学Ⅰ」のように昔からある科目であっても、教科書ごとに結構バラバラなところもあるので、このくらいの揺れはあって当然だろう、ということで、索引を使って整理することにしました。
※クリックすると拡大します。
「情報」の教科書の変遷がこちらです。
直近の3回の学習指導要領の改訂に応じて、情報の教科書が発行されています。我々は、これらを勝手に順番にしたがって第1世代、第2世代、第3世代と呼ぶことにしました。
第1世代は、2003年の「情報A」「情報B」「情報C」で、2005年と2007年にちょっとした改訂が行われています。
第2世代は2013年の「社会と情報」「情報の科学」で、これは2017年に1回改訂がありました。第3世代が2022年の「情報Ⅰ」です。なお、「12(6)」とあるのは、12冊が6社から出版されているという意味です。
2003年の「情報A」は13冊が13社から出ている、つまり各社1冊しか出さなかったのですが、2022年の「情報Ⅰ」は1社から4冊も出してるところもあります。これら全118冊の索引を、全て人力で入力して集めたというわけです。
※クリックすると拡大します。
リスト作成の手順
ただ、索引に出ている用語をそのまま集めるだけでよいわけではありません。「インターフェース」と書くところもあれば、「インタフェース」というところもある。「AI」というところもあるし、「人工知能」というところもある、というように、表記の揺れがあります。それを別々に数えると膨大な数になりますし、煩雑にもなるので、表記が揺れているものや、入れ替えても意味は変わらないものを同義語としてまとめ、スライドにあるように縦棒で区切って並べることにしました。同義語と同義語のない単語を合わせて「用語」と呼ぶことにしました。また、「情報Ⅰ」だけでなく、ここまで20年分、全世代の教科書118冊分の用語を対象とすることにしました。
そして、用語だけ集めたのではあまり役に立たないので、学習指導要領の分類に応じて「領域コード」を盛り込むことにしました。学習指導要領には、「領域」という言葉はありませんが、内容が(1)(2)…と分かれているので、各用語がこれらのどこから出てきたのかを領域コードとして示しました。また、それだけではまだ分類の粒度が小さいので、さらに細かく下位のカテゴリーを導入しました。
さらに、各用語の意味を要約した説明を付け、その用語が教科書にどの程度登場したかという掲載状況(総意率)と、具体的にどの教科書に出てきたかを付けたのが、最初にお見せした用語リストです。
この用語リストを公開するまでの流れをご紹介しますと、まず我々電気通信大学の研究グループで、2023年9月に、用語に領域コードと総意率と掲載教科書を付けた形で公開しました。詳しい内容については、赤澤紀子先生等の論文をご覧ください。領域コードは、著者5人がそれぞれの用語がどの領域に当てはまるかを考えてチェックし合ったものです。これをさらに精査するために、情報処理学会の情報入試委員会の先生方に、半年ほどかけて10回のレビューをしていただきました。
情報入試委員会にて、領域コードの調整をするとともに、カテゴリーと説明を追加してできあがったのが、最初にご紹介した用語リストです。2024年4月12日に公開しました。
https://www.ipsj.or.jp/topics/20240412_word.html
※クリックすると拡大します。
リストの各部分の説明
リストの内容を簡単にご説明します。
シートはA欄からV欄まであります。
A欄は用語で、全部で5763語あります。同義語は縦棒で区切った形で入れてあり、573種類あります。同義語はこれからまだ見つかるかもしれませんので、今後どんどん改訂をすることになります。
※クリックすると拡大します。
領域コードは、学習指導要領のどこに該当するか、ということです。学習指導要領の内容の(1)(2)(3)(4)を第1領域、第2領域…と呼んでいます。例えば第1領域は「情報社会の問題解決」ですが、その中はさらに(ア)「問題を発見・解決する方法」、(イ)「情報社会における個人の果たす役割と責任」、(ウ)「情報技術が果たす役割と望ましい情報社会の構築」の3つに分かれます。これらを中領域と呼び、コード化しました。
例えば「問題を発見・解決する方法」に登場する用語は第1領域の(ア)なので「1ア」、「アルゴリズムとプログラミング」に登場する用語は「3イ」となります。またC欄には、同じ「1ア」の用語でも、「情報の基礎的な用語」とか「問題解決の用語」というように、より細かくカテゴリー分けをしています。C欄にはカテゴリー別に色分けをしています。そして、カテゴリーの右側のD欄には、各用語の簡単な説明がつけられています。
※クリックすると拡大します。
さらに、E欄からG欄が総意率で、その用語がどのくらい使われているか、ということが0から1の値で示されています。総意率は、教科書集合に対してどの程度載っているかを表すもので、第1世代から第3世代のグループごとに示しています。「情報Ⅱ」は、今のところ除いています。
H欄からV欄は、具体的にどの教科書に載っているか、ということを、教科書会社の名前の先頭の文字と、教科書番号で示しています。「情報I」の掲載教科書はI欄をご覧ください。
※クリックすると拡大します。
総意率について、もう少し詳しくご説明します。教科書会社によって、出している教科書の数が違うので、例えばある用語が4冊に載っていると言っても、1社が出している4冊に載っているだけで他の5社には載っていない、というのと、4社から出ている4冊に載っている、というのは意味が違います。
そこで、総意率については、「会社数×教科書数」の掛け算をして、そのままでは度数が大きくなりすぎるので、そのルートを取って「総意度」としました。
つまり、1冊だけに載っている用語の総意度は、1×1のルートですから1です。全部に載っている場合は、12×6の72のルートで、約8.5になります。
このスライドの青いグラフは、どのくらいの総意度の用語がいくつあったかを示したものです。これを見ると、1社の教科書にしか出てこなかった、総意度1の用語が800近くありますが、全部の教科書に出てきたものは約40個です。そして、総意度の加重和の比率、つまり累積相対度数を取ったのが総意率、全体に占める割合で、グラフの黄色い線で一番上が100%です。
この総意率がどのくらいかによって、よく使われていて皆にコンセンサスがある単語なのか、めったに使われていないのでコンセンサスがない単語なのか、ということが判断できます。
例えば、「QRコード」や「RGB」は、4冊で3社が出版しているので、4×3=12のルートで、総意度は3.46です。総意度3.46の総意率を見ると0.54なので、半数以上にコンセンサスがあるな、と判断することができます。
※クリックすると拡大します。
用語リストの利用例
この用語リストの具体的な利用例をご紹介します。例えば、「テキストマイニング」は全ての教科書に載っているので、試験問題で「テキストマイニング」がいきなり出てきても何のことかわからない、という人はいないはずですが、「データクレンジング」の総意率は0.38ですから、入試で「データクレンジング」を使うのであれば、説明を付けて出題する方がよいね、ということになります。
また、「情報Ⅰ」の索引には「スキャナ」は出て来ませんが、第1世代、情報A、B、Cの教科書では0.96という、非常に高い総意率が出ています。つまり、常識となってしまってわざわざ索引で取り上げるまでもないものも、あるいは「カセット」や「ファックス」のように廃れてしまったものもあります。このように、その時代にどういった用語がトレンドであったかを見ることもできます。
さらに、多肢選択問題の作成に利用することもできます。例えば「ヒストグラムとは何かを下の4つから選べ」という問題であれば、この用語ではヒストグラムはグラフのデザインの括りに入っているので、同じカテゴリーから正解以外の選択肢を作ることもできます。逆に説明の方を出して、用語を選ばせる問題もできます。
このような単なる知識問題は入試問題としてはあまり出題してはいけない、と言われていますが、逆に生徒が自分で知識を得るためであれば、非常に役に立ちます。また、先生方はこれをドリルとして使って、基礎的な事項の定着を図ることもできます。
※クリックすると拡大します。
※クリックすると拡大します。
今後の計画~ブラッシュアップを進めて、作問の現場で使えるように
今後の計画です。まだ全ての用語に領域コードが付けられていないので、これを完成させます。領域コードは「情報I」を基にしているので、第1世代、第2世代の用語にはなかなか対応しにくいものもありますが、少なくとも、「情報Ⅰ」の用語には全て付けようとしています。
さらに、カテゴリーや説明の付加や、用語間の関係・関連付けとともに、継続的に保守・改訂作業を進め、「情報」の知識体系を構築したいと考えています。
この作業は、人力で行っているので、どうしてもバグも出てきます。ですから、ぜひリストをご覧いただいて、ご指摘やご意見をいただきたいと思います。情報入試委員会のホームページには、ご意見をいただくフォームがありますので、そこからご投稿いただけたら、メンバーに共有できることになります。ぜひよろしくお願いいたします。
高校教科「情報」シンポジウム2024秋 講演