データサイエンスという言葉がよくつかわれるようになってきたのは、比較的最近である。
それ以前でも多くのデータを扱う分野はあったが、それは統計学の範疇であった。
最近になり、コンピュータやネットワークの急速な発展によって、
- データ収集方法
- データ分析方法
- 分析結果の応用
などにおいて急速な進歩を遂げるようになった。
そこで、これらをまとめてデータサイエンスと呼ばれるようになった。
|
データ収集
| 現状分析
| 分析結果の応用
|
- アンケート調査
- 調査員が地道に調べる
- 計測装置の数値を
ノートに書き留める
- 機械が自動的に集める
- ネット上の情報を集める
- その他
|
- 統計分析
- 表にまとめる
- 平均、標準偏差など
- 相関分析
- サンプリング、検定
- 高度な数学を用いるもの
- その他
- データの可視化
|
- 未来予測と意思決定
- アプリ開発
|
データサイエンスの主な目的は
- 現状の把握とそれを使った人間の意思決定のサポート
- 人間に代わって、かつては人間が行っていた複雑な作業をコンピュータにやらせるシステムの開発
である。
前者は主に統計学、後者は人工知能や機械学習などに関連する。
ビジネス分野でのデータサイエンスの利用が最近注目されるが、それ以外の人文系の分野にもいろいろと使われている。
そのためデータサイエンスの知識をもった人材の育成は、人文系、自然科学系を問わず求められている。
ここ数年、AI(Artificial Intelligence:人工知能)は急速に進化を遂げた。
かつては研究者が扱うものであったAIは社会に浸透を始めている。
残念ながら、我が国はこの分野でトップランナーとは言い難いのが現状である。
そこで、今後日本がAI産業で世界をリードしていくことを目的に、AI人材を教育するための教育改革や技術体系を確立するための仕組みを目標とした「AI戦略2019」が2019年に政府から発表された。
戦略目標として
- AI時代に対応した人材の育成
- 産業競争力の強化
- 技術体系の確立
- 国際的視点、国際的な研究・教育・社会基盤ネットワークの構築
の四つが掲げられている。
その上で
大目標
デジタル社会の基礎知識(いわゆる「読み・書き・そろばん」的な素養)である「数理・データサイエンス・AI」に関する知識・技能、新たな社会の在り方や製品・サービスをデザインするために必要な基礎力など、持続可能な社会の創り手として必要な力を全ての国民が育み、社会のあらゆる分野で人材が活躍することを目指す
|
ということになっている。
今後は社会にますます「数理・データサイエンス・AI」が浸透していくのは間違いないだろう。
そのようなわけで、この講義でもデータサイエンスとAIについて重点的に説明をすることにした。
上記のように、データサイエンスの全てを極めようとすると、
- 統計学
- 数学
- 情報工学
- 計算機とプログラミング、ネットワークに関する知識
- データベースに関する知識
- パターン認識
- 機械学習
- データマイニング*
などの知識が必要になる。
* データマイニング
マイニング(mining)とは、もともとは鉱山などの"採掘"を意味する言葉であるが、現在ではもっと幅広く使われている。
"採掘"は、土や岩石の中から価値のある金やダイヤモンドを見つける作業である。
それと同じように、大量のデータの中から、価値のあるデータだけをみつけて集める作業をデータマイニングという。
データテイキング(Data Taking)という言い方もあるが、マイニングの方がデータの選別など苦労してデータを集めているニュアンスがある。
|
このすべてを極めるのは難しいが、その分、こういうことを知っている人は貴重であり、また社会から求められることになる。
この講義では、
- データ収集と現状分析
- 推計統計学
- 統計学を越えて
という感じで全3回でデータサイエンスを俯瞰するが、当然ながらこれで全てを勉強することはできない。
しかしデータサイエンスというのはどういうことをやるのかを知っておくことは、これからの社会を生きる人間にとって重要なことなのでしっかり学習してほしい。
まずはデータ収集について学ぼう。
次へ:データ収集