データサイエンスという言葉がよくつかわれるようになってきたのは、比較的最近です。
それ以前でも多くのデータを扱う分野はありましたが、それは統計学と呼ばれていました。
しかし最近になり、コンピュータやネットワークの急速な発展によって、
- データ収集方法
- データ分析方法
- 分析結果の応用
などにおいて急速な進歩を遂げるようになりました。
そこで、これらをまとめてデータサイエンスと呼ばれるようになったわけです。。
|
データ収集
| 現状分析
| 分析結果の応用
|
- アンケート調査
- 調査員が地道に調べる
- 計測装置の数値を
ノートに書き留める
- 機械が自動的に集める
- ネット上の情報を集める
- その他
|
- 統計分析
- 表にまとめる
- 平均、標準偏差など
- 相関分析
- サンプリング、検定
- 高度な数学を用いるもの
- その他
- データの可視化
|
- 未来予測と意思決定
- アプリ開発
|
データサイエンスの主な目的は
- 現状の把握とそれを使った人間の意思決定のサポート
- 人間に代わって、かつては人間が行っていた複雑な作業をコンピュータにやらせるシステムの開発
などです。
前者は主に統計学、後者は人工知能や機械学習などに関連するものです。
ビジネス分野でのデータサイエンスの利用が最近注目されいえいますが、それ以外の人文系の分野にもいろいろと使われています。
そのためデータサイエンスの知識をもった人材の育成は、人文系、自然科学系を問わず求められています。
しかし上記のように、データサイエンスの全てを極めようとすると、
- 統計学
- 数学
- 情報工学
- 計算機とネットワーク、プログラミングに関する知識
- データベースに関する知識
- パターン認識
- 機械学習
- データマイニング*
などの知識が必要になる。
* データマイニング
マイニング(mining)とは、もともとは鉱山などの"採掘"を意味する言葉であるが、現在ではもっと幅広く使われている。
"採掘"は、土や岩石の中から価値のある金やダイヤモンドを見つける作業である。
それと同じように、大量のデータの中から、価値のあるデータだけをみつけて集める作業をデータマイニングという。
データテイキング(Data Taking)という言い方もあるが、マイニングの方がデータの選別など苦労してデータを集めているニュアンスがある。
|
このすべてを極めるのは難しいですが、その分、こういうことを知っている人は貴重であり、また社会から求められることになります。
戻る