人工知能の最初の定義
ダートマス会議 1956
ジョン・マッカーシー、マービン・ミンスキー、クロード・シャノンなど
機械学習の定義
アーサー・サミュエル
”明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野”
人工知能(2種類)
1.ルールベース:人間があらかじめルールを設定する(判断基準が人間)
2.機械学習:学習データから自動的に情報を整理し、法則を見つける(判断基準がコンピュータ)→ビッグデータを使う
教師あり学習
・特徴量:学習用データの特徴を定量的に表す変数(定量的なので数字のデータ)
・正解データ:人間が作った正しい予測結果
特徴量と正解データをコンピュータで関連付けて法則を見つけ出す。その法則を「学習済みモデル」と呼ぶ。
人工知能 > 機械学習 > ニューラルネットワーク > ディープラーニング
人工知能(AI: Artificial Intelligence):
広い意味。
人間の知能を模倣することを目的とする。
機械学習(Machine Learning):
データから学習して予測や決定を行う。
特徴量の準備が大変。
ニューラルネットワーク (Neural Networks):
人間の脳の神経細胞(ニューロン)の動作を模倣。浅いネットワーク構造。
パターン認識、データ分類などの比較的単純なタスクに適している。
ディープラーニング (Deep Learning):
ニューラルネットワークよりも深い(多層)ネットワーク構造。
人間による特徴量の準備が機械学習に比べると楽(機械が行う)。
画像認識、音声認識、自然言語処理など、より複雑で高度なタスクに適している。
機械学習における特徴量の準備の大変さ
必要がある。
(例えば、画像から犬と猫を見分けるタスクの特徴量を人間が設定するのはとても大変。)
◆データの前加工(5つ)
1.データの掃除(データクリーニング)
データは時々間違っていたり、足りない部分があったりする。これを修正する必要がある。
実世界のデータはしばしば不完全で、誤ったデータポイントや外れ値、欠損値を含んでいる。
これらの問題を識別し、適切に処理するには、多大な時間と注意が必要である。
データクリーニングのプロセスは、データの質と機械学習モデルのパフォーマンスに直接影響を与える。
2.データの選択(特徴量の選択)
データはたくさんあり、その中から役に立つものを選ぶ。
関連性のないまたは低い情報価値を持つ特徴量を含めると、モデルのパフォーマンスが低下する可能性がある。
モデルの学習効率と予測能力を最適化するために、重要な特徴量を選択し、冗長性のあるまたは無関係な特徴量を排除する。
3.データの加工(特徴量エンジニアリング)
選んだデータを、コンピュータに学習させるためにデータを加工する。
効果的な特徴量を作成または変換するプロセスは、専門知識と創造性を必要とする。
このステップには、既存のデータからより有用な特徴量を導き出すための、組み合わせ、変換、または新しい特徴量の作成が含まれる。
問題領域に対する深い理解が必要となる。
4.データ量の調整(次元の呪い)
データが多すぎると、コンピュータがうまく処理できない。そのため2のデータ選択をもう一度考えたり、同じようなデータをまとめたりする。
特徴量の数が多すぎると、モデルのトレーニングに必要なデータ量が指数関数的に増加することがある。
これは「次元の呪い」として知られ、モデルの過学習を引き起こす可能性がある。
特徴量の次元を削減する技術(例:主成分分析(PCA))は、この問題を緩和するのに役立つ可能性がある。
5.データの尺度(スケール)の調整(データのスケーリングと正規化)
データには大きさがあり、それを同じ大きさ(尺度)にする。
異なる特徴量が異なるスケールや単位を持つ場合、モデルの学習プロセスに悪影響を及ぼすことがある。
特徴量のスケーリング(例:標準化、正規化)は、この問題を解決するために重要である。
どのスケーリング技術を使用するかを決定するのは簡単ではない。
※ディープラーニングは特徴量の選択や特徴量エンジニアリングの手間を大幅に減らすことができるが、これらのステップが完全に不要になるわけではない。
※データのクリーニングやスケーリング、正規化などの前処理ステップは、ディープラーニングにおいても引き続き重要である。
問題(10問)
問題1: 人工知能の最初の定義が提案された会議は何と呼ばれますか?
問題2: 機械学習の分野で「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義したのは誰ですか?
問題3: 人工知能には2種類ありますが、そのうち学習データから自動的に情報を整理し、法則を見つけるタイプは何と呼ばれますか?
問題4: 教師あり学習において、学習用データの特徴を定量的に表す変数を何と呼びますか?
問題5: 人工知能の研究分野で階層の最下層にある、多層のネットワーク構造を持つ技術は何ですか?
問題6: データの前加工で、間違っていたり足りない部分を修正するプロセスを何と呼びますか?
問題7: 機械学習において、モデルの学習効率と予測能力を最適化するために行う、重要な特徴量を選択し、冗長性のあるまたは無関係な特徴量を排除するプロセスは何ですか?
問題8: データが多すぎると発生する、コンピュータがうまく処理できなくなる問題を何と呼びますか?
問題9: データセット内で異なる尺度のデータを統一するために行うプロセスは何ですか?
問題10: ディープラーニングでは、どのデータの前加工ステップの手間を大幅に減らすことができますか?