教師あり学習は、パソコンが答えの書いてあるクイズをたくさん解いて学ぶことです。
最初はわからなくても、正解をたくさん見せてあげることで、どんどん賢くなっていきます。
たとえば、「この写真はネコだよ」と教えてあげると、
パソコンはたくさんのネコの写真を見て、「ネコってこういうものなんだな」と学ぶことができます。
Supervised learning is when the computer learns by solving lots of quizzes with answers.
Even if the computer does not understand at first,
by showing it many correct answers, it will become smarter and smarter.
For example, if you tell the computer, “This picture is a cat”,
The computer can look at many pictures of cats and learn that cats are like this.
想像してみてください。あなたが絵を描くことを学ぶロボットだと。
でも、最初はどんな絵を描けばいいのか分からないですよね。
だから、先生がいて、「これはネコだよ」と教えてくれる絵をたくさん見せてくれます。
ロボットはその絵をよく見て、「ネコの絵って、こういう特徴があるんだな」と学んでいきます。
教師あり学習も、これと同じことをしています。
コンピューターがたくさんの例(絵)を見て、
「このデータはこの答えだよ」というラベル付けされた情報(先生からのヒント)をもとに、
どんな特徴を見ればいいかを学んでいきます。
そして、学んだことを使って、先生から教えてもらっていない新しい絵(データ)を見たときに、
「これはネコだ!」とか「これはイヌだ!」と自分で答えられるようになります。
学校のテストで言えば、
検証データセットは、先生がたまにクイズを出して、勉強がちゃんとできているかをチェックするようなもの。
テストデータセットは、本当の試験の日に、先生が出す問題に自分で答えること。もちろん、その問題は前に見たクイズとは違う新しい問題です。
だから、コンピューターはたくさん勉強して、
自分で答えを見つけられるようになります。
これが教師あり学習のすごいところですね。
教師あり学習の種類(2種類)
回帰問題(Regression Problem)
回帰問題は、お絵かきで例えると、
先生が「このネコはどれくらい大きいかな?」と聞いてくるようなものです。
コンピューターは、ネコの大きさを数字で表さなくてはいけない。
たとえば、「このネコは10センチメートルだよ」とかですね。
コンピューターが回帰問題を解く時は、
たくさんのネコの写真と、それぞれのネコの大きさ(数字)を見て、
ネコの大きさを予測する方法を学びます。
これは、家の価格を予測したり、ある物の重さを当てたりするのに使えますね。
分類問題(Classification Problem)
分類問題は、先生が「この絵はネコの絵かイヌの絵かな?」と聞いてくるようなもの。
コンピューターは、絵がネコのものかイヌのものかを、「ネコだよ」「イヌだよ」と答えます。
コンピューターが分類問題を解く時は、
ネコとイヌの絵(データ)を見て、それぞれがどっちのグループに属するかを学びます。
これは、写真に写っている人の顔を認識したり、
メールが迷惑メールかどうかを判断したりするのに使えますね。
教師あり学習の代表的な手法
線形回帰(Linear Regression)
線形回帰は、ある直線を描いて、その直線がどのように物事を予測しているかを見る方法です。
たとえば、学校のテストの勉強時間とテストの点数の関係を表す直線を描くことができます。
勉強時間が長ければ長いほど、テストの点数が高くなることを予測する直線を描くことが多いです。
もう少し考えてみましょう! 想像してみてみましょう。
君が未来の発明家で、時間とともにどう変わるかを知りたい不思議な植物を育てているとします。
この植物は、特別な種から育てたんだけど、どれくらい速く大きくなるか、それを正確に知りたい。
ここで、君は「成長記録マシン」という未来の道具を使うことにしました。
このマシンは、君が植物の成長を毎日記録すると、
そのデータから植物がどれくらいの速さで成長するかを教えてくれます。
この成長記録マシンが使っているのが「線形回帰」という技術。
これは、君が集めたデータ(植物の高さと日数)をもとに、
一番ぴったり来る直線を描いて、未来に植物がどれくらいの高さになっているかを予測する方法なんだ。
たとえば、植物が毎日ちょうど2センチメートルずつ成長するなら、
成長記録マシンはそのパターンを見つけて、
「10日後にはこの植物は20センチメートル高くなっているよ」と教えてくれるんだ。
線形回帰は、このようにして未来のことを予測する魔法のようなツールなんですね。
これを使えば、君は植物がどれくらいの速さで大きくなるか、いつ花を咲かせるかなど、
たくさんの発見をすることができます。
未来の科学者としての大切な一歩を踏み出すための素晴らしい方法なんですね。
ロジスティック回帰(Logistic Regression)
ロジスティック回帰は、物事が起こるかどうか、つまり「はい」か「いいえ」で答える質問に使う方法です。
例えば、「明日雨が降るかな?」と聞かれたときに、
雨が降る確率を計算して、「はい、降るかもしれない」と答えます。
サポートベクトルマシン(Support Vector Machines)
サポートベクトルマシン(SVM)は、例えば、庭でペットのネコとイヌを遊ばせていると想像してみましょう。
君はネコとイヌを安全に遊ばせたいから、ネコ用の遊び場とイヌ用の遊び場に分けたい。
でも、ネコとイヌを分けるフェンスをどこに建てるか決めるのはちょっと難しい。
ここで、サポートベクトルマシン(SVM)が役立ちます。
SVMは、ネコとイヌを最もうまく分けられる場所にフェンスを建てる方法を考えます。
そして、フェンスを建てる場所を決めるとき、ネコとイヌのどちらにも最も近いものを特に注意深く見ます。
これらのネコとイヌは「サポートベクトル」と呼ばれるもので、
フェンスをどこに建てるかを決めるのに重要な役割を果たします。
SVMの目的は、ネコとイヌがお互いにできるだけ遠くにいるようにフェンスを建てることです。
これによって、新しく庭に来たペットがネコなのかイヌなのかを、
フェンスの位置を見てすぐに分かるようになります。
実際にはフェンスを建てないけど、
SVMはネコとイヌを最も効果的に分けるための架空の線(つまり、フェンスの位置)を計算します。
決定木(Decision Trees)とランダムフォレスト(Random Forests)
これらの方法は、複雑な判断をシンプルにするために、
いくつかの「もしも」の質問を連続で行うようなものです。
決定木はその名の通り、木の形をした構造で、
各分岐点で質問をして答えによって次のステップへと進みます。
ランダムフォレストは、たくさんの決定木を組み合わせて、もっと強力にする方法です。
ニューラルネットワーク(Neural Networks)
ニューラルネットワークは、人間の脳がどのように情報を処理しているかを模倣(まね)した方法です。
たくさんの小さな処理単位(ニューロン)がつながって大きなネットワークを作り、
複雑な問題を解決できるようにします。
この方法は、画像や音声を認識するのに特に強いです。
k-最近傍法(k-Nearest Neighbors, k-NN)
k-最近傍法は、友達を見つけるときのような方法です。
たとえば、新しい学校に転校してきたとき、自分と似ている趣味を持つ友達を見つけようとしますね。
k-最近傍法もそれと同じで、新しいデータが来たときに、それに最も近いデータを見つけて、
そのグループに入れる方法です。
ベイジアン学習(Bayesian Learning)
ベイジアン学習は、探偵が事件を解決する方法に似ています。
探偵は最初にある仮説(ほぼ推測)を立てて、それから証拠を集めていきます。
証拠が増えるたびに、「この人が犯人かな?」「それともこの人?」と考えを更新していく。
ベイジアン学習も同じで、新しいデータが来るたびに、以前の考えを更新して、
もっと正確な予測をする方法なんですね。
たとえば、「明日雨が降るかな?」と考えたとき、
最初は過去の天気から「50%の確率で降るかな」と考える。
でも、外に出て雲が多いことを見たら、「うーん、70%くらいかな?」と予測を更新します。
これがベイジアン学習の面白いところで、新しい情報が入るたびに、より良い予測ができるようになります。
アンサンブル学習(Ensemble Learning)
アンサンブル学習は、サッカーチームが試合に勝つために、みんなで力を合わせることに似ています。
一人だけの選手がいても試合には勝てないけど、選手全員が力を合わせると、強いチームになりますね。
同じように、アンサンブル学習では、
たくさんの小さなモデル(選手)を使って、一緒に問題を解決する方法です。
たとえば、「決定木」がいくつもあって、それぞれが少し違う方法で問題を考える。
それから、その決定木たちの意見を合わせて(投票して)、最終的な答えを出します。
これによって、一つのモデルだけよりもずっと良い結果が得られることが多いのです。
アンサンブル学習には、「ランダムフォレスト」や「ブースティング」、「バギング」などの方法があって、
それぞれが少し違うやり方でチームワークを使います。
これらの方法は、みんなで力を合わせることで、もっと賢い予測や判断ができるようになります。
問題(13問)
問題: 回帰問題とは何かを簡単に説明してください。
問題: 分類問題の目的は何ですか?
問題: 線形回帰とはどのような方法ですか?
問題: 「成長記録マシン」が使用する技術は何ですか?
問題: ロジスティック回帰の使用例は何ですか?
問題: サポートベクトルマシン(SVM)の主な目的は何ですか?
問題: 決定木はどのような構造をしていますか?
問題: ランダムフォレストは何に基づいていますか?
問題: ニューラルネットワークは何を模倣していますか?
問題: k-最近傍法の原理は何ですか?
問題: ベイジアン学習の特徴は何ですか?
問題: アンサンブル学習の目的は何ですか?
コメント