従来の統計処理と機械学習 - IT技術者のAIに関する雑記

最近様々な新聞や雑誌に、毎日のように機械学習(マシンラーニング)や深層学習(ディープラーニング)といった言葉がでてきますが、先日あるお客様より

「今までの統計処理と何が違うの？人工知能とはどう違うの？」

という質問をされました。

機械学習の使用してる数学的な手法やアルゴリズムは従来の統計処理(統計解析やデータマイニング)と非常に近いため、何が違うのかがよく分からないという人が多いような気がするので、このブログの最初のネタにしようと思います。

なおここで書いている内容は、あくまで解釈の一つとして理解ください。視点によっては違う解釈のほうが適合しやすいことがあります。

まず、

ではないですよね。機械学習や深層学習は、人工知能のための技術、もしくは研究テーマの一つであるという考え方です。

機械学習と深層学習についてですが、別々のもののように扱われている記事をよく見かけますが、深層学習は多層ニューラルネットワークを用いた機械学習の手法の一つです。ただし、深層学習は従来の機械学習の手法では難しかった画像、音声、言語を対象とする人工知能のテーマに対して優れた性能を発揮するため、独自のテーマとして脚光を浴びているという背景があるのだと思います。

ここまでで、先ほどのお客様からの質問に対して

「人工知能 ← (適用技術/研究テーマ) －機械学習(深層学習含む)」

という回答になりました。

次に従来の統計処理との違いについてですが、先ほども書いたように機械学習と従来の統計処理の数学的な手法やアルゴリズムは非常に近いのですが、目的が異なります。つまり

統計解析は、まず仮説を立て、その仮説を標本データから推定、評価していくことで、仮説の正しさを検証するものです。つまり、データの意味や仮説を説明することに重きを置いています。
データマイニングは、膨大なデータからルールやパターンを発見し、検証するものです。つまり事実の発見と説明に重きを置いています。

機械学習は、膨大なデータからルールやパターンを発見し、それを基に予測することを目的とするものです。つまり事実から予測をすることに重きを置いています。

なお、一般的に「予測」というと「未来を予測する」ことと思われますが、機械学習分野においては、「未来を予測する」ことだけではなく「見えないものを見えるようにする」ことにも予測という言葉を使います。例えばある企業が提供しているサービスを利用している顧客に対して、「3か月後にサービス利用を停止する顧客を予測する」ことも予測ですし、「今サービス利用を停止しようと考えている顧客を探し出す」ことも予測と言えます。

以上で、先ほどのお客様からの質問に対して、

「従来の統計処理との違いは目的」

という回答になりますね。

なお、別の解釈がある、こういう回答のほうがお客様が分かりやすい、という話がありましたら、是非ともコメント頂ければと思います。