データありきの企画は失敗する
機械学習を一言で定義すると「データからルールを自動的に獲得する技術」である。機械学習プロジェクトを成功させるためには、自社の課題を整理し、機械学習の技術の特徴を把握した上で、機械学習で解くべき課題を特定しなければならない。そして、データがあればそのデータを使って解析し、データがなければ投資対効果を踏まえた上で必要に応じてデータの取得に投資するべきである。
機械学習プロジェクトでは「どんなデータを使って、何をどのくらいの性能で判断できれば成功といえるのか」を事前に定義することが重要である。数多くのプロジェクトは、最初の定義の段階が曖昧なまま「とりあえず膨大なデータがあるから、何に活かせるか考えてみよう」ということで進めて失敗する。
機械学習のビジネス活用7つのルール
①機械学習の投資対効果を明確にすべしAI、機械学習においては、投資対効果を明確にしないままプロジェクトが進行するケースが多い。性能とビジネスインパクトの関連性は、段階的な質的転換点がある。見込めるインパクトから逆算して、いくらまでコストをかけて良いか仮説を立てることが重要である。
②「使えるデータ」と「使えないデータ」を把握すべし
手元にあるデータが「使えないデータ」である割合は9割以上。データはあることが大事なのではなく、使えるデータがあることが大事である。使えないデータの特徴は以下の通り。
・フォーマットが統一されていない
・目的との関連性が不明瞭
・正解ラベルが付いていない
③機械学習で狙うべき領域を同定すべし
機械学習プロジェクトでは、要件定義フェーズで制約条件を明確にすることが大事である。制約条件を明らかにすることで、PDCAサイクルを回す領域が明らかになり、より有意義な開発に注力することができる。機会学習では「人間がルールを記述できるかどうか」「機械学習で解ける課題かどうか」によって、テーマを4領域に分類して見定める。人間が記述できないくらい複雑なルールが必要な領域は、機械学習の価値が発揮できる。
④インプットとアウトプットの解像度を高めるべし
どんなデータをインプットとし、どんなデータをアウトプットとするか議論を進め、解像度を上げることが大事である。どんなデータから何を予測するのかを決めるのは人間である。
⑤機械学習の性能を正しく評価すべし
機械学習では、そのモデルの性能を判断する時、特定の数字で正解率という指標を見ることは適切ではなく、4象限(TP:true positive、FN:false negative、FP:false positive、TN:true negative)に分けて考えるのが大事である。特に不均衡データの場合は、単なる「正解率」という単一の指標では、実態とかけ離れた性能の数字が出てしまうこともあり、「検知率(見落とさなかった確率)」や「不良判定品の不良率」を見る必要がある。
⑥実運用のイメージを高めるべし
機械学習モデルの正解率は基本的に使えば使うほど劣化する。なぜなら、機械学習は過去のデータを使ってモデルを構築していくので、過去になかった事象を正しく推論できない。一方で使えば使うほど過去になかった事象が増えることになり、正しく推論する確率が低下する。そのため、機械学習モデルを訓練し直す仕組みをつくる必要がある。
⑦ステークホルダーとのエコシステムをつくるべし
機械学習モデルを完全に車内でつくりきるのはハードルが高い。自社で足りない部分については外部のリソースを使って対応したり、パートナーと協働することが大事である。