2022年3月25日
誤りが機械学習の成功を決める
機械学習モデルに誤りがあれば、メディアで大きく報じられます。しかし、機械翻訳とは誤りを糧として成長するものなのです。
Amazonは、採用活動に役立てようと、早々に機械学習とAIの実験を行いました。2018年に報じられたこのニュースは記憶に新しいことでしょう。このシステムは、2014年に構築され、オンライン求職者の質を1から5で評価することを目的に、10年分の履歴書データを利用してトレーニングされたものでした。
しかし、開発者はすぐに、アルゴリズムが推奨する応募者の特徴が奇妙だと気付きます。応募者が事実上、全員男性だったのです。それだけではありません。応募者の性別を判定できない場合、アルゴリズムは、履歴書に「女性」という語が含まれていたり女子大に通っていたりする応募者の評価を下げていました。さらにReutersによると、バイアスをなくす試みが行われた後も、このシステムには、さまざまな職務に適した応募者を「ほぼランダム」に推奨するという問題が生じました。
その問題の原因はトレーニングデータにあることがすぐに明らかになりました。システムに投入された履歴書データのほとんどが男性からものであったため、AIの認識が自然とその方向に偏ったのです。しかし、この出来事は、機械学習の大きな欠陥として広く取り上げられました。この報道の直後に執筆された、Joy Buolamwini氏 (アルゴリズムによるバイアスの専門家) の記事を引用すると、「これは、「欠陥のある機械学習 (FML)」を示す事例であり、女性の就職の見込みにネガティブな影響を与えると同時に、差別禁止法に違反する可能性もありました」。
AIプロジェクトがつまずく場合、大失敗につながる可能性があります。実はそれが重要なポイントです。
機械学習の処理では誤りが不可避
「ソフトウェア工学と機械学習エンジニアリングを比較した場合、後者では常に誤りが生じます。その点が根本的な、しかも大きな違いです」。HPEでAIとデータプラクティス担当CTOを務めるGlyn Bowden氏はそのように指摘します。「誤りを当然あるものと考え、それを探し出す必要があります。誤りの発生を確認できるようにするには、構築するソリューションに、透明性、監視機能、テレメトリをどう組み込めばよいのか。それが解決すべき問題です」。
Bowden氏が考える強力なMLプログラムの基本的要素の1つは、Amazonのように失敗から学ぶことです。研究者は、「AIは悪だ」とする記事を加熱させるのではなく、間違いをチャンスと捉えてそこから学んだ知識を次のモデルに活かす必要があります。同氏はこう言います。「偏りに気付いたときに重要なのは、どうすればそれを食い止めてモデルの再トレーニングや強化を行い、可能な限り精度を維持できるかを自問することです。そうした考え方を戦略に取り入れれば、機械学習開発で大きな成果を得られます」。
機械学習を実験的なものとする概念自体は新しいものではありません。それについては、1988年に、カリフォルニア大学アーバイン校のPat Langley博士が『Machine Learning as an Experimental Science』の中で論じています。博士はこう述べます。「他の経験科学とは異なり、機械学習は、広範な要因を制御できるという点で非常に恵まれており、天文学や社会学よりも物理学や化学に似ています」。30年後にバイアスの問題が大きく報道されるとは予測していなかったかもしれませんが、博士は次のように指摘しています。「機械学習は体系的な実験を簡単かつ有意義に行えるため、幸運な科学だと言えます」。またこうも述べています。「導き出された結果が肯定的か否定的かにかかわらず、機械学習の性質や成否の理由を明らかにできれば実験は価値あるものとなります」。
「「宿題を早めに済ませる」つもりで準備を整えておけば、モデルがなぜそのように動作するのかがわかります」
GLYN BOWDEN HPE、AIとデータプラクティス担当CTO
誤りが自然なものとされるのは合理的な場合のみ
それは、誤った機械学習の例をすべて実験上の自然現象と捉えるという意味ではありません。数年前、誤った医学的アドバイスを癌患者に行ったとして、大手ベンダーが厳しく非難されました。その事件は、アルゴリズムに投入されたトレーニングデータに多くの問題があったことに端を発するものでした。つまり、ガイドラインの変更に後れを取らずに対処するのが困難と判断され、実際のケーススタディではなく理論上の好みに基づいて実験が行われたのです。
Bowden氏はこう言います。「システムは申し分なく稼働しているので、誰も確認する必要がない。そう思えるほど自信があったのでしょう。徐々に対応が遅れたのはそのためです。データは常に変化しています。それに合わせてフレームワークも進化させる必要があります」。
実践的な観点から言えば、機械学習モデルの限界を理解して根本的な変更をすぐに特定し、実害の発生前にモデルを本番環境から切り離す必要があります。「「宿題を早めに済ませる」つもりで準備を整えておけば、モデルがなぜそのように動作するのかがわかります」。Bowden氏はそう語り、機械学習による画像認識システムを例に挙げました。画像の分類や処理に急な変化があったときには、一時停止して、何が問題かを確認します。多くの場合、誤作動したアルゴリズムではなく、照明の状態やカメラの較正などによるデータの変化に原因があります。環境に不備が見つかったら、修正版の展開が終わるまでは、引き返して別の処理を行うべきです。同氏はこう言います。「自信ではなく、「本当に大丈夫か」と戒める自制心を持つ必要があります」。
当然ながら、間違いが常によしとされるとは限らないため、データサイエンティストは、悲惨な問題に発展させないための対策を取る必要があります。たとえば、自動運転車には、歩行者をはねないように、人間は壁よりも柔らかいと理解させることを100%保証しなければなりません。Bowden氏が指摘するように、モデルには倫理観も取り入れて、こうした悲惨な欠陥を防ぐ必要もあります。
機械学習実験のベストプラクティス
「機械学習モデルは機能しなくなる可能性があり、実際にそれは起こります。しかし、ベストプラクティスを導入すれば、機械学習実験を最初から軌道に乗せることができます」。Iterate.aiで応用機械学習と応用AI担当エンジニアリングマネージャーを務めるShomron Jacob氏はそのように言います。
こうしたベストプラクティスではまず、データセットを分析してバイアスを慎重に除去します。アルゴリズムに分析させるのはその後です。Jacob氏はこう解説します。「データ品質をチェックするだけでなく、データがクラスをまたいで均等に分散していることもチェックします。こうすることで、分類の問題を回避できます。また、トレーニングに取り入れたことのない新しいデータを使用します。これにより、機械学習モデルによる評価をきわめて高い精度でテストし、本番環境に移した後のモデルが外れ値を処理できるように備えます」。
Bowden氏は、外れ値と誤りを処理するトレーニングは慎重に行うべきとも言います。たとえば、アセンブリラインで変色した製品が大量に発生し、それらがエラーの例としてモデルにフィードバックされれば、モデルの認識がこうした特定の欠陥に偏る可能性があります。「どのトレーニングセットでもそうした欠陥探しが始まります。しかし、必要なのは、トレーニングデータを長期間キャプチャーすることです。欠陥を見つけるだけでなく、その発生頻度を確認する必要があるからです」。
「ベストプラクティスであっても、結局、将来の利用に適さない機械学習モデルもあります」。Jacob氏はそのように語り、こう続けます。「軌道を外れた機械学習モデルを本番環境から切り離すべきかどうかを判断するには、モデルで発生した誤りを追跡できる組み込みのフィードバックループツールを備える必要があります。ご存じのとおり、モデルは確率に従って機能します。しかも作りがもろく、とりわけデータそのものに依存しています。データが変われば、モデルの更新も必要です」。
そうした状況に陥っても、気を落とさないでください。Bowden氏は「機械学習には実験がつきもの」であることをあらためて強調し、こう続けました。「未知だからこそ、私たちはモデルを構築するのです」。
リーダーのためのアドバイス
- 機械学習モデルは実験が前提とされているため、誤りが何度か発生します。
- アルゴリズムの偏りを早めに検出して誤りを軽減し、それらが悲惨な状況を招かないようにすることが重要です。
- トレーニング初期であれ本番稼働中であれ、データセットのバイアスが、機械学習の誤りの大きな原因となります。
この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

Christopher Null
Null Media LLC、CEO 25件の記事
Christopher Nullは、受賞歴を有するジャーナリスト、編集者、コラムニストであり、ビジネスとテクノロジー分野のジャーナリズムで20年以上の実績があります。PC Computing、Smart Business、New Architect誌のトップエディターを歴任し、2003年にはモバイルテクノロジーに特化した初の定期刊行誌Mobile PCを創刊。その後「The Working Guy」としてYahooで4年以上、テックコラムニストとしてExecutive Travel誌で6年間、テクノロジーに関する記事を日々執筆しました。現在は、Wired、PC Worldなど多数の出版物に定期的に寄稿する傍ら、ブティック型コンテンツマーケティングとカスタムパブリッシングを専門とするNull Media LLCのCEOを務めています。
enterprise.nxt
ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。
ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。
その他の記事を読む