2019年1月17日

データに関する5つの不真実

人間は生来的に歪曲またはその他の形でデータの真実性を損ないがちで、その結果としてデータの有用性が失われるケースが少なくありません。AIに関する課題の1つとして、AIはすべての人が真実を告げることを前提としていますが、実際には必ずしもそうとは限らないことが挙げられます。こうした不真実を排除するのは容易ではありませんが、AIや機械学習システムに頼って適正な判断を下すためには避けて通れない問題です。

AIアプリケーションはデータに基づき判断を下します。したがってデータに誤りがあると、機械学習タスクの結果も誤ったものになります。不真実を含んだデータセットにより引き起こされる深刻な問題の中には、データ収集/処理技法を改善することで解決可能なものもあれば、そうでないものもあります。
AIアプリケーションを利用している人々にとりわけ注目されているのが、ディープラーニングです。これは自然な流れであり、ディープラーニングはAIの中でもその効果が目に見えやすく、広範なアプリケーションが存在しています。しかしながら、ディープラーニングタスクで使用されるデータに人間が影響を及ぼすと、得られる結果にも歪みが生じます。
AIにはディープラーニング以外にもさまざまな種類が存在します。コグニティブコンピューティング、AI、機械学習、ディープラーニングなどの種類を問わず、また機械学習のタイプ (教師あり学習、教師なし学習、強化学習) にかかわらず、これらはいずれもデータに基づき判断を下すという共通の特性を有します。したがってインプットが信用できない場合には、ソフトウェア実装がどれほど優れたものであったとしても、そのアウトプットを信用することはできません。

 

ゴミからはゴミしか生まれない

AIによる分析が有益であるために虚偽のないデータが必要なことは当然と思われるかもしれませんが、「真実」の定量化は言うほど簡単ではありません。AIは人間のように直感的に不真実を見抜くことができません。渡されたデータが真実かどうかを判断することはアルゴリズムには不可能です。データは特定の手順に従って処理されますが、データの解釈は常に何らかの形で人間が行う必要があります。

AIや機械学習アプリケーションを有効活用するためには、使用するデータの検証が不可欠です。ただし誤りを完全に排除することは不可能なため、結果にある程度の疑わしさが残ることは理解しておく必要があります。
以下ではデータに関して発生し得る5種類の不真実について説明します。

 

コミッションエラー (してはならないことをする誤り)

データに検証可能な不真実が含まれている。
人間は、まったくの虚偽を述べたり、自身の世界観に合わせてデータを歪曲したりすることがあります。こうした不真実を見抜くためのアプリケーションも登場しており、例えばCaseWare IDEAは検証プロセスの自動化を支援します。
ただし「コミッション」タイプの不真実は、必ずしも誰か、もしくは何かによる故意の嘘を意味するものではなく、データの収集過程の誤りによってもしばしば発生します。例えばカメラに付着したホコリによって、記録されたデータにコミッションタイプの不真実が入り込むことが考えられます。
こうした不真実は、システムによるデータ収集方法を変えることで軽減または排除することが可能です。


オミッションエラー (すべきことをしない誤り)

データに不真実は含まれていないが、欠落している要素があるために、データを受け取る側の解釈に歪みが生じる。
一例として、保険会社が自動車事故に関するデータを記録するケースを考えてみましょう。事故を報告した人は、シカが前方を横切ったこと、ブレーキをかけるのがやや遅れたこと、および路面が滑りやすい状態であったために事故が重大化したことを説明します。これらの説明がすべて真実であったとしても、運転者が事故の発生時にメールを打っていたことに言及しなければ、説明に不真実は一切含まれていなくても、データの解釈に歪みが生じます。このような歪みがあると、現実と乖離した保険料が算出されて、顧客および保険会社の双方が損失を被る可能性があります。
正確なデータの収集が不完全であった場合にも、オミッションタイプの不真実が発生します。一例として、アジア系アメリカ人の健康に関する知識の多くは、アジア系アメリカ人の被験者全体を1つにまとめたグループ、または特定のサブグループ (インド人、中国人、フィリピン人、日本人、韓国人、ベトナム人など) を調査した結果に基づいています。アジア系アメリカ人の被験者に関して報告される国の健康データは、集約されたグループについての報告であるケースが少なくありません。この場合、アジア系アメリカ人のサブグループ間の差異が報告に表れません。
ただし、オミッションタイプの不真実のすべてがインプットデータの誤りまたは欠落に起因するわけではありません。通常は問題なく稼働しているセンサーが瞬間的に故障したような場合にも、このタイプの不真実が発生します。とりわけ故障のタイミングが悪く、産業環境における電力サージの最中であったような場合には、AIによる問題の自動修復が行われずに人間の介入が必要となり、多大な損失が生じる恐れがあります。オミッションエラーを発見するには人間による検証が必要であり、知性ある人間はこうしたエラーを特定し、通常は修復することが可能です。


バイアス

データ収集方法の問題により、データが有用であるために必要な属性の収集が不十分である。
このタイプの不真実の例として、あるプログラマがコード内に存在するエラーを探す作業に数時間を費やしているケースを思い浮かべてください。こうした場合に、そのプログラマが何らかの先入観に捉われているためにコードの検証に時間を要しているのであり、別の人であれば問題をはるかに迅速に特定できる可能性があります。しかしながら開発プロセスに関するデータの自動収集では、こうした観点が抜け落ちるため、問題の真の原因や修正に要した時間を正確に把握できません。
また誰かが真の結果ではなく望ましい結果を得ようとしてデータ分析を調整した場合にも、別の種類のバイアスエラーが発生します。このような事例の1つとして、米国会計検査院 (General Accountability Office) の調査により、連邦通信委員会 (Federal Communications Commission) が発表したインターネットアクセスの可用性に関する統計に重大な問題があることが明らかにされています。誤ったデータに基づき適正な判断を下すことは不可能です。
バイアスはさまざまな形でデータストリームに入り込みます。カメラが赤外線データを収集するように設計されていなければ、暗がりの中でカメラを横切る動物に関する情報がデータセットに含まれていなくても不思議はありません。例えば、その動物が会社の倉庫に住み着いているネズミであれば、ネズミの害による金銭的損失が生じる可能性があります。バイアスは条件設定などのさまざまな過程においても発生し、いずれのケースでも (おそらくは明瞭に) 存在している何かが見過ごされることを意味します。
バイアスは環境を整えることである程度は軽減できますが、完全に排除することは極めて困難です。


視点

使用しているデータ収集方法では、データを包括的に把握できない。
交通事故が発生し、警察官が4人の人物から事情を聴取しているケースを思い浮かべてください。このような場合に、これらの人々の誰にも嘘をつく理由がなかったとしても、各自の証言が食い違うことは珍しくありません。運転者はダッシュボードから情報を得ており、また衝撃を体感しているために、歩道にいた目撃者にはわからない情報を提供できます。その一方で目撃者は、ドライバーがブレーキを強く踏んだことで車が横滑りしたことや、ドライバーが見落としていた路上の薄氷についての情報を提供できます。車にはねられた歩行者は運転者の顔を見ており、その驚きの表情から、事故が故意ではなかったことを証言できます。また窓から外を見ていた人物は、歩行者が道路をわたる際の確認が不十分であったこと、および低木により見通しが悪かったことを説明できます。こうした場合、警察官は最善の策として各自の説明に共通する要素を抽出するしかなく、詳細な情報が失われるために、完全な真実にたどり着くことは不可能です。
このタイプの不真実を完全に正すことはできませんが、通常はデータ収集方法をより優れた (より包括的な) ものに変えることで問題を軽減できます。例えば、追加の情報源 (この事例であればカメラなど) を見つける、複数の手段で情報源を照会する (異なる照会テクニックを有する複数の警察官を動員する)、情報源の相互検証を行う (この事故を他の類似した事故と比較する) といった方法は、視点に起因する問題の軽減に役立ちます。


判断の基準となる枠組み

経験は真実を把握するうえで重要な要素である。
類似した経験を共有する相手には、物事を容易に説明できます。ある開発者が並外れて複雑な機器の設計に関する経験を、ごく短時間で別の人物に伝達し、テスト期間なしに実地に活用する必要があるケースを思い浮かべてください。伝達すべき相手が同様の設計経験を有する場合には、情報の共有が容易で、要点をスムーズに理解してもらえます。共通の経験は、情報を伝達する側とされる側の間に基準となる枠組みを形成し、言語によらない情報伝達を可能にします。さらに重要なことに、特定の状況がどのように解決されたかを相手方が既に知っている、あるいは双方が何らかの前提事項を共有しているために、一部のデータは伝達する必要がありません。
データに関しては、真の経験を得られない環境にセンサーが存在している場合に、基準となる枠組みに関する問題が発生する可能性があります。例えば、産業事故を解明するために必要なあらゆるデータを収集可能な場所にセンサーを設置するのが不可能なケースが考えられます。このような場合、収集されるデータから環境全体を把握することは不可能です。技術的な制約により、真の経験を得られる場所にセンサーを設置するのが現実的に厳しいケースは珍しくありません (火災や放射線被ばくによりセンサーが壊れる可能性がある、など)。センサーを壊してしまっては意味がないため、通常は次善の策として、こうした問題が発生する場所にセンサーが設置されます。
判断の基準となる枠組みに関する不真実を正すには、適切な判断能力を有する人物の手でデータを検証するしかありませんが、問題を正すことが不可能なケースも存在します。


人的要素の加味

人間の関与は物事をより一層複雑化します。人間は時にアウトプットとして不真実を期待することがありますが、こうした期待に応えることはAIには不可能です。例えばAIによるデータや不真実の分析により、まったくの予想外で望ましくない結果が得られることが考えられます。「最適な服選びのサポート: AIが買い物客にスタイリングのヒントを提案」と題する記事では、まさにこの問題が取り上げられています。売上の減少を食い止めようと、衣料品店の経営にこうしたソフトウェアを導入したものの、顧客の不満を高めるだけの結果に終わることも考えられます。
さらに悪いことに、嘘偽りのないアウトプットが、AIには決して理解できない形で人を傷つける可能性もあります。例えばビジネス環境の中には、創業者のビジョンに基づき設立された新興企業のように、個人の自負心により牽引されているケースも少なくありません。このような場合にAIの分析により、そうした自負心が事業の成長の妨げとなっていることが指摘される可能性がありますが、それは起業家が知りたくない、また知る必要のない事実です。こうした特殊な状況下においては、起業家から自負心を奪うことは有害でしかありません。人間は事情を考慮して事実を伏せるという判断ができますが、AIにはそうした判断は不可能です。
事業家は原則を軽視する傾向がありますが、原則の大切さを説く人は多く、スティーブ・ジョブズ氏やビル・ゲイツ氏の成功が不思議に感じられるほどです。真実を知りすぎることで引き起こされる問題については、記事「真実は大切であるが、過度の真実は害をなす」をご覧ください。


AIには支援が必要

いずれはAIに仕事を奪われるのではないかと危惧している人もいます。実際にはそうした心配は無用ですが、ただし人間が従来とは異なるスキルの習得を求められるようになると予想されます。いくつかの面で、今日の世界は、その影響が百年以上後の世にも及んでいる産業革命時と似た状況にあります。より正確かつ有益なアウトプットを得るためには、AIと人間の連携が不可欠であり、そのための作業環境が既に構築されつつあります。AIは人間に取って代わるものではなく、その強力なパワーにより、私たちの暮らしをより豊かで、より快適なものへと変えることが可能です。

この記事/コンテンツは、記載されている個人の著者が執筆したものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。