画像をタップして拡大する

2019年4月16日

オントロジーはデータサイエンスにおける異種データの理解にどのように役立つのか

参加者がデータを複数のカテゴリに分類する方法に同意できない場合、データ共有はそれほど容易ではありません。あなたはニューヨークのことをビッグアップル、ニューアムステルダム、または北緯40.7128度/西経74.0060度と呼んでいますか。オープンデータの実現に取り組んでいるのか、あるいは社内の複数のサイロで仕事を進めているのかにかかわらず、この記事でオントロジーがどのように役立つのかをご確認ください。

ビジネスデータの共有には、部門間のサイロ、互換性のないソフトウェア、法律や規制のハードル、それを優先させる時間がまったくない同僚、そして悲しいことに受動攻撃的にそれを優先させない同僚といった、基本的な課題があることを私たちの誰もがわかっています。そして何より、私たちはお互いのメンタルモデルに惑わされる可能性があります。

このような複雑な問題のシンプルな例としては、「営業終了時間」をどのように定義するのか、誰かが今日の営業終了時間までにフィードバックを送ると約束した場合、それは午後5時なのか、午後6時なのか、または午前0時なのか、どのタイムゾーンなのか、といったことが挙げられます。このとき手遅れになるまで、あなたと上司がそれぞれ、営業終了時間を午後6時と午後5時と考えていたことに気づかなかった場合に何が起きるのかを想像してみてください。

また、複数の定義よりも深刻なケースとして、私たちは本質的に同じことを意味する多数の用語を使用していますが、こうした問題は特に、データで溢れかえるアカデミズム科学の世界の悩みの種となっています。しかし幸いなことに、このようなデータの氾濫に対処し、企業組織に大きなメリットをもたらす可能性がある方法が科学者によって開発されてきました。

 

FAIRの選択

大学の研究室は、専用のデバイスやローカライズされた用語が使用される、驚くほど独立した領域であり、そこでは特定の人だけが使用できるデータベース(またはExcelスプレッドシートや手書きのノート)が作成されてきました。科学者に手法と結果を公表することだけが求められていた時代には、このような荒削りのアプローチでも問題はありませんでしたが、最近では、資金提供者と学術誌の両方でrawデータを共有しようという動きが見られます。

そしてこのような流れを受け、科学者、学術出版社、資金提供機関、および企業の代表で構成されるワーキンググループが、強い情熱を持って科学データの管理に関するFAIRの指針を作成しました。この指針は、「知識発見とイノベーション、それによって得られたデータと知識の統合、そしてデータ公開プロセス後のコミュニティによる再利用へとつながる重要なルート」としてデータ管理を推進するものです。

オントロジーは、私たちが持っていると思っている知識を伝達したり検証したりするのに役立つ、知識ベースの作成と管理に不可欠なツールです。

UCSD、Maryann Martone教授

FAIRは、Findable (見つけられる)、Accessible (アクセスできる)、Interoperable (相互運用できる)、Reusable (再利用できる) を表す略語であり、おそらく3番目の指針が他の3つの指針にとって重要となります。現在では、研究課題をより幅広く、そしてより深く理解できるよう、特定の分野の研究者がファイルをアップロードすることが可能なデータレポジトリがいくつかあります。

しかし残念ながら、そこには膨大なデータが存在するため、人間はそれを検索することができません。また意味の混同は、シンプルな1対1対応ではなく、むしろ機能定義と空間、時間、および方法論の違いを含む多次元的な混乱につながります。このような問題は機械学習で解決できますが、数多く存在する独自の用語の解析は、セマンティックの点で非常に大きな課題です。

では、科学者やデータの課題を抱える他のプロフェッショナルにとって、見切りをつける以上に有効な解決策はあるのでしょうか。カリフォルニア大学サンディエゴ校で神経科学の教授を務める、FAIRの共同作成者であり、オントロジーのスペシャリストでもあるMaryann Martone氏は、特に一見解決が困難な問題であるように思えることに目を向けている人に対して楽観的な考えを示しています。

これについて同氏は、次のように述べています。「オントロジーは、私たちが持っていると思っている知識を伝達したり検証したりするのに役立つ、知識ベースの作成と管理に不可欠なツールです。Xが運動野にあると誰かが言った場合、機械はどのようにして運動野の意味を理解するのでしょうか。オントロジーには、いくつかの機能が強制的に同時に表示されるようにする仕組みがあります」。

オントロジーでは、各用語が重み付けなしでUniform Resource Identifiers (URI)と呼ばれる主要概念にタグ付けされるようになっており、たとえば、Dog、Canis lupus familiaris、Mr. Fluffyはいずれも、同じURIにマッピングされます。そして同氏は、これについて次のように説明しています。「これらの概念はそれぞれ重なり合うため、オントロジーでは合理的な理論を構築することが可能です。これまでは、最初にすべての用語を探さなければならなかったため、すべてのデータをまとめることすらできませんでした」。

 

膨大なデータのその先へ

こうした共起性を見つけるために、人間はより大きな問題を解決しなければなりません。XがYに関連しているであろうことがわかったとしても、それにどのような意味があるのでしょうか。たとえば、医療研究者はデータレポジトリを検索し、無関係であるように思われていた多数の用語のすべてが特定の症状の証拠であるということを理解する機会を得られます。また同じように重要なポイントとして、URIは研究者がデータのギャップや異常値を検出するのにも役立ちます。その他すべての研究結果で「バラ」はピンク色か明るい赤色であるとされていた場合、それを青色とする研究結果はどのように解釈すればよいのでしょうか。

これについてMartone氏は、次のように述べています。「オントロジーは階層ではありません。無理にカテゴリに分類するのではなく、科学の実験で得られた情報に基づいて構造を作り上げます。それは単なるデータパターンであり、パターンを比較して分析したうえで、基本的に何も違いがないことや区別が重要であることなどを学習できます」。

どの分野でも少なくとも目的に関して共通の認識を持っているため、URIには可能性があり、これについてMartone氏は、次のように述べています。「私たちの概念の中心にあるものは、常に非常に明確です。私たちはペンギンとムクドリを混同することはなく、共通の認識を持っています。そしてオントロジーは、それを計算可能な方法で表現する点で優れています」。

とはいえ、共通の認識から離れるとこのスキームは崩壊するように思われ、私とあなたが「猫」と「トラ猫」を認識していたとしても、「銀色のトラ猫」なのか「灰色のトラ猫」なのかについて、長年議論することになる可能性があります。

オントロジーは、こうした議論を終わらせるのに役立つものであり、私たちが銀色のトラ猫と灰色のトラ猫それぞれのURIについて同意すれば、理論的区別を実際のデータに結び付け、証拠に基づいた比較を行うことができます。そして最も重要なポイントとして、他の人が調べることができる証拠にアサーションが結び付けられるため、データに結び付けられたオントロジーは客観的であり、これについてMartone氏は、次のように述べています。「オントロジーは証拠を作り上げるだけであり、議論に勝とうとするものではありません。あなたがトラ猫を銀色であると言い続ける一方で、他のすべての人が灰色であると言っている場合、オントロジーとデータからは期待通りの結果を得られないだけですが、正しいと判断されるのはあなた以外の人たちです」。

もちろん、レポジトリに入力されるデータが増えると証拠の優越が変化し、概念が変更されたり、概念の誤りが証明されたりすることもありますが、Martone氏は、精度を高めるために「これらをコンピューターのアーチファクトとして管理し、確実に変更履歴を残す必要がある」と述べています。そうしなければ、一見違っているように思えるデータの整合性を確保することはできません。たとえば、「マンハッタン」と「ニューアムステルダム」は地理的には同じでも、時間的には同じではないのです。

 

メタ分析からメガ分析へ

データレポジトリは有益であるにもかかわらず、共有は今後も研究者を不安にさせ続ける可能性があります。これまでは、あなたが持つデータからあなた自身より大きな価値を見出したライバルに先を越されるかもしれないという恐怖がありましたが、今では、作業を再現できず、それ自体が有効だったのかどうかに疑問を投げかけられるかもしれないという恐怖があります。ただし、どの科学者もわかっているように、制御された研究室でも、さまざまな条件が再現性に影響を与える場合があります。さらに、人間の患者に対応している場合は、期待できる最善の結果が広く類似性を持ちます。

しかし、Martone氏や同氏とともにオープン標準に携わってきた同僚は、再現性の概念を見直し始めました。これについては、1つの研究室の一連の実験をやり直すのではなく、すべてがそれぞれに光を投じるさまざまな実験を比較するのが正しい可能性があり、同氏の説明によると、「再現性はこうした多次元的な領域がベースとなっており、データから生み出され始める、これまで存在していたことを知らなかった変数の間には相関関係があります」。

以前は、証拠の優越が何を示唆しているのかを判断するために公開済みの資料を比較した論文を徹底的に調査する、メタ分析が基本でした(たとえば、800の研究のうち、798件でチョコレートのプラスの効果がマイナスの効果を上回ると結論付けていました)。

一方、新しいデータ共有の世界では、研究者は、複数の実験で収集された変数の相関関係を示すrawデータのプールを比較するメガ分析を考察し始めています。それぞれの実験は再現できないかもしれませんが、プール化されたデータは、各実験の結果に光を投じる強力な相関関係を示す可能性があります。基本的に、メタ分析では氷山の一番上の部分を比較しますが、メガ分析では一番下の部分を比較するため、より幅広く深い理解が得られます。

これについてMartone氏は、次のように結論付けています。「何が一番科学のためになるのかを明らかにしなければなりません。私はこれまで、オープンデータに将来性がないという意見を聞いたことがなく、実際AIや再現可能な科学ではオープンデータが必要とされているのです」。

 

オントロジー: リーダーのためのアドバイス

  • 用語は当てにならない可能性があります。あなたが思っているXの意味と同僚が思っているXの意味は、わずかではあるものの重要な部分で違っているかもしれません。さらに、同じ用語の定義が時間とともに変化したり、セクター間で違ったりすることさえあります。
  • こうした問題を解決するには、データ共有に関与するときにオントロジーを作成し、類似する用語のすべてをUniform Resource Identifierにマッピングします。
  • オントロジーは、変更履歴を残すのと同じように扱います。時間とともに定義が変化したら、すべての用語が引き続き正しくマッピングされるよう、「ニューアムステルダム = ニューヨーク」といった記録を残します。

この記事/コンテンツは、記載されている個人の著者が執筆したものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

誰でもわかるディープラーニングを読む

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。