画像をタップして拡大する

2021年9月17日

データサイエンティストが最も使用しているツール

処理しなければならないデータの量は増え続けており、それに対応するためには優れたツールが必要です。ここではそれらのツールをご紹介します。
たとえば、30分の散歩に出かけたとします。散歩の後、スマートウォッチとスマートフォンのデータ収集ツールのおかげで、私は35分と14秒で2マイルとちょっとを歩き、歩数は4,227歩だったこと、またそれによって191カロリーを燃やしたことを確認できます。その情報はGoogle、Samsung、そして電子医療記録ソフトウェアに接続する私の主治医も把握しています。好むと好まざるとにかかわらず、私たちはビッグデータの時代に生きているのです。

ビジネス向けのポータルデータサイトであるStatistaによれば、2020年だけで59ゼタバイトというデータが生まれました。また記録が更新されたのです。1ゼタバイトはどのくらいの量かというと、10の21乗バイトであり、1兆ギガバイトです。別の言い方をすれば、米国議会図書館まるごとのデータ量ですら、インターネットに流され続けるデータのほんの一握りにしか当たりません。

そして、これは始まりにすぎません。IDCによれば、世界のデータは年間66%の割合で増加しています。まだまだ増え続けていくのです。モノのインターネットとエッジコンピューティングのおかげで、より多くのデータを集めることができます。

もし信じられないのなら、家の中を見回してみてください。スマートデバイスがいくつ目に入るでしょうか。あなたの目の前のコンピューター、手元に置いたスマートフォン、腕にはめた時計、音楽を流しているスマートスピーカーなどがあるはずです。また、今夜視聴する予定のNetflixの番組や、天井の照明も当てはまるかもしれません。そして、スーパーに行くための車も、まもなくスマートデバイスとなるでしょう。

多くのデータはすぐにコールドデータとなり、二度と使われることはありませんが、データサイエンス (DS) では、すべてのデータを活用する技術がますます向上しています。データサイエンスは、機械学習 (ML) や人工知能 (AI) の力を借りて、かつては役立たなかったデータを価値ある知識へと瞬時に変換しています。

データサイエンスのエコシステムは非常に幅広く、毎分のように変化しています。
IVETA LOHOVSKA ヒューレット・パッカード エンタープライズのグローバルAIおよびデータプラクティス部門シニアデータサイエンティスト

これを実現するために、幅広い言語とツールが使用されています。ヒューレット・パッカード エンタープライズのグローバルAIおよびデータプラクティス部門シニアデータサイエンティストであるIveta Lohovskaは次のように言っています。「データサイエンスのエコシステムは非常に幅広く、毎分のように変化しています。ツールと言語はさまざまな方法でグループ化し、カテゴリ分けすることができます。例えばオープンソース、エンタープライズ、業種、ツールまたはプラットフォームの複雑性、BIプラットフォーム、DSコラボレーション環境、分析データベース、DSフレームワークなどです。複数のグループに入るものもありますし、非常にニッチで、解決する問題のみに焦点を当てたものもあります」

前置きはこのくらいにして、最新鋭のデータサイエンスツールを簡単に見てみましょう。

プロプライエタリソフトウェア

MLなど、データサイエンスの一部の分野では明らかにオープンソースが主流ですが、その他の分野はプロプライエタリ (独自仕様) のアプローチから始まり、より長い歴史をもっています。

その中でも、最も古くからあるのがSASです。1976年にまで遡るこのプログラムは、統計的分析のためにゼロから設計されました。企業に向けたクローズドソースのプロプライエタリプログラムとして始まり、現在でもそれは変わっていません。

SASは、統計モデルの作成にSASプログラミング言語を使用します。SAS自体でソフトウェアエコシステムを形成しています。データのモデル化および整理に向けた、数多くの統計ライブラリとツールを備えています。

最新バージョンであるSAS Viyaは、スケーラブルでクラウドネイティブなアーキテクチャで実行できます。これはオープンソースモデルでも、SASモデルでも使用できます。最も新しいエディションであるSAS Viya 4は、クラウドネイティブな展開に向けて完全に再設計され、リファクタリングされています。このバージョンは、Kubernetesによってオーケストレーションされたコンテナーを土台としたマイクロサービスとして実行できます。

Microsoftといえば、継続的インテグレーション/継続的デリバリ (CI/CD) パイプラインで見ることは決してないものの、Excelはずっと以前から常にDSプログラムの強い味方でした。それは現在でも同じです。

データサイエンスに深くかかわっていない限り、MATLABには馴染みがないはずです。これは、数学的情報を処理するための数的プロプライエタリコンピューティング環境です。マトリックス関数、アルゴリズムの実装、統計データのモデル化などに役立ちます。

データサイエンティストは、ニューラルネットワークとファジー論理や、深層学習などのML/AIのデータアプローチにMATLABを使用します。また、MATLABは画像や信号の処理にも使用されます。MATLABのグラフィックライブラリは、データの視覚化に非常に適しています。また、MATLABは画像や信号の処理にも使用されます。データのクリーニングと分析から、より高度な深層学習のアルゴリズムまでのあらゆる問題に取り組めるため、データサイエンティストにとっては用途の広いツールです。

MATLABほど高度ではないものの、オープンソースの代替ツールをお探しの場合はMatplotlibを検討してみてください。これは、Pythonベースのプロットおよび視覚化ライブラリです。MATLABのグラフィックモジュールの代替ツールとして使用できます。さらに、人気の高いpyplotモジュールによって、プログラムでMATLABに似たインターフェイスを使用できます。

最後に、Wolfram Mathematicaにも言及しなければなりません。これは多用途なテクニカルコンピューティングシステムで、ニューラルネットワーク、ML、データ可視化など、多くの役立つデータサイエンスのアプローチを包括しています。このツールの力は、特定のプログラムに対して発揮されるのではなく、Wolfram言語を使用して、多くの異なるツールをデータサイエンスの問題に取り組むために展開できる点にあります。

オープンソース

データサイエンス関連のプログラムに向けた新しいオープンソースファミリは、これらのプロプライエタリツールと同じくらい強力で、引けを取りません。

Rプログラミング言語は、間違いなくそのリストの上位に入ります。Rは、統計的な計算とグラフィックに向けたオープンソース言語です。Rはデータサイエンスの共通言語と呼ばれています。統計およびデータのモデル作成に非常に適しているためです。

R言語は初心者にとって簡単ではありませんが、WolframやSASほどは難しくありません。幸いなことに、RStudioもあります。これは、RとPythonに向けた統合型開発環境です。直接的なコードの実行をサポートする、コンソールとシンタックスハイライトエディタを利用できます。また、プロット作成、履歴、デバッグ、ワークスペース管理などのツールも含まれています。

Rの人気が高いのは、Apache HadoopやHadoop Distributed File System (HDFS) などのデータサイエンステクノロジーおよびフレームワークと簡単に統合できるためでもあります。さらに、C、C++、Python、FORTRAN、JavaScriptなど、その他のより旧式なプログラミング言語とも簡単に統合でき、非常に柔軟性に優れています。

ただし、Rは従来のテクノロジーによってのみサポートされているわけではありません。Project Jupyterでもサポートされています。JupyterはIPython関連のオープンソースツールで、データサイエンスの結果をライブコード、視覚化情報、プレゼンテーションの形式で表示します。また、Jupyter Notebookはデータのクリーニング、統計的計算、視覚化や、機械学習の予測モデルの作成にも使用できます。

Rの標準以外にはgglot2があります。これは、Rの高度なデータ視覚化パッケージです。ggplot2は、データサイエンティスト専用のRパッケージであるtidyverseの一部です。具体的には、ggplot2はRのネイティブのグラフィックパッケージに置き換わり、分析したデータから便利な視覚化情報を作成することを容易にします。

もちろん、Hadoop自体も、現代のデータサイエンティストにとって欠かせません。Hadoopはオープンソースライブラリで、シンプルなプログラミングモデルを使用してクラスター全体の大規模なデータセットを分散処理するフレームワークを作成できます。単一のサーバーから数千台のマシンに拡張でき、それぞれがローカルでのコンピューティング処理とストレージを提供します。

最近の調査では、すべてのデータサイエンティストがHadoopに満足しているわけではなく、処理が遅すぎるという意見もあることがわかっています。ただし、Hadoopが引き続き重要であることに疑いはありません。多くのデータサイエンスプロジェクトが、Hadoopを使用してデータを保存しています。なんといっても、データを一度Hadoopに保存すれば、データセットのスキーマにかかわらず質問を問いかけることができるのです。

関連プログラムにApache Sparkがあります。これは統合型のコンピューティングエンジンおよびライブラリであり、コンピュータークラスターによる並列データ処理が可能です。Apache Sparkはビッグデータのクエリを管理および実行するために使用されます。また、Python、Java、Scala、Rなど、広く使用されている複数のプログラミング言語をサポートしており、SQLおよびMLライブラリも含まれています。Hadoopのように、単一のサーバーから大規模なクラスターへと簡単に拡張できます。

TensorFlowは、AI/MLプロジェクトに取り組んでいるあらゆる人に欠かせないツールです。TensorFlowはオープンソースのMLソフトウェアスタックになりました。ツール、ライブラリ、コミュニティリソースから成るエコシステムは、深層学習などの高度な機械学習のアルゴリズムに幅広く使用されています。TensorFlowは、CPU、GPU、Tensor Processing Unit (TPU) 上で実行できます。TPUは、AIアクセラレータの特定用途向け集積回路 (ASIC) です。

このPythonに適した一連のオープンソースプログラムによって、現代のML開発が定義づけられていると言っても過言ではありません。その理由として大きいのは、TensorFlowが、経験豊富なデータサイエンティストと経験の浅いデータサイエンティストの両方が簡単にMLモデルを開発および展開できる、エンドツーエンドのプラットフォームであることです。

データサイエンスを極める

誤解しないでください。データサイエンスプログラムを極めることは簡単ではありません。主流なDSツールのエキスパートになるためには、膨大な努力と時間が必要です。とはいえ、データから抽出できる知識は、今後10年のIT主導の世界で非常に役立つはずです。

完全に個人的で、実際的な観点からの話では、データサイエンスは儲かる仕事です。企業評価サイトのGlassdoorは、データサイエンティストを2021年の米国における2番目に優れた仕事に位置付けています。そして、2015~2019年までは1位を飾っていました。ハーバード・ビジネス・レビューは、データサイエンティストが21世紀で最もセクシーな仕事だと宣言したことがあります。アメリカ合衆国労働統計局によれば、データサイエンスは最も成長の速い上位20個の職種に数えられており、次の10年で31%の成長が予測されています。

もちろん、データサイエンティストになったからといって恋愛がうまくいくとは限りません。しかし、分野自体は、それが取り扱うデータと同じくらいのスピードで成長しているのです。勢いのあるITキャリアを目指している場合、またはやりがいがあって給与の高い仕事に転職を望んでいる場合、データサイエンスがぴったりです。

リーダーへのアドバイス

  • 優れたデータサイエンスツールの多くはオープンソースで無料ですが、有料のプロプライエタリツールが役立つこともあります。
  • ビジネスが生成するデータの量は膨大で、増加し続けています。優れたツールを手に入れ、それに習熟しなければ、データを存分に活用することはできません。
  • ほとんどの企業でデータが中心的な役割を担うため、データサイエンスも組織の中核的なスキルとなります。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。