「求められるのは、データが保存される場所と、疑問が投げ掛けられる場所の間にある何かだ。データと疑問の両方に無限性がある」と同氏は言う。
なぜ、データベース事業者にそれができないのか。「それぞれのデータベースサプライヤーは、自身のスタックを最適化することしかできない。従って、中立国である『スイス』の役割を果たすデータカタログが必要とされる」
「さらには、『Tableau』などに代表されるセルフサービスのトレンドの中で、ユーザーが(単なるITではなく)ターゲット市場でなければならない。そしてデータはそれがある場所にとどまる。このことはわれわれにとって極めて重要だ」
Alationは自らを「データのための信頼されるカタログ」と位置付け、機械学習によるデータのタグ付けを提案する。同社は組織用の単一の参照元を、その全てのデータストアに基づいて形成する。eBayやGoDaddyなどの顧客は、この技術を使ってカタログを構築した。eBayはTeradataのデータウェアハウスからデータを引き出し、GoDaddyはTableauを使っている。
AlationはeBayの元最高データ責任者ゾヘール・カル氏の言葉を引き合いに、同社のソフトウェアで対処したデータガバナンス問題について説明した。「もし不特定の人物が何らかのデータを引き出してそれを『Excel』に入力し、手を加え、『PowerPoint』に記載してあちこちに持ち出せば、データガバナンスの最大の罪になる」
Alationのデザイン担当副社長、アーロン・カーブ氏は、同社のデータカタログ製品の背景にある中核的なアイデアは「コラボレーティブフィルタリング」だと説明する。
この「データキュレーション」の原則は、別の顧客である再保険会社Munich Reの事例が参考になる。Alationによると、Munich Reの最高データ責任者ウルフガング・ホーナー氏は次のように語った。「Munich Reのデータ戦略は、新しく、より良いリスク関連サービスを顧客に提供することを目指している。その戦略の中核となるのが、統合型セルフサービスデータ分析プラットフォームだ。Alationのソーシャルカタログはそのプラットフォームの一部で、既にグループ内の600以上のユーザーがデータを簡単に発見し、知識を互いに共有する助けになっている」
データの可視化を手掛けるMapDはある意味で、2010年の「アラブの春」を発祥とする。創業者でCEOのトッド・モスタック氏は、中東を覆った革命の間、ハーバード大学で「Twitter」利用について研究しながら、ビッグデータセットを双方向的に探る同社の技術のプロトタイプを開発した。
その後同氏はマサチューセッツ工科大学のリサーチフェローに就任し、GPUデータベースの研究に専念する。GPUは並列処理アーキテクチャを使ってCPUより高速に画像を処理できる。GPUプロセッサはコンピュータゲームなど、リソース消費の大きいタスクに使われる。
MapDはこの技術を汎用(はんよう)分析、特に運用分析や地理空間およびデータサイエンスの分野に応用した。
出資者の中には米中央情報局(CIA)のベンチャーファンドIn-Q-Telや、GPUメーカーのNVIDIA、米通信大手Verizonが含まれる。顧客の中では、Volkswagenがいわゆる「ブラックボックス」AIや機械学習モデルの可視化を行っている他、米ロサンゼルスの地理空間プロパティ可視化組織Pactrigloは、このソフトウェアを使ってロサンゼルスの住宅危機に対応しているという。
「GPUは万人向けではない」とモスタック氏は言う。「コンピューティングの問題の多くはどちらかといえば逐次的で、GPUは非構造化データには向いていない。だが、何千ものコアを搭載した現代のGPUは、(構造化データを)集中的に並列化できるという点で素晴らしい。現代のハードウェアのトレンドに目を向けると、大きな効果を見通すことができる」
MapDはまた、GPU上のデータ分析利用を加速させるための共通のデータフレームワーク構築を目指すプロジェクト「GPU Open Analytics Initiative」にも参加している。
AerospikeはNoSQLデータベースのサプライヤーだ。リアルタイムで広告スペースへの入札を行うアドテック企業向けのサービス提供をルーツとし、金融サービスへの進出を深めている。同社のデータベースは、新手の詐欺パターンの発見や日計り商いの金融リスク見極め、ネットの座席予約などに利用されている。
同社は2009年に創業し、152社が同社の有料サービスを利用している。Intelとの関係も深い。同社は自らを非構造化データのスペシャリストと位置付ける。リアルタイムの取引や分析が可能で、「Couchbase」や「Cassandra」「MongoDB」といった他のNoSQLデータベースと「Hadoop」の両方の領域に対応できるという。同社のデータベースアーキテクチャは、キャッシュを取り除くことによって高速性と一貫性の両方を実現すると説明している。
Aerospike創業者でCTO(最高技術責任者)のブライアン・バルコウスキ氏によると、同社が提供するハイブリッドフラシュストレージとインメモリアーキテクチャは、サーバ設置面積の劇的な縮小につながっている。「われわれは、例えば450のCassandra(データベース)ノードを60に削減できる。CIOやCTOにとっては『コペルニクス的瞬間だ』」と同氏は言う。
「人にわれわれを信じてもらう唯一の方法は、その相手に自らコンセプトを実証してもらうことだ」
「私が最近対応した大手通信事業者のCIOは、(NoSQLデータベース用の)サーバ数千台を運用していた。われわれがそのデータベースの50ノードを入れ替えるごとに、年間35万ドル削減できる」(バルコウスキ氏)
Aerospikeの別の広報担当者は、同様の技術はGoogleやFacebookでも使われているものの、そのために同社が締め出されることはないと説明した。
GridGain Systemsの創業者でCTOのニキタ・イワノフ氏は、Aerospikeのことをよく知っていて、同様の構成に対する同社のデータベース技術のスピードは認識しているとしながらも、「Apache Ignite」をベースとしたGridGainのデータベースは、フラッシュではなく完全なインメモリであるという点で、さらに高速だと主張する。
CEOのエイブ・クラインフェルド氏は、プロセスとしてのデジタルトランスフォーメーションがインメモリコンピューティングの採用を加速させていると話す。従来のような分岐型のデータウェアハウスや運用データベースモデルでは、そうした用途向けのアジャイル性が不十分なためだ。
「GridGainはオープンソースの『SAP HANA』のような存在」だとしながらも、SAP HANAは「プロプライエタリでハイエンドで高額であることから」、新興企業やそれほどSAPの技術モデルに投資していない企業には採用されないとクラインフェルド氏は指摘する。
「SAP HANAがあれほど膨大な顧客ベースを築いているのは、(SAPがHANAを)アプリケーションに組み込んでいるからだ。顧客は非SAPアプリケーションにはHANAを使っていない。ほとんどの企業は現在、グリーンフィールドアプリケーションに関してオープンソースファーストのアプローチを採っている。この世界はプロプライエタリなSAPやOracleやMicrosoftのアプローチよりも、われわれのアプローチの方に利がある」と同氏は言う。
クラインフェルド氏は最近GridGainが獲得した顧客として、金融サービスのBarclays、Societe Generale、ING、ハイテク企業ではWorkday、Microsoft、Huaweiを挙げ、Igniteは年間約100万のダウンロードを達成し、Apacheでは5番目にコミットの多いプロジェクトになったと説明した。GridGainの有料サービスの顧客はおよそ100社に上る。
GridGainによると、早くから同社の顧客となったロシアの銀行Sperbankは、Amazon Web ServicesやAlibabaなどにも匹敵する世界最大級のインメモリデータベースクラスタを構築した。クラインフェルド氏によれば、2017年以来、同社の収益はほぼ倍増し、従業員は80%増えた。
Waterline Dataも再度の訪問だった。同社のデータカタログ技術は、推測したビジネスラベルを自動的に追加し、データの発見を支援できる機能がセールスポイントになっている。
今回、創業者でCEOのアレックス・ゴアリック氏のチームが熱心にプレゼンテーションを行ったEUの一般データ保護規則(GDPR)指向のダッシュボードは、組織内の個人情報ストアのサイロを浮かび上がらせる目的で、Waterline Dataが開発を進めてきた。
顧客からは「どうすればいいのか」と嘆く声が聞かれたが、同規則は「単純に罰金を払えばいい」という考え方を終わらせるという点で良いことだとゴアリック氏は考えているという。
同社が例に挙げた顧客のCreditsafeは、この技術を使って自動的にGDPR関連の個人データを特定してタグ付けしている。GlaxoSmithKline(GSK)は、GDPRシステムは使っていないものの、Waterline Dataの幅広い技術を使っている顧客として紹介された。
GSKでデータの調査研究を担当する最高データ責任者のマーク・ラムジー氏は、大量の科学データの系統分析にWaterline Data製品を使っていると説明した。同カタログソフトウェアは、スキーマや属性を横断しながら分散されたデータを動的に解析できる機能が、研究科学者に重宝されているという。
GSKは医薬品業界の基準に従って科学データの理論付けを行っているが、発見可能な状態とするにはそれでは不十分だとラムジー氏は言う。そこにWaterline Dataの出番がある。
「われわれは現在、データレイクのデータを増やしており、そのデータを参照するためのダッシュボードを構築している。この環境へのWaterline Dataの導入を増やすことによって、セルフサービスのチャンスが開け、科学者や研究者も仕事がやりやすくなる。データの発見はさらに容易になり、場所や系統を理解しやすくなって、直接的にアクセスして分析できるようになる。現在のわれわれは、研究者が誘導された分析を通じて何にアクセスするかを定義するプレサービス的なモードにある。これによって、
データの集合体が真に科学者のために開かれる」。ゴアリック氏はそう語った。