【テクリテ連載】ビッグデータの活用【第六回】

f:id:guillemet0u0:20190525195927j:plain

テクリテ連載第六回です。

お題は「ビッグデータの活用」です。

まずはテクリテ連載についてご一読ください。

guillemet0u0.hateblo.jp

ビッグデータもトレンドワードですよね。今回は技術的な面が強いかもしれません。まず、「ビッグデータとは？」と言う話です。

ビッグデータ（英: big data）とは、一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。

ビッグデータ - Wikipedia

らしいです。なんのこっちゃ、と言う感じでしょうか。よくあるRDBで管理される構造化データでも、膨大な大きさならビッグデータとなるでしょうが、ここでは雑に非構造化データ＝ビッグデータ、として話していきたいと思います。非構造化データとはRDBで管理できないデータです。

※RDB=リレーショナルデータベース。OracleDBやMySQLなどの一般的な…DBです。一般って何？ってNoSQLももう一般的だよ？ってのはナシでお願いします(;´Д｀)

画像、動画、音声、位置情報、ゲノミクスなどなど…またまた雑に表現すると「ファイル」で保存しているようなデータでしょうか。かなり雑ですけどね。

※テキストはRDBで管理されるけど、ファイルでも　保存されてるだろ！って言われると…うーん…

従来は画像、動画、音声データなどの、大きいファイルは解析が困難でした。構造化されていないのでRDBでは扱えず、ファイル自体のサイズも大きいので、蓄積、転送、処理に時間がかかりました。

しかしデータベースの進化やHWの進化により、数百ペタバイトのデータが活用されようとしています。この数百ペタは1システムではなく、業界で、ですね。

※100PB=100,000TB=100,000,000GB

この非構造化データは2年たびに、約2倍になると言われています。 ムーアの法則でも似たようなことを言いましたが、4年で4倍、6年で8倍、10年で32倍になるのですかね。32倍になったら数千PBと言う膨大なデータ量です。

まぁ、データ量の話は置いておいて…このビッグデータを活用すると何が起きるか？

ズバリ今まで出来なかったことができるようになります。普通かよ！って思っちゃいそうですが、まぁコレはよく考えればすごいことです。

AIとの組み合わせで活用されることが多いですね。音声解析を解析して音声入力の精度を高めたり、AmazonAlexaのようなAIスピーカーに活用したり、医療画像と診断結果を組み合わせて自動診断したり、センサー情報や機械制御を組み合わせて自動運転させたり。元々食品の遺物混入チェックも画像パターンで判別させたりできていたので、AIはもうちょっと判定要件が異なったりもしますが…それは次回で。

こんな感じで「ファイル」として扱われるデータたちは、SNSに投稿される画像や動画、検索エンジンの検索結果、動画投稿サイトの動画、スマートスピーカーの入力音声、ECサイトの購入履歴や閲覧履歴、ブラウザのクッキー、スマホやアクティビティトラッカーの位置情報などなど…

人々がネット上で活動した分だけ蓄積されていきます。もちろんそれとは別に医療・研究機関でも生成されます。これらの日々激増していくデータが新たな技術を生み、新たなビジネスを創出し、金になっていくわけですね。ビッグデータの解析は、SaaSやAIとはとにかく密接です。

ちょっと内容が薄い記事でしたが、ビッグデータは人々や企業の行動・課題などの解析にも使えるので前日の「SaaS」の開発には欠かせないものであり、Googleなどの「広告事業」にも欠かせないものであり、明日以降投稿予定の「AI」に繋がるものでもあります。ふんわりとしたビッグデータのイメージが少しでも形を成していただければ幸いです。

記事中で疑問、質問、異論、反論あれば歓迎です。コメントでもツイッターでもどぞどぞです。

それでは今日はこの辺で。

明日は大吉☆(｡>ω<)b

応援ありがとうございます。
励みになります！╭( ･ㅂ･)و