【テクリテ連載】ビッグデータの活用【第六回】
テクリテ連載第六回です。
お題は「ビッグデータの活用」です。
まずはテクリテ連載についてご一読ください。
ビッグデータもトレンドワードですよね。今回は技術的な面が強いかもしれません。まず、「ビッグデータとは?」と言う話です。
ビッグデータ(英: big data)とは、一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。
らしいです。なんのこっちゃ、と言う感じでしょうか。 よくあるRDBで管理される構造化データでも、膨大な大きさならビッグデータとなるでしょうが、ここでは雑に非構造化データ=ビッグデータ、として話していきたいと思います。 非構造化データとはRDBで管理できないデータです。
※RDB=リレーショナルデータベース。OracleDBやMySQLなどの一般的な…DBです。一般って何?ってNoSQLももう一般的だよ?ってのはナシでお願いします(;´Д`)
画像、動画、音声、位置情報、ゲノミクスなどなど…またまた雑に表現すると「ファイル」で保存しているようなデータでしょうか。かなり雑ですけどね。
※テキストはRDBで管理されるけど、ファイルでも 保存されてるだろ!って言われると…うーん…
従来は画像、動画、音声データなどの、大きいファイルは解析が困難でした。構造化されていないのでRDBでは扱えず、ファイル自体のサイズも大きいので、蓄積、転送、処理に時間がかかりました。
しかしデータベースの進化やHWの進化により、数百ペタバイトのデータが活用されようとしています。この数百ペタは1システムではなく、業界で、ですね。
※100PB=100,000TB=100,000,000GB
この非構造化データは2年たびに、約2倍になると言われています。 ムーアの法則でも似たようなことを言いましたが、4年で4倍、6年で8倍、10年で32倍になるのですかね。32倍になったら数千PBと言う膨大なデータ量です。
まぁ、データ量の話は置いておいて…このビッグデータを活用すると何が起きるか?
ズバリ今まで出来なかったことができるようになります。普通かよ!って思っちゃいそうですが、まぁコレはよく考えればすごいことです。
AIとの組み合わせで活用されることが多いですね。音声解析を解析して音声入力の精度を高めたり、AmazonAlexaのようなAIスピーカーに活用したり、医療画像と診断結果を組み合わせて自動診断したり、センサー情報や機械制御を組み合わせて自動運転させたり。元々食品の遺物混入チェックも画像パターンで判別させたりできていたので、AIはもうちょっと判定要件が異なったりもしますが…それは次回で。
こんな感じで「ファイル」として扱われるデータたちは、SNSに投稿される画像や動画、検索エンジンの検索結果、動画投稿サイトの動画、スマートスピーカーの入力音声、ECサイトの購入履歴や閲覧履歴、ブラウザのクッキー、スマホやアクティビティトラッカーの位置情報などなど…
人々がネット上で活動した分だけ蓄積されていきます。もちろんそれとは別に医療・研究機関でも生成されます。これらの日々激増していくデータが新たな技術を生み、新たなビジネスを創出し、金になっていくわけですね。ビッグデータの解析は、SaaSやAIとはとにかく密接です。
ちょっと内容が薄い記事でしたが、ビッグデータは人々や企業の行動・課題などの解析にも使えるので前日の「SaaS」の開発には欠かせないものであり、Googleなどの「広告事業」にも欠かせないものであり、明日以降投稿予定の「AI」に繋がるものでもあります。ふんわりとしたビッグデータのイメージが少しでも形を成していただければ幸いです。
記事中で疑問、質問、異論、反論あれば歓迎です。コメントでもツイッターでもどぞどぞです。
それでは今日はこの辺で。
明日は大吉☆(。>ω<)b
応援ありがとうございます。
励みになります!╭( ・ㅂ・)و