ビッグデータとは名前の通りに単にデータ量が多いだけではありません、さまざまな種類・形式が含まれる非構造化データ・非定型的データの事で、さらに日々膨大に生成・記録される時系列性・リアルタイム性のあるものを指すことが多いそうです。
ビッグデータを取り巻く課題の範囲は、情報の収集・取捨選択・保管・検索・共有・転送・解析・可視化等多岐にわたります。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見・疾病予防・犯罪防止・リアルタイムの道路交通状況判断」に繋がる可能性があります。
1.ビッグデータとは何か
言葉からもビッグデータとは大量のデータではないかと想像はつくかと思いますがビッグデータに明確な定義はないそうです。よく言われている説明では、「ビッグデータとは単純にデータ量が多いだけでなく、色々な種類・形式が含まれるデータであり、さらに日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多く、今までは管理しきれないために見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを生み出したりする可能性が高まる」と言われています。
アメリカ大手のIT調査会社ではビックデータの特徴として、3つの”V”と呼ばれる要素を挙げています。
その3つのVとは、Volume(容量)・Velocity(速度)・Variety(多様性)です。
・Volume(容量):ビッグデータは、非常に大量のデータを扱います。例えば、社交メディアの投稿・デバイスのログ・センサーデータ・ウェブサイトのトラフィックデータ・ビデオや音声のストリーミング・オンライン販売などがあります。
Velocity(速度):ビッグデータは、非常に高速で変化するデータを扱います。例えば、リアルタイムでのツイート・センサーデータのストリーム・オンライントランザクションなどがあります。
Variety(多様性):ビッグデータは、様々な形式のデータを扱います。例えば、テキスト・画像・音声・動画・グラフ・地理空間データ・時系列データなどがあります。
ビッグデータは、データ分析とマシンラーニングの発展とともに、ますます重要になっています。ビッグデータ分析は、企業や組織がデータから価値を引き出し、ビジネス上の意思決定を行うのに役立ちます。
また、ビッグデータ分析は、医療・科学・社会調査・気象予報・環境モニタリングなどの様々な分野でも使用されています。
ビッグデータは、データの信頼性・プライバシー・セキュリティ・法規制上の問題も引き起こします。ビッグデータの取り扱いには、適切な法的および倫理的枠組みが必要と言われています。
このような事から、ビッグデータは多様な種類が存在し、形式も統一的でないために使いづらく、今までは利用しきれておりませんでした。しかしながら多くの要素を含んでおり、活用出来れば、新たな仕組みやシステム・ビジネスチャンスを広げる可能性が高いものになります。
2.ビッグデータの種類
ビックデータには多様な種類が存在します、種類については総務省が「平成29年版 情報通信白書」で、大きく4つに分類しています。
1)政府:国や地方公共団体が提供する「オープンデータ」
「オープンデータ」は、ビッグデータとして先行している分野であり、後述する『官民データ活用推進基本法』を踏まえ、政府や地方公共団体などが保有する公共情報について、データとしてオープン化を強力に推進することとされているものである。
2)企業:暗黙知(ノウハウ)をデジタル化・構造化したデータ(「知のデジタル化」と呼ぶ)
「知のデジタル化」とは、農業やインフラ管理からビジネス等に至る産業や企業が持ちうるパーソナルデータ
以外のデータとして捉えられる。今後、多様な分野・産業、あるいは身の回りに存在する人間のあらゆる知に迫る、様々なノウハウや蓄積がデジタル化されることが想定される。
3)企業:M2M(Machine to Machine)から吐き出されるストリーミングデータ(「M2Mデータ」と呼ぶ)
M2Mデータは、例えば工場等の生産現場におけるIoT機器から収集されるデータ、橋梁に設置されたIoT機器からのセンシングデータ(歪み、振動、通行車両の形式・重量など)等が挙げられる。この「M2Mデータ」
と2)の「知のデジタル化」の2つについては、情報の生成及び利用の観点から、主として産業データとして位置付けられる。よって、本章では「知のデジタル化」及び「M2Mデータ」をあわせて「産業データ」と呼ぶ。今後、特にこうした産業データに係る領域においては、我が国の競争力を発揮でき、産業力の強化が期待されるところである。
4)個人:個人の属性に係る「パーソナルデータ」
「パーソナルデータ」は、個人の属性情報、移動・行動・購買履歴、ウェアラブル機器から収集された個人情報を含む。また、『改正個人情報保護法』においてビッグデータの適正な利活用に資する環境整備の第2章ビッグデータ利活用元年の到来広がるデータ流通・利活用第1 節平成29 年版 情報通信白書 第1部53ために「匿名加工情報」の制度が設けられたことを踏まえ、特定の個人を識別できないように加工された人流情報、商品情報等も含まれる。
その為、本章では、「個人情報」とは法律で明確に定義されている情報を指し、「パーソナルデータ」とは、個人情報に加え、個人情報との境界が曖昧なものを含む、個人と関係性が見出される広範囲の情報を指すものとする。
(*)総務省 平成29年情報白書より
3.ビッグデータを活用する方法
日々蓄積される膨大な量のデータを我々の企業活動やあるいは自治体が提供するサービスの向上に活用するにはどのような使い方をすればよいのでしょうか。
・データの収集・蓄積
データを効果的に使ってマーケティング戦略を練る場合に経営判断を的確かつ迅速に行うために、論拠となるデータ分析結果が必要です。 分析をするためには、十分な量のデータがなくてはなりません。その為、顧客情報・SNS・IoT機器など、さまざまな方法でデータを集め蓄積します。
・データのクレンジング、可視化
収集し蓄積されたデータはすべて正しい情報でだとは限りません。例えば、同じことを表現していても異なった単語が使われていることもあれば、誤記・間違った認識(誤認)・デマが含まれていることもあります。そうした多様で品質が一定しない膨大なデータを、一定の基準でふるいにかけて最適化する必要が出てきます。こうした作業をデータのクレンジングというそうです。
また、ただの数値の羅列にすぎないデータを、例えばグラフやチャート・画像などに変換してデータ内に含まれている情報を表示させることによって、数値の羅列に隠されていた現象の関係性などがわかるようになります。この事をデータの可視化といいます。
数値でしかないデータをクレンジングして可視化することで、目的に適した使い方ができるデータになります。
・データの分析・解析
クレンジングして可視化したデータで、顧客の行動を促すための戦略を練る際に、行動履歴と顧客の属性の関連性を分析し、どのような場合に顧客が購買行動を起こすのかといった行動予想を行ったり、さまざまな分析・解析、予想を立てられます。具体的な分析、解析、予想を基にすることで、実施すべき戦略が見えてくる様になります。