ブログ

ビッグデータとオープンデータの違いとは?

そもそも「データ」とは何か

データとは、発生した事象を数字や文字、画像などで表現したものです。事象をそのまま表していることから、客観的なものといえます。
その中でも、デジタルデータは、コンピュータで扱うことができるもので、コンピュータで処理可能な0と1の二進法の形式のような状態に書き換えられて保存されています。つまり、人の目に映るものが写真の画像であっても、コンピュータの中では実は数字の羅列になっています。

このように、目に見えるものと収集されているデータの形状は異なります。

ビッグデータとは

ビッグデータとは、大量のデジタルデータが集まったものです。
インターネットなどを介して集められているため、日々膨大な量のデータが蓄積されています。

生活の身近なところでは、インターネットの検索結果やログもこれに該当します。カー・ナビゲーション・システム、店舗のPOSシステムや防犯カメラなど、日常生活の様々な場面もデータとして記録されています。
また、個人が所有するスマートフォンの普及により、収集されるデータの量は飛躍的に増加しました。オンライン会議やスマートフォンで自宅の家電が操作できるなど、インターネットを介して情報をやり取りする場面もさらに増えており、日々収集されるデータも刻々と変化しています。生活する上での便利な機能の拡大、コンピュータやクラウドサーバーの処理能力の向上、人工知能などの技術革新により、今後もビッグデータはデータ量が拡大していくと考えられています。

ビッグデータは、そのデータを分析することによって、有益な情報を生み出します。
例えば、POSシステムのデータから、どのような人がどのような組み合わせて商品を購入しているかなど動向を把握し、その情報を基に新規事業の展開を考えることができます。また、生活習慣や健康の情報から、現在の社会問題を解決する糸口を掴むことも可能です。

平成29(2017)年頃から、ビッグデータの利用・活用が国を挙げて推進されていました。
令和2(2020)年の新型コロナウイルス感染症の蔓延によって、テレワークなどの今までとは異なる生活様式が広まりました。DX(デジタルトランスフォーメーション)も推進されており、ビッグデータを活用した行楽地や商業施設の人出の状況がニュースで報道されるなど、人々の生活の身近な場面でもビッグデータの利活用が拡大していることが実感できます。

ビッグデータの分類


総務省は、ビッグデータの種別に関する分類について、
①国や地方公共団体が提供する「オープンデータ」、
②企業のノウハウをデジタル化・構造化したデータ、
③企業のM2M(Machine to Machine)に関するストリーミングデータ、
④個人情報である「パーソナルデータ」に分類しています。

その中でも、国や地方公共団体が提供する「オープンデータ」は、政府や地方公共団体などが保有する人口動態をはじめとする公共的な情報のことです。
ビッグデータとして最も先行している分野です。官民データ活用推進基本法という法律に基づいて、デジタルデータとして公表するすることが強力に推進されています。

ビッグデータの特性

ビッグデータの特性は「3つのV」で表されます。
3つのVとは、多様性の「Variety(バラエティ)」、膨大なデータ量の「Volume(ボリューム)」、データ生成速度・頻度の「Velocity(ベロシティ)」のことです。
「Variety」 は、文字や数字、画像、音声といった多様な情報とファイル形式のことを指します。「Volume」は膨大なデータ量のことです。
「Velocity」はデータ生成速度・頻度のことで、リアルタイムや秒単位など、高頻度でデータを収集しているという特性があります。実際に、身近な生活の中でもそれぞれの特性を活かした分析が行われています。

例えば、インターネットの検索ワードは、世の中のブームを知るためだけでなく、インフルエンザウイルス感染症の罹患状況など、人々の健康にとって重要な情報も知ることができます。また、ビッグデータを利用したリアルタイムの天気情報や道路交通情報も提供されています。
また、災害時の避難についての詳細な情報が、地図上にわかりやすく表示され、誰でも一目で理解できるようになるなど、人々が有益な情報を簡単に入手できるようになっています。

オープンデータとは


オープンデータは、ビッグデータの説明にも書いた通り、ビッグデータの4つの分類の1つでで、国で地方公共団体などが保有するデータが誰でも使えるようにオープンデータとして公表されているものです。国民誰もがインターネット等を通じて容易に利用できるように、公表されるためのルールがいくつかあります。
例えば、データの二次利用が可能であること、デジタルデータの形式で、データを無償で利用できることです。

オープンデータについては、国や地方公共団体は可能な限り多くの公共データをオープンデータとして公開することが望ましいとされています。
一方で、公開されないデータは、官民データ法第11条に示されている通り、①個人情報を含むもの、②国や公共の安全、秩序の維持に支障を及ぼすおそれがあるもの、③法人や個人の権利利益を害するおそれがあるもの等、公開することが適当ではないものです。

また、何をオープンデータとして公開するかについては、既にWebサイトで公開しているデータを含め、利用者のニーズなどを踏まえて検討されています。現在公開されているデータでは、人口や産業などの基本的な統計情報、防災分野の各種情報、公共施設の位置やサービスなどはニーズが高い内容です。

防災に関しては、近年の災害発生状況などを踏まえて、土砂災害や台風など各種災害ごとの詳細なハザードマップや、市町村等から提供された指定緊急避難場所情報についてもオープンデータとして公開されています。

オープンデータを入手する方法として、地方公共団体が運営するWebサイトで公開されているデータを入手する方法のほか、府省が運営するWebサイト や民間団体が運営するWebサイト に掲載されたデータから入手する方法があります。
政府統計の総合窓口(e-Stat)には、各府省等が実施している統計調査の各種情報が集約されています。また、公開されているデータは、一括ダウンロードを可能とする仕組みの導入など、利用者の利便性だけでなくシステムへの負荷軽減や効率性にも配慮されています。
データの表示方法も、情報の種類に応じて、パソコンのみならずスマートフォン等の端末での利用に適した表示方法にも配慮されるなどの工夫がされています。

身近なオープンデータの例

新型コロナウイルス感染症の感染者数について、全国の都道府県別の状況を示す表やグラフが毎日更新されています。
このデータは、各地方自治体が収集し、公表したデータに基づいて作成されています。数値として公表されているものを、全国の都道府県の地図上に色分けをして表示するなど、データを加工して誰にでもわかりやすく伝える工夫がされています。

PAGE TOP