ビッグデータとオープンデータの違いとは?
目次
巨大なデータ群を指すビッグデータと、二次利用が可能で公開されているオープンデータ。それぞれの違いを明確に説明できる方は少ないのではないでしょうか?
民間企業が扱うデータがビッグデータで、行政機関が扱うデータがオープンデータというイメージを持たれがちですが、厳密には異なります。基本的に、オープンデータはビッグデータの一種です。主に国や市区町村が収集・公開しているデータで、高い信頼性と豊富なサンプル数が特徴です。
本記事では、ビッグデータとオープンデータの違いについて解説します。身近にあるオープンデータの具体例も掲載していますので、ビジネスに生かしたいと考えている方は、ぜひ参考にしてみてください。
ビッグデータとオープンデータの違いとは
インターネットやスマートフォンの普及に合わせて、データ量は増大しました。コンピューターの性能も向上したことで、より多くのデータを高速で処理することが可能になっています。そこで、注目を集めるようになったのが、ビッグデータとオープンデータです。
ビッグデータはデータ量や種類に焦点が当たっているのに対し、オープンデータは国民が誰でも利用できるように公開されているという点に焦点が当たっています。それぞれの言葉の定義を理解した上で、違いについて詳しく見ていきましょう。
ビッグデータとは
ビッグデータとは、膨大な容量と種類を持ち、生成速度・頻度が高いデータ群を指します。ビッグデータは、インターネットが普及し、IT技術が進展したからこそ生まれました。
生活の身近なところでは、スマートフォンに記録された位置情報や行動履歴、インターネットを介した購買情報といった膨大なデータも、ビッグデータに該当します。
また、個人が所有するスマートフォンの普及により、収集されるデータの量は飛躍的に増加しました。オンライン会議やスマートフォンで自宅の家電が操作できるなど、インターネットを介して情報をやり取りする場面もさらに増えています。
この先も、コンピューターやクラウドサーバーの処理能力の向上、人工知能などの技術革新により、ビッグデータのデータ量は急激に拡大していくでしょう。
オープンデータとは
オープンデータとは、国や地方公共団体、事業者が保有する公共情報について、誰でも使えるように公開されているデータです。 国民誰もがインターネット等を通じて容易に利用できるように、オープンデータには以下のルールが定められています。
- データの二次利用が可能であること
- 機械判読に適したデータ形式であること
- データを無償で利用できること
官民データ法第11条によって、国や地方公共団体は可能な限り多くの公共データをオープンデータとして公開することが望ましいとされています。一方で、以下に示すようなデータは公開することが適切ではありません。
- 個人情報を含むもの
- 国や公共の安全、秩序の維持に支障を及ぼすおそれがあるもの
- 法人や個人の権利利益を害するおそれがあるもの等
オープンデータは、2012年に政府が発表した「電子行政オープンデータ戦略」によって、国と地方公共団体で取り組みが始まりました。現時点ではオープンデータの大半が、行政機関が公開しているものですが、民間企業が公開している地下鉄の遅延情報や電力需給データなどもオープンデータに含まれます。
ビッグデータとオープンデータの関係性
オープンデータは公開されている公共情報を指すため、そのデータが膨大な容量と種類を持ち、尚且つ生成速度・頻度が高ければ、ビッグデータとも呼べるでしょう。両者の関係を図で表すと以下のようになります(図1)。
図1:ビッグデータとオープンデータの関係性
国や地方自治体、民間企業が所有するビッグデータであっても、公開されていなければオープンデータではありません。同様に、誰でも二次利用できるように公開されていたとしても、そのデータ量が少なければ、ビッグデータとはいえません。
ただし、ビッグデータの定義として厳密なデータ量やデータの種類が決められているわけではないので、ビッグデータかどうかの判断は人によって様々でしょう。
総務省はビッグデータとオープンデータの考え方の一例として、ビッグデータを以下の4つに分類し、オープンデータをその一部に位置づけています。
- 政府(国や地方公共団体)が提供する「オープンデータ」
- 企業がノウハウをデジタル化・構造化したデータ
- 企業のM2M(Machine to Machine)から吐き出されるストリーミングデータ
- 個人の属性に係る「パーソナルデータ」
身近な医療系オープンデータの例 10選
二次利用が可能な利用ルールで公開されているオープンデータは、企業や個人で活用するのに最適です。現在のオープンデータは、公共機関が公開しているものが多く、国民全体から収集した膨大なデータ量を持ち合わせているため、ビッグデータとも言えるでしょう。
ここでは、国民の健康・医療に関する情報が集計された、膨大なデータ量を誇る医療系オープンデータを紹介します。全て、厚生労働省のホームページから無料で入手することが可能です。
患者調査
医療機関を受診した患者データが集計されたオープンデータです。在宅医療や傷病分類別の推計患者数や性・年齢階級別、都道府県別の受療率などを把握できます。
病床機能報告
医療機関が担っている医療機能に関するオープンデータです。病床機能報告制度に基づいて医療機関から厚生労働省に報告された、病棟の設備や人員配置などが把握できます。
NDBオープンデータ
電子化されたレセプト情報や特定健診・特定保健指導情報が集計されたオープンデータです。数多くある医療オープンデータの中でも、最も規模と網羅性に長けています。
DPCデータ
DPC制度参加病院の中で、DPC方式で算定した患者情報が集計されたオープンデータです。入院患者の入院時から退院時の状態や使用された薬剤、点数などが把握できます。
医療施設調査
医療機関の分布や整備の実態が集計されたオープンデータです。病院・診療所・歯科診療所の施設数や病床数、処方の状況などが把握できます。
無医地区等調査
全国にある無医地区等の実態や医療確保状況の実態が集計されたオープンデータです。都道府県別地区数や無医地区人口の年次推移が把握できます。
病院報告
全国の病院と療養病床を有する診療所の患者の利用状況が集計されたオープンデータです。1日の平均在院・新入院・退院患者数や、年単位の病床利用率・平均在院日数などが把握できます。
退院患者調査
診断群分類の妥当性や診療内容の変化等を評価するために、DPC包括払いの対象となる病棟等の退院患者に関する情報が集計されたオープンデータです。在院日数の状況や退院時転帰の状況、再入院の状況、入院経路及び退院先の状況などが把握できます。
国民健康・栄養調査
国民の健康増進を図るために、国民の身体の状況や栄養摂取状況、生活習慣の状況が集計されたオープンデータです。栄養・食生活に関する状況や身体活動・運動及び睡眠に関する状況、飲酒・喫煙に関する状況などが把握できます。
医師・歯科医師・薬剤師調査
全国で従事している医師・歯科医師・薬剤師の性別や年齢、業務の種別、従事場所、診療科名等による分布が集計されたオープンデータです。各項目別の医師数・歯科医師数・薬剤師数がグラフや表で可視化されています。
オープンデータを活用する際の注意点
オープンデータを企業や病院の経営戦略に活用するためには、まず最初にデータを加工・編集しなければなりません。オープンデータは種類が異なれば、ファイル形式やフォーマットが異なります。ダウンロード自体は無料ですが、分析の準備にコストがかかるでしょう。
ダウンロードしたオープンデータを加工・編集する方法は、以下の2通りです。
- データ抽出ツールやデータ分析ツールを導入する
- 既に加工・編集済みのデータを外部から入手する
ツールを導入する方法は、ツール本体の費用だけでなく、運用するための人的コストがかかります。導入初期は、ツールの使用方法を習得するための研修費用も必要です。一方、外部から加工・編集済みのデータを入手する方法は、データ自体の費用しかかかりません。
医療オープンデータの活用事例2選
無料で二次利用できる医療オープンデータは、企業の新たなサービス開発にも活用されています。企業における医療オープンデータの活用事例は、以下のとおりです。
活用事例1|病院情報局「退院患者調査」
病院情報局は、全国の急性期病院の診療実績を比較できる病院情報サイトです。厚生労働省が公開するオープンデータ「退院患者調査」を集計し、各病院の実績や特徴を「見える化」しています。疾患別や診断分類別に患者数がランキング形式で集計されているのも特徴です。
活用事例2|ランジェMAP「病床機能報告」等
ランジェMAPは、医療系のオープンデータを独自設計のBIシステムにより、マップ上に可視化するサービスです。病床機能報告やDPC公開データ、厚生局届出情報、退院患者報告など数多くのオープンデータが使用されています。市場分析や経営環境分析に最適です。
まとめ
ビッグデータは、膨大な容量と種類を持ち、生成速度・頻度が高いデータのことです。一方のオープンデータは、公共情報が二次利用できるように無料で公開されたデータを指します。
オープンデータは主に国や地方公共団体が提供しているため、国民から収集された膨大なデータすなわちビッグデータである場合がほとんどです。これからデータの活用を検討している方は、ぜひオープンデータを入手してみてください。
<医療系オープンデータ>
弊社では、医療系オープンデータとして
・医療機関マスタ(医科、歯科、薬局)
・DPCデータ
・病床機能報告データ
をご用意しております。
【医療機関マスタ】
厚労省のオープンデータ「コード内容別医療機関一覧表」をもとに作成した医療機関マスタをご提供しています。ご興味のお持ちの方は、お気軽に下記フォームよりお問合せ下さい。
>>無料版の詳細はこちら!
無料版は医療機関(病院・クリニック等)、医薬・医療機器のメーカー・販売会社の方限定です。
>>有料版の詳細はこちら
有料版は、二次医療圏や経営体情報、緯度経度など詳細情報を付与したデータです。カスタマイズも可能です。
【DPCデータ提供サービス】
>>詳しくはこちら
【病床機能報告データ提供サービス】
>>詳しくはこちら
<無料オンラインセミナー開催中!>
弊社ではSalesforceやBIツール、MA、オープンデータなどの活用方法に関する無料オンラインセミナーを実施しています!
>>セミナー一覧はこちら