ブログ

機械学習に活用できるオープンデータ・データセットとは?入手方法や代表例、注意点も紹介

機械学習を始めようとお考えの企業や団体の担当者の方は、オープンデータを活用してみてはいかがでしょうか。誰でもダウンロードし、利用できるオープンデータがあれば、機械学習のデータセットを、より簡単に準備できます。

この記事では、機械学習に便利なオープンデータ・データセットについて解説します。入手方法やおすすめのサイト、活用時の注意点などを、わかりやすく体系的にお伝えするので参考にしてください。

オープンデータ・データセットとは?


オープンデータとは、機械で判読できる形式を持ち、ルール上、二次利用が認められているデータのことです。オープンデータは一般向けに公開されており、商用利用の場合を含め、誰でも自由にダウンロードや複製、加工などが行えます。

またデータセットとは、一定の目的や対象のために集められたデータの集合体です。データセットは、機械学習を行うための膨大なサンプルデータの役割を果たします。

以上より、「オープンデータ・データセット」とは、二次利用ができるルールで公開されたデータの集合体のことです。縮めて「オープンデータセット」と呼ばれる場合もあります。

機械学習にはデータセットが必要

機械学習では、コンピュータが膨大な情報(データセット)を自動で処理し、情報に隠されたルールやパターンを見つけ出します。そのため、機械学習を行ううえで、データセットは必要不可欠な要素です。

なお、データセットに含まれる個別のデータは、すべて一定の形式に整えられています。それゆえ、コンピュータはすべてのデータを同様に処理することができ、機械学習が円滑に進みます。この意味(データが適切に整理されているという意味)でも、データセットは機械学習に欠かせません。

機械学習に用いる3種類のデータセット

機械学習に用いるデータセットは、主に「トレーニングセット」「バリデーションセット」
「テストセット」の3種類に分類されます。以下では3種類それぞれの概要を紹介するので、参考にしてください。

1. トレーニングセット

トレーニングセットとは、コンピュータに学習をさせるために用いるデータセットのこと。機械学習における最初の工程で利用され、データの規模も一番大きいです。

コンピュータをトレーニングセットで学ばせると「学習済みモデル」を作ることができます。これから紹介する2種類のデータセットは、その学習済みモデルの精度調整や最終チェックのために用いられます。

2. バリデーションセット

バリデーションセットは、学習済みモデルの精度を調整するために用いるデータセットです。学習済みモデルにバリデーションセットを試して予測結果を出し、その予測がどれだけ当たっているかを確認します。

また予測結果をもとに、機械学習のアルゴリズムを統御する「ハイバーパラメーター」を調整します。バリデーションセットを活用した以上の作業により、予測精度の高い学習済みモデルを作ることが可能です。

3. テストセット

テストセットは、バリデーションセットを通した予測精度の高い学習済みモデルを、最終チェックするためのデータセットのこと。テストセットは、これまでに機械が学習したことのないデータで構成されており、機械の予測性能がどれだけ汎用なものかを確かめられます。

テストセットを用いた検証で、十分な結果が得られれば、そのモデルは完成となります。

機械学習にはオープンデータを活用できる【データセットの入手方法】

機械学習に用いるデータセットの入手方法は、オープンセットを活用するか、自作するかのどちらかです。自作するには一定の時間と労力が必要なので、まずは手軽に実践できるオープンデータの活用から始めてみると良いでしょう。

機械学習に便利なオープンデータの代表例・身近な例

昨今はさまざまな機関から多種多様なオープンデータが公表されており、これから機械学習を始める方には良い状況だといえます。以下では、機械学習に活用できる代表的なオープンデータを紹介するので参考にしてください。

総合的なオープンデータ・データカタログ

まずは政府や研究機関などが公開している総合的なオープンデータを紹介します。

e-stat
日本政府による統計データを公開している公的なサイト。開発者が使えるよう、一番高いランクのオープンデータを提供。

DATA GO JP
デジタル庁が手がけるオープンデータに関する情報サイト。各省庁が提供しているオープンデータを検索できる。

国立情報学研究所データリポジトリ
民間企業のデータや音声コーパス、研究者のデータなど、さまざまなデータを提供。国立のデータセット共同利用研究開発センターによる。

Data.gov(US)
アメリカ政府のオープンデータが公開されているサイト。農業や気候、エネルギーをはじめ、さまざまなトピックのデータセットを入手できる。

Harvard Dataverse
ハーバード大学の研究データを公開するリポジトリ。15万以上のデータセットを検索できる。

画像系のオープンデータ

続いて、画像に関するデータセットを公開しているサイトを紹介します。海外サイトが中心で、無料で公開されているものも多いです。

MNIST
機械学習の入門者に利用されることが多い手書き数字のオープンデータベース。60,000のトレーニングセットと10,000のテストセットを公開。

ImageNet
1400万枚以上のカラー写真を無料でダウンロードできる。語彙のデータベース「WordNet」に基づき、単語でデータを検索できるため、利便性が高い。

Deep Fashion
ファッション画像のデータセットを公開。50カテゴリー・80万以上の画像を入手できる。

Google Open Image V4
Googleが公開する900万枚の画像データセット。画像データに対し、ラベルとバウンディングボックスが注釈されている。

CIFAR-10 / CIFAR – 100
8,000万枚のカラー画像がダウンロードできる。画像はラベル付き、サイズは32×32。

動画系のオープンデータ

動画系のオープンデータ・データセットは、以下のような海外サイトで提供されています。画像データ同様、無料で利用できるものも多いです。

YouTube-8M Dataset
YouTubeで1,000回以上再生された動画を800万本集めたデータセット。研究で活用できるレベルのタグ付けがされている。

UCF101-Action Recognition Data Set
セントラルフロリダ大学がYouTubeから収集した、101個のアクションカテゴリを持つ動画のデータセット。アクションカテゴリは25のグループ、グループは4〜7のビデオに細分化。

Moments in Time Dataset
人や動物、物体、自然現象などを含む3秒間のビデオを100万件収録したデータセット。MITとIBMが共同で提供する。

20BN-JESTER DATASET V1
PCの内蔵カメラやWebカメラで撮影した、ハンドジェスチャーの動画を15万以上収集。それぞれの動画には27個のハンドジェスチャーのラベルを付与。

Atomic Visual Actions (AVA)
人の動作(歩行、ジャンプなど)に関する動画のデータセット。Googleが80種類のラベルを付けて提供する。

音声系のオープンデータ

音声系のオープンデータは、以下のようなサイトから入手することができます。海外サイトのみならず、日本のサイトもあり、日本語音声のデータセットも得られます。

The NES Music Database
397タイトル・5,278曲を収録したデータセット。自動で音楽を作成するシステムを作るのに用いられる。

AudioSet
Googleが提供する大規模な音声データベース。人間の声や動物の鳴き声、楽器の音などがダウンロードできる。

声優統計コーパス
3人の声優の音読データをダウンロードできる。日本声優統計学会が提供。

JVSコーパス(日本語多用途音声)
声優や俳優など、100人以上の声(読み上げ音声・ささやき声・裏声)を収録したオープンデータセット。東京大学情報理工学系研究科の高道慎之介助教らが作成。

音声資源コンソーシアム
音声情報処理の研究開発に利用できる、さまざまな音声データベースを公開。

テキスト系のオープンデータ

テキスト・文章系のオープンデータは、以下のようなサイトから入手するのがおすすめです。いずれも日本のサイトであり、日本語文章のデータセットを入手できます。

自然言語処理のためのリソース
自然言語処理に活用できるデータセットやツールの情報を収集、公開。京都大学 大学院情報学研究科 黒橋・褚・村脇研究所のホームページ内。

青空文庫
著作権切れ作品や著者が許諾した作品のテキストデータを公開。青空文庫の作品を形態素解析し、CSVデータを公開している「青空文庫形態素解析データ集」も有名。

SNOW T15:やさしい日本語コーパス
5万文を平易な日本語に書き換えた対訳のデータベース。書き換えは、長岡技術科学大学 自然言語処理研究室の学生5名が人手で実施。

日本語対訳データ
日英翻訳のものを中心に、日本語の対訳文からなるコーパスをリストアップ。統計的機械翻訳システムの学習に利用できる。

Twitter日本語評判分析データセット
2015〜2016年ごろに投稿された534,962件のツイートを分析し、分析結果のデータを公開。

医療系のオープンデータ

医療機関に関連するオープンデータは、以下から入手することができます。医療機器メーカーや販売会社などに利用されています。

NDBオープンデータ
厚生労働省が、各年のレセプト情報や特定健診情報を集計し、オープンデータとして公表。

FROGWELL
医療機関や病床、DPCなどのオープンデータを利用しやすいように整え、無料もしくは安価で提供する。

データセットを自作することも可能、作り方を紹介

独自にデータを集め、データセットを自作するという選択肢もあります。競合優位性のある機械学習モデルを作りやすいことが、データセットを自作するメリットです。マクロにはオープンデータを使いつつ、ミクロには自作したデータセットを用い、独自性を持たせるのも良いでしょう。

データセットの自作には、Excelを活用します。サンプルを縦、特徴量を横とし、データをわかりやすく整理しましょう。サンプルおよび特徴量には、すべて異なる名称を付けてください。なお、Excelに搭載されているセルの結合機能は、データの読み込み時にエラーの原因となるので利用すべきではありません。

またファイル形式はxlsxファイルではなく、csvファイルを選択するのがおすすめです。csvファイルは情報に無駄がないので視認性が高く、機械によるデータ解析も円滑に行えます。

オープンデータを機械学習に用いる際の注意点4つ


オープンデータを活用して機械学習を行う際には、データの選び方や使い方にいくつか注意をしなければなりません。具体的には、以下で紹介する4つのポイントに留意してください。

1. 自社の目的や課題、用途に合ったデータを選ぶ

オープンデータを探す前に、まずは自社の目的や課題、作成する機械学習モデルの用途をはっきりさせましょう。なぜ機械学習を導入するのかをはっきりさせておくことで、的確なデータセットを選ぶことができ、思った通りのモデルができやすくなります。

目的や課題、用途がぼんやりしていると、機械学習を導入しても十分な効果が得られない恐れもあるので注意してください。なお、精度の高いモデルを構築するには、特異的ではなく平均的なオープンデータ・データセットを選ぶことも大切です。

2. データの著作権に留意する

オープンデータには、著作権の対象となる著作物が含まれる場合があります。著作権のあるデータについては、クリエイティブ・コモンズ・ライセンスの表示をすることで、自由に利用できる場合が多いです。しかし、一部には例外的なケースも存在します。

利用規約を確認する、法務担当や外部の専門家に相談するなど、データの著作権に対して適切な対応ができるよう心がけましょう。

3. 必要ないデータを排除してから検証する

オープンデータは、ダウンロードしてそのまま使うのではなく、人為的な分別をしてから活用しましょう。データセットにイレギュラーなデータが含まれていると、学習済みモデルの予測精度が悪くなる恐れがあります。

よって、必要のないデータは排除してから活用するのがおすすめです。

4. 定期的にデータの更新や改善を行う

オープンデータ・データセットは、一度作成したら永久に使い続けられるものではありません。データが古くなったら、十分な意味をなさなかったり、予測精度の低下につながったりする場合もあります。

そのため、作成したら終わりではなく、定期的にデータの更新や検証・改善をする機会を設けるのがおすすめです。

まとめ

機械学習に必要なデータセットを集めるには、政府や企業、その他団体が公開しているオープンデータを活用するのがおすすめです。オープンデータを使うことで、より手軽に機械学習を始められます。

オープンデータには、無料もしくは安価で利用できるものも多いので、これを機会にぜひ探してみましょう。

CONTACT
お問い合わせ

ご相談やご依頼、病院マスタなどについてのお問い合わせはこちらのお問い合わせフォームから。

サービスなどについてのお問い合わせ 病院マスタについてのお問い合わせ

メールお問い合わせ