テキストマイニングとは?Power BIでワードクラウドを表現する方法!
Power BIのテキストマイニングとは
テキストマイニングとはテキスト分析またはテキストデータマイニングとも呼ばれ、大量の非構造化または半構造化テキストデータを分析し、有用な情報、パターン、および洞察を抽出するプロセスを指します。このプロセスでは、自然言語処理(NLP)、機械学習、統計、情報検索などのさまざまな技術を駆使して、テキストから洞察を得ます。
ソーシャルメディア、ニュース記事、顧客からのフィードバックなど、非構造化データの量が増え続ける中、テキストマイニングの重要性はますます高まっています。テキストマイニングは、感情分析、トピックモデリング、エンティティ認識、要約など、さまざまなタスクに適用することができます。
Power BIのテキストマイニングの種類
テキストマイニングの技術は、テキストデータの性質や抽出したい特定の洞察や情報に応じて、いくつかのタイプがあります。ここでは、一般的なテキストマイニングの種類をいくつか紹介します。
センチメント分析:自然言語処理と機械学習技術を使用してテキストデータを分析し、テキストに表現された感情を判断します。これは、顧客からのフィードバック、ソーシャルメディア上の感情、特定のトピックに関する世論を理解するのに役立ちます。
テキスト分類: テキスト分類では、機械学習アルゴリズムを使用して、テキストデータをあらかじめ定義されたカテゴリやクラスに分類します。
エンティティ認識: 自然言語処理技術を使用して、テキストデータセットに記載されている人物、組織、場所などのエンティティを識別し分類することで、ニュース記事、ソーシャルメディアへの投稿、法律文書などの分析に有効です。
トピックモデリング: トピックモデリングは、機械学習アルゴリズムを使用して、テキストデータセットに存在するトピックやテーマを特定します。ニュース記事や研究論文など、大規模なテキストデータセットで議論されている主要なテーマを理解するのに役立ちます。
テキスト要約: 自然言語処理技術を用いて、大規模なテキストデータセットの要約を自動的に生成します。長い記事や文書の要点を素早く理解するのに便利です。
固有表現認識(Named Entity Recognition):エンティティ認識の一種で、人、組織、場所など、特定のタイプの名前付きエンティティを識別し分類することです。NERは、テキストの分類、推薦システム、検索エンジンに使用されています。
Power BIで出来るテキストマイニング
Power BIでのテキストマイニングは、ワードクラウド機能、カスタム関数などを使用します。
Power BIできるテキストマイニングの一つとして、ワードクラウドがあります。ワードクラウドはPower BI内のテキストデータに対してセンチメント分析、キーフレーズ抽出、言語検出を実行することができます。
他にはPower Query エディターでカスタム関数を作成し、テキストデータに対してさまざまなテキストマイニングを行うことができます。
また、サードパーティーのプラグインを使用して、Power BIでテキストマイニングを実行することもできます。
一例ですが、Azure Cognitive Services プラグインでは、Azure Cognitive Services API を使用して、テキストデータに対してセンチメント分析、キーフレーズ抽出、エンティティ認識をすることができます。
Power BIでのテキストマイニングの手順
Power BIでテキストマイニングを実行する手順は以下の通りです。
テキストデータのインポート>>データの前処理>>テキストマイニングでの分析>>可視化
- データ取得オプションを使用して、テキストデータをPower BIにインポートします。
- Power Queryまたはその他のデータ変換ツールを使用して、テキストデータをクリーニングし、前処理を行います。
- テキスト分析機能、カスタム関数、またはサードパーティのプラグインを使用して、センチメント分析、トピックモデリング、またはエンティティ認識などのテキストマイニング技法で分析をします。
- チャート、テーブル、ダッシュボードなどのPower BIのビジュアルを使用して、テキストマイニングの分析結果を可視化していきます。
PowerBIでワードクラウドを表現する方法
↓PowerBIでワードクラウドを表現した場合、以下のようなイメージになります。インプットした文章から視覚的にワードが抽出されています。
Power BIではグラフや地図、表やマトリクスなどさまざまなビジュアルが準備されています。Power BIでワードクラウドを表現する場合も同様、ワードクラウド専用のビジュアルを使用します。
ワードクラウドのビジュアルを取得
ワードクラウドのビジュアルはデフォルトで組み込まれていません。
↓“その他ビジュアルの取得”(赤枠→クリック)からワードクラウドのビジュアルを取得します。
↓検索ボックスで”word cloud”を検索すると、ワードクラウドのビジュアルが表示されるので、取得してください。
↓ワードクラウドを取得すると、以下の赤枠部にワードクラウドのビジュアルが追加されます。
ワードクラウドを表現してみましょう
Power BIでテキストマイニングを行うには以下の手順が必要です。
前処理:テキストデータを収集し、ノイズを除去し、テキストを標準化し、分析に適した形式に変換するための前処理を行う必要があります。
テキストマイニング技術の適用:様々なテキストマイニング技術を前処理されたデータに適用し、有用な情報を抽出し、洞察を得ることができます。
可視化:テキストマイニングの分析結果を視覚化し、理解しやすく解釈しやすい形で提示します。
今回は前処理されたPower BI のサンプルレポートを使用して、ワードクラウドを表現します。使用するサンプルはPowerBIのサンプル”人口知能(AI)サンプル“です。
↓Power BI Onlineより取得可能です。
↓使用するテーブルは“Opportunities”、カラム(列)は“Topic”です。
“Topic”列は以下の通り、簡単な文章になっています。
“Compatible fault-tolerant Design app productivity.”
今回は”Topic”列をワードクラウドで表現し、頻出するワードを視覚的に分析しましょう。
↓「ワードクラウド」視覚化を選択します。
↓テーブル“Opportunities”、カラム(列)”Topics”をワードクラウドの視覚化の「カテゴリ」セクションにドラッグ&ドロップします。
オプションで、フォント、色、その他の視覚的なプロパティを変更して、ワードクラウドをカスタマイズすることができます。
これで、提供されたテキストデータに基づいて単語帳が生成され、頻度の高い単語が大きく表示されるようになります。
↓ここで、“Topic”列のデータを見てみると、ほとんどの行データに”Design app”のワードが入っています。分析上、都合が悪いと判断したとしましょう。
↓“Design app”をワードクラウドから除外し、他のワードで分析ができるようにしましょう。
ワードクラウドのビジュアルの書式設定からストップワードを選択し、単語欄に”Design app“と入力すると、ワードクラウドから”Design app”が除外され、以下のようにワードクラウドが表現できるようになります。
以上がPower BIでワードクラウドを表現する方法です。今回はワードクラウドのビジュアルを使用してワードクラウドを表現しました。テキストの文章から視覚的に注目すべきワードの抽出ができました。
Power BIのテキストマイニング|まとめ
- Power BIで利用できるさまざまなツールやテクニックを使用することで、テキストマイニングが簡単にでき、データドリブンな意思決定ができるビジュアルを作成することができます。
- Power BIでワードクラウドを表現する方法はビジュアルの“ワードクラウド”を使用します。分析したい文章がインプットされたカラム(列)をワードクラウドにドラッグ&ドロップするだけで簡単にワードクラウドを表現することができます。
<Power BIハンズオンセミナー>
弊社ではPower BIをはじめとするさまざまな無料オンラインセミナーを実施しています!
>>セミナー一覧はこちら
<Power BIの導入支援>
弊社ではPower BIの導入支援を行っています。ぜひお気軽にお問い合わせください。
>>Power BIの導入支援の詳細はこちら
<PowerBIの入門書を発売中!>
弊社ではPower BIの導入から基本的な使い方・活用方法の基礎などをわかりやすく解説した書籍も販売しています。
>>目次も公開中!書籍の詳細はこちら