初めて就職してIT関係の業務に従事している方なら何度も聞いたことがあると思われる「データマイニング」という言葉、周りの人の話を聞いていると自分の担当業務にも使えそうだが内容が良く分からないと思っていませんか?
多くの企業がIT関係を扱う企業マーケティングで集まったデータを利用してどうしたらもっと売り上げを伸ばすことができるのか、データマイニングにより熱心な分析等を実施しています。データマイニングの運用は多くのフィールドで役にたちますので、「データマイニングとはどのようなことをいうのか、その意味や種類、得られる知識と実践方法も解説しますので参考にしてください。
データマイニングとは
「データマイニング」は英語の「Data Mining」を日本語読みしたものです。
データマイニングの意味
マイニングは「発掘」を意味しますので「データマイニング」はデータを発掘するという意味になります。
マイニングとは「発掘」を意味する
マイニングという言葉は「発掘」を意味しますが、「金が採取できると言われる鉱山に入って金属の鉱脈を発見すること」に使われていました。金脈を発見することは極めて厳しい作業でしたので、この語句の由来から推察するとデータマイニングも大変な作業を予測していたものと思われます。
膨大なデータから有益な情報を取り出すこと
企業が活動していると、商品・顧客・販売などのマーケティングだけでなく準備段階も含めて多種多様なデータがランダムに蓄積していきます。近年はIT関係の機器も格段の進歩を遂げていますので、数年でビッグデータになる可能性もあります。蓄積された「膨大なデータから有益な情報を取り出すこと」がデータマイニングの役割ですから、まさに「発掘」と言うことができます。
データマイニングの歴史
全体の流れとしてデータマイニングの歴史を理解していると分かりやすいと思われますので触れておきます。
1989年の「KDD」が起源
1989年にKDDと呼ばれる学術研究分野「Knowledge Discovery in Databases」が設立されましたがこの組織がデータマイニングの起源と言われています。頭文字を取っていることが分かります。
当時でも大量のデータが蓄積していましたので、KDDはマイニングの技法を利用してその中から有能な情報を得ることを目指しました。
1990年代に入ると「Knowledge Discovery in Databases」の研究がスピードアップし、研究者によってデータマイニングの定義づけ、基本性能、処理手順が提案されるようになります。この当時になると計算機の性能が大幅に進歩したことがバックボーンになりました。
2000年代にIT企業が導入
2000年代に入るとIT企業がデータマイニングを導入するようになります。
一般家庭のインターネット常時接続によるネット上の情報が膨張したことやSNSの普及などがその背景にあります。増え続けるデータに呼応するように、データマイニングも極めて短期間で進歩したことが分かります。
データマイニングの種類
データマイニングの種類は「仮説検証」と「知識発見」の2つがあります。
仮説検証
「仮説検証」は、企業の場合はマーケティングなどで利用していることが多いですが、例えば、自信をもって開発した商品が半年経過しているのに売上が伸びないためその原因を探りたい時などに使われていることが多いです。
仮説をもとに検証
仮説を考える場合は、通常はデータの収集から始めますが、既に企業活動を数年していれば相当量のデータが集積されていると思いますので、その分類整理をして調査したいことを考えてから仮説を考えることができると思います。
例えば、新商品の売り上げを伸ばすために過去にどのような活動をしているのか分析して、新商品の良さが顧客に届いてといないということがわかれば「1カ月間特別キャンペーン」を実施するなどいくつかのアイディアを仮説にすることができます。
適切な手法で分析
仮説のアイディアがいくつか出たらそれを整理して順位付けすると良いでしょう。その場合、目的をしっかり押さえておく必要があります。目的がしっかりしていないと仮説が混乱して分析の途中で何をやっているのか分からなくなってしまうことがあります。
分析は「適切な手法」で実施する必要がありますので、統計解析ができる専門職員が必要になります。統計解析ができるスタッフがいないとデータ解析は難しいという難点があります。企業によっては、そのような専門家の確保は困難かもしれません。最近はデータ解析ができるソフトが市販されていますので試してみるのも選択肢の一つです。
量的変数と質的変数
データ解析をするときは「量的変数と質的変数」があることに留意する必要があります。
「量的変数」は数値データです。例えば、体重・身長・面積など数値で記録されていますので、計算に利用するときはそのまま利用できます。これに対し「質的変数」は、名前・性別・部屋の間取り・好きな色などカテゴリーで示されたもので、データ間の質が異なる変数を言います。計算に利用するには、特殊な措置をすることが要求されます。
知識発見
ここでは、仮設を立てる手法以外の方法で「知識を発見」する方法について述べます。
仮説を立てずに知識を探す
「仮説を立てずに知識を探す」方法を探索型のデータマイニングと言いますが、膨大なデータから「知識発見」するために機械学習やディープラーニングが高い頻度で利用されています。
おもに機械学習で活用
知識発見するために機械学習を活用して実施する場合は、人工知能(AI)を利用します。これによりコンピューター自体が学習して人間が想像しなかった結果を得ることもあります。また、与えたデータから自動的に新たなパターンやルール、類似性を発見したり、ある事象の相関関係を発見することもあります。
クラスタリング
知識発見の手法として「クラスタリング」が使われることもあります。クラスター(cluster)は英語で「集団」の意味があります。従ってクラスタリングは類似度に基づいてグループ分けし分析するものです。この手法は機械学習で教師がない学習の1種とされています。
マーケット・バスケット分析
「マーケット・バスケット分析」は顧客が店に来てくれた時に、できるだけ多くの商品を購入してもらうため1つの商品だけでなくその近辺にどのような商品を置くと一緒に購入してくれるのかを調査する目的で購買データを分析する手法です。「オムツを買いに来た男性はビールも買っていく傾向があることが分かりオムツのそばにビールを置いたら売り上げが伸びた」という有名なエピソードがマーケット・バスケット分析の効用を語っています。
人間が気づかないことでも機械は商品の相関関係まで分析してくれることでマーケティングに欠かせない手法になっています。
データマイニングで得られる知識
データマイニングは最終的に「知識発見」を目的に実施しますので、知識発見に至るプロセスを述べます。
データ
最高級のデータ解析ツールを持っていてもデータがなければ無用の長物になってしまいますので、出発点は当然データの存在が必要です。
整理・分類されていない数値
「データ」の定義をコトバンクで見ると「既知の事項や判断材料、研究活動においては,調査や実験により得られ、考察の材料となる客観的な結果である。一方,情報処理システムの処理対象でもある。」と定義しています。
ここでは情報処理システムの処理対象になるかと思いますが、例えば小売業ですと毎日の「商品売上げ数量」「売上高」「純利益」などが記録として残っていると思います。これらの整理・分類されていない数値が対象になります。
最も基本となるもの
これらの数値はテキストデータとして分析する原本になりますので「最も基本となるもの」で、ここでミスをすると知識発見しても正確性が疑われてしまいますので、慎重に対応する必要が求められます。
情報
テキストデータを整理・分類するとランクが1つ上がって「情報」になります。
データを整理・分類したもの
上記のデータは何も整理されていない数字のデータですから知識を発見するプロセスの中での有益性としては低いと言えます。このデータを「グループ分けする」など一定のルールに基づいて整理・分類をすると有益性が一段上がり「情報」になります。
データよりも有益
情報になると「データよりも有益性が上がります」ので知識発見が出来るようになります。
知識
知識発見に至るまでのプロセスをまとめると次のようになります。
- データ:数値だけで整理や分類がされていない
- 情報 :データを整理・分類したもの
- 知識 :情報から得られる傾向や知見
- 知恵 :知識を利用して人間が判断
情報から得られる傾向・知見
情報まで到達するといろいろなことが分かってきます。例えば、A商品とB商品を組み合わせて販売するとどちらかを単品で売るより両方とも売れ行きが上がるという結果がでればレイアウト変更をして見ようと思う可能性が出てきます。
情報よりも有益
このような結果は情報よりも有益であり、機械ができる最終段階「知識」に行き着いたと言うことができます。機械ができることはここまでになります。
知恵
知識を発見して共有し、いよいよ課題解決に向けて「知恵」を出し合うには次のようなプロセスを踏むことになります。
知識の利用
発見された知識を利用して、例えば売り上げを倍増するにはどのようなことを計画して実行すれば良いか等社内の関係者で知恵の出しあいをするなど、上層部を巻き込んで検討すると実現する可能性が高くなります。
人間による判断が必要
AIが優秀でもそれを利用するのは人間ですから、最終的には責任をもって判断する必要があります。もしデータ解析の経験があり興味を持たれたら、ぜひ、イニシアティブを取ってチャレンジしてください。
データマイニングの方法
会社を運営していると、毎日が競合他社との戦いだと思います。「とにかく○○商品の売り上げを倍加させたい」「他社が驚嘆するような商品開発をしたい」「来店者数を2倍にしたい」等々会社によって違いはあるかもしれませんが、会社運営を発展させようと頑張っておられることに違いはないと思います。その意味でデータマイニングの活用をお勧めします。
ここではおさらいを含めてデータマイニングの方法を述べます。
データの収集
データがないとマイニングができませんので目的に対応するデータの収集が出発点になります。
データが多いほど情報の価値が上がる
データは情報に転化しますので、多ければ多いほど信憑性が増し情報の価値が上がります。近年はビッグデータを利用して良い情報を得ようとして競っている傾向が見受けられます。前述しましたが「膨大なデータから有益な情報を取り出すこと」もデータマイニングの役割の1つですので、ビッグデータであれば標本数は申し分ないからだと思います。
目的に合ったデータが必要
データは多ければ多いほど結果が出た時に信用度が高くなりますが、目的に合ったデータを集めないと意味がありません。目的を最初に定めてから、それを達成するのに必要なデータを収集するべきです。データ量が少なくても目的に合致したものであれば意図する結果に反映させることができると思います。
データの加工
データの収集が完了したらほとんどの場合そのままの状態では利用できませんので加工する必要があります。加工には「データのノイズ除去」と「データの形式を統一」することがあります。
データのノイズを除去
データには必要としない無関係な情報などが入っています。これは「ノイズ」と呼ばれていますが、除去する必要があります。
データの形式を統一
データの形式には数値データや記号データがありますが、どちらか1つに統一する必要があります。
データの分析
データが準備できたらデータの分析を実施します。分析方法は以下の通りです。
クラスタリング
「クラスタリング」については上で述べましたが、マーケティングで顧客セグメント作成時に活用されている方法で、似たような行動をしている人たちをグルーピングして、グループごとに適切な施策を行うものです。
ロジスティック回帰分析
「ロジスティック回帰分析」は、「ある事象の発生率」を予測できる分析方法です。マーケティングでは、例えば顧客データを基にキャンペーンを実施した場合に購入してくれる確率を予測するなどに利用できる分析方法です。
マーケット・バスケット分析
「マーケット・バスケット分析」については上述しましたが、新たな知見を得ることができるデータマイニングの代表的な方法で、購買データの分析により一緒に購入されやすい商品を明らかにするものです。
分析結果を検証
これらの「分析結果を検証」して、自社に最も相応しい方法を実行することで良い結果が得られると思います。コロナ禍は日本の企業状況にも大きな変動をもたらしましたが、状況が悪化した企業でも冷静かつ前向きにビジネス界の周囲状況や自社分析すれば、必ず浮上策が見つかると思います。