うずまき2017 powered by Jun-Systems

耳管開放症, SAS, 統計解析, 人工知能, プログラミングそれに思考

*

ビッグデータ分析の話

      2013/09/09

papers

大学院でビッグデータ分析の研究をしているわけですが、
世間でビッグデータの話をするとやたらウケがいいのでここにも書きます。

■そもそもビッグデータとは?
ビッグデータとは巨大なサイズのデータです。
今まではコンピュータのスペック上、分析することの難しかったサイズのデータ。
サイズでいえば、たとえば4TBとか。

これが、最近の15万とかのデスクトップPCなら、分析できるスペックまで来てしまったわけです。

ビッグデータ分析なんていうのは、実は別にそこまで目新しい話ではなく、
I○Mとかはずっと前からやってるって言いますね。
それが一般でもできるレベルになってきたから、じゃあやってみよう!っていうように
世間の流れができてきているということです。

■ビッグデータ分析で分かること
ビッグデータの分析には、(データの種類にもよりますが)基本的に統計的な手法を使用します。
これは、莫大なデータの中からある一定の「共通性」を発見することがビッグデータ分析の目標だからです。

データマイニング
小売店の販売データや電話の通話履歴、クレジットカードの利用履歴など、企業に大量に蓄積されるデータを解析し、その中に潜む項目間の相関関係やパターンなどを探し出す技術。従来は、こうした取引の「生データ」は、経理処理に必要なだけで活用されていなかったが、情報技術の向上により、潜在的な顧客ニーズが眠る「鉱山」として「採掘(mining)」されるようになった。例えば、スーパーの販売データをデータマイニングで分析することにより、「ビールを買う客は一緒に紙オムツを買うことが多い」「雨の日は肉の売上が良い」など、項目間の相関関係を見つけることができる。
データマイニングとは 【data mining】 – 意味/解説/説明/定義 : IT用語辞典より

上の説明にもあるように、共通性というのは、ある変数がある属性をとっている場合に比較的多く見られる特徴のことです。
たとえば上の例でいえば「天気」という変数が「雨」の場合には、「肉の売上が良い」という特徴が見られるなど。
雨の日にコンビニで傘の売上があがるのはおそらく当たり前ですが、それとは別に、
「発見して初めてわかった結果」であってこそデータのマイニング(発掘)だと言えます。

様々な変数を組み合わせることで、「関東地方に住んでいる、30代サラリーマンの既婚男性で子供は2人、年収が400万」という属性の人にはこういう車が人気、といったことも割り出せるかもしれません。(適当に書きました)

ここでビッグデータのメリットとなりうる点は、とにかく「母数が大きい」ということに尽きます。
というのも、上記のように細かい変数を複雑に組み合わせると、
指定によってはたとえ母数が3000件あっても、属性に該当する人の数は極端に減ってしまうからです。

■モラルとしての問題
最近ビッグデータの興隆とともに少しずつ問題となってきている、外部へのデータ提供の問題。
先日もJRのSuicaデータの外部提供が問題となりました。

ビッグデータの活用に「待った!!」がかかる!? – JR東日本がSuicaの件で謝罪 | エンタープライズ | マイナビニュース

この件はどうも思ったほど大したことない話だった割に、メディアに目をつけられて過剰に騒がれたようですけどね。

ぼくが「悪の枢軸」と呼んでいる「*ポイントカード」とかもそうですが、
こういうサービスに加入するメリットは、ひとつには「よく普及しているポイントサービスが利用できる」という点が
あるのはもちろんですが、一方で今のようなビッグデータ分析によって売上の増加を図るという点も確実にあると思います。

そして、履き違えるべきではないのが、ビッグデータ分析において要となるのは「多くのサンプル数」だということ。
あくまで多くのデータから特定したひとつの「パターン」を得ることが目的であって、個々人のデータは全く必要ないのです。
そもそも分析の段階で個人が特定できない形にデータが再構成されている場合もあります。

分析の時点で頑張れば個人を特定できるかもしれませんが、それははっきり言ってビッグデータに限った問題ではありません。
お客様アンケートにしたってその他色々な調査にしたって、内部の人間が特定しようとすれば特定できるかもしれません。

ここでいうモラルというのは、「データの流出を防ぐ」という点です。
例として、最近はウィルスやクラックによるデータ流出がとにかく多い。
分析者や社内の人間がいくら個人データに興味がなくても、逆に世の中にはその唯一無二の個人データを欲しがる人間もいます。
データ分析を行う人間が身につけるべきは、そのようなデータ流出を起こさないための知識なのです。
いくら素晴らしいパターンが発見できても、データ流出で顧客が離れては意味がありません。

■個人的な興味
最後に最近のビッグデータに関する個人的な興味の話をします。
ぼくは最近はビッグデータとマーケティングを組み合わせてウェブ広告関連の研究をしていますが、
この手法にはもっと可能性を感じています。

特に最近は犯罪抑止のために何か使えないかなーと思っています。

オレオレ詐欺、振り込め詐欺など
被害にあった人々のデータを蓄積して分析することで、従来よりも詳細に「被害に合う人」の属性を割り出す。
それを利用してより適切な犯罪抑止キャンペーンを展開。
今までのポスター張り出しでは、ターゲットの絞り込みが甘く、アプローチとしても弱い。
そのため、分析を通じてより細かいセグメントを設定し、彼らに最適と思われる方法でアプローチを展開。

とかね。
まあデータ持ってないからできないんだけど。

研究者もいいけどぼくは就職したいなあ。
誰か雇ってください。よろしくお願いします。


 - ウェブマーケティング, ビッグデータ

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

  関連記事

no image
2014年IT関連まとめ
クラウドストレージ入門 – Amazon Driveを例に –
no image
SASのPROC HTTPでe-statのAPIを叩く(叩くだけ)
no image
ビッグデータと情報売買
no image
データ分析の重要性とオープンデータ活用の潮流
no image
ITの未来について考えてみた