分析は仮説アプローチで・・・

最近ビックデータに関して注目すべきニュースがありました。JR東日本が、IC乗車券「Suica」の利用履歴を日立製作所に販売。今回IR東日本は、個人情報が特定されない状態、「No.0001:20歳の女性、7月7日10時10分にA駅で乗車、7月7日11時10分にB駅で下車、7月8日8時0分にC駅で乗車……」といった形のデータで販売したようですが、会員数約250万人、膨大な人が利用する「Suica」の利用履歴などは、売買されるほど価値あるデータなのです。しかし価値あるデータとするには分析アプローチ次第ですが・・・。


 ビッグデータとは何か。総務省のホームページによると、次のようなことが書かれています。「ビッグデータを事業に役立つ知見を導出するためのデータとし、ビッグデータビジネスについて、ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業と目的的に定義している例がある。ビッグデータは、どの程度のデータ規模かという量的側面だけでなく、どのようなデータから構成されるか、あるいはそのデータがどのように利用されるかという質的側面において、従来のシステムとは違いがあると考えられる」。
 

 ビックデータならずとも、日常、いろいろなデータを分析してみようと思うことがあります。データ分析をする目的は、分析によってある結果、知見を得ることです。しかしデータは分析の仕方によって活かされもしますが、ただ単に、徒労に終わることもあります。データ分析をするうえで、分析手法よりも大切なのが「思考パターン」。そしてそのなかでも特に重要なのが、"仮説"アプローチです。なぜならそれは、実現したい目的と、分析やデータなどの方法論をつなぐ大事な役割を果たすからです。『データと統計で、誰もが納得する「根拠」がつくれる!』(柏木吉基著)は、このことを教えてくれています。本を読むと、「この計画のリスクはどれだけか」、「計画の収益性はどの程度か」、「何が一番の成功要因になるのか」などの数字的な根拠が、エクセルで簡単に出せるようにな
ります。


 先日、福井県の大飯中学校でインターネットとLINEの安全な使い方についての講演をする機会がありました。学校では生徒対象に生活アンケート調査を実施しています。その中に、携帯・スマホを持っているかを聞く項目があり、この中学校では保有率は約20%程度でした。全国的には小さい保有率。福井県は中学生学力テスト成績は全国トップクラスです。もしかすると、学習時間を奪う携帯・スマホを持っていない生徒が多いことが学力テストの成績に影響しているかも知れない。これは大飯中学校のアンケートからヒントを得た仮説です。この仮説を検証するため、さっそくデータ分析をしてみました。全国都道府県別の携帯電話・スマートフォーン保有率と学力テスト成績の相関関係です。相関関数-0.43で相関があるとは言えない結果でした。当然ながら、親の教育への関与度合い、経済状況(共稼ぎ、専業主婦)、家族の状況(2世帯同居、核家族)、学校や地域の学習環境など、生徒の成績に影響を及ぼす要因は多くあります。一つの要因、携帯電話・スマートフォーン保有率だけの単回帰分析を試みる無謀さはありますが、実現したい目的と仮説を立てて分析を行うことは重要です。売買されるほどのビックデータ。目的を明確にし、仮説アプローチにもとづいた分析を行い、結果を導きだせれば、お買い得なデータになるのでしょう。ビックデータは宝の山、分析アプローチ次第で・・・。