アンケートなんて、やっちゃえばいいんだよっていう話。(標本調査の理論と実践)【やさしい統計学13】
ビジネスパーソンのためのやさしい統計「第13回目」
※YouTubeにて各シリーズ連載中
中川先生のやさしいビジネス研究。ビジネスパーソンのための優しい等計学第13回目となります。今回は、アンケートの根拠理論となる標本論というテーマに関する回なのですが、要するに「アンケートなんてやっちゃえばいいんだ!」っていう話をしていきたいと思います。
いろいろなシーンで使用されるアンケート
皆さん、いろいろなシーンでアンケートやってデータを取りたいな、って思ったことあると思うんです。でも「アンケートって難しいんでしょ?」「どういうふうに聞いたら正しいデータ取るんですか?」など、さまざまな不安があるんじゃないかと思います。
実は今日的には、難しいことは考えずに、「アンケートやってしまえばいいですし、いろんなそのアンケート支援会社もあるよ」というのが今日の話のメインです。
標本論というのは、標本調査、アンケート調査をするにあたって、どういうふうに実施するのがいいのだろうか?ということを、論理的、数学的そして実際的な問題としても検討する領域です。
アンケートの基本理論は、アンケートを行うとき、自分が知りたいと思う、全数からなる「母集団」というものがあって、その知りたい集団の全員にアンケートすることができないから、特定の「サンプル(標本)」を抽出をして、そこから母集団の情報を推測するという構造にある、ということです。
この構造のもとで、どうやったらサンプルから母集団の正しい情報が得られるのか、と考えるのが標本論の入り口なんです。私達は、母集団のある種の情報を知りたいわけですね。この地域に住んでいる人の年収はいくらか?とか、日本に住んでいる人々は、私の商品を買ってくれるだろうか、とか。
日本全国でどれだけの人が買ってくれるか分かるなら、ビジネスはとても簡単になります。
それを、限定されたサンプルでいかに真実に近い値を掴んでいくのか、と考えれば、アンケートがいかに大切なのかが、分かってもらえると思います。
日本の全体を調査していく、あるいはその地域全体の人にアンケートをとっていくというのは難しいわけですから、どうにかして、その全体を代表するような標本というものをピックアップして調べていくわけです。世の中のアンケートというのは、おしなべてこの構想です。国勢調査みたいな全数調査でない限りには、基本的には、この標本調査、サンプルを取り出して(これをサンプリングと言います)、そのサンプルというものを分析していくという構造になります。
たとえば顧客満足度。うちの商品を買ってくださった全数はなかなか難しいわけで、買ってくださった人の一部に対してアンケートをまいて、顧客満足度はどれくらいかを調べます。
視聴率。全世帯の視聴情報というのはわからないので、視聴率マシーンというものをいくつかの家庭に置いていただいてそれで視聴率を測定する。
年収。この地域に住んでいると年収でお幾らぐらいなのかが、お店を出店する上では重要な判断材料になるわけですけれども、地域の人々の年収を把握するのも、標本調査。
あるいは、ロットの歩留まり率。良品の割合のことを歩留まり(ぶどまり)率といいます。ロット全部を調べることは難しいので、いくつか抜き取り調査をして、良品率を推定するわけです。
さて、サンプルで分析するときに何が問題になるかというと、全数調査でない限りには、真の値ではなく誤差を含んだ値になるということ。
この誤差というものをどう取り扱っていくのか、ここの取扱いを上手にすることができれば、アンケートというものは、極めて精度が高く、母集団の真の値に近づくことができるわけです。
アンケートの精度を高める方法
じゃあ、どうやったらこのアンケートの精度を高められるのか、見ていきましょう。
仮に、地域の年収が知りたいとします。この地域に出店したいと思っているんだけども、この地域の人々の年収が知りたいと思った場合、この地域における平均年収の真の値が400万円だったとしましょう。なんですけれども、一般的にその地域で住んでいる人々の年収にはめちゃくちゃ幅がありますよね。真の値として、標準偏差が100万円ぐらいで、正規分布している状態だとします。難しい言葉が出てきましたが、わからんくていいです。400万円を中心に、プラスマイナス100万円の範囲に6割くらいの人がちらばってる感じをイメージしてください。逆に言えば、残り4割は300万円以下か、500万円以上ということ。けっこうばらついてますね。500万円の人が300万円の人もいる。1000万の人もいれば、1円もない人もいる。
と、非常に幅広く地域の人々の年収がばらついている状況であるとき、アンケート調査をしてどれくらいの確率で真の値が求まるのか、実はこれは数学的に求まります。
今日は、その数学部分は省略。知りたい人は統計学の教科書で。(ひとまず知らなくても皆さんは困らない、の意)
仮に、あなたがこの地域から「あなたの年収いくら」ということを地域でアンケートをして、50件のデータを集めたとします。そのときの結果というのが上図の下側、オレンジ色の線の部分です。これは、横軸が得られた結果の平均値で、縦軸が、50件サンプルを集めた時にその平均値が発生する確率です。
50件データをとって、サンプルの平均値が400万円になる確率。一番下の目盛りが0.005、つまり0.5%で、これよりも遥かに低いわけです。0.2%くらいかな。
つまりは、400万円という真の値になる確率は、確かに一番高いけれども、確率的にはチョー低いということです。そして、皆さんご覧になってわかるとおり、300万円になる確率も500万円になる確率も、ほとんど変わらない。
サンプル50ぐらいだと、軽く100万単位で、結果はブレてくる可能性があるんだ、ということがわかる。
では200人にアンケートを取ったらどうか。それがブルーの線で、明らかに真ん中に寄ってきます。真の値である400万円に近い値が、かなり得られやすくなる。それでもまだ400万円が出る確率は1%にも満たなくて、「軽く数十万円単位ぐらいではブレてきそうだな」ということが見てとれるわけです。
大数の法則
ではこれを500件にしたら、どうなるでしょうか。それが灰色のグラフ。
500にすると、はっきり真ん中に寄ってきますね。それでも数万円・数十万円ぐらいずれてくる可能性はあるけれども、圧倒的に400万円に収斂してくる。400万って真の値が取れる確率が高まってくるわけなんです。これが俗に大数の法則と呼ばれているもので、標本数が増えれば増えるほど、母集団の真の値に近づいていく理論なんです。
サンプルをたくさん集めれば集めるほど、真の値に近いデータが得られる。何でこの話を長々したかというと、これこそが、標本調査というものの基盤、標本論の中軸の理論なわけですね。
データはたくさん集めればたくさん集めるほど、真の値に近づいていく。だからアンケートはたくさん撒いた方がいい。その論理的根拠、数学的根拠が、ここで説明した大数の法則なのです。
なんでこんな話をしているのかというと、こんにちではこの大数の法則というのがめちゃくちゃ利用しやすい状況が訪れているからなんです。
情報技術の発展、様々なデータベースの発展、ビッグデータというものが活用可能になっていることによって、私達は極めてこの台数の法則の恩恵を受けて、真の値に近いデータというのを手に取りやすくなっている状況にあるわけなのです。
かくして私は、こんにち、データを経営にフル活用すべきだ、ということを一連のシリーズでずっとお伝えしているわけです。
今日、皆さんが目にする数字というものは、過去のどんな時代よりも、精度が上がった数字なんです。人類史上、今ほど統計的な数字の信頼性というものが高まった時代はありません。
でも、少ないサンプルで調査してもいい。
でも思い出してください、今回、私が最初に言ったことは何でしたか?
「やっちゃえばいいんだよ!」ですよ。それはつまり「サンプルが少なくたって、やっちゃえばいい」と言ってるんです。
ここから先は、学者としてのぶっちゃけトーク編です。ここまでの理論の話はさておいて、結論、あなたが集めたサンプルは、20でも30でもすごく有益な情報を提供してくれるということを、私は言いたい!
実際のところの話をしましょう。私達アカデミーにいる人間って、どれぐらいのサンプル数で分析するか。たとえば私達が、自動車産業の企業の経営戦略分析しようとしたときに、世界中からサンプル集めて、いくつになると思います?もしくは、日本で何社集まります?ヨーロッパで何社集まるでしょうか?アメリカで何社集まるでしょうか?全部集めて50もいかないぐらいです。むしろそれ以上集めようとしたほうが、一般的な自動車メーカーの特徴を代表しないものになってしまいます。
では、その50に満たないデータって、役に立たないんですかと言えば、そんなことないですよね。それらの主要な自動車メーカーのデータを集めていけば、自動車産業の母集団を把握するには十分な数になってくる。
あるいは医学薬学の世界。薬の治験。一件のその薬の効果を臨床で調査をするのに数十万円とか、数百万かかってくるわけですよ。
その薬が、薬効があるかどうかの調査検討するのに、軽く数千万円から億の単位の金額が動いてくる。なおかつ、人体で検証をするわけですから、そんなの数百もできないわけなんですよ。こうした、サイエンスの結晶みたいな分野ですら、サンプル数は数十ということが当たり前なんです。
私達学者は、実は知っているんです。経験則的に、確かに大数の法則というのはあるけれども、数十のサンプルでもかなり信頼性が高い結果が出るということを。経験則として知っていて、それに基づいて科学というものを構築している。
本当にぶっちゃけトークです。科学的論文を書く際、業界によって違うそれぞれの分野によって違いますけれども、経営学・経済学・社会科学の分野においては、25以上のサンプルがあれば、うーんまあ信頼してもいいかね、とすることも多いです。最近はデータ沢山集めろよ、というプレッシャーもすごいですが。
もちろんあった方がいいに越したことはないのです。厳密に、「君の研究はサンプル数が足りないね」とおっしゃられる立派な先生もおられます。でも、多くの状況においては、よくこれだけ集めたね、この世知辛いご時世の中で25でも30でも、よく集めたね、結果もきちんと出てるじゃないか。ということで評価をしていくことが多いんです。
よほど変な調査をしない限りは、数十も集まってくると、大体傾向が取れるんです。ブレることはめったにない。かくして、あった方がいいに越したことはないけれども、あなたが必死に集めた数十のサンプルを「しょうもない」なんて言うことはしないのです。
50のサンプルは、とても貴重なサンプルです。もう一度言う、数十でもデータが取れるなら、アンケートは、やったほうがいい。
少ないサンプルでどうやって真の値に近づくのか
かくして、標本の理論はここから進んでいく。少ないサンプルで、どうやって母集団の真の値に近づけるのかが、焦点になってくるわけです。
じゃあ、母集団に一番近い状態を再現するためにはどうしたらいいのかです。
一番いい方法は、母集団の中から目をつぶって、何にも考えずにワーッて集めてくる「ランダムサンプリング」「無作為抽出」と呼ばれます。これが最も良い方法だと言われています。下手なことを考えるよりも、目をつぶって撒く。
母集団が広く分布している中で、特定の集団だけに絞って聞いて情報を集めると、その瞬間に、その特定の集団の個性が反映されてしまうんです。
典型的にはどんな状況か。私も大学に居たのでこういうアンケートをよくやってしまうんですけれども、例えば「大学生って今どう感じているか知りたいね」というときに、立命館大学で調査をしても、それは立命館大学のデータなので、無作為抽出にはなっていないわけですね。
関東・関西でも全然違うし、立命館大学と大阪大学でも全然違っているわけですし、大阪でも北と南でも全然違うわけですし、広島大学とも全然違うんだということですると、大学生が今どう考えているかを知りたければ、立命館大学の学生では駄目だということになるわけですね。
「大学生」という母集団になるべく一致するように、無作為にアンケートを撒くわけです。インスタを使ってアンケートを撒きました。でも、ちょっと困っちゃう。インスタを使うような集団というのに特定化されてしまうわけです。かくして、この無作為抽出が望ましいというのが真なのですが、無作為抽出を実現しようと思うと、非常に難しい。
どうやったら無作為抽出に近づけられるか
じゃあどうやったら無作為抽出に近づけられるのか。これが非常に面白い発想なんですけども、無作為抽出に近い状況を作り出すために、作為的に配布先を選択する、と発想するわけなんです。
全国の大学生の情報を知りたいと思ったら、人口統計などを使って、全国の大学生の分布状況をみてみる。そして、北海道に何人ぐらいいて、東北に何人ぐらい、関東に何人ぐらい…という地域のばらつきを得る。同様に、男女のばらつき、文理のばらつき、難易度のばらつき…を調べていく。そして、こうした母集団の特徴をふまえ、なるべくその条件に合致するように、各種条件をばらつかせて配布するんです。
地域のばらつきに合致するように。 男女比が合致するように。
学年がばらつくように。
文理の比率が一致するように。
入学難易度がばらつくように。
こうして、「母集団に近い状況を作って、無作為抽出に近い状態にしていく」んです。
アンケートは調査会社に頼むことができる
そんなことできないよ、と思われるかもしれませんが、幸いなことに、今日の社会では容易に実現可能になっています。もう本当、これが言いたかっただけかもしれないです。
調査会社さんだとか、調査の専門家と、簡単に組めるからです。
言ってもネットでちょっと調べればすぐに色々な会社が出てきます。ここではFreeasyという会社も1つ出しましたが、いろんな会社があります。安いところ・高いところありますが、いずれも明朗会計ですし、先方にも技術があるし、回答者数やそのばらつきに、責任持ってくれる。何万円か払えば、ポンと数百のサンプルをあなたはゲットすることが可能です。超いい時代が訪れているんです。
本当に、日本はデータについて困ることのない社会なんです。
何度も強調します。だからアンケートをやるべきなんです。
それで、どれくらいの相場感かと言うと、「1人につき1問答えていただくと10円」というのが相場です。なので、100人に10問回答していただいて1万円です。いいですか、皆さんが聞きたい情報を10問詰め込んだ1枚のアンケート用紙を100人に配って1万円ですよ。
安いですよね。これで100人のサンプルが取れてしまうのだとしたら、しかもそれを関東・関西均等にとか、男女均等に、年収範囲としてはこれぐらい、みたいな条件付きで集めてくれるんだとしたら、めちゃくちゃ安いもんじゃないですか。
自分でアンケートフォームを作るのも簡単
言うても、自分でフォームを作ってやってもいいんです。
蒐集するのに、インスタを使うとかFacebook使うとかYouTube使うとか、それによってサンプルの歪みが発生しないと思える条件であるならば、あなたはぜひTwitterやYouTubeやFacebookを使って、その場でアンケートを答えてくださいとやればいいわけです。
子の形なら、もう1円もかからない。アンケートの配布なんて、Googleフォームを使い、フォームに埋め込むだけで、タダでできてしまうのです。
失敗したっていいじゃないか、ということを私は言いたいわけです。データサイエンスとか、統計というものの最も深刻な問題は、怖がって手を出さないこと。怖いと思って耳をふさぐことなのです。失敗する中から学習すれば、次はもっとうまくいく。
今日は、データの時代であって、あなたが望めばすぐにそこにアクセスできる時代。
失敗したっていいじゃないかということで、いろいろ言ってきましたが、ぜひアンケート調査、チャレンジしてみてください。
Comentários