ビジネスパーソンのための優しい統計「第4回目」
※YouTubeにて各シリーズ連載中
今回は、実際にExcelで平均値・中央値・最頻値を出す、というのをパッと1分でできるようになっちゃいましょう、というテーマで解説します!
データの真ん中といっても、3種類の数値があります。合計値を人数で割って、1人当たりの値を出す…という平均値がやはり大切だけども、平均値だけでも判断を誤る。順位において丁度真ん中の中央値、そして頻度において最多となる最頻値も見ながら、データのばらつきを理解していくことが大切です。
3種類の「データの真ん中」
平均値:全要素の合計値を、要素数で割ったもの。1要素あたりの数。
中央値:値を大きいものから順に並べ、ちょうど順位が真ん中であった値。
最頻値:観測された回数が最も多かった値。
どれが一番大切というわけではなく、3つセットで、データの真ん中。データの散らばりの特徴を、この3つの値から調べていくわけです。
とはいえ、3つの値からどう散らばりを読み解いていくかは別記事に譲ることにしまして、ここでは、3つの値をパッとエクセルで出す方法!
エクセル上級者の方でも、人がやってるのを見ると、結構学びになってるとかありますよね。ぜひ中川がこういうふうにやってんだなと参考にしてもらえばと思いますし、エクセル触ったことないよという方は、ぜひこの機会に、エクセルの勉強を始めてみてはいかがでしょうか!
調査するデータの準備
今回用意しましたデータは、実はこのAPSのWebサイトでダウンロード可能にしてあります。ぜひ使ってみていただいて、あなたの手で学んでもらえばと思います。
サンプルデータ
こちらは架空のデータですが、50人分、AからFまで6種類の商品案について、1.全くいらないから5.非常に欲しい、まで5段階で商品について評価をいただいているデータです。
元のデータを守るために、新しいシートを作成する
このデータの利用法は、もちろん、商品案AからFまで、どれが一番売れそうかを探ることです。
その時に、最初にやるべきことは、高度な分析でもなんでもなく、やはり平均値や最頻値などの「データの真ん中」を見ることになるわけです。
ここで、一番最初にやる、大切なことは、何なのかといえば、ここなんですよ。
「新しいシートを作る」です。
もし仮に元のデータを操作して、保存なんてしてしまったら、取り返しがつかないのです。
なので、元のデータは最大限触らないというのがデータ分析のセオリーです。
集計をするとき、分析をするときは、元のシートは決して触らず、コピーして新しいシートを作っておく。これをまず、徹底しましょう。
ちなみに、うっかり何か打ち込んじゃったとしたら、「元に戻る」ボタンで速やかに戻りましょう。ここで1個便利なショートカットキーを知っておくといいですね。知ってるかどうかで、作業効率が大きく変わります。
Ctrlキーを押しながらZボタンが「元に戻る」です。
このCtrl+Zで1個戻れるっていうこと、知ってるとスッゴイ仕事が早くなると思います。
シート名をわかりやすく書く
次に大切になるのは、シート名をめちゃくちゃわかりやすく書くことです。
シート名が非常に複雑な名前だったりすると、あとで自分で見てわかんなくなるんです。
あるいは、データ分析というのは、人に報告するために行う場合が一般的なで、誰が見てもわかりやすいような名前にすることは仕事の成果としても大切。「集計結果」とかシンプルで、誰にでもわかりやすいものが正解です。
求めたい値の名前を最初の列に書く
こうした基本準備ができて、ようやくエクセル分析開始です(とはいえ、慣れてしまえばここまで1分です笑)。
ただし、ここでも準備こそが勝負。新しいシートの、一番左の列に、集計したい値の名前を、先に書いておきましょう。
次に、求めたいのは製品案A~Fまでの6つの集計結果なので、こちらを新しいシートの1行目に書きます。
ちなみに、コピー&ペーストのショートカットもあって、これも知ってしまうと、めちゃくちゃ早い。
コピーはCtrl+c
カットはCtrl+x
ペーストはCtrl+v
ちなみに、ここで新しいシートと元のデータがあるシートの、商品A~Fを同じ列にしておくと、後で混乱しなくて楽です。これも、ちょっとしたエクセルの知恵かもしれません。
平均値を求める:関数を入力する
で、商品Aについて平均値を求める。
該当のセルを選択して、上のリストから関数を選んでもいいですが、これも関数の名前を知っていれば、キー操作のほうが早いです。
平均値は
=average(数列)
です。
今回、元のデータをいじらないで、別シートにしていますから、数式の指定のときには、最初にどのシートのデータなのかを指定する必要があります。
シート名にビックリマーク、その後にそのシート内の該当箇所を指定する、という流れになります。
=average(シート名!セルの範囲)
という形になる。今回の場合は=average(データ!B2:B51)ですね。これも慣れてしまえば5秒ほどで入力できてしまうので、キーボード入力が一番早いです。
そして、enterキーを押せば、結果が表示される。今回のデータでは、平均値は3.14だということが、こうして求まります。
ここまでできたら、A~Fの平均値はもう一瞬。Ctrl+Cでコピーし、右にドラッグし、Ctrl+vで張り付け。ちなみに、私はここでもマウスを使いません。そもそも私のPC環境にマウスはありません。1つコピーしたあと、Shiftキーを押しながら横ボタンを押すと、ドラッグできます。そしてCtrl+vで貼り付けすれば、ほとんど手を動かさずにコピーペーストできます。
で、あとは中央値も、最頻値も、やること同じです!!
中央値を求めるときの数式というのはmedianという式になります。
averageの部分を、medianに変える以外は、一切の操作が同じです。
最頻値はmode。
やはり、averageの部分を、modeに変えるだけ。
理屈がわかってしまえば、ここまで全部で3分ぐらいでできてしまう。このデータの時代、やっぱりこれくらいが基本素養として出来ていると、いいですね。
ちゃんと解釈をする。
ただし、データ分析というのは、数字が出てOKではないんです。目的は、商品A~Fのうちから、どれが売れそうな商品かを、知ることだった。
その観点から、平均値、中央値、最頻値の3つの数字を見ると、確かに商品Dがよさそうだ、ということがわかってくると思います。平均値でも確かに高かったですが、中央値、最頻値とみていくことで、より一層、Dこそが望ましい、ということに確信が持てるわけです。最頻値が5なのですからね。
一方、商品Fというものは、平均値も低く中央値も低く、最頻値は1ということで、こちらの商品Fというのは最も人気がない商品だということが見えてくるわけです。
まとめ
というわけで、今回はエクセルで平均値、中央値、最頻値を出す。でしたが、解説を読んでわかったことは、準備が8割だということではないでしょうか。
ただ、データの真ん中を見ただけじゃ、不安だなって思った方もいらっしゃるかもしれません。そう、やっぱり分布そのものを見た方が、納得感がある。
今度の記事では、データの散らばりを、どう分析していくのかを扱っていきたいと思います!
Comments