「重回帰分析」を理解するために全力で頑張ってみた!【やさしい統計学15】
ビジネスパーソンのためのやさしい統計学「第15回目」
※YouTubeにて各シリーズ連載中
中川先生のやさしいビジネス研究。今回は日本で一番易しい、ビジネスパーソンのための重回帰分析の解説にしたい!と頑張ってみたいと思います。
重回帰分析を、わかってもらう!
重回帰分析というのは、今日のデータ社会の中にあって、最も重要な考え方の一つです。一般社会で生きていくなかでも、色々な所でちょっとずつ目にすることも出てきているのではないかと思います。また、学者が発表する論文というのも基本的に、この重回帰分析というもののバリエーションを使っていくことが多くなっています。
重回帰分析、色々な所で目にするわけですが、「それって何なの?」を解説する回と言っても、今回、最初に注意しておきますが、まったく数学的な話をしません。ですので、データサイエンティストになりたい人向きでのものでは、ありません。それを目指す人、専門の統計学数学をきちんとやりたい人は、もうすこしガチな講座をご覧ください。
今回の解説は、ビジネスパーソンの皆さんが、重回帰分析を見た時に、だいたいわかる。を目指すものです。その意味で、最初に皆さんに何を強調しておきたいかと言えば、「重回帰分析、自分でできなくても全然問題ない」ということです。若い方は、ちょっとは出来るように練習してもよいかもしれない。でも、別に若い方であったとしても、できないからといってキャリア上で困った事になることは一切ないです。このデータ全盛の時代でも、です。
プロの仕事は、プロに任せればいいのです。分析してみました!ってのは、データサイエンティストや学者にやらせておけばいい。では、あなたがビジネスのプロとして為すべきことは何なのかと言えば、重回帰分析の読み方がわかって、どういう時に、どう解釈して使えばいいのか?までをしっかり理解し、ただしくビジネスに応用することです。
重回帰分析とは?
重回帰分析って何なのかといえば、学者の書いている研究書だとかを読むと出てくるやつで、何か縦にズラッと要因が並んでいて、それに対して何か小数点何桁かの数字が0000っと並ぶやつです。学術論文や、それに類する研究書の頻出事項。
この重回帰分析が理解できてしまえば、皆さんも、学術論文を怖いと思わずに読めるようになる。それもメリットの一つかもしれませんね。マーケティングの最先端の手法、組織マネジメント最先端の手法、そんなものが重回帰分析で検証されているとすれば、論文が正しく読めるというのも、あなたの武器になりそうですよね。
回帰分析の意味をおさらい
xyの平面上で、yというのが結果の方で、Xの方に原因を入れて散らばらせてみましょう。これってつまり「何らかの原因があって、その結果がどうなりましたか?」というのを散布図で書いたものですね(散布図と回帰分析についてはこちらの記事で解説!)。この散らばった点の、ちょうど真ん中を抜けてくような線のことを回帰直線という言い方をします。回帰分析というのは、この直線を表す式を算出することです。
Y = aX+bという形式で表現される、一次関数と呼ばれるものが、回帰分析で得られた結果、すなわち回帰式です。この線を、数学的に計算して導出する。たとえばXが広告投資、yが売上だとしたら、広告投資によって売上がどのくらい伸びましたか?といった計算式が得られるわけです。こうやって書くと、そりゃあちゃんと数式出しとかないとね、ってことになりますよね。
世の中の事象は複雑で、回帰分析だけでは不十分
そして、この回帰分析、XとYが1個ずつの関係だったら、Excelで誰でもできるんです(回帰分析の回参照。)。以前の回でお伝えしたように、これは皆さんもエクセルで1分あればできてしまいます。
でも、売上高だとか、そういう数字っていうのは、単に広告投資以外のことも効いてますよね。売上高といったら広告投資の影響もあるし、競合さんの動向みたいなのも影響してきますし、例えばその時期の天気なんかも影響してくる。営業日の数も影響してくるし、在庫量なんかも影響してくる。在庫が無ければ売れませんから。
色々な要素が影響して、売上高が求まってくる。
結果Yに対して、様々なX要因が絡んでくるわけです。
その一つ一つの要因の効果をすべて数量的に示す。それが、重回帰分析です。
様々な要因の影響を、同時に測るときは、重回帰分析
様々な要因を同時に測る、というのはつまりどういうことか。
それは、他の要因の影響を排除して、ひとつひとつの要因のほんとうの効果が測れる、ということです。
売上高Yに対して、広告投資X1と、天気X2の2要因が作用しているとする。ここで、もし天気という要因を入れずに、広告投資と売上高の関係を調べたら、本当は天気が作用しているのに、その影響が制御されずに、攪乱要因として作用してしまう。しかし、天気を計算式に入れたら、天気が与える影響を測定することを通じて、広告投資の効果についても、真の値に近いものが得られるわけです。
ここから先は、実際に私自身の論文を一つ紹介しながら、実際にどう読んでいき、どう実務に使っていけばよいかを解説していきましょう。
私がやった研究は、新興国の日系企業現地子会社の、事業戦略の転換に関する研究です。非常に特殊な、新しい環境に置かれている新興国では、事業戦略を柔軟に転換できることが大切になっています。では、どんな条件のもとで、事業戦略の転換が行われやすくなるのか。それを検証する研究をしてみたんです。
私が調査したのは、1)子会社がまず自分たちで決定できる裁量権を与えられているかどうかという権限移譲度:自律度が高いかどうか。2)次に、子会社が現地の企業とネットワークをしっかり持っているかどうかという現地ネットワーク水準。3)産業がコンシューマー向けのビジネスの方なのか、それともビジネスサプライヤーとしてトヨタさんに納品しているようなBtoBなのかどうか(一般にtoCのほうが環境変化が激しく、戦略変更の必要性が高いため)。4)現地文化の理解度。5)新しい価値観の創造度。こんな感じの5要因を同時に検討してみたんです。
ちなみに、ここでデータ分析ってどういうことをやってるかというと、実は皆さんがエクセルでやってることと同じです。Yの方、私達はこれを非説明変数と言いますが、言葉なんてどうでもいい。説明される変数・影響を受ける方の変数、のことを非説明変数と言います。まあ、Yでいいです。下の図の赤で囲った部分。これに対して、Xのほうは5個の要因を検討するわけですから、この青で囲った5列をデータとしてソフトウェアで読み込み、計算させているんです。高度な統計ソフトといったところで、エクセルで散布図を書いたりするときと、基本的には同じ処理ですね。
ただし、残念ながら、エクセルだとアドインで機能追加しないとできません。アドインで追加すりゃできるんじゃん、と思われるかもしれませんが、なんかちゃんと機能してくれない(中川自身の2016年くらいまでの感想です。今は直ってるかも)。ただ、ホントーのところをこっそり言いますと、実は細かくはデータサイエンティストとか学者っていう人たちはこの段階でいろいろやっていまして笑、それによって正しい結果が得られるようになっていたりします。何度もいいますが、皆さんがそれを学ぶ必要性はごく少ないので、上図のようなことをやってるんだな、というイメージが持てればいいです。
あとは、中身の計算は機械がやります。学者として、指をくわえてみているだけ。
結果の読み方
結果は、下図のようなものが得られます。
最初にある切片っていうのは、Y軸との交点です。英語だとインターセプト(intercept)。今回、海外子会社の戦略変更度を5段階評価をしてもらっているんですが、切片が1.171というのは、他の条件が何も作用していないとしたら、変革能力の基本値は1.171だということになるわけです。
次に、BtoBか否か。BtoBだと言っても、「トヨタに納品しています」みたいな形で現地のメーカーに納品しているということになったりするわけなので、BtoBだとそんなに戦略変更能力は要請されてないでしょう。…ということが明らかになっているわけです。係数は-0.451。BtoBだと、先ほどの基本力さらに0.451ほど、戦略変更度が下がるわけです。
BtoBか否かという産業の違いの影響が、ここで制御されたわけですね。他の要因を攪乱させうるものをひとつ、効果を特定できたわけです。
次に、自律度。その海外子会社どれだけ裁量を本社から与えられているのかなんですけど、これを5段階で評価してもらっています。で、これが1上がるごとに0.336上がるという結果になった。なので、5段階評価の5点だとしたら5×0.33ということで1.65ぐらいですかね、結構上がる。海外子会社の自律度は、非常に効いているということが分かりました。
さらに、それ以上に効いているのが現地ネットワークですね。現地の会社とどれくらい幅広いネットワークを持っていますか。これも5段階で評価しつけているんですけれども、5点がついていると、5×0.401ということで、実に2ポイントが上がります。
さらには、現地文化をどれくらい理解していますか、これも5段階評価ですが1ポイントあたり0.226。もう読み方は分かっていると思いますので省略。
最後に、組織内で新しいことにチャレンジする文化が創造されているかどうかの影響が0.254。
これらを足し合わせていくと、でこの子会社の戦略変革能力というのがおおよそ求まります。(理論値なので、5を超えることもあります)。回帰式に、実際に数字を打ち込んでいくと、推定値とはいえ、この会社の戦略変更能力はいくつですよ。ということが求まるわけなんです。
使い勝手のいい手法だと思いませんか?
同様に、データを集め、重回帰分析を使えば、売上を推定したり、利益を推定したり、生産性を推定したり、個人の技能水準を推定したり、いろんなことが推定可能になるんです。
ちなみに、この推定精度を限界まで高めたものが、AIというものです。数値を入れれば、結果はこんな感じだ、と答えを出してくれる。膨大なデータと、固有のデータ処理を行うことで、精度を高めまくっていく。そんなAIの入口もまた、この重回帰分析なのです。
各マークの意味
さて、ここからは、皆さんがこの分析手法を理解していただく上で、ちょっと追加的に注意すべき点があるんです。細かいのですが、ただしちょっと重要なところなので、しっかり聞いてください。
最初に皆さんが学ぶべきなのは、何か私のこの表に†(ダガー)だとか*マークがついていますよね。これが何なの?という話しです。
これは、統計的に有意であるものに付けるマークです。と、学者とかデータサイエンティストが普段言うものですね、この1個前の記事をご覧いただいた方は統計的に有意って何か?詳しく説明しています。ぜひそちらを見ていただければなんですけれども、ここでもパッと説明しますと、この結果がどれくらい信頼に足るのかということを示しています。
隣の「有意確率」という数字を見てください。これが、「係数」がどれくらい信頼が置けるか、ということを評価する数字です。有意確率とは、偶然的にこうした結果が得られる可能性、です。BtoBか否か、に0.002という数字が入っている。BtoBでは戦略変更度が0.451下がる、という結果が、たまたま、偶然得られる確率はわずかに0.2%ということ。めちゃくちゃ信頼できる。これに対して**と二つ星をつけているんです笑。学者が自信満々に突けてるこの*、ミシュランみたいなもんなんです笑。
なので、実は皆さんが重回帰分析を見るときというのは、*マークがついていない数字というのは、偶然である可能性が高いので、気にしなくていいです。何らかのマークがついているものだけ、見ればよい。一定の信頼性がある中で、最弱なのが、†(ダガー)マークです。これが偶然である確率5~10%を意味しています。*一つ星で5%未満、**二つ星で1%未満、***三ツ星で0.1%未満です。
おわかりいただけましたでしょうか?皆さんが重回帰分析の表を目にしたときは、この*マークを探してください。
決定係数とF値の有意確率
最後にもう1個だけ覚えていただかないといけないのが、修正済み決定係数とF値の有意確率という数字です。
修正済み決定係数には0.353という数字がここに入っておりますけど、これは何なのかというと、この結果Yの、何%までが上の要素で説明されているかどうか、を意味する数字です。
0.353、すなわち35.3%まで、これら5個の要因で決まっていますよ、ということ。
言っても残りの65%までは、それ以外の要因で決まっている。
で、この0.35という数字はどういうふうに評価すべきかといえば、実は社会科学的にはめちゃくちゃ高いです。物理現象とか化学現象というのは、決定係数というのは0.8、0.9が当たり前です。実験室で行う自然現象では、これぐらいの実験の精度が出るわけですけど、企業の戦略の変更能力なんていうのは、社長が誰かだとか、あるいは、たまたまその子会社にどういうメンバーが集まったのか、どういう会社なのかとか、色々な要因が作用します。インドの拠点なのか、中国の拠点なのかでも、違ってくるじゃないですか。そういうことを考えれば、実はこの社会科学分野では、わずかに5個の要因で35%まで説明できているというのは、実は危ないかもしれないくらい高い数値なんですね。
というわけで、決定係数というのは、概ね社会科学では0.2から0.4ぐらいの間をとるような研究が多くなっています。
最後の最後、F値の有意確率は、結局このモデル全体の信頼がおけるかどうかの有意確率です。これが0.000ということで、このモデル全体が信頼できるんだなということで、重回帰分析は完成です!
いかがでしたでしょうか?この重回帰分析というのは、理解してしまえば、実際の計算はデータサイエンティストや外部の人にお任せすることが多くなったとしても、さまざまなジネスシーンで使えるはずです。
例えばこんなこともできます。
その日の製品需要、この日どれぐらい売れますかね?っというデイリーの売り上げ。いろんな要因をぶち込んでいくと、大体この日はこのくらい売れるんじゃないか?という推定が、だいたいできる時代が来ているのです。
これを厳密にゴリゴリゴリゴリやっていった先が、AIによる自動予測というやつですよね。このAIにも繋がっていく入り口になっていくのが重回帰分析であることからしても、皆さんには勉強していただく価値があるということになります。ぜひ、この知識をあなたの力に、変えていただきたいと思っています。
Comments