top of page
執筆者の写真功一 中川

「ロジスティック回帰」の概要:AI時代の社会インフラ【やさしい統計学16】

AI時代の社会インフラ「ロジスティック回帰」の概要【やさしい統計学16】





ビジネスパーソンのためのやさしい統計学「16」

※YouTubeにて各シリーズ連載中



ビジネスパーソンのためのやさしい統計学、今回からは、高度な統計分析の手法をいくつか紹介していこうと思います。


で、最初にこの点を強調しておきたいと思います。できなくてもいいということ。プロの仕事は、プロに任せればいいんです。あなたは何のプロですか?ビジネスのプロですよね。データアナリティクスのプロならできなきゃダメです。ビジネスのプロなら、データ分析はその道のプロに任せ、あなたがやるべきは、その結果を正しく理解し、経営判断を正しく行うこと、です。


このシリーズは、あくまで統計学やデータサイエンスを専門にしていないような方が、これからの社会の中でいろいろ耳にするデータ分析だとかの概要を掴むためのもの(それこそがビジネスパーソンにとって必要なデータリテラシーだから)。あるいは、実際に現場でデータサイエンティストや学者の先生なんかと一緒に何かをやろう!なんていうとき。はたまた、なるほど、今の時代こういうものが社会を支えているのか、というAIなどの基礎になっている考え方を理解するため。そういうものとして、皆さんに統計学を伝えているのです。


今回の記事を一通り見ていただいて、ロジスティック回帰の概要がわかった、ビジネスで使えるな!って思ってもらえたら幸い。そして、いざ実行するとなれば、今日はいくらでも外注でデータサイエンティストに格安でお願いできます。また、今回のロジスティック回帰というものを学んでいただきましたら、それが実はこの現代社会の隠れたインフラになっているんだ!ということを、今日皆さんは学ぶことができると思います。


ロジスティック回帰とは

そんなわけで今回からの「高度な統計分析」シリーズの第1として、ロジスティック回帰やります。ロジスティック回帰は、0か1か、2つの状態のどちらかになるものについて、諸条件からすると1である確率が何%になるか?を計算できる、すごい手法です。


★いろんな情報をインプットして、気温とか気圧とかいろんなデータを集めてきまして、明日は雨が降るか?それとも晴れるのか?というような二つの事象のどちらになるのかの確率。

★画像情報なんかを解析して、これは男性なのか女性なのかを判別する。

★お客さんの購買履歴データとか、そのIDに紐づいたデータを分析していって、この人は将来買ってくれる可能性がある人なのか、買う可能性の低い人なのか。

★経営戦略の分析なんかにも使える。企業の戦略について売り上げだとか利益だとかそういったデータを打ち込んでいって、この企業の次の戦略は新市場を探索するようなアクションになるのか、今の市場を深堀するようなアクションになるのか、いわゆる両利きの経営のどちらに重視した経営になるのか?とか。


かくして、2種類のステータスを取る事象で、どっちになる確率が何%というような問題を解くときに、本当に厳密にそのパーセンテージで確率を出せてしまう。すごい手法ですよね。膨大なデータと高度な数理的処理を行っていくことで、ロジスティック回帰の精度を抜群に上げたものが、AIによる男女だとかの自動判定マシーンです。



計算の仕方

このロジスティックという言葉ですが、それはこの分析に用いる数式がロジスティック関数というものだからです。短く、ロジット回帰とも言います。いわゆる物流のロジスティックとは全く無関係です。いつも言ってますが、こういう手法の名前自体にあまり意味はありません。そこにはまり込むと大変なことになります。


ロジスティック回帰という名前が出たら、0か1かの判別をする。それでOKです。

本当にさっと簡単に数学的なところを、お話しますと・・・ロジスティック回帰というのは、上記のyの部分の数値を重回帰分析で明らかにするものです(重回帰分析は前回の記事で解説中!)。2つの状態の、どちらかになる確率、例えば雨が降るかどうかという確率を、右側の式で計算するわけですね。


分子は1で分母が1+e¯Yという形になるわけなんですけれども、このeというのは、自然対数の底(てい)という概念です。ここ、ドキドキしますね。抵抗感を感じ、学びたくなくなるポイントです。どんな数学の本見てもこのeってよく出てくるのですが、まずここで結構つまずく。


これ、何なのか。理論的な部分をぜーんぶすっ飛ばして言えば、これは単なる定まった数です。2.718ぐらいです。もうそれ以上のことはここで必要ありません。2.718くらいです。なんなら皆さんがロジスティック関数でyを計算できたら、ここの部分はeを入れずに2.718を代入して計算しても、ほぼ正確な結果が得られます笑。


で、それに-yという乗数がかかっている。-1乗というのはその数で1回割る、-2乗ならば2回割るわけですから、yが増えるほどこの項全体で数字は小さくなります。で、この項の数字が小さくなっていって、限りなくゼロに近づくほど…この右辺全体は1日近づくわけです。ここのところ、あなたの頭の中で一度計算して再現しておいたほうがいいです。ここを飛ばすと混乱してくる。


ともあれ、yが高まるほど、右辺は1になる、すなわち100%に近づき、yが低くなるほど、右辺は0、すなわち0%に近づいていく。こうして判定するわけですね。


で、このyをどう求めるのかといえば、それは前回お伝えした重回帰なのです。とはいえここでも簡単に説明しておきましょう。上図の青色の部分ですね。


y = a + b1気温 + b2前日天気 + b3気圧


たとえばこんな感じの式を計算で導出して、気温、前日天気、気圧から今日の天気を予測するわけです。ここに、影響度の高い要因を、なるべく多く入れていけば、精度の高い式になってくる。あとは膨大なデータがあれば、確率の推定精度はぐんぐん上がってくるわけです。これが現代のAIなんかの基礎です。


実際にやってみた例

実際に結果を見ながら、どうやって解釈するのか?というような話をしていくのがいいかと思うので、私自身が実際に論文の研究でやってみた例というのを、一つ紹介したいと思います。


私がやった研究というのは、M&Aについての研究なんですけれども、そのM&Aがどういう狙いのM&Aが行われるのか?ということをデータから確率的に割り出せる!というわけです。


M&Aっていうのは会社を買収するものですが、その狙いを私は大きく2つに分類しました。1つは、現在の本業をいっそう強化するための買収。もう一つは、全く新しい業界に進出するための買収。ザックリ言えばこの2つだろうと。


ちなみにこの2分類は、「両利きの経営」という概念に沿っています。企業経営は、現在路線を追求するものと、新路線を探索するものの2ベクトルがあって、そのバランスが大切だという理論。


このどちらを選択するかは、実は財務情報から予測がつくんじゃないのか?っていうことをやってみたわけなんです。


簡単に言えば、現在のビジネスで、非常に良い成果を上げているなら、おそらくは今の市場での競争力を、さらに高めるようにM&Aをする。ここで「現市場を深耕するM&A」を0とする。


一方で今の市場で、なかなか苦戦していたり、衰退しているような状況だったとしたら、新しい市場に移動する確率は高くなるはず。ということで、こちらを1とおきまして、新市場の探索のためのM&Aというのが起こる確率というのが、そうした財務情報からわかるんじゃないのかと、やってみたわけなんです。


それで、その結果が上図です。見るべきポイントはまず有意確率。これは結果が偶然である確率なので、これが0.3とか0.4もあったら、その結果は信用できない。0.1以下、10%以下くらいの数字だけを信用します。上図で言えば、企業サイズ。私はこれを売上高で測定しているんですが、これは0.4という有意確率が出ています。企業サイズがM&Aのパターンに与える影響については、40%の確率で、ただの偶然だろう、という結果になった。これについては、結果を信用しないほうがいいわけです。


それに対してです。有意確率が十分に(<0.1)低いものを見ていくと、売上の主力製品集中度。今の主力事業にどれぐらい売上で依存しているか?この主力事業に依存しているほど、そこがコケちゃうと会社としては・・・やばくなるわけですから、主力事業への依存度が高ければ、今の地位をしっかりホールドしようと、そういう動きをとるはず。実際、マイナルに非常に強く出ております(-4.196)。もし売り上げの主力集中度が1であるなら、この項単独で取り出して影響を見れば、2.718の4.196乗ということで、66.391という結果が得られます。先ほどの式の、右辺の分母がべらぼうに大きくなりますから、劇的に0%に近づいていく(現市場を深耕するM&Aをする確率が劇的に高まる)ことになるのです。


有意確率も0.001、すなわち0.1%程度の確率で、これは必然的に生じた結果であろう。と考えられます。本業の売上集中度が、かくも明確に、M&Aの性格に影響を与えていることが証明された&その確率までもを推定できるようになったのです。


企業が行うM&Aは、財務情報から判別できる


先ほどの分析結果を式の形にまとめたものが、この上図になります。詳細は省略しますが、ここに数字を入れていけば、Yの値が求まり、ひいては確率が計算できてくるわけですね。主力製品の市場規模の大きさや、そこでのシェアも強く効いていることがわかりました。


これ、半導体企業のデータで検証したんですけども、例えばインテルさんみたいな会社のイメージですかね、CPUという市場が十分に大きく、その中で市場シェアも大きくって、かつインテルさんというのは、この主力事業に集中している。となるとインテルがやるM&Aは、ここから先のM&Aも今の市場深堀するものになる確率が90%オーバーとか、そういうような高い数字になります。


このように、企業の次なる戦略までもが、推定できるようになるんです。


おわかりいただけましたか?ロジスティック回帰を使うと、今日、私たちの消費者行動や、企業の戦略的行動までもが、確率的に推定できてしまうんです。もちろん、あくまで確率ですから、外れることもあります(99%だろうが外れる時は外れる)。ともあれ、大局的には人々の行動はデータで推定できる、というのが現代社会の流れなんです。


ロジスティック回帰は予測に使える

だから、このロジスティック回帰が、現代社会のインフラとして、AIの理論的基礎として広範に活用されるようになっているんです。社会インパクトという意味では、統計学の各種理論の中でもベイズの公式に並んで現代社会の最重要理論のはずです。


企業が次にどういう行動をするのか?消費者が買ってくれるのか?はたまた明日は雨が降るのか?といった事柄について、もろもろのデータをぶち込んでいくことで、次なる未来の予測推定ができる。使わない手は、ないですね。



現代では、必ずしもこのロジスティック回帰というものが、そのまんまAIの中に組み込まれているわけではもちろんありません。現代では、もっともっと遥かに高度化しているんですけども、その基本原型はこれです。皆さんは、この基本部分をこそ、しっかり押さえておけば、データサイエンティスト、データアナリストがはじき出してくれた確率というものを、正しく活用できるはずです。


私達が何気に使っている様々な機械ですとか、インターネット上の様々なアプリケーションなどでも、当たり前のようにこの技法は使われている。あなたの顔認証の背後で動いているのも、指紋認証の背後で動いているのも、(基本思想は)ロジスティック回帰です。


ということで、私が何度も強調しますが、皆さん自身がロジスティック回帰をできる必要性というのは、そんなにないのではないかと思いますけれども、そう、現代社会のAIの背後でこういうことが行われているということ。そして皆さんがですから、何か自社の事業のためにロジスティック回帰、使えそうだな。と思われた方も結構いらっしゃるんじゃないかと思います。


そんなときには、データサイエンティストさんに、こんにちではリーズナブルなお値段でお仕事を依頼できるようなっていますが、そのさいにあなたが正しくそのデータの読み方とかデータサイエンティストさんと共同するためのベースとして、ロジスティック回帰の基本を学ぶというのは、このような意味で大切なんじゃないかと思っています。



Comments


bottom of page