Stanby Tech Blog

求人検索エンジン「スタンバイ」を運営するスタンバイの開発組織やエンジニアリングについて発信するブログです。

簡易統計モジュールの地域別給与コンテンツにおける計算手法の改善


こんにちは。DataPlatformグループに所属している小池です。

DataPlatformグループでは、

 ●ログ計測と運用を支えるデータ基盤構築(データ基盤整備)
 ●必要なデータ抽出及びモニタリング環境の整備(データ分析環境整備)
 ●課題解決におけるデータ活用の支援(データ活用ソリューション)

の3つを柱に、データの力でスタンバイの成長を支えています。(縁の下の力持ち)

今回は、2022年4月にリリースした簡易統計モジュールの中で
地域別給与コンテンツにおける統計値が、ユーザーの肌感覚に対して高すぎる
という事象に対し、その解決までの取り組みをご紹介致します。

簡易統計モジュールとは

スタンバイにおいて、 求職者に自分が働きたい場所の給与の状況についての 参考情報を提供するコンテンツです。 今回改修対象となった地域別給与コンテンツとは、 エリアごとの給与情報を以下のようにまとめたコンテンツです。


事の発端

2022年、夏も終わりに差し掛かったある日
1つの意見が当コンテンツ開発チームの元に寄せられた。

「給与コンテンツの、富山県の正社員年収が500万近いのは高すぎんじゃね?」

社会人経験も長い、ある富山県出身の社員からだった。

確かに、日本全体での平均給与が436万円(参考:令和元年分 民間給与 実態統計調査)なので、 自社求人データを元に集計している正社員の年収とはいえ、
地方都市にしては高すぎる感は否めない。

(富山県の皆様ごめんなさい)

また、各地域で共通の集計方法を用いている以上、
富山県以外の地域でも同様の事象が発生しているとすれば、
スタンバイはユーザーに実態とかけ離れた情報を伝えていることになる。

「このままでは、スタンバイの情報の信頼性が損なわれる」

こうした危機感の下、対策の検討が始まった。

解決までのお話

解決に至るまで議論を重ね次のようなプロセスで進めた。

 1. 現状の集計方法の確認
 2. 問題箇所の特定
 3. 改善案の検討
 4. 数値評価

まず、現状の集計(各地域ごとの中央値を算出する)というロジックを確認したが
Group Byで地域別に中央値を算出する、という集計ロジックであり特に問題は見当たらなかった。 集計母集団が漏れているのでは等様々なアプローチが試みられたが解決に至らず時間だけが過ぎ去った。

停滞感に支配されかかっていたある日、メンバーの一人がつぶやいた。

「肌感ってなんやねん?」

我々を向き直らせるに十分な一言だった。
この一言をきっかけに、我々は「肌感形成」についての考察から再スタートを切った。
2022年、秋も深まろうという時期のことだった。

より源流へ 〜肌感形成のプロセス考察と最適な集計対象の検討〜

残念ながら我々の周辺には、「肌感」について学術的に精通した人間はいない。
恐らく、この分野の文献を読んでも掛けた時間なりの収穫は難しいだろう。
そこで正攻法でのアプローチを諦め、自身の経験を基に大胆に以下のような仮説を打ち立ててみた。

「日々見聞きする値を基に自身の中に統計ダッシュボードが構築され、これが肌感として定着する。 」

この仮説を基に集計対象として最適な値は何かを検討し、
ここでは 「日々見聞きする値とは最も頻度の高い値、すなわち最頻値」 と考える事とした。

ここまでで、集計の流れが次のように決まった。

 1. 各求人の給与の最頻値を求める。
 2. その値をもとに、各地域の中央値を集計する。

だが、ここでまた1つ新たな問題にぶつかった。
最頻値を求めるには分布の情報が必要になるが、スタンバイが保有している各求人の給与データは最大値と最小値しかない (そのどちらかのみの場合もある)。
再び、メンバーの苦悩の日々が始まった。

そして解決へ 〜対数正規分布と最尤推定法〜

「そういえば、所得の分布はどのような形状になるのか?」
このような疑問を抱き、厚生労働省が公開している所得の分布状況を眺め 次の気づきを得た。

「最頻値が中央値よりだいぶ左だ。あと、低い方に一定限度はあるけど、高い方に明確な限度がない。これ、対数正規分布じゃないか? 」

統計学に関する書籍にも、対数正規分布の事例として年間所得が挙げられている。
更に対数正規分布は正規分布同様に再生性を有するので、前述の厚生労働省が公開している統計の基となる 各企業内の給与分布もまた対数正規分布と考えられる。
これらを基に、以下の仮説を立てた。

「各求人の初任給の分布もまた対数正規分布に近似できる」

ここで再度、各求人の給与の算出方法を確認した所、正規分布を前提とした最頻値の算出方法となっていた。
対数正規分布の最頻値に修正すれば、集計値の改善が見込まれる。問題は、確率密度関数を求める方法だ。
対数正規分布の確率密度関数の式は以下の通り。

すなわち、標本分散(σの2乗)と標本平均μの推定量が出せれば確率密度関数の導出はOKだ。
推定量の導出方法としては、未知数が関数の式の表に出ている事と 微分計算(導関数の導出)が難しくない事から、最尤推定法が使えそうだ。

最終的に、各求人の給与の算出式は、以下のようになった。



更に、給与の最大値、最小値のいずれかしか設定されていない求人については集計対象から外す等の
集計対象の調整を加えて、改修を完了した。

結果

各求人の給与の算出法の修正に加え、 ここでは、検証結果の一部を紹介する。

都道府県 改修前中央値 改修後中央値  (参考)政府統計
富山県 4,500,000 2,983,194 2,879,000
福島県 4,750,000 2,965,504 2,965,504

この一部に限らず、全般的に中央値が改修前と比べて現実的な値に近づく事が確認され、
本改修によって、感覚と大きくはずれない統計値を提供出来るようになった。 詳細は是非、実際にスタンバイで働きたいエリアを入力し、 検索後表示される求人一覧ページの最下部に表示される本コンテンツをその目で見ていただきたい。

最後に

本案件の難しさは

感覚的な内容を計算機で扱える形に落とし込む事

に尽きる。

統計は人間の誤った感覚や思い込みを排除して物事を判断するために使う場合もあるが、 今回は、人間の感覚値を正として感覚的な内容を数式で表現し、 計算機で扱える形に落とし込むというアプローチを取った。
今回扱う値については、ある程度年齢を重ねた方の感覚値が正しいように思われたからだ。

また、使えるデータの量が少なかった事や関連の専門知識が不足していた事も解決を困難にした。
この点については「今あるものが最強の武器」と開き直り仮説思考で乗り切った。

今後も、人の感覚に寄り添う統計と補正する統計を上手に使い分け大胆な仮説をもとに 必要であれば他の数学分野の知見、更に社会科学や心理学といった他の学問分野の知見を活用して データに意思を与え、ユーザーにより価値のある情報を提供していきたい。

補足

ここではストーリー中に登場した統計用語について簡単に解説する。

正規分布と対数正規分布

まず正規分布について簡単に説明する。 この分布は自然界や社会現象の多くで現れる確率分布であり、 平均値μが中心となり、標準偏差σが広がりの度合いを表す。

尚、確率密度関数とグラフは以下のようになる。

次に対数正規分布について説明する。 この分布は、正規分布に従うランダムな変数の対数が従う分布で、 特徴は正の値を取ることと歪みがある分布です。 本記事で扱ったように経済学の分野で収入分布を表すのに用いられる他 金融分野や生態学、医療分野などで使用され、例えば、経済成長率や生物種の体サイズ分布などを表すのに使用される。 尚、確率密度関数とグラフは以下のようになる。

 

最後に、正規分布と対数正規分布の使い分けについて説明する。 世の中には、 平均値からのバイアス(ズレ)が和の形でかかる事象と積の形でかかる事象 が存在し、これらの事象に対して大まかに以下のような使い分けとなる。

 ●平均値からのバイアスが、和の形でかかる場合(x=μ+Σε):正規分布
 ●平均値からのバイアスが、積の形でかかる場合(x=μ×Πε):対数正規分布

まず、平均値に対してバイアスが和の形でかかる事象の例として 工場のラインで製造された製品寸法について考える。 これは、設計の狙い値(=平均値)に対し加工に伴う誤差が和の形でかかるケースの例であり 製品寸法の分布は正規分布がよくマッチする。 製造の現場では、あるラインがどれだけ決められた規格内で製造出来ているかを 図る指標として工程能力指数((規格上限 - 規格下限) / 6×製品寸法の標準偏差)を 用いるがこれは製品寸法の分布が正規分布であることを前提とした指標です。

もう1つの例として平均値に対してバイアスが積の形でかかる事象を考える。 この場合、生データで分布を描くと正規分布と比べて右に裾野の広い分布となる。
今回扱った年収は、ある基準値に対して前職の実績及び経験年数等に応じて何倍という バイアスがかかっていると考えられる。 (この辺りの知見をお持ちの方がいらっしゃったら、是非教えていただきたいです。) 尚、対数変換を施した値の分布は正規分布になる。 (対数変換によって積は和に変換される為)

最尤推定法

確率密度関数におけるパラメータ推定(今回の場合、正規分布、対数正規分布におけるσ、μの推定)を行う方法の1つとして、 今回使用した最尤推定法がある。 ざっくり説明すると想定した確率密度関数を基に尤度関数を定め、この関数値(尤度)が最大となるときの
パラメータ値を最尤推定量として求める、といった流れになる。
詳しくは以下参考文献を参考にしていただきたい。

参考文献

●統計学入門(東京大学 教養学部 統計学教室 編)
●日本統計学会 公式認定 統計検定1級 対応 統計学(日本統計学会 編)
●仮説思考 BGC流 問題発見・解決の発想法 (内田和成 著)


スタンバイのプロダクトや組織について詳しく知りたい方は、気軽にご相談ください。
www.wantedly.com