読者です 読者をやめる 読者になる 読者になる

笑いと統計学をつまみに日本酒と献血を楽しむ人が書くブログ

お笑いについて思った事を書きます,統計学・プログラミングについて勉強した事を書きます.美味しいお酒を見つけたらメモがてら書きます.献血ルームに行ったらメモがてら書きます.

【統計基礎講座】カテゴリー名など「数字じゃない変数」を説明変数に入れて回帰したいときの3つのポイント~芸人さんの年収を推定~

 ブログのタイトルに「統計学」って入っているのに,これまで全く統計に関する記事書いてないんですね……

アクセスみても献血関連が多くて,もうブログタイトル変えるべきなんじゃないかと思っています.

どうも僕です.

 

ということで,今回は統計学の基本的なお話をします.

データ分析をする前に,必ず生データから使えるデータ形式にするために整備をする必要があります.

 

例えば欠損値を省いたり補ったり,数値の単位を揃えたりあえて揃えなかったり,また数値じゃないデータを数値に置き換えたり…….

今回はそのうちの1つ,カテゴリー名などの「数値じゃないデータ」を数値にするときのポイントを書いてきます.

例えば「芸人さんの年収」を分析をしたいとき

「テレビ出演本数」・「芸歴」・「ピンかグループか」・「所属事務所」などで「芸人さんの年収」を推定したいとします.

つまり,「芸人さんの年収」が被説明変数(説明される変数)で,「テレビ出演本数」・「芸歴」・「ピンかグループか」・「所属事務所」が説明変数ですね.

 

完全に適当に4人(4組)の芸人さんのデータを作成してみました.

年収(被説明変数)年間テレビ出演本数芸歴ピン or グループ所属事務所
1000万円 100本 20年 グループ 吉本興業
800万円 83本 9年 ピン 松竹芸能
450万円 30本 16年 グループ マセキ芸能社
330万円 10本 2年 ピン ホリプロ

表にしてみました.

 

3つのポイント

このままだと「年間テレビ出演本数」と「芸歴」は数値なのでそのまま分析に応用できますが,「ピン or グループ」と「所属事務所」は数値ではないので分析にかけられませんね.

そこで以下の3つのポイントを踏まえて分析できるように数値に置き換えましょう!

1 or 0 で置き換える

シンプルに「ピン」か「グループ」かという2つのカテゴリーに分類できる場合は,片方を「1」に片方を「0」に変換しましょう.

ここでは,「ピン」を0に,「グループ」を1に変換します.

年収(被説明変数)年間テレビ出演本数芸歴ピン or グループ所属事務所
1000万円 100本 20年 1 吉本興業
800万円 83本 9年 0 松竹芸能
450万円 30本 16年 1 マセキ芸能社
330万円 10本 2年 0 ホリプロ

こうすることで,「ピン」と「グループ」というカテゴリーを数値を使って表現することに成功しました!

ちなみにこんな「1 or 0」の変数をダミー変数って言いますね.

3つ以上のカテゴリー名を数字に置き換える時

2つのカテゴリーに分ける場合は,単に「1」と「0」に分ければよかったですが,3つ以上のカテゴリーを数値に変換する場合は,その分ダミー変数を増やす必要があります.

年収(被説明変数)年間テレビ出演本数芸歴ピン or グループ吉本松竹マセキホリプロ
1000万円 100本 20年 1 1 0 0 0
800万円 83本 9年 0 0 1 0 0
450万円 30本 16年 1 0 0 1 0
330万円 10本 2年 0 0 0 0 1

これで 3つ以上のカテゴリー分けを数値を使って表現することに成功しました!

最後の項目は省略すること

しかし,全ての芸人さんが

のどれかに所属するとするとき,「吉本にも松竹にもマセキにも所属しない芸人」は必ず「ホリプロに所属する芸人」,ということが分かると思います.

また「松竹にもマセキにもホリプロにも所属しない芸人」= 「よしもとに所属する芸人」ですね!以下同様……

 

つまり,先程の表の

年収(被説明変数)年間テレビ出演本数芸歴ピン or グループ吉本松竹マセキホリプロ
1000万円 100本 20年 1 1 0 0 0
800万円 83本 9年 0 0 1 0 0
450万円 30本 16年 1 0 0 1 0
330万円 10本 2年 0 0 0 0 1

最後の列,つまり「ホリプロの列」は無くても情報量は変わらない.

ということです.

なぜなら,表の赤字の部分さえあれば,必ず「ホリプロ」の列は「1」になり,緑の部分さえあれば,必ず「ホリプロ」の列は「0」になります.

 

ということで,最終的に以下の表ができれば成功です!

全てのカテゴリーについて,過不足無く,つまり情報量を失うことなく重複することなく数値に変換することに成功しました!

年収(被説明変数)年間テレビ出演本数芸歴ピン or グループ吉本松竹マセキ
1000万円 100本 20年 1 1 0 0
800万円 83本 9年 0 0 1 0
450万円 30本 16年 1 0 0 1
330万円 10本 2年 0 0 0 0

最後に

データ分析経験者は分かっていることだと思うのですが,

この地道なデータ整備に,意外に時間がかかります.

 

ビギナーの方が最初につまずくところなんではないかと思います.

 この辺を怠るとあんまり良い解析にならないので,サボらずしっかりやりましょう!

 

次回の記事ではプログラム言語のRを使い,

  • 具体的にどうやって書けばいいのか?
  • 実際にテストデータを使って重回帰分析し,その結果をどのように見るべきか?

このあたりを解説していきます!

 

乞うご期待!!