雑記 in hibernation

頭の整理と備忘録

住所データから日本列島を点描してみる


つい先日リリースされたばかりのようですが、こんなオープンデータがあるのを知りました。 住所データ、つまり大字・通称・町丁目までの地名とその緯度・経度を紐付けたデータセットです。

geolonia.github.io


で、この緯度・経度の位置情報を画像上の座標に片っ端からプロットしたら衛星画像みたくなんじゃね?と思ってやってみたところ、

f:id:toeming:20200823004653j:plain


なりました。

めっちゃ衛星画像っぽい。『トップをねらえ!』かと思ったわ。

さて、せっかくなのでこの住所データと政府統計とを組み合わせて、地域ごとの種々の情報を基に日本列島を色付けしてみました。

諸条件

情報源とか集計方法について簡単に書いておきます。

  • 住所データのソース
    上で紹介した住所データです。住所と座標が紐づいています。 csvファイルをこちらから引っぱってきました。 github.com

  • 各市区町村データのソース
    政府のオープンデータから2015年断面で引っぱってきました。 市区町村と種々の統計値が紐づいています。 www.e-stat.go.jp

  • データの横結合
    今回は都道府県名+市区町村コードで作成した変数をキーとし、住所データに政府統計データをleft joinしたテーブルを使用して処理を行っています。政府のオープンデータは市区町村までの粒度である一方、住所データのもつ座標の情報はより細かく、「○丁目」のようなレベルでレコードが存在します。そのため、横結合の際はレコードによっては複数の座標に対して同じ政府統計値を割り当てることになります。

  • カラースケール
    各市町村ごとの数値データは、最大値から最小値を0~200に正規化したのち、HSVに擬似カラー変換してプロットしています。カラースケールは以下の画像の通りです。低い値ほど青く、高い値ほど赤く表示される感じです。
    f:id:toeming:20200823005224p:plain

  • 欠損値
    欠損値の補完は行わず、データに欠損のある地域は画面上にプロットしません。

  • 統計量まとめ
    今回算出した種々の変数の基礎統計量は以下の通りです(というかPandasのdescribe()で出力したものほぼそのまんまです)。最大値とか最小値とか気になる場合はご参照ください。
    f:id:toeming:20200823005627p:plain

  • コーディング
    集計及びプロットにはPythonOpenCVを利用しました。
    コードはこちらにおきます。

  • その他
    その他何点か、予め申し添えしておきます。

    • 結果の考察とかは特にないです。コメントも適当です。
    • 画像のサイズは大体5000pix×5000pixくらいです。せっかくなので大きめサイズで描画・出力してみました。
    • 一応ヒストグラムも添えておきます。欠損値には「-1」を割り当てて描画してます。体裁がクソなのはご容赦ください。

Let's 可視化

では、いろんな指標で日本列島をプロットした画像をみていきましょう。

総人口

手始めに総人口です。都市部の色が明るく、それっぽい感じになっています。
細かく見てみると、個人的には愛知のあたりで名古屋よりも豊田のあたりの方が人口が多いのが気になりましたが、住民の数で見れば都心よりもベッドタウンの方が多いということかもしれません(昼夜の人口比についても、後の項目でプロットしています。)。

f:id:toeming:20200823005925j:plain

f:id:toeming:20200823010011p:plain

65歳以上比率

高齢化の指標として出してみました。65歳以上の人工を総人口で割った値です。
都市部では値が低いですね。高齢化の煽りを受けているのは地方のようです。都市部を除くと、比較的内陸で値の大きい地域が多い傾向にありそうです。局所的に真っ赤になってるところもありますね。いわゆる限界集落的な市町村が多い地域でしょうか。

f:id:toeming:20200823010748j:plain

f:id:toeming:20200823010849p:plain

家事従事者比率

専業主婦の多さの指標として出してみました。家事を専業に従事している人口を総人口で割った値です。
女性の社会進出的なアレの指標になるかもしれません。意外と青森が進歩的。

f:id:toeming:20200823010931j:plain

f:id:toeming:20200823011020p:plain

図書館1軒あたり面積

図書館の件数を可住地面積で割った値です。各地域の図書館の数の指標として、学力・学歴や年収とも関係があるかもしれない思い算出してみました。値が小さい方が、地域の面積に対してたくさん図書館が存在することになります。
この記事上だとちょっと見にくいのですが、北海道の最東端あたりで真っ赤な地域があります。数字の上では、ここに住む方々は図書館難民だということになりますが、実際どうなのでしょうか。

f:id:toeming:20200823011338j:plain

f:id:toeming:20200823011404p:plain

ヒストグラムを見ると、0付近にピークをもち広い範囲で偏りのある分布であることがわかります。この場合、0~10000くらいの値の差は目視では見辛いです。

ここは中間層の様子も見たいので、対数をとった値もプロットしました。
東北や九州にもちらほら図書館不毛の地が存在しますね。北海道は相変わらず目立って赤いですが、そもそも人口密度も特別に低いと思われるので、単純比較はできなさそうです。 学力や偏差値と相関をみると何かしら示唆があるかもしれません。いやでも秋田県なんかは子供の学力が高いことで有名だし、図書館の数とかはあんまり関係ないのかな。

f:id:toeming:20200823011836j:plain

f:id:toeming:20200823011924p:plain

病院1軒あたり面積

図書館1軒あたり面積と同じ考え方で、その病院版です。待ち時間や医療難民の数とも関係するかもしれません。

f:id:toeming:20200823012442j:plain

f:id:toeming:20200823012543p:plain

真っ青でよくわからんので、これも対数をとってみました。
内陸や東北・北海道では、比較的病院がまばらのようです。北海道が赤っぽいのは図書館と同じですね。あと、能登半島が地味に値が高いです。

f:id:toeming:20200823012642j:plain

f:id:toeming:20200823012704p:plain

精神科病院比率

心の健康の指標として出してみました。精神科病院の軒数を病院の総数で割った値です。
所々真っ赤になっているところがあります。確認してみたところ、大多数の地域で病院数は一桁台です。病院が2,3軒しかない地域で地域でたまたま1軒でも精神科の病院があると、精神科の比率としては高く出てしまう、ということのようです。
計算してはみたものの、あんまり当てにならん指標ですね。

f:id:toeming:20200823014154j:plain

f:id:toeming:20200823014244p:plain

完全失業者比率

景気の指標として出してみました。失業者人数を総人口で割った値です。
内陸・日本海側では値が低い、気がします。雇用が安定しているのでしょうか。コロナ禍以降のデータを見てみると差が顕著に出ているかもしれません。

f:id:toeming:20200823014358j:plain

f:id:toeming:20200823014421p:plain

昼夜人口比率

昼間と夜間の人口の比率です。この値が高いほど、夜と比較して日中に人が多いことになります。
画像は真っ青ですね。よくよく見ると東京・名古屋・大阪がピンポイントで明るくなっています。この辺りの都市部が昼間人口が多いというのは直感にも適うところです。 一方、東北のあたりにも一点明るい箇所が確認できます。いわきのあたりです。いわき市は東北でも有数の都市部ではあるのですが、他の地方都市を差し置いて目立って高い値をとっているのはちょっと不思議ですね。震災と何か関係があるのか?謎です。

f:id:toeming:20200823014559j:plain

f:id:toeming:20200823014625p:plain

せっかくなので対数をとって中間層の様子も確認してみます。
都市部周辺では特に値が低い、つまり昼間の人口と比較して夜間の人口が多いことがわかります。この辺りが所謂ベッドタウンにあたり、昼は都心へ仕事に向かい、夜は郊外の自宅へ帰ってくるため昼夜の人口の差が大きいものと思われます。

f:id:toeming:20200823014640j:plain

f:id:toeming:20200823014705p:plain

おわりに

ということで、住所データのプロットして日本列島を描いてみました。 今回はほぼ無策かつ超適当ではありましたが、精緻にやれば有益な情報が得られると思います。
可能性を感じます。