Skip to content

横浜市経済局のテイクアウト&デリバリー情報オープンデータ(CSV)のクレンジング

License

Notifications You must be signed in to change notification settings

Code4Yokohama/convert-togo-data

Repository files navigation

convert-togo-data

横浜市経済局のテイクアウト&デリバリー情報オープンデータ(CSV)のクレンジング

横浜市経済局が収集している市内テイクアウト&デリバリー情報を YOKOHAMA to Goに取り込むためのクレンジング。

データはここから入手可能

https://www.city.yokohama.lg.jp/business/kigyoshien/syogyo/covid-19/takeout-delivery/takeout.html

想定する作業手順

  1. CSVを調整(重複エントリーなどあるので事前に処理しておかなければならない)
  2. JSON化

Pythonで書いてしまったが、JSで書き直してYOKOHAMA to Goのレポジトリに持ち込むのが良いか。

1. CSVを調整

以下の問題を調整する必要がある。

主に、「修正依頼」レコードに起因する問題。

  • 修正依頼であることはわかるが、どのレコードに対する修正依頼か機械判別するのがかなり困難。
  • 名称や電話番号表記まで変更になっているケースがある
  • 複数回修正依頼が来ているケースがある
  • おそらく、新規登録なのに修正依頼になっているエントリーがある

いまのところの方針

修正依頼のレコードがどのレコードに対するものか、ngramを用いてレコードの文字列の近似値を評価して判断する。

うまくできていそう。

2. JSONデータ検討

アプリに読み込むJSONの構造を検討している。

ひとまず、Schema.orgのRetaurant型に準拠させてjson schemaを書いた。必須項目の指定とか細かいところはやっていない。sample.jsonをテストでバリデーションしてみたが、うまくいっていそう。

About

横浜市経済局のテイクアウト&デリバリー情報オープンデータ(CSV)のクレンジング

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages