横浜市経済局のテイクアウト&デリバリー情報オープンデータ(CSV)のクレンジング
横浜市経済局が収集している市内テイクアウト&デリバリー情報を YOKOHAMA to Goに取り込むためのクレンジング。
データはここから入手可能
https://www.city.yokohama.lg.jp/business/kigyoshien/syogyo/covid-19/takeout-delivery/takeout.html
- CSVを調整(重複エントリーなどあるので事前に処理しておかなければならない)
- JSON化
Pythonで書いてしまったが、JSで書き直してYOKOHAMA to Goのレポジトリに持ち込むのが良いか。
以下の問題を調整する必要がある。
主に、「修正依頼」レコードに起因する問題。
- 修正依頼であることはわかるが、どのレコードに対する修正依頼か機械判別するのがかなり困難。
- 名称や電話番号表記まで変更になっているケースがある
- 複数回修正依頼が来ているケースがある
- おそらく、新規登録なのに修正依頼になっているエントリーがある
修正依頼のレコードがどのレコードに対するものか、ngramを用いてレコードの文字列の近似値を評価して判断する。
うまくできていそう。
アプリに読み込むJSONの構造を検討している。
ひとまず、Schema.orgのRetaurant型に準拠させてjson schemaを書いた。必須項目の指定とか細かいところはやっていない。sample.jsonをテストでバリデーションしてみたが、うまくいっていそう。