% wc -l 00_zenkoku_all_20240430.csv
5467443 00_zenkoku_all_20240430.csv
% iconv -f SHIFT_JIS -t UTF-8 00_zenkoku_all_20240430.csv > 00_zenkoku_all_20240430.utf8.csv
% cat 00_zenkoku_all_20240430.utf8.csv | cut -d, -f 10,11,12 | tr -d '"' | tr -d ',' | tr '_' '_' > address.txt
% wc -l address.txt
5467443 address.txt
# md5確認
% md5 00_zenkoku_all_20240430.csv
MD5 (00_zenkoku_all_20240430.csv) = 8cac6963a5cd5a9cd00aa60e1fffcb13
% md5 00_zenkoku_all_20240430.utf8.csv
MD5 (00_zenkoku_all_20240430.utf8.csv) = c7a37e72beba1ec6f8081f19bf632a74
% md5 address.txt
MD5 (address.txt) = e9876a0334994cce7c8fc57ab3f12655
|
総レコード |
商号又は名称イメージID |
国内所在地イメージID |
国外所在地イメージID |
Not Null |
115,539 |
63,662 |
53,092 |
393 |
Null |
5,351,904 |
5,403,781 |
5,414,351 |
5,467,050 |
外字が含まれる割合 |
2.1588% |
1.1781% |
0.9806% |
0.0072% |
if
IF (
ISNULL([Name Image Id])
AND
ISNULL([Address Image Id])
AND
ISNULL([Address Outside Image Id])
)
THEN
TRUE
ELSE
FALSE
END
% cat 00_zenkoku_all_20240430.utf8.csv |tr '_' '_'|grep "_"|tr -d '"'| awk -F, '{print $10 $11 $12 " /* "$2" "$7 " */"}'|head
北海道札幌市西区発寒十四条2丁目3番1号 /* 1430001072738 華_日本旅行株式会社 */
北海道札幌市北区新川三条14丁目7番22号 /* 1430002016669 有限会社_田建設工業 */
北海道小樽市塩谷2丁目15番16号 /* 1430002056839 有限会社聚楽_ */
北海道登別市鷲別町6丁目40番地9 /* 1430002065559 有限会社_田橋梁架設 */
北海道岩内郡岩内町字高台1番地 /* 1430002066549 寶化_工業有限会社 */
北海道札幌市中央区(札幌区北二条西三丁目3番地) /* 1430003000432 北海道鉄道_告合資会社 */
北海道小樽市花園町東二丁目11番地 /* 1430003002890 合資会社_文堂 */
北海道留萌郡小平町字大椴297番地の9 /* 1450001009283 株式会社鳳_ */
北海道旭川市旭町二条5丁目12番地の193 /* 1450002006404 有限会社_北 */
北海道釧路市末広町6丁目1番地 /* 1460003000371 合資会社_尾木材店 */
Match Level Id のカウント
prefecture 620
city 340
machiaza 1,285
residential_block 167
residential_detail 1,264
parcel 1,403
% cat ./00_zenkoku_all_20240731.csv| cut -d, -f 10,11,12 | tr -d '"' | tr -d ',' | tr '_' '_' |sort|uniq > address.txt