Wikipediaのダンプデータが1月末に更新された。
久しぶりの更新である。
このGeekWindにもWikiepdiaのデータが登録されているので、ついでにアップデート。
方法は「Wikipedia dumpをGeekWindのMySQLに投入」に記載した通り、全く同じである。
ただ、ディスク容量の問題もあるので一箇所だけ違う。
前回はbz2ファイルを解凍したが、今回はディスク容量が不足すると思い、直接解凍はせずに標準出力で解凍を行い、xml2sqlに喰わせたのである。
とりあえず、作業手順を記載しておこう。
# df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 8002560 9279568 47% / # wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 # ls -al jawiki-latest-pages-articles.xml.bz2 -rw-r--r-- 1 root root 1326604666 Jan 30 00:04 jawiki-latest-pages-articles.xml.bz2 # df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 9299348 7982780 54% / # bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql # df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 14345196 2936932 84% / # ls -al *txt -rw-r--r-- 1 root root 126399198 Feb 6 13:45 page.txt -rw-r--r-- 1 root root 153471575 Feb 6 13:45 revision.txt -rw-r--r-- 1 root root 4881957371 Feb 6 13:45 text.txt # mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt Enter password: gwiki.text: Records: 1440110 Deleted: 0 Skipped: 0 Warnings: 0 # mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt Enter password: gwiki.revision: Records: 1440110 Deleted: 0 Skipped: 0 Warnings: 2882896 # mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt Enter password: gwiki.page: Records: 1440110 Deleted: 0 Skipped: 0 Warnings: 0 # mysql -u hogeuser wiki -p mysql> select page_id, page_title from page where 1 limit 1440100,10; +---------+---------------------------------------------------+ | page_id | page_title | +---------+---------------------------------------------------+ | 2285635 | ソウル城東警察署 | | 2285636 | 天使がくれた世界滅亡 | | 2285637 | 韓国の警察署 | | 2285638 | ソウル特別市の警察署 | | 2285639 | 遭難事故 | | 2285640 | 島田陽子_(詩人) | | 2285641 | 年月翻訳/core2 | | 2285642 | イリジウムコミュニケーションズ | | 2285643 | フォードEシリーズ_(旧エコノライン) | | 2285645 | 三塁打_(お笑いコンビ) | +---------+---------------------------------------------------+ 10 rows in set (0.60 sec) # df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 8195908 9086220 48% /
ということで、問題なくWikipediaのデータが更新された。
しかし、やはりさくらのVPSももう少しディスク容量に余裕があると助かるんだけどなぁ。
Leave your Comment