Wikipedia dumpデータの更新

By kennyNo Comments

Wikipediaのダンプデータが1月末に更新された。

久しぶりの更新である。

このGeekWindにもWikiepdiaのデータが登録されているので、ついでにアップデート。

方法は「Wikipedia dumpをGeekWindのMySQLに投入」に記載した通り、全く同じである。

ただ、ディスク容量の問題もあるので一箇所だけ違う。

前回はbz2ファイルを解凍したが、今回はディスク容量が不足すると思い、直接解凍はせずに標準出力で解凍を行い、xml2sqlに喰わせたのである。

とりあえず、作業手順を記載しておこう。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8002560   9279568  47% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1326604666 Jan 30 00:04 jawiki-latest-pages-articles.xml.bz2

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9299348   7982780  54% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14345196   2936932  84% /

# ls -al *txt
-rw-r--r-- 1 root root  126399198 Feb  6 13:45 page.txt
-rw-r--r-- 1 root root  153471575 Feb  6 13:45 revision.txt
-rw-r--r-- 1 root root 4881957371 Feb  6 13:45 text.txt

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt
Enter password:
gwiki.text: Records: 1440110  Deleted: 0  Skipped: 0  Warnings: 0

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt
Enter password:
gwiki.revision: Records: 1440110  Deleted: 0  Skipped: 0  Warnings: 2882896

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt
Enter password:
gwiki.page: Records: 1440110  Deleted: 0  Skipped: 0  Warnings: 0

# mysql -u hogeuser wiki -p
mysql> select page_id, page_title from page where 1 limit 1440100,10;
+---------+---------------------------------------------------+
| page_id | page_title                                        |
+---------+---------------------------------------------------+
| 2285635 | ソウル城東警察署                                  |
| 2285636 | 天使がくれた世界滅亡                              |
| 2285637 | 韓国の警察署                                      |
| 2285638 | ソウル特別市の警察署                              |
| 2285639 | 遭難事故                                          |
| 2285640 | 島田陽子_(詩人)                                   |
| 2285641 | 年月翻訳/core2                                    |
| 2285642 | イリジウムコミュニケーションズ                    |
| 2285643 | フォードEシリーズ_(旧エコノライン)                |
| 2285645 | 三塁打_(お笑いコンビ)                             |
+---------+---------------------------------------------------+
10 rows in set (0.60 sec)

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8195908   9086220  48% /

ということで、問題なくWikipediaのデータが更新された。

しかし、やはりさくらのVPSももう少しディスク容量に余裕があると助かるんだけどなぁ。

サービス, 環境設定


この記事へのトラックバック

Leave your Comment

メールアドレスが公開されることはありません。

*

★ロリポップ!★WordPressやMovableTypeの簡単インストール、cron、共有SSL対応!


Blue Taste Theme created by Jabox