Archive

For the day 日曜日, 7月 3rd, 2011

Wikipedia Dumpデータの更新(6月28日版)

No Comments

うーん、最近こればっかしかやってないなぁ。
もう少しいじり倒したい。

そういや仕事で Apache2 worker MPM + mod_perl2 をインストールして、いろいろやろうと思っているので、こっちでもやってみようかなぁ。
barancer を突っ込めば別の Web サーバに飛ばすことも可能になるのでいいかもしんない。

とはいえ、今回は恒例のWikipediaデータのアップデート。

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8784840   8497288  51% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1405340295 Jun 29 00:49 jawiki-latest-pages-articles.xml.bz2

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  10158628   7123500  59% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's///' | xml2sql
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  15508932   1773196  90% /

# ls -al *txt
-rw-r--r-- 1 root root  131236266 Jul  3 09:33 page.txt
-rw-r--r-- 1 root root  160215575 Jul  3 09:33 revision.txt
-rw-r--r-- 1 root root 5181876933 Jul  3 09:33 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14135180   3146948  82% /

で、最終的には以下のような感じ。
やっぱり、ディスク使用量が1%アップという感じ。

# \rm *.txt
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8814776   8467352  52% /

mysql> select page_id, page_title from page where 1 limit 1492724,10;
+---------+--------------------------------------------+
| page_id | page_title                                 |
+---------+--------------------------------------------+
| 2381902 | 北杜市立高根西小学校                       |
| 2381904 | ボカロスタ                                 |
| 2381905 | ボカロスター                               |
| 2381906 | 削除依頼/高根西小学校                      |
| 2381908 | 又松大学校の教員                           |
| 2381909 | マンガ甲子園                               |
| 2381910 | マジック世界No.1                           |
| 2381911 | 漫画甲子園                                 |
| 2381912 | フランソワ・クロード・アムル               |
| 2381913 | 大発見                                     |
+---------+--------------------------------------------+
10 rows in set (0.49 sec)



Blue Taste Theme created by Jabox