Wikipedia Dumpデータの更新(4月20日版)

By kennyNo Comments

東日本大震災もあったので、WikipediaのDumpデータを更新しておかないとなー、と思ったら、ちょうど4月20日版のDumpデータがでていた。

ということで、早速GeekWindのWikipediaデータの更新。

更新方法はすでに「Wikipedia dumpをGeekWindのMySQLに投入」「Wikipedia Dumpデータの更新」でやっと時と同じことをやるだけ。
なので、何も難しいことはない。

しいて言えば、データサイズが大きいので、若干時間がかかるくらいである。

# df -k
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732   8261132   9020996  48% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1369905817  4月 21 00:17 jawiki-latest-pages-articles.xml.bz2

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9600244   7681884  56% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14815192   2466936  86% /

# ls -al *txt
-rw-r--r-- 1 root root  129105541 Apr 23 14:23 page.txt
-rw-r--r-- 1 root root  157209296 Apr 23 14:23 revision.txt
-rw-r--r-- 1 root root 5048552864 Apr 23 14:23 text.txt

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt
Enter password:
gwiki.text: Records: 1469325  Deleted: 0  Skipped: 0  Warnings: 0

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt
Enter password:
gwiki.revision: Records: 1469325  Deleted: 0  Skipped: 0  Warnings: 2941346

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt
Enter password:
gwiki.page: Records: 1469325  Deleted: 0  Skipped: 0  Warnings: 0

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14985956   2296172  87% /

#不要データを削除。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8431896   8850232  49% /

# mysql -u hogeuser wiki -p
mysql> select page_id, page_title from page where 1 limit 1469315,10;
+---------+--------------------------------------------------------+
| page_id | page_title                                             |
+---------+--------------------------------------------------------+
| 2338282 | 多治見市の鉄道駅                                       |
| 2338285 | 旧難波宮跡                                             |
| 2338287 | イタリアのスポーツ関連のテンプレート                   |
| 2338288 | 鶴宏史                                                 |
| 2338292 | アベゴンド                                             |
| 2338293 | 元気をだそう!                                          |
| 2338294 | 加藤光也                                               |
| 2338296 | ニュース速報(裏世界)板                                 |
| 2338297 | 揖斐川町の鉄道駅                                       |
| 2338298 | 削除依頼/水玉ジャンクション                            |
+---------+--------------------------------------------------------+
10 rows in set (0.50 sec)

一応、東日本大震災のエントリーが存在しているかどうかをチェックしてみた。

mysql> select page_id, page_title from page where page_title='東日本大震災';
+---------+--------------------+
| page_id | page_title         |
+---------+--------------------+
| 2315451 | 東日本大震災       |
| 2327271 | 東日本大震災       |
+---------+--------------------+
2 rows in set (0.50 sec)

サービス, 独り言, 環境設定


この記事へのトラックバック

Leave your Comment

メールアドレスが公開されることはありません。

*

★ロリポップ!★WordPressやMovableTypeの簡単インストール、cron、共有SSL対応!


Blue Taste Theme created by Jabox