Wikipedia Dumpデータの更新(9月21日版)

By kennyNo Comments

久しく更新していなかったWikipediaのデータ。
つい最近dumpデータが新しくなったようなので更新した。

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9125544   8156584  53% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  10539076   6743052  61% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's///' | xml2sql
sed: -e expression #1, char 0: no previous regular expression
xml2sql: no element found at line 1 pos 0.
Segmentation fault

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql -v
converted 1519004 pages, 1519004 revisions, 1519004 texts.

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  16045192   1236936  93% /

# ls -al *txt
-rw-r--r-- 1 root root  133651667 Sep 27 23:07 page.txt
-rw-r--r-- 1 root root  163322785 Sep 27 23:07 revision.txt
-rw-r--r-- 1 root root 5335758420 Sep 27 23:07 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  14631668   2650460  85% /



前回からレコード数を比べると、20,000位レコードが増えているようである。 よくもまぁ、次から次へと更新されるものだ。

というか、これは凄いことだと思う。
内容が確実であれば、自動で内容が更新されていく、これほどすごい辞書はないだろう。ということで、今回のアップデートの結果は以下の通り。

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt
Enter password:
wiki.text: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 0

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt
Enter password:
wiki.revision: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 3040631

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt
Enter password:
wiki.page: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 0

mysql> select page_id, page_title from page where 1 limit 1518995,10;
+---------+--------------------------------------------+
| page_id | page_title                                 |
+---------+--------------------------------------------+
| 2433391 | まりこ様                                   |
| 2433392 | メタモール原子力発電所                     |
| 2433393 | ディーピカー・パードゥコーネ               |
| 2433498 | 仲間港                                     |
| 2433500 | 船浦港                                     |
| 2433501 | 上原港                                     |
| 2433502 | 削除依頼/石井保                            |
| 2433504 | エケコ人形                                 |
| 2433507 | 日本のお父さん                             |
+---------+--------------------------------------------+
9 rows in set (0.49 sec)

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  14687212   2594916  85% /

# \rm *txt
# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732   9181096   8101032  54% /

サービス, 独り言, 環境設定


この記事へのトラックバック

Leave your Comment

メールアドレスが公開されることはありません。

*

★ロリポップ!★WordPressやMovableTypeの簡単インストール、cron、共有SSL対応!


Blue Taste Theme created by Jabox