久しく更新していなかったWikipediaのデータ。
つい最近dumpデータが新しくなったようなので更新した。
# df . Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 9125544 8156584 53% / # wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 # df . Filesystem 1K-ブロック 使用 使用可 使用% マウント位置 /dev/hda2 18222732 10539076 6743052 61% / # bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's///' | xml2sql sed: -e expression #1, char 0: no previous regular expression xml2sql: no element found at line 1 pos 0. Segmentation fault # bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql -v converted 1519004 pages, 1519004 revisions, 1519004 texts. # df . Filesystem 1K-ブロック 使用 使用可 使用% マウント位置 /dev/hda2 18222732 16045192 1236936 93% / # ls -al *txt -rw-r--r-- 1 root root 133651667 Sep 27 23:07 page.txt -rw-r--r-- 1 root root 163322785 Sep 27 23:07 revision.txt -rw-r--r-- 1 root root 5335758420 Sep 27 23:07 text.txt # \rm jawiki-latest-pages-articles.xml.bz2 # df . Filesystem 1K-ブロック 使用 使用可 使用% マウント位置 /dev/hda2 18222732 14631668 2650460 85% /
前回からレコード数を比べると、20,000位レコードが増えているようである。 よくもまぁ、次から次へと更新されるものだ。
というか、これは凄いことだと思う。
内容が確実であれば、自動で内容が更新されていく、これほどすごい辞書はないだろう。ということで、今回のアップデートの結果は以下の通り。
# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt Enter password: wiki.text: Records: 1519004 Deleted: 0 Skipped: 0 Warnings: 0 # mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt Enter password: wiki.revision: Records: 1519004 Deleted: 0 Skipped: 0 Warnings: 3040631 # mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt Enter password: wiki.page: Records: 1519004 Deleted: 0 Skipped: 0 Warnings: 0 mysql> select page_id, page_title from page where 1 limit 1518995,10; +---------+--------------------------------------------+ | page_id | page_title | +---------+--------------------------------------------+ | 2433391 | まりこ様 | | 2433392 | メタモール原子力発電所 | | 2433393 | ディーピカー・パードゥコーネ | | 2433498 | 仲間港 | | 2433500 | 船浦港 | | 2433501 | 上原港 | | 2433502 | 削除依頼/石井保 | | 2433504 | エケコ人形 | | 2433507 | 日本のお父さん | +---------+--------------------------------------------+ 9 rows in set (0.49 sec) # df . Filesystem 1K-ブロック 使用 使用可 使用% マウント位置 /dev/hda2 18222732 14687212 2594916 85% / # \rm *txt # df . Filesystem 1K-ブロック 使用 使用可 使用% マウント位置 /dev/hda2 18222732 9181096 8101032 54% /