またまた、Wikipediaのdumpデータが更新された。
最近は結構頻繁に更新される感じ。
そろそろ、dumpデータのチェックツールでも作っておくかな。
ということで、まずは最新版にアップデート。
アップデート方法は過去に何回が書いているので、今回はディスク容量とデータのチェックのみ。
# df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 8476172 8805956 50% / # wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 # ls -al jawiki-latest-pages-articles.xml.bz2 -rw-r--r-- 1 root root 1379332326 May 8 12:17 jawiki-latest-pages-articles.xml.bz2 # df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 9824508 7457620 57% / # bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql # df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 15075456 2206672 88% / # ls -al *txt -rw-r--r-- 1 root root 129708899 May 15 10:35 page.txt -rw-r--r-- 1 root root 158224837 May 15 10:35 revision.txt -rw-r--r-- 1 root root 5083740396 May 15 10:35 text.txt
どうもディスクの使用量をみると、更新のたびに1%ずつ使用量がアップしていっている感じ。
なので、そのうち厳しくなるかも。
# df -k Filesystem 1K-blocks Used Available Use% Mounted on /dev/hda2 18222732 8512596 8769532 50% / mysql> select page_id, page_title from page where 1 limit 1475926,10; +---------+-----------------------------------------------+ | page_id | page_title | +---------+-----------------------------------------------+ | 2349930 | 土木工学知識体系 | | 2349931 | ガブロンツ・アン・デア・ナイセ | | 2349932 | ハン・チャン | | 2349933 | ザ・ダークナイト・ライジズ | | 2349934 | 概念体系(オントロジ) | | 2349935 | 日本手話通訳士協会 | | 2349936 | レッスルマニアVII | | 2349937 | NHKの緊急放送チャイム | | 2349938 | 緊急放送チャイム | | 2349939 | ホタテーズ | +---------+-----------------------------------------------+ 10 rows in set (0.52 sec)
Leave your Comment