Archive

Wikipedia Dumpデータの更新(9月21日版)

No Comments

久しく更新していなかったWikipediaのデータ。
つい最近dumpデータが新しくなったようなので更新した。

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9125544   8156584  53% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  10539076   6743052  61% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's///' | xml2sql
sed: -e expression #1, char 0: no previous regular expression
xml2sql: no element found at line 1 pos 0.
Segmentation fault

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql -v
converted 1519004 pages, 1519004 revisions, 1519004 texts.

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  16045192   1236936  93% /

# ls -al *txt
-rw-r--r-- 1 root root  133651667 Sep 27 23:07 page.txt
-rw-r--r-- 1 root root  163322785 Sep 27 23:07 revision.txt
-rw-r--r-- 1 root root 5335758420 Sep 27 23:07 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  14631668   2650460  85% /



前回からレコード数を比べると、20,000位レコードが増えているようである。 よくもまぁ、次から次へと更新されるものだ。

というか、これは凄いことだと思う。
内容が確実であれば、自動で内容が更新されていく、これほどすごい辞書はないだろう。ということで、今回のアップデートの結果は以下の通り。

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki text.txt
Enter password:
wiki.text: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 0

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki revision.txt
Enter password:
wiki.revision: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 3040631

# mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u hogeuser -p -d -L wiki page.txt
Enter password:
wiki.page: Records: 1519004  Deleted: 0  Skipped: 0  Warnings: 0

mysql> select page_id, page_title from page where 1 limit 1518995,10;
+---------+--------------------------------------------+
| page_id | page_title                                 |
+---------+--------------------------------------------+
| 2433391 | まりこ様                                   |
| 2433392 | メタモール原子力発電所                     |
| 2433393 | ディーピカー・パードゥコーネ               |
| 2433498 | 仲間港                                     |
| 2433500 | 船浦港                                     |
| 2433501 | 上原港                                     |
| 2433502 | 削除依頼/石井保                            |
| 2433504 | エケコ人形                                 |
| 2433507 | 日本のお父さん                             |
+---------+--------------------------------------------+
9 rows in set (0.49 sec)

# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732  14687212   2594916  85% /

# \rm *txt
# df .
Filesystem           1K-ブロック    使用   使用可 使用% マウント位置
/dev/hda2             18222732   9181096   8101032  54% /

Wikipedia Dumpデータの更新(6月28日版)

No Comments

うーん、最近こればっかしかやってないなぁ。
もう少しいじり倒したい。

そういや仕事で Apache2 worker MPM + mod_perl2 をインストールして、いろいろやろうと思っているので、こっちでもやってみようかなぁ。
barancer を突っ込めば別の Web サーバに飛ばすことも可能になるのでいいかもしんない。

とはいえ、今回は恒例のWikipediaデータのアップデート。

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8784840   8497288  51% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1405340295 Jun 29 00:49 jawiki-latest-pages-articles.xml.bz2

# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  10158628   7123500  59% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's///' | xml2sql
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  15508932   1773196  90% /

# ls -al *txt
-rw-r--r-- 1 root root  131236266 Jul  3 09:33 page.txt
-rw-r--r-- 1 root root  160215575 Jul  3 09:33 revision.txt
-rw-r--r-- 1 root root 5181876933 Jul  3 09:33 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14135180   3146948  82% /

で、最終的には以下のような感じ。
やっぱり、ディスク使用量が1%アップという感じ。

# \rm *.txt
# df .
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8814776   8467352  52% /

mysql> select page_id, page_title from page where 1 limit 1492724,10;
+---------+--------------------------------------------+
| page_id | page_title                                 |
+---------+--------------------------------------------+
| 2381902 | 北杜市立高根西小学校                       |
| 2381904 | ボカロスタ                                 |
| 2381905 | ボカロスター                               |
| 2381906 | 削除依頼/高根西小学校                      |
| 2381908 | 又松大学校の教員                           |
| 2381909 | マンガ甲子園                               |
| 2381910 | マジック世界No.1                           |
| 2381911 | 漫画甲子園                                 |
| 2381912 | フランソワ・クロード・アムル               |
| 2381913 | 大発見                                     |
+---------+--------------------------------------------+
10 rows in set (0.49 sec)

Wikipedia Dumpデータの更新(6月12日版)

No Comments

いつも使っているデスクトップPCの電源が壊れたため、復活するまでしばらくマシンにログインできなかった。
とりあえず、最低限の復活はできたので、久しぶりにログイン。

早速、更新されていた Wikipedia の Dumpデータを更新した。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8706332   8575796  51% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1397608496 Jun 13 14:09 jawiki-latest-pages-articles.xml.bz2

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  10072528   7209600  59% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql
# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  15393188   1888940  90% /

# ls -al *txt
-rw-r--r-- 1 root root  130798393 Jun 19 15:14 page.txt
-rw-r--r-- 1 root root  159734059 Jun 19 15:14 revision.txt
-rw-r--r-- 1 root root 5152455538 Jun 19 15:14 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  14026992   3255136  82% /
で、最終的に以下のように更新された。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8749300   8532828  51% /

mysql> select page_id, page_title from page where 1 limit 1487886,10;
+---------+-----------------------------------------+
| page_id | page_title                              |
+---------+-----------------------------------------+
| 2372793 | イラクの旗                              |
| 2372795 | 池田泉州銀行イメージガール              |
| 2372796 | ガントプロジェクト                      |
| 2372797 | サンキー_ダイアグラム                   |
| 2372798 | エコブックスオンライン                  |
| 2372799 | 石油換算トン                            |
| 2372800 | ヨルダンの旗                            |
| 2372801 | まだ見ぬアナタ                          |
| 2372803 | カンボジアの旗                          |
| 2372808 | キリバスの旗                            |
+---------+-----------------------------------------+
10 rows in set (0.66 sec)

Wikipedia Dumpデータの更新(5月22日版)

No Comments

先日、WikipediaのDumpデータを更新したばかりなのだが、またアップデートされていた。

dumpデータの更新チェックツールでも作っておくか、と思っていたら、その思っている間に更新されてしまうとは何ともマヌケな話である。
ということで、やっぱり手動更新なのである。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8489536   8792592  50% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1386466624 May 23 01:15 jawiki-latest-pages-articles.xml.bz2

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9844836   7437292  57% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql
# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  15122916   2159212  88% /

# ls -al *txt
-rw-r--r-- 1 root root  130133209 May 27 06:58 page.txt
-rw-r--r-- 1 root root  158812180 May 27 06:58 revision.txt
-rw-r--r-- 1 root root 5110502082 May 27 06:58 text.txt

# \rm jawiki-latest-pages-articles.xml.bz2
# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  13767616   3514512  80% /

で、最終的に以下のように更新された。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8516936   8765192  50% /

mysql> select page_id, page_title from page where 1 limit 1480574,10;
+---------+-------------------------------------------------------------------+
| page_id | page_title                                                        |
+---------+-------------------------------------------------------------------+
| 2358548 | 諸言語版の秀逸な記事/フランス語版/日常・余暇                      |
| 2358549 | 諸言語版の秀逸な記事/フランス語版/全て                            |
| 2358551 | AFCアジアカップ2011_バーレーン代表                                |
| 2358552 | CRAZY-ISM_クレイジズム                                            |
| 2358553 | 孤立死                                                            |
| 2358555 | オートルート_A11                                                  |
| 2358556 | サッカーマケドニア代表歴代監督                                    |
| 2358557 | 山本守礼                                                          |
| 2358558 | 南米年間最優秀監督賞                                              |
| 2358559 | 岩崎藩主                                                          |
+---------+-------------------------------------------------------------------+
10 rows in set (0.00 sec)

Wikipedia Dumpデータの更新(5月7日版)

No Comments

またまた、Wikipediaのdumpデータが更新された。

最近は結構頻繁に更新される感じ。
そろそろ、dumpデータのチェックツールでも作っておくかな。

ということで、まずは最新版にアップデート。
アップデート方法は過去に何回が書いているので、今回はディスク容量とデータのチェックのみ。

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8476172   8805956  50% /

# wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

# ls -al jawiki-latest-pages-articles.xml.bz2
-rw-r--r-- 1 root root 1379332326 May  8 12:17 jawiki-latest-pages-articles.xml.bz2

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   9824508   7457620  57% /

# bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql

# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732  15075456   2206672  88% /

# ls -al *txt
-rw-r--r-- 1 root root  129708899 May 15 10:35 page.txt
-rw-r--r-- 1 root root  158224837 May 15 10:35 revision.txt
-rw-r--r-- 1 root root 5083740396 May 15 10:35 text.txt

どうもディスクの使用量をみると、更新のたびに1%ずつ使用量がアップしていっている感じ。
なので、そのうち厳しくなるかも。


# df -k
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/hda2             18222732   8512596   8769532  50% /

mysql> select page_id, page_title from page where 1 limit 1475926,10;
+---------+-----------------------------------------------+
| page_id | page_title                                    |
+---------+-----------------------------------------------+
| 2349930 | 土木工学知識体系                              |
| 2349931 | ガブロンツ・アン・デア・ナイセ                |
| 2349932 | ハン・チャン                                  |
| 2349933 | ザ・ダークナイト・ライジズ                    |
| 2349934 | 概念体系(オントロジ)                        |
| 2349935 | 日本手話通訳士協会                            |
| 2349936 | レッスルマニアVII                             |
| 2349937 | NHKの緊急放送チャイム                         |
| 2349938 | 緊急放送チャイム                              |
| 2349939 | ホタテーズ                                    |
+---------+-----------------------------------------------+
10 rows in set (0.52 sec)



Blue Taste Theme created by Jabox