スパムお断り、reCaptcha 導入
ここ最近、コメントスパムの数が多くなってきてしまって困ったことになっていました。ブログの管理は一日に一度か二度にまとめてやるのですが、その都度何百というスパムがたまっています。ほとんどは WordPress のスパムフィルー多にひっかかって自動的に振り分けられるのでいいのですが、それでも false positive がないか、すべてに目を通すのは面倒でした。
しまいには「キャプチャってなんだか知ってるかい? スパムを止められるぜ」というコメントが書かれたリンクスパムも届くようになり、つい「いい根性だ、導入してやろうじゃないか!」と勢いで reCaptcha を入れてしまいました。
reCaptcha はコメントを書き込もうとしているのがスクリプトではなくて、人間であることを判別させる CAPTCHA 画像を挿入してくれるのですが、その画像はOCR で読み込まれた Internet Archive の本の単語を元にしています。スパムをブロックするためのキャプチャに答えるたびに、古い本のデジタル化に貢献しているわけです。
reCaptcha では次のようにして入力された文字が正解かどうかを調べています:
-
OCR で読み込めなかった単語Aを、すでに正解がわかっている単語Bといっしょにキャプチャ画像にする
-
ユーザーから送信された入力について単語B が正解なら、単語Aについても正解であるとみなす
-
さらに単語Aについての情報を数多くの人から収集することで信頼度を上げてゆく
というわけで、コメントを書いてくださる方には申し訳ないのですが、本のデジタル化に役立っているということで一手間にご協力下さい。これで多少はスパムの減少と、サーバー負荷の軽減に役立つような気がします。