新・闘わないプログラマ No.290

ジャンクメール


Netscape 7.1が出たので、早速入れていました。メーラはずっとNetscapeのやつを使ってきていまして、他に良さそうなメーラもいろいろあるみたいなのですが、変えるのが面倒だ、という単純な理由でこれを使いつづけています。
さて、このNetscape 7.1からは、「ジャンクメールコントロール」というのが付いていまして、現在これを使ってみている最中です。これがどうやってジャンクメールを検出しているのか、詳しいことは知らないのですが、こちらで「これはジャンクメールだよ」「これはジャンクメールじゃないよ」と教えてあげると、どんどん検出精度が高まっていくみたいです。2週間ほど調教した結果、95%以上の確率でジャンクメールを検出してくれるようになりました。

ここでメールアドレスを公開している以上、あちこちで収集されてしまっているのは仕方の無いことかも知れませんが、ここのところ、ジャンクメールの数が急増しておりまして、鬱陶しいことこの上ありません。昔はまだ、ジャンクメールでも大半が日本語で書かれていて、読んで楽しいジャンクメールというのも結構あったのですが、今は「何語だか分からん」という読めないメールばかりでして、全然楽しくありません。
では、そのジャンクメール、どの程度急増しているんだろうか、と思い、うちに来たジャンクメール数を調べてみました。

ジャンクメール数(通)
期間 メール数
1997年07〜09月 6
1997年10〜12月 9
1998年01〜03月 7
1998年04〜06月 9
1998年07〜09月 23
1998年10〜12月 18
1999年01〜03月 23
1999年04〜06月 28
1999年07〜09月 44
1999年10〜12月 57
2000年01〜03月 62
2000年04〜06月 131
2000年07〜09月 148
2000年10〜12月 190
2001年01〜03月 254
2001年04〜06月 235
2001年07〜09月 352
2001年10〜12月 435
2002年01〜03月 623
2002年04〜06月 723
2002年07〜09月 777
2002年10〜12月 1015
2003年01〜03月 1437
2003年04〜06月 3977

いやもう、順調に伸びてますね、ジャンクメールの数。今年の4月〜6月なんて、「もう、いい加減にせい!」というほど来てます。計算しますと、平均して約33分に1通の割合です。最近はメール受信の音が鳴っても「どうせまたジャンクメールだろう」とすぐに見もしなくなりました。
ところで、「このメール、いったい何語なんだ?」というのが増えていると書きましたが、実際どうなんだろう、と調べてみました。と言っても、細かく調べている暇は無いので、メールヘッダの「charset」を見て、「日本語」「中国語(簡体字)」(←中国本土)「中国語(繁体字)」(←台湾・香港)「韓国語」「欧米圏」「その他・不明」くらいに分けて統計を取ってみました。

メールの文字コード(%)
期間 日本語 中国語
(繁体字)
中国語
(簡体字)
韓国語 欧米圏
の言語
その他
不明
1997年07〜09月 16.7 0.0 0.0 0.0 16.7 66.7
1997年10〜12月 33.3 0.0 0.0 0.0 50.0 16.7
1998年01〜03月 42.9 0.0 0.0 0.0 42.9 14.3
1998年04〜06月 25.0 0.0 0.0 0.0 25.0 50.0
1998年07〜09月 53.3 0.0 0.0 0.0 40.0 6.7
1998年10〜12月 28.6 0.0 0.0 0.0 64.3 7.1
1999年01〜03月 50.0 0.0 0.0 0.0 28.6 21.4
1999年04〜06月 73.3 0.0 0.0 0.0 6.7 20.0
1999年07〜09月 64.7 0.0 0.0 0.0 8.8 26.5
1999年10〜12月 57.9 0.0 7.9 0.0 7.9 26.3
2000年01〜03月 83.7 0.0 0.0 0.0 0.0 16.3
2000年04〜06月 75.8 0.0 0.0 0.0 5.3 18.9
2000年07〜09月 80.0 0.0 0.0 0.0 5.3 14.7
2000年10〜12月 76.6 0.0 0.0 0.0 5.5 18.0
2001年01〜03月 75.1 0.0 1.7 0.0 3.3 19.0
2001年04〜06月 69.9 0.0 3.4 0.0 2.1 24.7
2001年07〜09月 51.2 0.3 29.9 0.0 4.3 14.3
2001年10〜12月 36.4 0.0 8.1 0.0 31.0 24.4
2002年01〜03月 17.6 0.0 18.1 0.0 38.8 25.6
2002年04〜06月 17.4 1.0 12.5 0.3 54.7 14.1
2002年07〜09月 15.4 0.0 40.8 0.0 35.7 8.1
2002年10〜12月 13.5 0.3 33.3 0.5 31.5 21.0
2003年01〜03月 8.9 0.0 41.6 0.3 27.4 21.8
2003年04〜06月 4.0 0.1 42.6 0.1 17.4 35.7
全部 18.6 0.1 32.1 0.1 23.4 25.6

この統計は、あくまでメールヘッダに指定されている文字コードで判別していますので、どこから送られてきたか、ということは考慮されていません、ご注意ください。
これを見ますと、やはり、というか何と言うか、日本語のジャンクメールの割合がここのところ急激に下がっていますね。直近の3ヶ月では4.0%ですか…。欧米圏の言語の割合は、1998年頃と2002年頃にピークがありますね。なぜなんでしょう? ちょっと理由がわかりません。それから目立つのが中国語(簡体字)のジャンクメールが急激に増えていることでしょうか。台湾・香港・韓国あたりのメールはもっと多いかと思っていたのですが、意外なことにほとんどありません。あの「読めないメール」の大半が簡体字中国語だったんですね。

さて、なんでこんな統計を取ることが出来たか、と言うと、今までジャンクメールも律儀に保存していたからなんですね。でも、いい加減もう、保存するの止めました、ジャンクメール。Netscapeのメーラにジャンクメールコントロールという機能が付いて、2週間を過ぎたジャンクメールは自動的に削除されるような設定にした、というのもありますし、月に1000通以上も来るジャンクメールを取っておくのも馬鹿馬鹿しい、ということで。
というわけで、もうこういう統計を取れなくなるので、最後に調べてみた結果が、今回の駄文のネタになったわけです、はい。

[前へ] [次へ]

[Home] [戻る]


mailto:lepton@amy.hi-ho.ne.jp