新・闘わないプログラマ No.291

ジャンクメール 分析編


ええとですね、先週は、私のところにやってくるジャンクメールについて統計と取ってみたのですが、時間が無かったもので、データを載せただけで終わってしまいました。というわけで、もう少し細かく見ていこうか、というのが今週のテーマです。

まず、ジャンクメール数の推移なのですが、表が長くなってしまうので、前回は3ヶ月ごとに示しましたが、実際は1ヶ月毎に集計してあります。その推移を見ますと、どうもその増加傾向が指数関数っぽいなあ、ということで、縦軸(メール数)を対数目盛にしてグラフ化してみました(この駄文では基本的に画像は使っていないのですが、今回は特例と言うことで、Excelで作ったグラフをそのまま示します…テキストブラウザ等でご覧の方、ごめんなさい)。

毎月のジャンクメール数の推移

このグラフを見ると、やっぱり指数関数っぽいですね(指数関数なら、このグラフ上で直線になるのでわかる)。そこで、同じグラフ上に指数関数に回帰させた線を入れてみました。
まあ、メール数の増加傾向が指数関数的になるのも、なんとなく解らないでもないような気もしますけど、実際のところどうなんでしょう? このままいつまでこの調子で増えつづけていくのでしょうか。
このグラフからは約26ヶ月でジャンクメール数は10倍になることが読み取れます。この調子で行くと、2004年の10月には月1万通、2006年の12月には月10万通、2009年の2月には月100万通のジャンクメールを受けることになってしまいます。月100万通ってことは、つまりその、平均して2.6秒に1通ということ?

それから、文字コード別のジャンクメール数に関して、数人の方からメールを貰い、「韓国語のメール、もっとあるのでは?」という疑問を頂きました。私自身、分析はかなり手抜きの方法を取っていまして、メールヘッダにある「Content-type」の「charset」の所だけを抜き出して統計をとっています。その中にいろいろな種類の文字コードがあったのですが、不明のものについてはGoogleあたりで検索して、分類してあります。「その他・不明」のうちの「不明」というのはこの「Content-type」の付いてないメールと言う意味で、charsetのところに不明なものが指定されている、というわけではありません。
というわけで、韓国語のジャンクメールが少ない理由はよく分かりません(メールの本文まで当って、文字コードを推測するだけの根性も無いもので…)。よくよく考えてみると、韓国語らしきジャンクメールを貰った記憶があまりないので、実際にそれほど来てないのかも知れません。それと比べると、中国語のメールは相変わらず嫌になるほど来ますね。でも、読めないメールをそんなに送ってこられても、全然効果無いと思うんですけど、なんでこんなに送ってくるんでしょう? と思いつつ、よくよく考えてみたら、(一応学校で習ったはずの)英語で書かれているジャンクメールにしても、全く読んだことが無いことに気づきました。この際だから、どんなことが書かれているのか興味もあるし、ちょっと読んでみるか。おお、ちょうど今、英語のメールが来たぞ。都合がいいから、これを読んでみよう。どれどれ…

    Dear lepton,

          How to Increase Your Penis
          Size 3+ Inches In Weeks And
          Stop Premature Ejaculation

うるせ、バカ。大きなお世話だ。

[前へ] [次へ]

[Home] [戻る]


mailto:lepton@amy.hi-ho.ne.jp