spam に困っている人は多いと思う。
あれは食べ過ぎると太るしね。スパむすびおいしくて困っちゃう。
…というボケは置いといて、いわゆる「迷惑メール」のことね。
ホーメルフーズ社は、同社の商品である肉の缶詰は SPAM 、迷惑メールはspam と書けと言っているので、ここでは「spam」の話をする。
最初のボケを書いたせいで、何の話かわからなくなってしまった。
えっと、つまり「情報の扱い」の話をしたい。
spam を分類するのにベイジアンフィルタが有用だ、というのは多くの人が聞いたことある話だろうし、既に使っている人も多いだろう。
ベイジアンフィルタって何? と言う人でも、Gmail を使っていれば自動的に適用されているし、メーラーに内蔵されているような場合もある。
あれがベイジアンフィルタなんて呼ばれていること自体、確率を真面目に研究している人からは怒りの対象らしいし、そうでなくてもよく使われている「確率式」が、素人目に見てもおかしなものだったりするのだが、ともかく実用上は動作している。
#一応、仕事でベイジアンフィルタ自作してみたりもしたことをお断りしておく。
ところで、ベイジアンフィルタは、メールが「何かである確率」を出してくれるに過ぎない。
普通は、spamである確率を出す。これは学習型フィルタなので、学習次第でどんな確率でも出せる。
友達から来たメールである確率、会社から来たビジネス文書の確率、似たような「おすすめ商品のお知らせ」でも、自分が好きそうな商品か否かで分類することだって可能だろう。
でも、それはあくまでも確率だ。明確に分類できているわけではない。
そこで、ある程度の確率のところに線を引き(閾値と呼ばれる)、それを超えた場合に「spamである」などと断定する。
ここで問題になるのが、今回のテーマである「情報の扱い」だ。
閾値をどこに引くのが適切なのか?
spam である確率が 0% であれば、spam ではないだろう。
100% であれば、誰がなんと言おうと spam である。
では、60% なら? 70% 、80% では?
どちらかといえば spam 寄りなのだから、spam として扱うべきだろうか?
実のところ、spam 扱いしてもよいのは、spam である確率が 90% 以上など、飛びぬけて高い場合のみである。
なぜなら、spam 扱いするということは「見ないで捨てる」可能性が高くなるからだ。
メールを見た結果、spam を見つけてうんざりする方が、重要なメールを見ないで捨ててしまうよりも良い方法なのである。
spam に限らず、膨大な情報を処理し、一部だけ抽出して後は捨てる、と言うことは日常で普通に行われている。
この際、情報を捨てた結果どうなるか、拾った結果どうなるか、情報の中身に応じてよく考えた上で扱いを決めなくてはならない。
5年間しまいこんであった箪笥の中の服を整理するのであれば、基本的に捨てる、という方針で臨むことが正しいだろうし、癌検診の医師は少しでも異常があれば拾って再検査に回す、という方針で臨むことが正しいだろう。
情報の扱いとは、画一的に方法が決まるものではない。
正解はないが、その状況によって正しい方法を熟考し続けないといけない性質のものである。
と、急にこんな事を思ったのは、携帯に溜まった緊急地震速報の履歴を追ってみたから。
…なんだ、また大震災がらみの話か、とお思いの人もいるだろう。申し訳ない。
2010年9月29日の17時00分に、関東地方の携帯電話向けに緊急地震速報が通知された。
福島県で地震発生、との内容だった。
#改めて確認したら、福島だったのね…。後知恵だが、予震だったのだろう。
これ、FOMA が「普及期」に入ってからは初めてだったこともあり、結構話題になった。
僕も初めて受信したので驚いた。
でも、実際には大きな揺れは観測されなかった。
これは「速報」という性質上仕方のないことだったと思う。
地震、という、生命を脅かす危険のある情報の扱いとしては、僅かでも確率があるならば、拾った方が良い情報なのだ。
福島で地震があった、と言うのは事実だ。その地震から僅かな時間で、地震の影響範囲を計算し、影響が強いと予想される範囲に対して警告を行う。
しかし、この範囲は「予想」でしかない。結果論として、関東で揺れはほぼ観測されなかった。
関東で観測されなかったとしても、福島で大きな地震があった、という事実は変わらない。
なのに当時、「誤報だ」として気象庁が叩かれた。マスコミに叩かれたのみならず、政府にも見直しを命じられ、実際に「速報をあまり出さないように」システムが改変された。
その結果どうなったか。
2011年3月11日の震災本震発生時には、東北地方のみが通知範囲とされた。
関東北部は、緊急地震速報の想定する「震度3以上」を観測したが、通知範囲外だった。
ちなみに、この2日前の 3月9日午前11時45分にも、宮城で震度5弱を記録しているが(これも予震だったのだろう)、緊急地震速報はでていない。
(関東に、ではなく、警報そのものが出ていない)
生命にかかわる情報は、誤報といわれようがなんだろうが、通知しなくてはならない。
昨年9月の緊急地震速報を、誤報だと叩いた人間は(マスコミに限らず、全ての人は)深く反省しなくてはならない。
この震災で、ネットワーク化された地震計などの設備が損傷し、復旧に至っていないため、十分なデータが得られない状態が続き、緊急地震速報に「誤報」が多くなっている。
…と、少なくとも公式には、気象庁はそう説明している。
ネットワークが寸断されたのも、地震計が壊れたのも事実だろう。
そのためにデータが十分でなく、予想が難しくなっているのも事実だろう。
しかし、それは単純に「誤報が多い」ことには繋がらない。
単にデータが足りないだけなら、緊急地震速報の発報が行われない、となることの方が多いはずだ。
(緊急地震速報は、速報性を重視しているため、最初の1つの地震計の揺れで発報する。しかし、近隣の地震計が揺れなければ、即座にキャンセル報が出される。つまり、ネットワークが寸断されれば、キャンセルだらけになるはずだ)
現在の状況では、強い余震が警戒されている。しかし、観測体勢が十分ではなくなっている。
となれば、システムのパラメータを改変して、情報の扱いを「疑わしければ拾う」側に寄せてあるのではないか、と推測する。
つまり、気象庁が言うように、単純なシステムの不具合ではなく、不具合を修正できない状況下においても、最悪の事態を防ぐ方向で、わざと誤報を増やしてある、ということだ。
これは推測に過ぎないが、情報の扱いとしては正しい。
先日、緊急地震速報が発報された直後に twitter を(厳密に言えば buztter を)見ていたら、「誤報が多いので、通知しない設定に切り替えた」と言う人が沢山いた。
これは、情報の扱いとして正しくない。
緊急地震速報は天気予報のような「予報」ではなく、確実にどこかが揺れたことの「速報」だ。
たとえ速報値による推測が間違っていて、自分が住んでいる地域が大して揺れなかったとしても、軽く見てはならない。
次の警報では、致命的な揺れがくる可能性がある、と常に警戒していないといけない。
どんな状況においても、情報を正しく扱うことは、自分の身を守る第一歩だ。
…と、強く思っているからなのだが、誰が読むかもわからない日記に、最近「情報の扱いの話」ばかり書いている気がする。
同じテーマの日記(最近の一覧)
別年同日の日記
申し訳ありませんが、現在意見投稿をできない状態にしています。 【あきよし】 自体:事態の表記違い、他ページも含めて指摘ありがとうございます。修正しました。 (2015-04-07 12:03:02)【校正エージェント】 「…なんて呼ばれていること事態、」 (2015-04-05 10:52:01) |