マルチバイトの悪魔たち

つもなんかちょっとしたモノを作ろうと思うと立ちふさがる奴ら.
いい加減アタマにきたので歴史的経緯を一切無視して愚痴をたれてみるw.


#0 まず文字コード
HTMLを解析するようなモノを作ると,charsetを指定しないページがあったりで文字コード推定しなきゃだし,ライブラリを使って推定しても文字列の長さによって間違えるし,そもそも他国の文字コードとか返されても推定が正しいのかもよく分からないっていうw.

みんなUTF-8でいいじゃん!!


#1 次にASCIIにあるのになぜか全角でも存在する連中
全角英数とか全角記号とか全角スペース.
例えば,タグのようなモノを実装しようとすると,"表記の揺れ"をなくすためにいちいちマッパーを作らなきゃならないんです.
こやつらがいなくなれば,面倒なコトがなくなるのに.


#2 最後に半角文字
Unicodeの仕様にも半角文字があったりでマルチバイトな半角カナとか半角記号が存在するわけですが,#1に同じ理由でもう止めて欲しい.
あと,U+FFA0ってのを偶然見つけたんだけどコレはなに?
調べたらハングルの半角カナみたいなモノらしいんだけど,ASCIIのスペースでいいんじゃ........


Unicodeの仕様は広く使われてる既存の文字表現もとりこんでおかないといけないのは分かるけど,"推奨されない文字"的な扱いにできないのかな?
せめて,input methodの仕様を,ライトユーザーにこういった文字列を無意識のうちに入力できないようにしてくれないかなー.

さらに,邪悪で強大な独裁者が1日だけ世界を支配して"今日から文字コードUTF-8以外は認めない"と宣言してくれると非常に助かる.