« ruby で URLエンコード プログラミング | メイン | ruby での「 Invalid char `\357' in expression 」エラーメッセージ » |
このブログを書く四元輝博とジョシュア清水が経営する旅行代理店スカイメリカ
ジョシュア清水 自らが操縦する、日本語でのガイドと会話を楽しみながらハワイ島を巡るセスナの旅
このブログを書く四元輝博と共にスカイメリカを経営するハワイ島在住の日本人パイロット、ジョシュア清水のブログ
スカイメリカの共同経営者、シリコンバレー在住の四元輝博によるIT情報・ベンチャー起業に関するブログ
四元輝博によるに 「組み込みJava による M2Mソリューション」に関する調査レポート・サイト
: 個別エントリー・アーカイブ :
日本国内でのみ、 BOM (Byte Order Mark) がついているものをUTF-8、 ついていないものをUTF-8Nとして区別することがあるが、 国際的には認知されていない。 Internet Explorerでは、 BOMのついていないUTF-8の文書を読み込むと(日本語版の場合)Shift_JISだと 誤認する一方で、BOMがついていると有効なデータとして受け付けない アプリケーションも存在する。簡単には BOM (Byte Order Mark) 付いているのと いないとの違いのようだ。
BOMとは、8ビットを基本とするシステムで バイトオーダーを識別するための印であり、 データストリームの先頭に付与される。 値はU+FEFF。 システムが読み込んだ先頭2バイトが0xFF,0xFEならリトルエンディアン、 0xFE,0xFFならビッグエンディアンとして後に続く文書を処理する。 RFC 2781 ではBOMが付いていないUTF-16文書は ビッグエンディアンとして解釈することになっている。 Windowsのメモ帳で作成した「Unicodeテキスト」は 標準でBOMが付与されるようになっている。と説明されている。
カテゴリー: 文字コード・文字化け 2007年5月 7日 22:49
このエントリーのトラックバックURL:
http://www.skymerica.com/blog/yotsumoto/mt/mt-tb.cgi/792