シリコンバレー２４時: UTF-8 と UTF-8N の違いは何か？

お薦めページ

ハワイを飛ぶ日々

このブログを書く四元輝博と共にスカイメリカを経営するハワイ島在住の日本人パイロット、ジョシュア清水のブログ

シリコンバレー２４時

スカイメリカの共同経営者、シリコンバレー在住の四元輝博によるIT情報・ベンチャー起業に関するブログ

組み込みJava による M2Mソリューション総合研究所

四元輝博によるに「組み込みJava による M2Mソリューション」に関する調査レポート・サイト

UTF-8 と UTF-8N の違いは何か？

エディターの「TeraPad」や私が通常使っている「Xyzzy」などでは、文字コードの指定に「UTF-8」とは別に「UTF-8N」というのがある。はたしてこの２つはどう違うのだろうか？

ウィキペディア「Unicode」の「UTF-8（UTF-2、UTF-FSS）」の欄に

日本国内でのみ、 BOM (Byte Order Mark) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。 Internet Explorerでは、 BOMのついていないUTF-8の文書を読み込むと（日本語版の場合）Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。

簡単には BOM (Byte Order Mark) 付いているのといないとの違いのようだ。

では「バイトオーダーマーク (BOM:Byte Order Mark)」とは何か？上記ページの脚注で

BOMとは、8ビットを基本とするシステムでバイトオーダーを識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF,0xFEならリトルエンディアン、 0xFE,0xFFならビッグエンディアンとして後に続く文書を処理する。 RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。 Windowsのメモ帳で作成した「Unicodeテキスト」は標準でBOMが付与されるようになっている。

と説明されている。

さらにウィキペディア「UTF-8」では「バイトオーダーマークについて」というセクションで詳しく解説してある。

BOMの値は具体的には上記の通り、「U+FEFF」である。このBOMの値のUTF-8での表現は3バイトとなり 16進数の「 EF BB BF 」となる。ちなみにこれを8進数で現すと「 357 273 277 」となる。

解説によると、この BOMありのUTF-8 と BOMなしのUTF-8N は場合によって使い分けなければならいようだ。結局、適切な方を選択するためには、 UTF-8 と UTF-8N の両方に対応したエディターを使って、エラーの出ない方を選択するということしかないようだ。

【参考リンク】

カテゴリー: 文字コード・文字化け 2007年5月 7日 22:49

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

シリコンバレー２４時

シリコンバレー在住の四元輝博によるIT情報・ベンチャー起業に関するブログ

お薦めページ

メニュー

ハワイ島遊覧飛行ツアー

ハワイ島Ｂ＆Ｂ・ホテル

ハワイ島不動産情報

ハワイ島情報・観光ガイド

ブログ(Blog)

その他

関連サイト

2007年5月 7日

UTF-8 と UTF-8N の違いは何か？

トラックバック

コメント

コメントしてください

プロフィール

検索

カレンダー

カテゴリー

アーカイブ

最近のエントリー

最近のコメント

お気に入りサイト

シリコンバレー ２４時

シリコンバレー在住の四元輝博によるIT情報・ベンチャー起業に関するブログ

お薦め ページ

メニュー

ハワイ島 遊覧飛行ツアー

ハワイ島 Ｂ＆Ｂ・ホテル

ハワイ島 不動産情報

ハワイ島 情報・観光ガイド

ブログ(Blog)

その他

関連サイト

2007年5月 7日

UTF-8 と UTF-8N の違いは何か？

トラックバック

コメント

コメントしてください

プロフィール

検索

カレンダー

カテゴリー

アーカイブ

最近のエントリー

最近のコメント

お気に入りサイト

シリコンバレー２４時

お薦めページ

ハワイ島遊覧飛行ツアー

ハワイ島Ｂ＆Ｂ・ホテル

ハワイ島不動産情報

ハワイ島情報・観光ガイド