Skip to content

20260113_UTF-8とは?

文字を1~4バイトで表現する文字符号化方式のこと。 英数字は1バイト、ひらがなや漢字は3バイト、、といった具合。

例: a → 97 あ → 227 129 130

ちなみに、UTF-8でエンコードしたバイト列を16進数で表現する際は、各16進数の前に 0xが付与されるのが一般的。これは、UTF-8の仕様ではなく、「この数値(というより文字列?)は16進数ですよ」を表すプレフィックスである。

例: あ → 227 129 130 —(16進数表現)—> 0xE3 0x81 0x82