【文字コード】utf-8とは? Shift JISとは?

web系のクラスを受け持つと、ほぼ毎回質問を受ける「文字コード」

ネット閲覧やネットショッピング、ゲームなどの一般ユーザはあまり気にしない文字コード。

身近な現象として、「文字化け」などが起こる原因でもあるので、覚えておくと便利ですね。

utf-8とShift JIS以外にも、たくさんありますが、今回はよく聞かれるこの2つをピックアップしてみました。

 

a92305fdb39b0f3c699816c5b717443a

Shift_JIS

(シフトジス)

日本語環境下では圧倒的に普及率が高い文字コードです。

メリット

消費バイト数が比較的少ない。
国内の携帯電話で読めるコード。

 

デメリット

使いようによって文字化けする。
エンコードデータに制御文字を含む場合が多いので、それを想定してない環境では誤作動したり文字化けしたりする。
文字種は9000ぐらい。

 

 

UTF-8

(ユーティーエフエイト)

正式名称は、

ISO/IEC 10646では “UCS Transformation Format 8”、

Unicodeでは “Unicode Transformation Format-8” です。

 

メリット

文字範囲が広く、どの国の文字も文字化けしない。
ほぼどんなPC環境でもデフォルトで読むことができる。

 

デメリット

国内の携帯電話表示には対応してない場合が多い。
日本語は一文字につき3バイト使うので容量がShift_JIS、EUC-JPの場合の約1.5倍になる。

 

 

webでの利用

htmlやcssで記述し、webにアップロードしてサイト構築する場合、とくにWordPressなど「UTF-8」がデフォルトに指定されていることがあるため、「UTF-8」を用いたほうが問題が起こりにくい。