Google
A revolving earth (earthani.gif--64x64) Beaverland Net
ビーバーランド・ネット
 

 

Beaverland Net Art logo (netart3.gif--140x365)

Beaverland HTML Made Easy! logo (html01.gif--140x160)

Javascript Made Easy! logo (javascrt.gif--140x360)

 

Study in Canada Home Page logo (homepg.gif--160x160)

  1. 出願
  2. 学費・生活費
  3. ビザ
  4. 渡航準備
  5. バンク–バ–
    に留学しよう!
  6. BC州の教育
  7. カナダの教育
  8. 私立高校願書
    の一例 (生徒用)
  9. 私立高校願書
    の一例 (両親用)
  10. 大学入学案内
  11. 私立高校
    入学案内
  12. 全寮制私立高校
    入学案内
  13. 全寮制私立高校
    授業料
  14. 公立高校
    入学案内
  15. バンク–バ–
    公立高校
    2002 / 2003年度
    入学要項
    及び授業料
  16. 語学専門学校
    授業料一覧表
  17. バンク–バ–案内
  18. 御意見・御質問コ–ナ–
  19. 帰国子女の受け入れ
  20. BC州の官公庁
    市町村・大学・高校へのリンク
  21. 留学生のための銀行利用法
  22. 高校生1000人に留学補助

Slangs not found in a dictionary logo (slangs.gif--140x260)

Beaverland Net Revised Japanese Ancient History logo (jpnword.jpg--140x360)

Beaverland Net Revised Japanese Ancient History logo (jhist02.gif--140x300)

Beaverland Mythology logo (myth007.gif--140x380)

Proverbs & Sayings logo (proverb1.jpg--140x280)

Idioms logo (idioms.gif--140x300)

Big news with ahhh and ohhh logo (news5.gif--140x300)

amusing questionnaire logo (quest902.jpg--140x300)

Chat logo (chatters4.jpg--140x300)

Beaverland Japonica banner (japonic3.gif--140x360)

 
UTF-8って何?
July 13, 2003

UTF というのは Unicode (または UCS) Transformation Format の略語です。 UCS は Universal Character Set の略語で、ISO 10646 の文字集合を表しています。 Unicode と UCS は、ほぼ同じものです。

ISO というのは International Organization for Standardization  の略語です。日本では、国際標準化機構と訳されています。世界118ヵ国が加盟している組織で、工業製品の国際規格化を目標として活動しています。

ISO 10646というのは、この組織で決められたものです。コンピュータを使って文字を表現するときに、世界のどの国の言葉も、 もれなく、表現できるようにということで集められた文字集合体です。

しかし、コードには限りがありますから、すべてというわけには行きません。このことも含めて、Unicode については、 このページ (ユニコードって何?) で詳しく説明しているので、リンクをクリックして読んでください。 新しいウィンドーが開きます。このページへ戻るには、新しいウィンドーを閉じてください。

UTF-8 UCS-4 binary code chart (utf8-02.gif--564x200)

UTFにも、いろいろありますが、代表的なのが UTF-8 と UTF-16 です。この2つの違いを一言でいうと、 文字を表現するときの単位が違います。UTF-8は8ビットの可変長マルチバイトで文字を表現します。

上の図は、2進法で表示されています。つまり、実際に、コンピューターのメモリーの内部では、このように0か1かの組み合わせで、 すべての文字が表現されているわけです。

右側が UTF-8、左側が、UCS-4 (後ほど説明します。) です。一番上の段を見てもらうと分かると思いますが、これが UTF-8で表現することのできる、最小の単位です。つまり、1バイトです。よく見ると分かるとおり、8ビットからなっています。

このようにして、UTF-8では、1バイトで文字を表現する場合もあるし、また6バイトで表現する場合もあるということです。

一方、UCS-4は、上の図で見ると分かるように、常に4バイトで文字を表現しています。

UTF-16は、8ビットを単位とするのではなくて、その2倍の16ビットを最小単位として文字を表すやり方です。

UTF-8 UCS-4 hexadecimal code chart (utf8-02.gif--306x249)

2進法で表示すると、人間の目には分かりにくいので、16進法で、上のように表すのが普通です。

UCS-4は4バイトの値で定義され、上位のバイトからそれぞれ群、面、区、点と呼ばれます。

UCS-2 (Universal multi-octet Character Set 2)とは、Unicodeとほぼ同じもので、 UCS(Universal multi-octet coded Character Set)の中のある特定の部分を指し示すものです。 UCS-4の群と面に配置され、2バイトの値として定義されています。世界の主要な言語で使われる文字のほとんどを収録しています。

UCSとは、実際にはUCS-4 (Universal multi-octet Character Set 4)のことで、 UCS-2はUCS-4の一部のことです。

UTF-16の場合、2バイトで表現できる文字(0x0000~0xD7FF、0xE000~0xFFFF)はそのまま2バイトで表し、 それ以降(0x00000000~0x0010FFFF)の文字は4バイトで表します。このため英数も日本語も全て2バイトで表現されます。 しかし、UTF-8は英数は1バイトで表現し、日本語は3バイトで表現するようになっています。

つまり、英数の割合が多い場合はUTF-8の方が効率が良いのですが、日本語が多い場合はUTF-16の方が効率が良いといえます。 また、世界的に見ればUTF-8を標準として使用することが多くなっています。

具体的にみると、 Windowsでは状況によってUTF-8とUTF-16を使い分けていますし、DNSなどの文字列にはUTF-8を使用し、 それ以外ではUTF-16を使用する、といった形の使い分けをしています。

つまり、どちらを標準として使用するか、ではなく、状況と目的、 さらには将来的な観点から使用する文字コードを使い分ける必要があるわけです。

こうして、ゴタクを並べ立てたのでは、ちっとも面白くないので、上の図に示してある数値を使って、実際に文字を表してみます。

UTF-8 UCS-4 hexadecimal code chart (utf8-02.gif--306x249)        

      

슀      슀

�      �

�      �

�      �

�      �

�      �

�      �

�      �

�      �

�      �

�      �

右上の表に列記された数値を、コードにして書くと上のようになります。左端に示したのが、そのコードによって実際に表示される文字です。 おそらく、クエスチョン・マークがたくさん並んでいることでしょう。これは、どういう意味かというと、まだ、このコードに文字が割り当てられていないか、 割り当てられている場合には、あなたのシステムに、その文字を表示する特別なフォントがないために、表示できないかのどちらかです。

ちなみに、私の名前をユニコードを使って漢字で書くと次のようになります。

加 藤 明

加 藤 明

どうしたら自分の名前の漢字コードが分かるのだろうか?と思っているんじゃありませんか? もしコードを知りたいのであれば、このページ (ユニコードって何?) を見てください。

 

Related Links

Betty (bettysm3.gif--111x357)

筆者紹介
Akira Kato (kato.jpg--180x135)
  • 日本とカナダの大学で教育を受ける。
  • 横浜にある大手の電器メーカーでコンピューターのソフトウエアの開発に従事する。
  • カナダのノースウエスト隼州政府・財務省に勤務する。
  • バンクーバーのランガラ・カレッジおよびサレーのクワンテレン・カレッジで講師を勤める。
  • ヨーロッパ、東南アジア、中国、北米を幅広く旅行する。
  • 現在、経営コンサルタント、フリーランス・ライターとして活躍している。



御意見・御感想
とても良い 良い まあまあ 良くない 最低

お名前:
Email アドレス:
御感想を書いて下さい。



Amazon Harry Potter Special (amazhary.jpg--550x280)

Laughing Matters, but true stories

笑ってください、
でもこれ嘘のようなホントの話し。

Laughing matters, but true stories logo (mandog.gif--400x275)
inserted by FC2 system