2008年
5月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

setup diary

2007|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|06|08|11|
2015|01|02|03|04|05|06|07|08|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|

2008-05-16 ウイグル文字とutf-8

_ ウイグル文字でhtml

今週はウイグル語というよりウイグル文字の勉強をした。目的は、homepageのどこかを見れば分かるでしょうが。ウイグル文字はアラビア文字系で、右から左に読む。htmlでは、utf-8を使うのが良いのだろうということで、
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
として、コードは
&#1726;&#1609;&#1583;&#1585;&#1608;&#1711;&#1744;&#1606;
というように記述した。ちなみに、上の文字列は水素です。文字はアルファベットと対応がつけられているようなので、この変換スクリプトをrubyで書いて、いろいろ変換して表示させていくうちに、なんとなくは読めるようになってきた。 そうしているうちに気づいたのだが、ややこしいことに、前後の文字とのつながり方によって、文字の形が変わってしまいます。時には、元の文字が分からないぐらいに。ただ文字を並べるだけで、表示が変わるので、書くときにはそれほど意識する必要はないのだが、フォントはどんなしくみでこれを実現しているのだろう。しかし、困ったことに、いくつかの文字では、このつながったときに形が変わるべきなのに、変わらないということが起きている。おそらくこれは、アラビア語には無い文字の場合に、そのような処理が行われていないのではと予想しているが、確証は無い。ウイグル語のフォントも見付けたのだが、インストールするべきか迷っている。