2009年
1月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

setup diary

2007|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|06|08|11|
2015|01|02|03|04|05|06|07|08|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|

2009-01-24 utf-8とhtml

_ utf-8の番号

htmlで多国語を扱うときには、utf-8が便利である。しかし、utf-8の文字を入力するのはそれほど簡単ではない。バイナリをいじったりする必要もある。htmlでは、অなどという書き方をすることができ、これだと普通のエディタで編集できるので、扱いやすい。このバイナリと番号の対応が分からなかったのだが、
man utf-8
としたら、変換の仕方が説明してあった。原理が分かったので、変換スクリプトをrubyで書こうと思ったら、
p "\xe0\xa6\xbe".unpack("U*")
で変換できてしまった。簡単に書けてうれしいような、アルゴリズムを考える必要が無くなって悲しいような。この数字に&#につければ、バイナリの代わりに文字を表すことができる。これで、ベンガル語のhtmlを楽に書けるようになった。