[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: no more byte-order independent locale files



Hi!

 Они ее конечно, сделали (utf-8 locale), но результаты,
признаться пугают... %-) Конечно, UNICODE большая и
светлая цель, но если честно, съезжает с черту вся
идеология UNIX. Одини только проблемы с fseek чего стоят...
То есть нельзя заранее угадать длину строки и привычное
c=string[10] больше не работает. Очень много всего придется
переписывать.

 На самом деле, как показала практика, например
на большом mail-relay 90% почты ходит из .ru в .ru .
Следовательно, все внедрение UNICODE происходит
лишь для <<10% случаев обмена многоязычными
текстами. И хорошая 8-ми битная locale с правильным
преобразованием Charset-ов сохранит свою актуальность
еще очень долго.

 С другой стороны, японцы например уже лет 30 живут
в такой ситуации, Shift-JIS и EUC как извесно - multibyte
и C:\Windows\System\CP_932.NLS занимает 400Kb.

 Конечно, mapping чего угодно в UNICODE очень
красивая и понятная идея. НО ! Как оказалось, реализация
поддержки собственно UNICODE *поверх* 8-ми битной
POSIX-системы страдает неизлечимой кривизной.
В тех же системах, где поклали на POSIX и сделали
все c нуля (Java VM, Plan 9, даже Window NT) такой
кривизны нет.

P.S. Sorry за некий сумбур, просто нахожусь под
впечатлением... ;-)

------------------------------
To: GNU libc hacker <libc-hacker@sourceware.cygnus.com>
Subject: no more byte-order independent locale files
From: Ulrich Drepper <drepper@cygnus.com>
Date: 13 Sep 1999 02:00:11 -0700

Hi,

I just committed changes which removed byte-order independent locale
files.  It was nice and work quite fine with the old implementation
but now the files are simply getting too big to continue support for
this (in case you looked at the files, the LC_CTYPE file for an UTF-8
locale was > 1MB).  I don't know whether anybody ever really used this
but even if, the price which everybody would have to pay was too high.

This was phase one to reduce the size of the files.  The second step
will include avoiding to write out data (mainly for the wide-char data
of LC_CTYPE) which corresponds to that of the builtin locale.

--
---------------.      drepper at gnu.org  ,-.   1325 Chesapeake Terrace
Ulrich Drepper  \    ,-------------------'   \  Sunnyvale, CA 94089 USA
Cygnus Solutions `--' drepper at cygnus.com   `------------------------

----------------------------------------------------------------------------
----