سیستم UTF-8

اگر مرورگرها می‌توانند با کاراکترهای ۳۲ بیتی یونیکد کار کنند پس مشکل کجاست؟ مشکل در ارسال و دریافت و خواندن و نوشتن کاراکترهاست.

بسیاری از نرم‌افزارها و پروتکل‌های ارسال/دریافت و خواندن/نوشتن با کاراکترهای ۸ بیتی کار می‌کنند
با استفاده از ۳۲ بیت برای ارسال/ذخیره متن انگلیسی مقدار پهنای باند/فضای موردنیاز چهار برابر خواهد شد

هر چند مرورگرها می‌توانند بصورت داخلی با یونیکد کار کنند، هنوز باید برای مرورگر وب داده را از وب سرور بگیرید و دوباره برگردانید، و نیاز دارید تا آن را در یک فایل یا جایی در یک پایگاه داده ذخیره کنید. بنابراین هنوز به راهی نیاز دارید که ۱۱۰۰۰۰ کد پوینت یونیکد را تنها در ۸ بیت جا دهید.

تلاش‌های مختلفی برای حل این مسأله انجام گرفته مثل UCS2 و UTF-16. اما در سال‌های اخیر UTF-8 برنده بوده است که مخفف فرمت ۸ بیتی انتقال مجموعه کاراکتری جهانی (Universal Character Set Transformation Format 8 bit) است.

UTF-8 باهوش است و نسبتاً شبیه کلید Shift روی کیبورد کار می‌کند. به طور معمول هنگامی که شما H را از کیبورد می‌فشارید حرف کوچک h روی صفحه ظاهر می‌شود. اما اگر شما ابتدا Shift را فشار داده باشید، حرف بزرگ H ظاهر می‌شود.

UTF-8 با اعداد ۰ تا ۱۲۷ همانند اَسکی، ۱۹۲ تا ۲۴۷ به عنوان کلیدهای Shift و ۱۲۸ تا ۱۹۲ به عنوان کلیدهایی که با شیفت استفاده می‌شوند، رفتار می‌کند. برای مثال کاراکترهای ۲۰۸ و ۲۰۹ شما را به محدوده سیریلیک منتقل می‌کنند (شیفت می‌دهند). ۲۰۸ همراه با ۱۷۵ کاراکتر ۱۰۷۱ است که Я سیریلیک می‌شود. محاسبه دقیق آن به این صورت است: ۱۰۷۱ = (۶۴ % ۱۷۵) + ۶۴ * (۳۲ % ۲۰۸). کاراکترهای ۲۲۴ تا ۲۳۹ شبیه شیفت مضاعف (double shift) هستند. ۲۲۶ به دنبال آن ۱۹۰ و سپس ۱۲۸ کاراکتر ۱۲۱۶۰: ⾀ است. ۲۴۰ به بالا شیفت سه گانه (triple shift) است.

بنابراین UTF-8 یک رمزگذاری با عرض متغیر (variable-width) چند بایتی (multi-byte) است. چند بایتی به خاطر اینکه یک کاراکتر واحد شبیه Я بیشتر از یک بایت را برای مشخص شدن می‌گیرد. عرض متغیر به این دلیل که برخی از کاراکترها مثل H تنها یک بایت را می‌گیرند و برخی تا چهار بایت را اشغال می‌کنند.

بهتر از همه این است که با ASCII نیز سازگار است. بر خلاف برخی دیگر از راه حل‌های پیشنهادی، هر سندی که تنها در ASCII با کاراکترهای ۰ تا ۱۲۷ نوشته شده کاملاً در UTF-8 معتبر است و همچنین موجب صرفه جویی در پهنای باند می‌شود.

سیستم UTF-8

درباره نویسنده

ارسال دیدگاه

دسته ها

جستجو

رجیران

نمايندگی

سرورها

طراحی سایت

هاست

ثبت دامنه