大五码(Big5),又称为五大码,是使用繁体中文社群中最常用的电脑汉字字符集标准,共收录13,060个中文字,其中有二字为重覆编码,Big5属中文内码(中文码分为中文内码及中文交换码两类)。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de
facto standard)。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准,但厂商又各自增删,衍生成多种不同版本。
“五大码”(Big5)是在1984年由台湾地区财团法人信息工业策进会为五大中文套装软件(宏碁、神通、佳佳、零壹、大众)所设计的中文内码,所以就称为Big5中文内码,虽然五大套装软件并没有成功,但Big5码却深远地影响正体中文电脑内码,直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文,以致现在有“五大码”和“大五码”两个中文名称。
Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如IBM
5550、王安码等,彼此不能兼容;另一方面,台湾当时尚未推出官方的汉字编码,而中国大陆所推行的GB
2312编码,亦未有收录繁体字。在这样的时空背景下,为了使台湾早日进入信息时代,所采行的一个计划;同时,这个计划对于以台湾为核心的亚洲繁体汉字圈也产生了久远的影响。
Big5码由于很多日常用字被视为异体字而未收录。很多人,甚至电视台的字幕、报纸的用字习惯都被改变。
由于Big5码内的万多个字,只是根据台湾地区“教育部”颁布的《常用国字标准字体表》、《次常用国字标准字体表》等用字汇编而成,并没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,亦没有放入日语平假名及片假名字母。所以在市面上支援Big5码的软件,有不少都自行在原本的编码外,添加一些符号及用字。
中文数位化技术推广委员会(中推会)在1997年推出Big5+,使用了两万多码位,纳入了Unicode
1.1下所有汉字。由于编码使用到的范围超过原先Big5定义(Big5+使用了高字节0x81-0xFE,低字节0x40-0x7E、0x80-0xFE),无法安装在Microsoft
Windows上,现几乎无人使用。
鉴于Big5不是一个官方标准,中推会决定编制一个Big5的定义,并把它放到官方编码CNS
11643的附录里,正式成为官方标准的一部分。
由于各厂商及政府推出的Big5延伸,彼此互不兼容,造成乱码问题。鉴于Unicode能正确地处理七万多个汉字,近年的操作系统和应用程式(如苹果电脑
Mac OS X 和以 Cocoa API 撰写之程式、Microsoft
Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏览器、Internet
Explorer浏览器、Java 语言等等),已改用Unicode编码。可惜现时仍有一些旧的软件(如Visual
Basic 6、部分Telnet或BBS软件),未能支援Unicode编码,故相信Big5缺字的问题仍会困扰用户一段时间,直至所有程式都能改用Unicode为止。
|