Giới thiệu Kho chữ Hán Nôm mã hoá
VIỆN NGHIÊN CỨU HÁN NÔM
VIỆT NAM
HỘI BẢO TỒN DI SẢN CHỮ NÔM
HOA KỲ
KHO CHỮ HÁN NÔM
MÃ HOÁ
庫 񣘊 漢 喃 碼 化

Chủ biên:
GS. TSKH. Nguyễn Quang Hồng, Viện Nghiên cứu Hán Nôm
TS. Ngô Thanh Nhàn, Đại học New York

Thư ký:
Ngô Trung Việt, Viện Công nghệ Thông tin

Những người tham gia:
Viện Nghiên cứu Hán Nôm:
Ngô Thế Long, Ngô Thế Lân,
Hoàng Văn Nam, Nguyễn Thị Hà

Văn phòng Nôm Na:
Tô Trọng Đức, Lương Thị Hạnh,
Ngô Thanh Giang, Lê Văn Cường


NHÀ XUẤT BẢN KHOA HỌC XÃ HỘI
Hà Nội • 2008

1. Mục đích, đối tượng và nội dung Kho chữ Hán Nôm mã hoá

Kho chữ này được biên soạn để giới thiệu chung về các chữ Hán Nôm đã được mã hoá trên máy tính.

Kho chữ này là tập hợp các nỗ lực của nhiều chuyên gia Hán Nôm và công nghệ thông tin đã tiến hành trong hơn 15 năm qua nhằm đưa chữ Nôm vào Bộ ký tự mã hoá quốc tế Unicode và các chuẩn mã hoá ký tự chữ Việt.

Các chữ Nôm đã qua tuyển chọn và gán mã đều được đưa vào tài liệu này để giới thiệu cho những người làm chuyên môn về Hán Nôm học và người làm công nghệ thông tin sử dụng.

Người sử dụng có thể dùng kho chữ này để tìm hiểu các nguyên tắc xây dựng kho chữ Hán Nôm của Việt Nam và của thế giới (nguyên tắc của Nhóm Báo cáo viên chữ Biểu ý (Ideographic Rapporteur Group, IRG) của Tổ chức Tiêu chuẩn Quốc tế (International Standards Organization, ISO).

Người sử dụng có thể dùng thông tin nêu trong kho chữ này để biết lịch sử xây dựng kho chữ Hán Nôm và những cố gắng của Việt Nam để đưa chữ Hán Nôm vào kho chữ quốc tế.

Người sử dụng cũng có thể dùng kho chữ này làm bảng tra cứu, đối chiếu giữa

    các bộ của chữ Hán Nôm;

    mã Unicode và chữ Nôm;

    chữ Nôm và các âm đọc Quốc ngữ;

    âm đọc chữ Quốc ngữ và các tự dạng chữ Nôm tương ứng.

2. Lịch sử xây dựng Kho chữ Hán Nôm mã hoá

2.1.        Hoạt động chuẩn hoá quốc tế cho chữ Hán

Cuộc họp đầu tiên của Tổ chức Tiêu chuần Quốc tế (ISO) về việc thống nhất chữ biểu ý để đưa vào bộ mã quốc tế được tổ chức tại Bắc Kinh năm 1989.  Cuộc họp thứ hai của ISO được tổ chức tại Seoul (Hàn Quốc) tháng 2/1990, tại đó đã lập ra Nhóm Nghiên cứu Liên hợp Trung-Nhật-Hàn (Chinese–Japanese–Korean Joint Research Group hay CJK-JRG). CJK-JRG đã trở thành nhóm chính thức của ISO/IEC JTC1/SC1/WG2[1]và được đổi tên thành Nhóm Báo cáo viên chữ Biểu ý (Ideographic Rapporteur Group hay IRG) vào tháng 10/1993.  Nhóm IRG hiện nay có 9 thành viên, Trung Quốc, Nhật Bản, Hàn Quốc, Việt Nam, Mỹ, Hội Máy tính Đài Loan TCA, Hồng Kông, Macao và Unicode.

Việt Nam bắt đầu tham dự cuộc họp CJK-JRG lần thứ 5 tổ chức tại Hawaii (Mỹ) tháng 12/1992, đại diện của Việt Nam lúc đó là các chuyên gia Ngô Thanh Nhàn và Đỗ Bá Phước đã đưa ra lời mời nhóm tới họp ở Hà Nội và lời mời đã được chấp nhận. Trong cuộc họp thứ hai (của nhóm IRG) tại Hà Nội tháng 2/1994, IRG đã đồng ý đưa chữ Nôm của Việt Nam vào các phiên bản tương lai của Kho chữ và Trật tự Thống nhất (Unified Repertoire and Ordering, hay URO) và bổ sung thêm tự điển tham khảo thứ năm cho sơ đồ sắp thứ tự này (Phụ lục E, trang 2, [5], Unicode).

Ðến tháng 11/1995, “IRG đã xem xét tổng cộng 21.252 chữ biểu ý CJKV do Trung Quốc, Nhật Bản, Hàn Quốc, Ðài Loan và Việt Nam đệ trình xem như sự mở rộng cho URO 2.0.”

2.2.        Các hoạt động chuẩn hoá liên quan tới chữ Hán Nôm

Sự quan tâm của Việt Nam đối với việc đưa chữ Việt vào máy tính bắt đầu từ giữa những năm 1980.  Vào đầu năm 1990, cơ quan chức năng có thẩm quyền của Việt Nam về việc phát triển các bộ mã cho chữ Việt là Tiểu ban Chuẩn hoá Mã chữ Việt do Giáo sư Trần Lưu Chương phụ trách. Việt Nam đã xin đăng ký làm thành viên liên hệ của tổ chức Unicode từ năm 1993. Những nghiên cứu về chữ Nôm và máy tính bắt đầu từ những nỗ lực riêng lẻ của một vài nhóm chuyên gia Việt Nam trong nước và ngoài nước.

Trong năm 1992, Tổ chức Tiêu chuẩn Quốc tế ISO đưa ra bỏ phiếu về bộ mã chuẩn 32-bit đa ngữ ISO/IEC 10646, phần bao hàm cả bộ mã Unicode 16-bit. Hoàn cảnh lúc đó là đã có 23 phiếu ủng hộ và 8 phiếu chống, thiếu một phiếu bầu nữa là đủ tỉ lệ 3/4 để cho bộ mã này được thông qua. Ðỗ Bá Phước, uỷ viên Ban kỹ thuật Unicode, đã thông báo cho Tiểu ban Chuẩn hoá Mã chữ Việt về vấn đề bỏ phiếu này và đề nghị Việt Nam nên bỏ phiếu ủng hộ và đồng thời yêu cầu ISO chấp nhận đề nghị đưa chữ Nôm của Việt Nam vào bộ mã chuẩn đa ngữ này. Trưởng Tiểu ban Chuẩn hoá Mã chữ Việt, Gs. Trần Lưu Chương, đã làm các đề nghị để cho Tổng cục Tiêu chuẩn Đo lường Chất lượng, đại diện chính thức của Việt nam tại ISO, bỏ phiếu tán thành bộ mã này với yêu cầu chấp nhận đưa chữ Nôm của Việt Nam vào bộ mã này trong các lần phát triển tiếp sau.

Tại Mỹ, Ngô Thanh Nhàn, Ðỗ Bá Phước và Nguyễn Hoàng đã nghiên cứu đưa ra bản giới thiệu về chữ Nôm và bộ chữ thuần Nôm (Nôm Proper Code Table) NPCT 1.0 của Việt Nam cho Tiểu ban chữ Hán của Unicode tháng 5/1992 họp tại Xerox Corporation, Palo Alto. Theo sự uỷ nhiệm của Tiểu ban Chuẩn hoá Mã chữ Việt, các tác giả đã trình bày và giới thiệu bộ chữ thuần Nôm này cho CJK-JRG tháng 12/1992 tại Hawaii (Mỹ). Bộ chữ thuần Nôm NPCT 1.0 được lấy làm bản đề nghị của Việt nam trong cuộc họp IRG#1 tại Fukuoka (Nhật Bản) vào tháng 10/1993. Trong nước, nhóm nghiên cứu Hán Nôm và tin học của Ngô Thế Long tại Viện Nghiên cứu Hán Nôm cũng bắt đầu nghiên cứu việc tin học hoá chữ Nôm.

Hoạt động chuẩn hoá quốc gia thứ nhất là xây dựng một chuẩn quốc gia về chữ Nôm làm cơ sở pháp lý cho yêu cầu của Việt Nam đưa chữ Nôm vào chuẩn quốc tế. Tiểu ban Mã chuẩn chữ Nôm đã được thành lập do Gs. Nguyễn Lãm làm trưởng tiểu ban và năm 1993 đã ban hành được tiêu chuẩn mã chữ Nôm đầu tiên, gọi là TCVN 5773:1993. Hoạt động chuẩn hoá quốc tế thứ hai là Việt Nam đã nhận đứng ra đăng cai tổ chức cuộc họp IRG#2 tại Hà Nội năm 1994 để yêu cầu nhóm IRG ủng hộ việc đưa chữ Nôm vào ISO/IEC 10646 và IRG đã hoàn toàn ủng hộ đề nghị này. Tuy nhiên IRG chỉ xây dựng kho chữ mà không cấp mã chữ, vì vậy Việt Nam phải trực tiếp làm việc với Nhóm Công tác WG2 để yêu cầu cấp mã cho chữ Nôm. Từ đó Việt Nam bắt đầu tham gia các cuộc họp của WG2 và IRG thường xuyên.

Vấn đề là trong số 2.357 chữ Nôm được đề nghị trong TCVN 5773:1993 thì khoảng 500 chữ Nôm thống nhất được với các chữ đã có trong vùng CJK (Trung Quốc, Nhật Bản, Hàn Quốc) của bộ mã ISO/IEC 10646 theo quy tắc thống nhất chữ biểu ý, nhưng lúc đó chưa có cột dành riêng cho Việt Nam trong bộ ký tự mã hoá này. IRG mặc dầu chấp nhận các đề nghị đưa chữ Nôm của Việt Nam vào kho của IRG, đã không có thẩm quyền trong việc cấp cột riêng cho Việt Nam trong cả hai bộ mã Unicode và ISO/IEC 10646. Ban kỹ thuật CNTT đã phải cử các đoàn đại biểu Việt Nam tham dự các phiên họp làm việc của WG2 trong năm 1994 để chính thức yêu cầu cột V cho Việt Nam và cho đến năm 1996, yêu cầu này được WG2 họp tại Québec, Canada chấp thuận: Việt Nam có một cột V riêng cho các chữ Nôm trùng hình chữ Hán, được thống nhất với các chữ đã được Trung Quốc, Nhật Bản, Hàn Quốc đề nghị, trong vùng CJK của bộ mã này.

Các vấn đề khác nảy sinh là Việt Nam cần có những tập chuẩn khác về chữ Nôm để đưa thêm các chữ Nôm thống nhất được với các chữ biểu ý đã có của các nước và đồng thời nghiên cứu tìm thêm các chữ thuần Nôm để xin đưa vào phần bộ mã mở rộng của Unicode và ISO/IEC 10646. Công việc này được tiến hành suốt từ năm 1995 cho tới nay thông qua việc Việt Nam tham gia tích cực vào các hoạt động của Nhóm báo cáo viên chữ biểu ý IRG và đưa các chữ Nôm của Việt Nam vào kho chữ của IRG.

2.3.        Việt Nam tham gia các hoạt động của nhóm IRG

Việt Nam đã tham dự đều đặn các cuộc họp của nhóm IRG từ năm 1994 cho tới 2006 với sự hỗ trợ và tài trợ về kinh phí của Chương trình Công nghệ Thông tin Quốc gia (1993-1996) và sau đó là của Viện Nghiên cứu Hán Nôm (1996-2006). Hàng năm Việt Nam đều cử các đại diện chuyên gia của mình tham dự 2 cuộc họp chính thức và một số cuộc họp kỹ thuật để hoàn chỉnh các đề nghị đưa chữ Nôm vào kho chữ của IRG. Khi kho chữ của IRG đã được xây dựng đủ chất lượng thì nhóm công tác WG2 sẽ cấp mã cho các chữ này. Nội dung chính của các cuộc họp là kiểm điểm công việc đã làm giữa hai kỳ họp và thúc đẩy hoàn thành kho chữ chung. Các thành viên IRG đều phải cố gắng hoàn thành những công việc đã được phân công và đã thống nhất trong các kỳ họp trước.

Trong thời gian giữa hai kỳ họp là hoạt động của các thành viên IRG tại mỗi nước. Thành viên IRG Việt Nam đã phối hợp các hoạt động chuẩn bị của Viện Nghiên cứu Hán Nôm với các hoạt động của nhóm IRG, cụ thể là tiến hành lựa chọn từ các nguồn tư liệu ra các chữ Hán Nôm của Việt Nam, lập danh sách chữ, tổ chức vẽ phông cho chữ và gửi kết quả cho ban biên tập của IRG.

Về mặt tổ chức các cuộc họp quốc tế, Việt Nam đã đứng ra đăng cai các cuộc họp sau:

1.      IRG#2 tại Hà Nội năm 1994 do Trung tâm Tiêu chuẩn – Bộ Khoa học Công nghệ Môi trường tổ chức,

2.      IRG#10 tại thành phố Hồ Chí Minh năm 1997 do Chương trình Công nghệ Thông tin Quốc gia và Viện Nghiên cứu Hán Nôm tổ chức,

3.      IRG#20 tại Hà Nội năm 2002 do Viện Nghiên cứu Hán Nôm tổ chức, và

4.      IRG#26 tại Huế năm 2006 do Hội Bảo tồn Di sản chữ Nôm và Trung tâm Công nghệ Thông tin Thừa Thiên-Huế tổ chức.

2.4.        Vai trò của Viện Nghiên cứu Hán Nôm

 

Trong quá trình từ năm 1996 tới 2006, Viện Nghiên cứu Hán Nôm đã là cơ quan chính trong nước chịu trách nhiệm tài trợ và tổ chức các hoạt động liên quan tới IRG. Nhiều cán bộ của Viện đã tham gia trực tiếp hay gián tiếp vào việc hỗ trợ cho sự tham gia của thành viên IRG Việt Nam trong các hoạt động của IRG.

Có những nỗ lực lớn lao của cán bộ nhân viên phòng Tin học và một phần phòng Văn tự học của Viện, trong việc chọn chữ, vẽ chữ đúng hạn để nộp theo lịch hoạt động của IRG.

Những cố gắng phối hợp hài hoà của các phòng Hành chính và bộ phận Tài vụ đã góp phần cho việc hoàn thành các dự án tin học hoá và hỗ trợ tích cực cho hoạt động của nhóm IRG Việt Nam.

Các chuyên gia Hán Nôm và tin học của Viện Nghiên cứu Hán Nôm đã có nhiều đóng góp cho việc xây dựng nên kho các chữ Nôm của Việt Nam đóng góp cho IRG, kể từ việc chọn chữ, chọn thông tin xuất xứ cho tới vẽ phông chữ. Đó là Ngô Thế Long, Hoàng Văn Nam, Đinh Trọng Thuân, Nguyễn Tá Nhí, Ngô Thế Lân, Nguyễn Thị Hà… Đó cũng là sự quan tâm chỉ đạo của lãnh đạo viện Hán Nôm, PGs. Phan Văn Các, PGs. Ts. Trịnh Khắc Mạnh. Ở đây cần nhắc tới những đóng góp rất tích cực và mang tính chuyên gia sâu sắc của Gs. TsKh. Nguyễn Quang Hồng trong việc xây dựng các tập chuẩn chữ Nôm. Phần lớn những đề nghị về chữ Nôm của Việt Nam cho IRG từ những năm 1995 đến 2006 đều được trích ra từ công trình nghiên cứu của Gs. Nguyễn Quang Hồng.

2.5.        Hội Bảo tồn Di sản chữ Nôm và nhóm Nôm Na

Hội Bảo tồn Di sản chữ Nôm Việt Nam (VNPF) được thành lập năm 1999 tại Hoa Kỳ, với tư cách một hội từ thiện công khai, nhằm mục đích bảo tồn chữ Nôm, và di sản khổng lồ trong các lãnh vực văn học, lịch sử, y dược, tôn giáo, triết lý, v.v.

Hôi Bảo tồn Di sản chữ Nôm đã thành lập Nhóm Nôm Na tại Hà Nội năm 2000 để tập trung xây dựng bộ phông chữ Nôm, tổ chức in cuốn Giúp đọc Nôm và Hán Việt của Linh mục Trần Văn Kiệm. Hiện nay Nhóm Nôm Na đang tham gia vào việc duy trì và xây dựng hệ cơ sở tri thức về chữ Nôm và bắt đầu cùng tham gia các hoạt động của nhóm IRG để tiếp tục đề nghị thêm các chữ Nôm mới vào Unicode.

Hội Bảo tồn Di sản chữ Nôm đã huy động nhiều chuyên gia trong các lĩnh vực khác nhau cùng tham gia xây dựng và phát triển công cụ khai thác kho chữ Nôm mã hoá.

Hội đang xây dựng tiếp kho lưu trữ văn hoá quốc gia Việt Nam dạng điện tử cho các tác phẩm chữ Nôm cơ bản nhằm phục vụ mọi người quan tâm tới chữ Nôm sử dụng trên mạng cả các công cụ lẫn tư liệu gốc chữ Hán Nôm.

Từ năm 2006 Hội đảm nhận việc hỗ trợ cho các chuyên gia trẻ tham gia các hoạt động chuẩn hoá chữ Nôm của nhóm IRG.


 


[1] Tên tắt đầy đủ của IRG là ISO/IEC 10646 JTC1/SC1/WG2/IRG. ISO/IEC là tập hợp Tổ chức Tiêu chuẩn Quốc tế (International Standards Organization, ISO) và Hội đồng Điện tử Quốc tế (International Electronic Commission, IEC), gọi chung là ISO/IEC.  ISO/IEC 10646 còn gọi là Tập Ký tự Đa Bát phân Mã hoá Phổ cập (Universal Multiple-Octet Coded Character Set, UCS).  Nhóm Báo cáo viên chữ Biểu ý (IRG) là một bộ phận của Nhóm Công tác 2 (Working Group 2), hay Nhóm Tập ký tự Mã hoá Phổ cập (Universal Coded Character Set), của Tiểu ban Các Tập Ký tự Mã hoá (Subcommittee for Coded Character Sets, SC 1), thuộc Uỷ ban Kỹ thuật Liên hợp 1 (Joint Technical Committee, JTC 1).

 

3. Nguồn tư liệu cho Kho chữ Hán Nôm mã hoá

3.1.        Nguồn tư liệu cung cấp cho IRG


Trong suốt quá trình tham gia chương trình hoạt động cùng nhóm IRG, các chuyên gia Việt Nam đã lần lượt soạn thảo nhiều bảng chữ Hán Nôm chuẩn để cung cấp cho IRG—V0, V1, V2, V3, V4, V5, và V6. Đây là những nguồn chữ có cơ sở được rút ra từ các chuẩn quốc gia, nhiều tự điển và công trình nghiên cứu.


—     TCVN 5773:1993: Tiêu chuẩn Việt Nam thứ nhất về bộ mã chuẩn 16-bit chữ Nôm. Ðây là bộ mã chuẩn 16-bit chữ Nôm do Ngô Thanh Nhàn, [James] Đỗ Bá Phước và Nguyễn Hoàng soạn thảo, Ban Kỹ thuật CNTT đề nghị, Tổng cục Tiêu chuẩn Ðo lường Chất lượng xét duyệt và được Bộ Khoa học Công nghệ và Môi trường công bố năm 1993. Bộ mã chuẩn này chủ yếu dựa vào cuốn Tự điển chữ Nôm của Vũ Văn Kính xuất bản năm 1971.


—     TCVN 6056:1995: Tiêu chuẩn Việt Nam thứ hai về bộ mã chuẩn 16-bit chữ Nôm. Bộ mã chuẩn 16-bit chữ Nôm do Viện Nghiên cứu Hán Nôm biên soạn, Ban Kỹ thuật Công nghệ thông tin đề nghị, Tổng cục Tiêu chuẩn Ðo Lường Chất lượng xét duyệt và Bộ Khoa học Công nghệ Môi trường công bố năm 1995. Bộ chữ này thu thập tất cả 3361 chữ Nôm hoàn toàn trùng hình với chữ Hán (có mặt trong Khang Hy tự điển). Nguồn tư liệu để soạn thảo ra bộ mã chuẩn này là cuốn Bảng tra chữ Nôm của Uỷ ban Khoa học Xã hội xuất bản năm 1976, và cuốn Tự điển chữ Nôm của Vũ Văn Kính. Nhóm nghiên cứu tin học thuộc Viện Nghiên cứu Hán Nôm do Ngô Thế Long phụ trách chịu trách nhiệm chính trong việc soạn thảo bộ chữ này dưới sự hướng dẫn và chọn lọc của Gs. Nguyễn Quang Hồng, sau đó tiến hành vẽ phông chữ 24x24 bitmap.


—     V0: Với bộ mã chuẩn chữ Nôm TCVN 5773:1993, Việt Nam đã đăng ký đưa chữ Nôm vào kho chữ của IRG trong cuộc họp thường kỳ lần thứ 2 tại Hà Nội đầu năm 1994. Bảng chữ Nôm chuẩn này gồm 2.357 chữ, trong đó có hơn 70% là chữ Nôm không trùng hình với chữ Hán.


      V1: Với bộ mã chuẩn chữ Nôm TCVN 6056:1995, Việt Nam đã đăng kí đưa thêm 3.361 chữ Nôm trùng hình với chữ Hán vào cột V của Việt Nam. Sau đó, các chuyên gia Ken Lunde, Nguyễn Quang Hồng, Ngô Trung Việt, [James] Đỗ Bá Phước, Ngô Thanh Nhàn đã rà xét đối chiếu lại giữa V0 và V1, thấy có 38 chữ trùng lặp phải loại bỏ. Số còn lại của cả hai bảng chữ, có 3.897 chữ được chính thức đưa vào vùng CJK thuộc mặt phẳng chính (Base Multilingual Plan, hay BMP) của ISO/IEC 10646 từ giữa năm 1997. Sau đó còn có thêm 128 chữ Nôm cũng được cấp mã trong bảng chữ mở rộng CJK Extension A của IRG. Như vậy là từ cuối năm 1997, có 4.025 chữ Nôm (trùng hình với chữ Hán) được đề nghị cấp mã ISO/IEC 10646. Kết quả này được khẳng định tại cuộc họp thường kỳ IRG#10 tại thành phố Hồ Chí Minh tháng 12/1997. Ðến đây, nhóm IRG cũng kết thúc giai đoạn I của chương trình, chủ yếu dành cho việc xem xét cấp mã cho các chữ biểu ý thuộc lớp hạng A.


Từ năm 1998, nhóm IRG chuyển sang giai đoạn II là giai đoạn xem xét và cấp mã cho các chữ thuộc lớp hạng B và C. Ðây là dịp chữ Nôm thuần Việt được chấp nhận hàng loạt vào kho chữ chung.  Không gian mã hoá mới dành cho giai đoạn II là Mặt phẳng số 2 song song với BMP, hay Mặt phẳng 0, rất lớn (216 hay 65.536 vị trí mã), cho nên hầu như không phải tranh chấp ưu tiên cấp mã nữa. Nguồn chữ không nhất thiết phải là các tự điển, mà có thể là nhiều ấn phẩm khác nhau. Theo đó, các chuyên gia ở Viện Nghiên cứu Hán Nôm và Viện Công nghệ Thông tin đã khẩn trương soạn thảo thêm 2 tập mã chữ Nôm chuẩn để làm việc với nhóm IRG trong giai đoạn mới:


      V2: Tập chuẩn chữ Nôm này do Nguyễn Quang Hồng soạn thảo, Viện Nghiên cứu Hán Nôm phê chuẩn và gửi tới nhóm IRG ngày 17/4/1998. Bản này Unicode gọi là VHN 01/1998. Cũng như hai tập chữ V0 và V1, nguồn chữ mà V2 thu thập vẫn là hai bộ tự điển chữ Nôm đã nói ở trên (Sài Gòn, 1971 và Hà Nội, 1976). Tập chữ Nôm này gồm 3.371 chữ, trong đó có 844 chữ là bổ sung vào những vị trí tương ứng trong Extension A (trùng với chữ Hán và chữ các nước khác, đã được cấp mã), còn lại 2.527 chữ (hầu hết là chữ thuần Nôm) được đưa vào Extension B. Phông chữ 96x96 bitmap do Viện Nghiên cứu Hán Nôm xây dựng.


      V3: Tập chuẩn này do Nguyễn Quang Hồng soạn thảo, Viện Nghiên cứu Hán Nôm phê chuẩn và gửi tới nhóm IRG ngày 7/5/1998. . Bản này Unicode gọi là VHN 02/1998. Tất cả 849 chữ hầu hết là thuần Nôm được thu thập vào tập chuẩn này là lấy từ 40 tác phẩm và tự điển khác nhau. Phông chữ 96x96 bitmap do Viện Nghiên cứu Hán Nôm xây dựng.


Sau 2 năm làm việc tiếp theo (đầu năm 1998 đến cuối năm 2000), có thêm 5.274 chữ Nôm nữa (chủ yếu từ V2, V3 và phần còn lại của V0, V1) được thu nạp vào Extension A và Extension B của IRG để cấp mã trong ISO/IEC 10646. Tổng cộng lại, như trên đã nói, đến cuối năm 2000 trong bảng tổng hợp SuperCJK 13 có mặt tất cả 9.299 chữ mang tên Việt Nam (với ký hiệu V0, V1, V2, V3). Trong đó có gần 50% là những chữ Nôm không trùng hình với chữ Hán. Vào tháng 3/2001, 9.299 chữ Nôm được chính thức công nhận vào Unicode phiên bản 3.1.  Xin xem http://www.unicode.org/reports/tr27/tr27-4.html, và http://www.unicode.org/charts/ (bên dưới cột các chữ viết Đông Á) và ISO/IEC 10646.


     V4: Thành viên IRG Nguyễn Quang Hồng và cán bộ Viện Nghiên cứu Hán Nôm đã xây dựng một đề nghị năm 2001 gồm 2.230 chữ thuần Nôm, cùng với phông chữ 128x128 bitmap, trong đó có hơn 400 chữ Nôm Tày (không trùng với chữ Hán và chữ Nôm Việt, thu thập từ công trình nghiên cứu văn hoá Tày của Gs. Nguyễn Văn Huyên).


Cũng cần nói thêm rằng, mặc dù hầu như toàn bộ số chữ Nôm đã và đang đi vào kho chữ biểu ý quốc tế là được thu thập từ các nguồn tư liệu chữ Nôm tiếng Việt, song có khá nhiều chữ Nôm Tày là trùng hình với chữ Nôm Việt (và cả với chữ Hán). Bởi vậy, nếu đối với những chữ trùng hình như thế cũng tiến hành xác lập các âm đọc tương ứng trong tiếng Tày, thì cùng với hơn 400 chữ thuần Nôm Tày trong V4 đang được đăng ký cấp mã, ở một mức độ đáng kể cũng có thể lợi dụng vốn chữ Nôm Việt đã có cho tiếng Tày.


     V5: Có khoảng 900 chữ Nôm trùng hình chữ Hán được tuyển chọn năm 2001 vào tập chữ V5 này, tuy nhiên IRG không xem xét việc bổ sung thêm nguồn chữ Việt Nam vào chuẩn nữa, vì đây là việc đã làm rồi, không quay lại sửa nữa.


     V6: Các chữ Nôm do nhóm Nôm Na tìm thấy trong cuốn sách Giúp đọc Nôm và Hán Việt của Linh mục Trần Văn Kiệm, các phiên bản Truyện Kiều, và một số tài liệu chữ Nôm. Các chữ này còn đang đợi để đưa vào đề nghị của Việt Nam trong các lần mở rộng khác.

3.2.        Nguồn các tự điển được sử dụng để chọn chữ

STT

Tên sách

1

Tự điển chữ Nôm Việt, Nguyễn Quang Hồng chủ biên, 2006.

2

Tự điển chữ Nôm Tày, Hoàng Triều Ân, 2003.

3

Đại tự điển chữ Nôm, Vũ Văn Kính, 1999.

4

Tự điển chữ Nôm, Vũ Văn Kính & Nguyễn Quang Xỷ, 1971.

5

Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994.

6

Bảng tra chữ Nôm sau thế kỷ XVII, Vũ Văn Kính, 1994.

7

Bảng tra chữ Nôm, Viện Ngôn ngữ học, 1976.

8

Góp phần nghiên cứu văn hoá Việt Nam, Nguyễn Văn Huyên, 1995.

9

Giúp đọc Nôm và Hán Việt, Lm Trần Văn Kiệm, 2004.


3.3.        Nguồn công trình xây dựng Kho chữ Hán Nôm mã hoá

Kho chữ Hán Nôm mã hoá được trình bày trong cuốn sách này là việc hợp nhất 2 công trình nghiên cứu cơ bản về kho chữ đã được thực hiện trong nhiều năm qua theo 2 chiều hướng nghiên cứu khác nhau của các nhóm nghiên cứu độc lập. Một số điểm chung của 2 chiều hướng này là đều dựa trên kho chữ Nôm đã được đưa vào Unicode và sử dụng khả năng xử lý của máy tính. Sự khác biệt giữa hai hướng nghiên cứu này thể hiện ở mức độ tự động hoá xử lý và các nguồn thông tin đưa vào xử lý.

3.3.1        Công trình xây dựng kho chữ Nôm Na Coded Character Set (Nôm Na CCS) của Ts. Ngô Thanh Nhàn và nhóm Nôm Na. Xuất xứ của công trình này là từ công trình của Ngô Thanh Nhàn và Đỗ Bá Phước năm 1993 khi xây dựng tiêu chuẩn Việt Nam đầu tiên về chữ Nôm. Trong bảng chuẩn này các tác giả đã lần đầu tiên nêu ra ý tưởng thiết lập các bảng đối chiếu chữ Nôm và cách đọc và ngược lại (lúc đó chỉ có một cách đọc). Trên cơ sở đã thiết lập mối quan hệ giữa chữ Nôm và chữ quốc ngữ, dùng khả năng tính toán của máy tính để thiết lập ra bảng tương ứng chữ quốc ngữ – chữ Nôm. Đến tháng 3 năm 2005, dựa trên cơ sở kho chữ Hán Nôm 19.981 chữ tích luỹ được từ việc xây dựng cuốn Giúp đọc Nôm và Hán Việt của linh mục Trần Văn Kiệm, các phiên bản Truyện Kiều, các tập chuẩn quốc gia TCVN, các tập chuẩn chữ Nôm đã có mã trong Unicode 4.0 và đề nghị của Việt Nam cho Extension C1, nhóm Nôm Na dưới sự chỉ đạo của Ngô Thanh Nhàn đã dùng máy tính thiết lập ra các bảng tương ứng mã chữ – chữ Nôm – chữ Quốc ngữ và bảng tương ứng chữ Quốc ngữ – chữ Nôm. Đây là công trình hoàn toàn xử lý bằng máy tính dựa trên cơ sở kho tri thức chữ đã có sẵn.

3.3.2        Công trình Chữ Nôm đối chiếu hình chữ và âm đọc của Gs. Nguyễn Quang Hồng thực hiện trong các năm 2003-2005. Đây là một công trình nghiên cứu đã nghiệm thu của Viện Nghiên cứu Hán Nôm. Công trình này dựa trên những kết quả sưu tầm nghiên cứu nhiều năm của tác giả, dựa trên kho tư liệu (phích) về các chữ Nôm có ghi xuất xứ từng nguồn chữ. Kết quả khảo sát trực tiếp trên văn bản Nôm của tác giả được tích luỹ qua nhiều năm đã được thể hiện bằng việc tạo ra các bảng tra chữ Nôm với nhiều hình chữ và cách đọc chữ Nôm rút từ nhiều nguồn khác nhau, kể cả việc định các âm đọc của từng chữ Nôm (cách đọc Hán Việt, Nôm Việt hay Tày). Trên cơ sở các tư liệu về chữ đã giao nộp cho nhóm IRG, tác giả đã xây dựng ra bảng tương ứng chữ Nôm – mã Unicode – chữ Quốc ngữ.  Sau đó tác giả cùng các nhà chuyên môn tin học dùng máy tính xử lý để lập bảng tương ứng chữ Quốc ngữ – chữ Nôm. Công trình này phản ánh 9.299 chữ Nôm đã được đưa vào Unicode (V0, V1, V2, V3) và quãng 2.300 chữ Nôm đang được đề nghị xét đưa vào Unicode (V4).

Trên cơ sở cùng bàn bạc và thống nhất việc xây dựng ra kho chữ Hán Nôm mã hoá giữa Viện Nghiên cứu Hán Nôm và Hội Bảo tồn Di sản chữ Nôm, hai công trình trên đã được hợp nhất với nhau để tạo ra Kho chữ Hán Nôm mã hoá này.

Công đoạn cuối cùng hợp nhất hai công trình này và trình bày thành kho chữ Hán Nôm mã hoá như trong cuốn sách này do nhóm Nôm Na đảm nhận.  Phần các mục tư liệu khác được ban biên tập và thư ký soạn thảo.

4. Nguyên tắc xây dựng Kho chữ Hán Nôm mã hoá

4.1.        Nguyên tắc xây dựng Kho chữ Hán Nôm mã hoá

Hán Nôm là một loại chữ viết của dân tộc Việt Nam đã thực sự được dùng trong nhiều thế kỷ. Chữ Hán Nôm chưa hề được chuẩn hoá. Chỉ trong thời đại ngày nay khi công nghệ thông tin trở thành công cụ chính cho mọi việc trao đổi thông tin và tri thức toàn cầu thì chữ Hán Nôm mới được tuyển chọn và hệ thống hoá trong kho chuẩn đa ngữ quốc tế để có thể được xử lý tự động trên máy tính. Trước khi nói tới việc xem xét và nghiên cứu văn bản học trên máy tính các tài liệu cổ dùng chữ Nôm, cần phải xây dựng ra kho chữ Hán Nôm trên máy tính, và việc này đòi hỏi tận tâm, nỗ lực, kỷ luật, cũng như nhiều phương pháp nghiên cứu mới.

Có nhiều công đoạn trong việc làm ra một bộ chữ sử dụng được trên máy tính. Các công đoạn chính là:

1.      Lập kho chữ;

2.      Lập mã chữ;

3.      Xây dựng phông chữ để hiển thị và in ấn, và làm chương trình bàn phím gõ chữ;

4.      Lập cơ sở dữ liệu các văn bản, tài liệu trong ngôn ngữ;

5.      Triển khai các chương trình xử lý, nghiên cứu trên ngôn ngữ.

Việc mã hoá chữ viết thực chất mới chỉ nằm trong 2 công đoạn đầu. Việc tạo phông chữ Nôm cũng cần quy trình riêng thì mới tạo ra được sự thống nhất trong bộ phông. Việc gõ chữ Nôm vào máy lại là công việc khác được thực hiện bằng phần mềm. Nhưng đây là các kỹ thuật thể hiện chữ trên máy tính sau khi chữ đã được mã hoá.  Mỗi hình chữ duy nhất có một mã duy nhất trên toàn thế giới, dùng trong mọi hoạt động trao đổi thông tin của mọi máy tính.

Nguyên tắc mã hoá cho bộ ký tự trước hết là phải chọn chữ từ các nguồn tư liệu đáng tin cậy. Các nước phải thống nhất về các nguồn tư liệu cung cấp cho nhóm công tác bao gồm các tự điển, các tác phẩm... Và mọi chữ được đề nghị đưa vào kho đều phải chỉ rõ nguồn gốc xuất xứ từ chuẩn quốc gia, chuẩn công nghiệp hay tự điển nào, sách nào... IRG thống nhất lấy cuốn Khang Hy tự điển của Trung quốc làm cứ liệu gốc, lấy các chữ trong đó làm điểm tập trung để gom chữ mới. Sau đó còn mở rộng dùng tới một số tự điển khác làm căn cứ xem xét.


Muốn đề nghị các chữ, trước hết từng nước phải đem ra so sánh với những chữ đã được đưa vào trong Unicode. Nếu chúng trùng với các chữ đã có hoặc có thể “thống nhất hoá” được, tức là về cơ bản như nhau, khác biệt chút xíu có thể bỏ qua được, chúng sẽ được nhận mã đã có. Nếu không trùng với kho chữ đã có, chúng được đưa ra để thực hiện việc thống nhất với các đề nghị của các nước khác. Các chữ trải qua quá trình thống nhất này sẽ được đưa vào kho chữ của IRG và từ đó được WG2 cấp mã. Quá trình làm việc thường kéo dài qua từng lần xây dựng kho chữ: CJK, Extension A, Extension B, Extension C. Mỗi kho chữ đều phải trải qua các công đoạn: đề nghị từ các nước, gộp các đề nghị thành một bảng chung, rà soát sự trùng lặp và loại bỏ những sai sót, góp ý, bỏ phiếu và cuối cùng mới cấp mã. Thời gian cho mỗi kho chữ này hoàn thành là chừng 3-4 năm.

Vì việc so sánh số lượng lớn các chữ này (nay đã gần tới 72.000 chữ)[1] là rất khó khăn và phải làm thủ công, nên người ta phân các chữ theo bộ và số nét để gộp chúng lại trong những nhóm nhỏ hơn mà con người có thể kiểm tra được. Và để giúp cho việc này thực hiện được, các nước thành viên phải nộp phông chữ để ban biên tập in ra các tài liệu làm việc. Sau đó có các cuộc họp ban biên tập để các chuyên gia thảo luận đi tới quyết định thống nhất các chữ. Do tiến bộ kỹ thuật nên các đòi hỏi về sau càng cao hơn trước, lúc đầu đòi hỏi phông bitmap 24x24, rồi 64x64, rồi 128x128, và sau đó là phông TrueType.

4.2.        Nguyên tắc về nguồn tư liệu

Việc xây dựng kho chữ Hán Nôm mã hoá được dựa trên cơ sở các nguyên tắc của việc xây dựng kho chữ biểu ý Đông Á.

Nguồn tư liệu để xây dựng kho chữ của IRG được xác định như sau:

  1. Ðối với chữ Hán nguyên gốc, lấy Khang Hy tự điển (in lần thứ 7 tại Bắc Kinh) làm nguồn chính. Và tự điển này cũng là căn cứ để tham chiếu các tự điển và tư liệu làm nguồn khác của tất cả các nước thành viên IRG.
  1. Ðối với chữ biểu ý được sử dụng ở các quốc gia, thì lấy các chữ có trong các chuẩn quốc gia hay chuẩn công nghiệp của từng nước. Sau đó yêu cầu này được mở rộng bằng việc chấp thuận những chữ biểu ý có mặt trong trong các bộ tự điển sau đây, đã được IRG thừa nhận:
    • Hanyu Dazidian (漢語大字典 Hán ngữ đại tự điển) của Trung Quốc (in lần thứ nhất), 成都Thành Đô: 四川辭書出版社Tứ Xuyên Từ thư xuất bản xã, 1986.

o        Dai Kan-Wa Jiten (大漢和辞典 Đại Hán Hoà từ điển) của Nhật Bản (in lần thứ 9), Tokyo: Taishuukan Shotenm, 1986.

o        Dae Jaweon (漢韓大辞典 Hán Hàn đại từ điển) của Hàn Quốc (in lần thứ nhất), Seoul: Samseong Publishing Co. Ltd., 1988.

o        Tự điển chữ Nôm (Sài Gòn, 1971) và Bảng tra chữ Nôm (Hà Hội, 1976) của Việt Nam.


  1. Ðối với những chữ biểu ý được các quốc gia tự tạo ra để dùng cho tiếng bản ngữ, thì ngoài những tự điển ở (b), còn có thể sử dụng thêm các nguồn tư liệu khác nhau. Việc bổ sung này được đặt ra từ đầu năm 1998, khi kho chữ được mở rộng sang lớp hạng B và C. Danh sách các tư liệu này do từng nước đề nghị và được nhóm IRG thống nhất chấp nhận vào tháng 5/1998, gồm 107 tên tư liệu, trong đó có 40 tác phẩm bằng chữ Nôm do Việt Nam đề nghị.



Xác lập mã nguồn và thể thức lập bảng chữ biểu ý chung

  1. Mã nguồn. Mỗi nước thành viên IRG, sau khi thu thập các chữ biểu ý cần lập bảng chữ đề nghị nhập kho, trong đó mỗi chữ phải được mã hoá theo nước mình (gọi là mã nguồn, source code) để làm cứ liệu tham chiếu. Mặt khác mỗi chữ phải được gắn với bộ thủ cùng số nét của nó để lấy đó xác định ra vị trí của chữ trong toàn bộ kho. Ví dụ: với chữ Nôm ba 𠀧chúng ta cấp mã (V-code) là V0-354F để tham chiếu vào các thông tin nội bộ khác về chữ này (cách đọc, xuất xứ...). Chữ này được xác định là thuộc bộ “nhất” (vì chữ “tam” thuộc bộ “nhất”), với 6 nét (không tính bộ thủ), như vậy chiếu vào Khang Hy tự điển thì chữ Nôm này sẽ được định vị là 0078.131 (nghĩa là nó được xếp tiếp theo sau chữ thứ 13 ở trang 78 của tự điển này).


  1. Thể thức lập bảng. Tất cả những chữ do các nước thành viên đề nghị, sau khi đã được IRG chấp thuận, thì được sắp xếp vào một bảng chữ chung, và tiến hành quá trình thống nhất hoá (unification) các chữ, theo quy định riêng về việc thống nhất. Thực chất, đó là việc tạo ra một cuốn tự vựng, thu nạp các chữ biểu ý đã qua chuẩn hoá và sắp xếp thống nhất. Một tập chữ này được gọi là SuperCJK (siêu đại tự phù tập), được bắt đầu soạn thảo từ đầu năm 1998, qua mười ba lần điều chỉnh và bổ sung, đến năm 2002 tới bảng SuperCJK 14, tổng số chữ biểu ý được thu nạp và cấp mã quốc tế là 70.205 chữ (hay UniHan 4.0, trong đó có 9.299 chữ do Việt Nam cung cấp). Trong tập SuperCJK này, các chữ được xếp thứ tự theo bộ thủ và theo mã số Khang Hy đã được định vị, và mỗi chữ đều được ghi rõ mã nguồn, mã quốc tế. Khi xây dựng kho chữ Extension C, một bảng chữ chung mới lại được thành lập để xem xét.


Trong các đề nghị này, các chữ Nôm được mã hoá, hay đánh số tuân theo quy tắc đánh mã mà các nước Đông Á sử dụng, có nghĩa là đánh mã cho 94 ký tự đồ hoạ (graphic) theo bộ mã 8 bit cho từng nhóm ký tự. Kết quả là các mã được sử dụng là từ xx21-xx7E.


V0 được đánh mã từ V0-3021 tới V0-4927 (2.357 chữ).

V1 được đánh mã từ V1-4A21 tới V1-6D35 (3.311 chữ).

V2 được đánh mã từ V2-6E21 tới V2-9171 (3.371 chữ).

V3 được đánh mã từ V3-3021 tới V3-3644 (435 chữ).

V4 được đánh mã từ V4-4021 tới V4-4B2F (2.230 chữ đượcđề nghị).

Sau khi xem xét và loại bỏ các chữ bị trùng lặp trong các đề nghị này, chúng ta còn 9.299 chữ Nôm chính thức được chấp nhận vào trong Unicode và ISO/IEC 10646.

Gắn liền với việc mã hoá này (được gọi là mã nguồn, source code) là thông tin về xuất xứ của từng chữ (lấy từ tự điển nào hay tài liệu nào, tại trang bao nhiêu, số chữ thứ mấy). Do đó thông tin liên kết với mã nguồn là thông tin nguồn V-source. Hiện tại trong thông tin nguồn của chúng ta có những điểm sau:

1.      Lấy từ Tự điển chữ Nôm của Vũ Văn Kính: ký hiệu Kppp.cc với ppp là số trang, cc là số thứ tự của chữ trong trang;

2.      Lấy từ Bảng tra chữ Nôm của nhóm Hồ Lê: ký hiệu Lppp.cc với ppp là số trang, cc là số thứ tự của chữ trong trang;

3.      Lấy từ Góp phần nghiên cứu văn hoá Việt Nam của Nguyễn Văn Huyên (chữ Nôm Tày): Hppp.cc;

4.      Lấy từ các tài liệu cổ (chủ yếu trong V3, V4).

4.3.        Nguyên tắc thống nhất chữ

Một đòi hỏi khi đưa các chữ mới vào kho chữ của Unicode là không được trùng hình với những chữ đã được mã hoá trước. Vì vậy mọi chữ được đưa ra đề nghị bổ sung vào bộ ký tự quốc tế Unicode đều phải trải qua quá trình thống nhất hoá với các chữ đã được chấp nhận. Vấn đề phức tạp nảy sinh là vì kho UniHan hiện nay cho cả vùng nhiều hơn 70.000 chữ, việc xem xét phân biệt các chữ sẽ rất khó khăn nếu không có cách chia nhỏ và gộp nhóm các chữ mới được đề nghị.


Đề nghị làm việc của nhóm IRG là lấy Khang Hy tự điển làm cơ sở cho việc chia nhỏ. Các chữ cần có thêm thông tin về bộ thủ và số nét. Căn cứ vào thông tin bộ thủ và số nét này, tra vào Khang Hy tự điển, sẽ xác định được ra chữ đã có trong Khang Hy được coi như gần nhất với chữ được đề nghị. Các chữ do các nước đề nghị sẽ đươc xem xét trong các cụm nhỏ này để quyết định chúng có hợp nhất với nhau theo quy tắc của Unicode hay không. Quy tắc thống nhất này dựa trên nguyên tắc phân tích cấu trúc chữ viết theo các mẫu ghép đã quy định thống nhất.


IRG yêu cầu mọi đề nghị đưa chữ vào kho đều phải có thêm thông tin về vị trí Khang Hy dưới dạng pppp.cck với pppp là số trang của Khang Hy tự điển xuất bản lần thứ 7 tại Bắc Kinh, cc là số thứ tự chữ trong trang, còn k là 0 nếu chữ đề nghị trùng với chữ trong Khang Hy tự điển, k là 1 nếu không trùng. Bên cạnh thông tin này phải có thêm thông tin về bộ thủ và số nét. Việc đặt sai bộ thủ và số nét có thể dẫn tới việc một chữ đáng lẽ thống nhất được với các chữ khác thì lại vẫn được coi như chữ mới, và đây là công việc khó khăn cho các biên tập viên.

Trên cơ sở thông tin về vị trí Khang Hy này và các chữ do các thành viên đề nghị và được chấp nhận, IRG tạo ra kho chữ trong toàn vùng đánh số thứ tự cho mọi chữ được đề nghị.  Thông tin liên quan tới từng chữ trong bảng đề nghị bao gồm: số thứ tự chữ trong phiên bản mới, số thứ tự trong phiên bản cũ, mã trong ISO/IEC 10646 (mặt phẳng 0 và 2), các mã nguồn của các thành viên đề nghị (Trung quốc, Đài loan, Nhật Bản, Hàn quốc, Việt Nam, Hồng Kông), hình chữ, vị trí Khang Hy, vị trí Hanyu Dazidian (Hán ngữ Đại tự điển), bộ thủ và số nét.

5. Bộ phông chữ Hán Nôm

Khi nói 9.299 chữ Hán Nôm có mặt trong ISO/IEC 10646 (hay Unicode cũng vậy vì chúng trùng nhau) tức là chúng đã được cấp mã trong Unicode và có tương ứng với nguồn chữ của Việt Nam. Về nguyên tắc tất cả các máy tính được chế tạo ra khi tuân thủ các mã này thì sẽ xử lí được thông tin mà chúng chuyển tải. Tuy nhiên điều đó không có nghĩa là người dùng đã có thể thấy được các chữ Hán Nôm đó trên máy tính. Các công ti phần mềm phải đầu tư nhiều công sức và tiền bạc để làm ra được bộ phông trên máy tính, hình ảnh của chữ tương ứng với mã, thì người sử dụng mới có thể dùng được chữ Hán Nôm trên máy tính.


Năm 2000, công ty Dynalab Hồng Kông đã làm cho Việt Nam bộ phông TrueType, nhưng chỉ cho phép dùng trong nghiên cứu. Vả lại với kỹ thuật lúc đó họ chưa làm mã hoá được cho Mặt phẳng 2 (nơi chứa mã cho Extension B) nên họ đã mã hoá cho chữ Hán Nôm của Việt nam từ 4E00 trong BMP trở đi, có nghĩa là trùng với các chữ Hán. Viện Văn tự kính Nhật Bản Mojikyo cũng làm phông TrueType cho 9.299 chữ Nôm và đã tặng Viện Nghiên cứu Hán Nôm bộ phông này nhưng cũng chưa dùng kỹ thuật surrogate để biểu diễn chữ ngoài mặt phẳng BMP.


Các bộ phông TrueType HanNom3.1A, HanNom3.1B và HanNom3.1F của Đỗ Quốc Bảo và Thiền viện Viên Chiếu hoàn thành năm 2002 thực sự là bộ phông phản ánh đúng mã Unicode của các chữ Hán Nôm. Số lượng chữ có trong các bộ phông TrueType này là trên 30.000, lớn như vậy là bởi vì bộ phông này vẽ cho rất nhiều chữ Hán không có trong đề nghị chữ Nôm của chúng ta với ISO/IEC 10646 nhưng cần cho các văn bản phật giáo.


Bộ phông Nôm Na Tống thể mảnh do nhóm Nôm Na xây dựng trong 2 năm 2003-2004 đã chứa hầu hết các chữ Nôm chúng ta có trong ISO/IEC 10646 nhưng cũng có thêm những chữ Hán khác, cho nên con số hiện nay lên trên 20.000 chữ. Điều cơ bản là qua việc làm bộ phông này đã hình thành nên quy trình để khi có chữ mới thì sẽ nhanh chóng vẽ được và bổ sung thêm.


Để xây dựng được bộ phông đều đặn, cần phải xây dựng các thành tố, các nét cơ bản rồi sau đó lắp ráp một cách nhất quán để tạo nên mọi con chữ. Nhóm Nôm Na từ năm 2002 đã tập trung công sức để xây dựng bộ phông theo hướng này.

5.1.        Dáng chữ và các thành tố vẽ chữ

Để tạo ra bộ phông thống nhất và thuần nhất, nhóm Nôm Na đã nghiên cứu từ đầu các công đoạn làm phông. Nhóm đã tạo ra bộ các thành tố cơ bản phục vụ cho việc vẽ các chữ Hán Nôm.

Nhóm đã vẽ toàn bộ 4.415 thành tố Hán Nôm cơ bản (bộ phận cơ bản) theo phong cách chữ Nôm trong Thiền Tông Bản Hạnh - theo gợi ý của Gs. Nguyễn Quang Hồng.

Thiền tông bản hạnhcó tên đầy đủ là 安子山陳朝禪宗指南傳心國語行Yên Tử Sơn Trần Triều Thiền tông chỉ nam truyền tâm quốc ngữ hạnh, gọi tắt là “Thiền Tông Bản Hạnh”, do Hòa Thượng Chân Nguyên tức Tuệ Đăng viết. Đây là bản chữ Nôm khắc ván năm Cảnh Hưng 6 (1745). Phiên bản mà nhóm Nôm Na sử dụng cho việc tạo phông là bản được khắc in lại vào năm Bảo Đại 7 (1932) theo lối chữ Tống thể, dáng chữ mảnh mai thanh thoát cân đối và mang những nét đặc trưng của chữ Nôm Việt Nam.


Kiểu phông “Thiền Tông Bản Hạnh” tức là dựa vào phong cách chữ Nôm trong “Thiền Tông Bản Hạnh” để tạo dáng chữ trong máy tính. Đây là đặc trưng bộ phông của nhóm Nôm Na.



西


𠸗





𦊚

𤐜

񠌿

𤍎




Bảng 2: Chữ Nôm của bộ phông TrueType Nôm Na Tống thể mành.

5.2.        Các chữ Hán Nôm

Sau khi đã hoàn thành việc xây dựng tập các thành tố cơ bản thì tới việc xây dựng bộ phông chữ Hán Nôm. Về nguyên tắc, tất cả các chữ Hán Nôm đều được phân tích thành tổ hợp của một hay nhiều thành tố cơ bản. Các thành tố cơ bản đó tham gia vào quá trình lắp ghép để tạo ra chữ Hán Nôm dưới dạng đều đặn, thuần nhất.


Các quy tắc và tiêu chí xây dựng chữ Hán Nôm đã được thiết lập và bao gồm:

·        Kích thước chữ: Phong cách chữ, độ cao (rộng) của chữ, vị trí giữa các bộ, các nét.

·        Kích thước nét chữ: độ dày của nét ngang, bề rộng của nét sổ, kiểu nét ngang gập, nét ngang móc, nét sổ móc, sổ hất, nét mác, nét phảy...

6. Cơ sở tri thức chữ Hán Nôm

Toàn bộ công việc xây dựng kho chữ Hán Nôm mã hoá lúc đầu chỉ với mục đích đăng ký càng nhiều chữ Nôm càng tốt vào kho chữ biểu ý của nhóm IRG để rồi sau đó được tổ chức tiêu chuẩn quốc tế xem xét và chấp nhận cấp mã cho chúng trong bộ mã Unicode và ISO/IEC 10646.

 

Tuy nhiên quá trình phát triển của kho chữ Hán Nôm mã hoá này đi kèm với việc triển khai các chương trình ứng dụng trên máy tính cho mọi người trên toàn thế giới sử dụng đã xuất hiện một nhu cầu thiết yếu là phải phát triển một cơ sở tri thức cho các chữ Hán Nôm đã mã hoá.

 

Công việc này cũng gần tương tự như việc các nhà nghiên cứu Hán Nôm mỗi người đều phải xây dựng ra kho các phích lưu giữ thông tin về từng chữ Nôm, xuất xứ, ngữ cảnh, v.v. mà mình bắt gặp khi nghiên cứu các văn bản cổ. Tuy nhiên tầm mức tri thức được thu thập ở kho chữ Nôm mã hoá này lại quy mô và bao quát nhiều thông tin hơn bất kỳ kho phích cá nhân nào.

 

Với các kho phích cá nhân, người khác khó dùng lại được vì mỗi người đã đưa dấu ấn cá nhân vào kho phích đó. Trái lại, hệ cơ sở tri thức chữ Hán Nôm được xây dựng tổng quát và được đặt trên mạng để cho mọi nhà nghiên cứu đều có thể dùng được. Do đó nó trở thành một công cụ tư liệu chung cho mọi người, miễn là họ có khả năng truy cập vào mạng internet.

 

Các nghiên cứu về chữ Nôm biểu ý trong quá trình mã hoá đưa vào công nghệ máy tính đã chỉ ra rằng có mối quan hệ chặt chẽ giữa chữ Nôm với các khía cạnh được xem xét sau đây:

  1. Quan hệ trong nội tại hình dáng chữ Nôm (cấu trúc viết các chữ)
  2. Quan hệ với chữ Quốc ngữ (hình chữ - âm đọc)
  3. Quan hệ về nghĩa của chữ Nôm (đồng âm khác nghĩa)
  4. Quan hệ với các tác phẩm mà chữ Nôm này xuất hiện (xuất xứ nguồn)
  5. Quan hệ đồng hình với các chữ biểu ý trong khu vực Đông Á (thông tin về vị trí Khang Hy)
  6. Quan hệ ngữ nghĩa với tiếng Anh (tự điển đối chiếu chữ Nôm - tiếng Anh)
  7. Quan hệ với con số mã hoá cho chữ trong Unicode (bảng mã hoá chữ Nôm)
  8. Quan hệ giữa chữ Nôm và hình dáng biểu diễn trên máy tính (phông chữ)
  9. Quan hệ giữa chữ Nôm và cách đưa vào máy (theo Thương hiệt Cangjie, Quan thoại Mandarin, Quảng Đông Cantonese, theo quốc ngữ, theo tiếng Anh, theo mã Unicode…)

 

Chính do có nhiều khía cạnh liên quan tới chữ Nôm đã được thu thập thông tin đưa vào máy tính như vậy cho nên thực sự hiện nay chúng ta đang quản lý một cơ sở tri thức ứng với từng chữ Nôm. Trong thực tế cơ sở tri thức này được mở rộng thường xuyên khi có thêm các tác phẩm Hán Nôm được chuyển sang dạng điện tử và do đó cung cấp thêm nguồn cứ liệu, thông tin mới cho cơ sở dữ liệu tri thức.

 

Cơ sở tri thức chữ Hán Nôm chứa thông tin trao đổi sử dụng đúng của từng chữ trong bối cảnh đa ngữ. Cơ sở tri thức khác với cơ sở dữ liệu ở chỗ nó bao gồm các thông tin liên quan đến công nghệ trao đổi và hiển thị (các loại mã chữ, mã bộ, in ấn, trình bày, sắp thứ tự theo các loại tiêu chí, truy cập,…), thông tin về từ vựng, xuất xứ, thông tin cấu tạo, thông tin đối chiếu đa ngữ. Về cơ bản, có thể coi cơ sở tri thức chữ Hán Nôm này là một bộ phích lớn chứa đựng nhiều thông tin về chữ Hán Nôm hơn bất kỳ bộ phích riêng của các nhà nghiên cứu nào.

 

Một số các trường thông tin đã được đưa vào cơ sở tri thức chữ (CSTTC) này là như sau:

 

1.      ID(số thứ tự): chỉ báo về trật tự theo đó bản ghi được nhập vào CSTTC. Trường ID là trường khoá để giữ đúng trật tự thời gian nhập các bản ghi, để sau khi tiến hành các thao tác xử lý, dựa vào thông tin về ID của chữ, ta có thể tìm lại được trật tự cũ của CSTTC.

2.      Mã Unicode:ghi lại thông tin về mã Unicode của các chữ Hán-Nôm đã được tổ chức Unicode cấp mã; và các mã thuộc mặt phẳng 6 (60000-6ffff) được cấp cho các chữ Nôm mới trong quy trình Nôm Na, các mã này chưa có trong chuẩn quốc tế Unicode.

3.      Vị trí Khang Hy:chứa thông tin về vị trí chữ gần nhất có trong Khang Hy tự điển.

4.      Chữ Nôm:chứa hình chữ đại diện của mã chính thức được thừa nhận, là hình chữ thuộc bộ phông Tống thể mảnh NomnaTonglight.ttf.

5.      Quốc ngữ:chứa thông tin về âm đọc quốc ngữ của hình chữ ở trường Chữ Nôm.

6.      Xuất xứ:chứa thông tin về những tác phẩm có chữ này.

7.      Mẫu ghép:gồm các mẫu ghép mô tả, từ 2ff0 đến 2ffb, quản lý cách kết hợp của các thành tố, là thể hiện của cách thức cấu tạo chữ.

8.      Hình mẫu ghép:một trong 12 cách kết hợp thành tố được trực quan hoá.

9.      Thành tố 1:chứa thông tin về tự dạng của thành tố đầu.

10.  Thành tố 1 – id:chỉ báo của thành tố - thể hiện chức năng đệ quy của CSTTC.

11.  Thành tố 1 – qn:âm đọc quốc ngữ của thành tố.

12.  Mã của thành tố 1:mã Unicode hay mã Nôm Na của thành tố.

13.  Thành tố 2:chứa thông tin về tự dạng của thành tố thứ hai.

14.  Thành tố 2 – id:chỉ báo của thành tố - thể hiện chức năng đệ quy của CSTTC.

15.  Thành tố 2 – qn:âm đọc quốc ngữ của thành tố.

16.  Mã của thành tố 2:mã Unicode hay mã Nôm Na của thành tố.

17.  Thành tố 3:chứa thông tin về tự dạng của thành tố thứ ba.

18.  Thành tố 3 – id: chỉ báo của thành tố - thể hiện chức năng đệ quy của CSTTC.

19.  Thành tố 3 – qn:âm đọc quốc ngữ của thành tố.

20.  Mã của thành tố 3:mã Unicode hay mã Nôm Na của thành tố.

21.  Bộ thủ(Radical): chứa thông tin về tự dạng của bộ thủ.

22.  Bộ thủ – qn: âm đọc quốc ngữ của bộ thủ.

23.  Mã bộ URN (Unicode Radical Number): Mã bộ Unicode của bộ thủ.[1]

24.  SUnicode: Số nét còn lại của chữ theo Unicode.

25.  KTotalStrokes: Tổng số nét của chữ, kể cả số nét của bộ thủ.

 

Cơ sở tri thức chữ NomNaTongLight_kB phiên bản 1.07 (2006) gồm có 37.714 mục (records), mỗi mục là một tập hợp con các tri thức về một tự dạng và một âm đọc Quốc ngữ (ví dụ, một tự dạng có hai âm đọc Quốc ngữ nằm trong hai mục). Thông thường, thông tin về điểm mã (codepoint) là chỉ báo quan trọng nhất để phân biệt các hình chữ: mỗi tự dạng có một điểm mã quốc tế duy nhất.

 

Các nghiên cứu phân tích chữ Hán Nôm theo các thành tố để thiết lập quy tắc cấu thành một chữ Hán Nôm đệ quy (recursive) đang được tiến hành.


 

[1]           Xem cột “Thứ tự” phần Danh sách bộ thủ trong tập này.

 

7. Phần mềm xử lý chữ Hán Nôm

Một số phần mềm đã được xây dựng để cung cấp cho người dùng chữ Hán Nôm. Có thể xem và sử dụng các phần mềm này trên trang web của Hội Bảo tồn Di sản chữ Nôm.

 

·        Công cụ tra cứu chữ Nôm NLT (Nôm Lookup Tool): NLT là công trình cộng tác của các chuyên gia – hiệp sĩ CNTT eCHIP: Lê Phạm Ngưng Hương, Lê Mai Phương, Đỗ Bá Phước, Hồ Văn Tiến, Ngô Thanh Nhàn, Ngô Trung Việt và Nhóm Nôm Na.

·        Chương trình Tra cứu Tự điển trên mạng do Tô Trọng Đức phát triển dựa trên công cụ NLT và quyển Giúp đọc Nôm và Hán Việt của L.m. Trần Văn Kiệm.

·        Chương trình đọc và nghiên cứu văn bản học cho các phiên bản Truyện Kiều 1866, 1870, 1871, 1872 và 1902 do Vũ Xuân Lương, Tô Trọng Đức, Lê Văn Cường, Lương Thị Hạnh, Ngô Thanh Giang xây dựng dưới sự chỉ đạo của Ngô Thanh Nhàn và Ngô Trung Việt.

·        Hệ thống tư liệu Đại Việt Sử ký toàn thư được nhóm Nôm Na xây dựng và đưa lên mạng.


7.1.        Chương trình gõ chữ Nôm của Phan Anh Dũng

Về tác giả:

Phan Anh Dũng. Cử nhân Vật lý lý thuyết. Hiện là Chuyên viên CNTT thuộc Phòng Nghiên cứu Ứng dụng, Trung tâm CNTT Thừa Thiên–Huế (HueCIT).

Điện thoại: 054.512591, mobile: 0914190293. Email: fanzung@yahoo.com.

Các chức năng chính của phần mềm:

Phát triển t bộ phần mềm Việt Hán Nôm 1.0 đã bổ sung phần chuẩn hóa theo Unicode 3.1. Bao gồm cả phông chữ Hán, phông chữ Nôm, thâu nhập pháp có thể cả đánh chữ Hán, chữ Nôm, chữ Việt, các từ điển tra cứu chữ Hán, chữ Nôm, và một số công cụ tiện ích đi kèm như chỉnh sửa thâu nhập pháp, xem bản đồ phông…

Đối tượng phục vụ là các nhà nghiên cứu Hán Nôm cổ, nghiên cứu đông y, sinh viên chuyên ngành Hán Nôm, các chùa, các cơ quan văn hóa, các thư viện, các trường đại học, … cũng như những người Việt bình thường muốn học tập và tìm hiểu sâu hơn về Hán Nôm và tiếng Việt nói chung.

Vài số liệu:

  • Độ lớn tệp cài đặt: 24 MB, độ lớn sau khi bung ra 38 MB.
  • Yêu cầu cấu hình tối thiểu là Pentium 400 MHz, dung lượng đĩa trống >50MB, chạy hệ điều hành Windows 98, Windows 2000, Windows XP.
  • Kèm hai phông TrueType chữ Hán-Nôm dạng Khải thể và Minh thể, độ lớn mỗi file phông hơn 2,1 vạn chữ (khoảng 10-12MB) theo chuẩn Unicode 3.1 (nhưng phông chữ Khải còn thiếu, chưa đủ 9.299 chữ trong Unicode 3.1).
  • Có 5 thâu nhập pháp cơ bản là: đánh telex âm Hán Việt, đánh telex âm chữ Nôm, đánh âm PinYin Hán, đánh mã Thương Hiệt giản chữ Hán, đánh mã Thương Hiệt giản chữ Nôm.

Cách sử dụng:

  • Trước hết nên đọc tệp Help của chương trình.
  • Bật bộ gõ bằng nút hình công tắc trong cửa số chính hoặc dùng phím tắt ALT+RIGHT  (→) , các phím tắt khác là:

o       Chuyển nhanh về cách gõ telex chữ Hán: ALT + UP (↑)

o       Chuyển nhanh về cách gõ telex chữ Nôm: ALT + DOWN (↓)

o       Chuyển vòng tròn giữ các thâu nhập pháp: ALT + LEFT (←)

o       Tra nghĩa một chữ Hán trong văn bản: tô đen chữ rồi nhấn CTRL+C+Q

o       Phiên âm một đoạn văn bản Hán: tô đen đoạn đó rồi nhấn CTRL+C+W

  • Với các bộ gõ Hán Nôm theo âm thì đánh telex giống như đánh tiếng Việt bình thường, các chữ đồng âm sẽ hiển thị  trên thanh thâu nhập pháp để người dùng có thể chọn nhập vào văn bản bằng dãy phím số 1,2...9,0.
  • Có thể nhập luôn cả chữ Việt đang hiển thị trên thanh thâu nhập pháp bằng cách nhấn SPACE, dùng khi cần đánh chen chữ Hán Nôm lẫn với chữ Việt.
  • Khi chọn kiểu gõ „98” tương thích Windows 98 sẽ xuất ra chữ có sẵn định dạng phông nhưng chỉ đánh vào Word; khi chọn kiểu gõ „2K” tương thích Windows 2000/XP sẽ xuất ra chữ không có định dạng, có thể đánh vào mọi ứng dụng Windows chấp nhận Unicode.
  • Với cách đánh Thương Hiệt giản, người dùng cần học sơ qua một số khái niệm về mã Thương Hiệt (xin xem giới thiệu trong Help).

7.2.        Chương trình Hanokey của Tống Phước Khải

Tác giả: Tống Phước Khải; Email: tongphuockhai@yahoo.com.

 

Hệ phần mềm miễn phí (freeware) Hanosoft gồm các công cụ tra cứu và nhập văn bản Hán Nôm:

-         Tự điển Hán Việt

-         Bàn nhập chữ Hán Nôm.

-         Phiên âm đọc Hán Việt, Pinyin.

1/ Tự điển Hán Việt

Tự điển có thể được tra theo nhiều phương thức khác nhau:

  • Tra theo bộ thủ, số nét.
  • Tra theo tứ giác hiệu mã.
  • Tra theo âm Hán Việt.
  • Tra theo âm Pinyin.
  • Tra theo âm Nhật, Hàn.
  • Tra bằng cách nhập chữ đã chọn trên văn bản Winword.

Phần giải nghĩa được tổng hợp từ 2 quyển Hán Việt tự điển của Thiểu Chửu và Từ điển Hán Việt của Trần Văn Chánh.

Ngoài ra còn có phần trình bày mã unicode, âm Hán Việt, Nôm, Pinyin, Hàn, Nhật của từng chữ Hán.

Từ bảng tra này có thể bấm vào chữ Hán trên ô vuông để nhập vào văn bản hoặc giữ phím Ctrl và rê chuột để tra nghĩa từng chữ (Phím sử dụng tắt: Ctrl - Left ; Ctrl - Right).

2/ Bàn nhập chữ Hán, Nôm

Dùng để nhập chữ vào văn bản Winword. Cách nhập: gõ chữ phiên âm, sau đó sử dụng phím F1 đến F9 hoặc phím số 1 đến 9 để chọn chữ nhập vào văn bản.

Chuyển đổi các chế độ nhập bằng phím F12 (Phím sử dụng tắt: Ctrl – Up ; Ctrl – Down).

3/ Công cụ chuyển đổi

Bao gồm các chức năng chuyển đổi sau:

+ Chữ Hán sang Pinyin.

+ Chữ Hán sang Hán Việt.

+ Chữ phồn thể sang giản thể và ngược lại.

Cung cấp chức năng chọn lựa để phiên âm tuỳ theo văn bản chữ Hán là phồn thể hay giản thể. 

8. Các trang web liên quan tới chữ Hán Nôm

8.1.        Trang web của Viện Hán Nôm

http://www.hannom.org.vn.

8.2.        Trang web của Hội Bảo tồn Di sản chữ Nôm

http://nomfoundation.org.

http://nomna.org.

8.3.        Trang web của HueCIT

http://www.huesoft.com.vn.


8.4.        Trang web của Viện Việt học

http://www.viethoc.org.

8.5.        Trang web của Đạo Uyển

http://www.daouyen.com/NomDoc/Nom.htm.