Home
Random

Log in

Settings

About Linguifex
Disclaimers

Module:scripts/data: Difference between revisions

Language
Watch
View history
View source

← Older edit Newer edit →

@@ Line 94: / Line 94: @@
 --Constructed languages
 m["Ayer"] = {
-	canonicalName = "Tahano Hikamu",
+	"Tahano Hikamu",
+	"abugida",
 	characters = "A-Za-z*ñÑʔəƏꜷꜶ¯ˀ¨ʰʲː[]&+0-9¹²",
 	character_category = false,
-	systems = {"abugida"},
 }
 m["Roka"] = {
-	canonicalName = "Rokadong Curakjang",
+	"Rokadong Curakjang",
+	"abugida",
 	characters = "A-Za-z*[]{}'\"0-9",
 	character_category = false,
-	systems = {"abugida"},
 }
@@ Line 110: / Line 110: @@
 --Natural languages
-m["Adlm"] = {
+m["Adlm"] = process_ranges{
-	canonicalName = "Adlam",
+	"Adlam",
-	characters = "𞤀-𞥟",
+	"alphabet",
+	ranges = {
+x061F, 0x061F,
+x0640, 0x0640,
+x1E900, 0x1E94B,
+x1E950, 0x1E959,
+x1E95E, 0x1E95F,
+	},
+	capitalized = true,
 	direction = "rtl",
 }
 m["Afak"] = {
-	canonicalName = "Afaka",
+	"Afaka",
+	"syllabary",
+	-- Not in Unicode
 }
-m["Aghb"] = {
+m["Aghb"] = process_ranges{
-	canonicalName = "Caucasian Albanian",
+	"Caucasian Albanian",
-	characters = "𐔰-𐕣𐕯",
+	"alphabet",
+	ranges = {
+x10530, 0x10563,
+x1056F, 0x1056F,
+	},
 }
-m["Ahom"] = {
+m["Ahom"] = process_ranges{
-	canonicalName = "Ahom",
+	"Ahom",
-	characters = "𑜀-𑜿",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x11700, 0x1171A,
+x1171D, 0x1172B,
+x11730, 0x11746,
+	},
 }
-m["Arab"] = {
+m["Arab"] = process_ranges{
-	canonicalName = "Arabic",
+	"Arabic",
-	otherNames = {"Jawi", "Nastaliq", "Nastaleeq"},
+	"abjad",	-- more precisely, impure abjad
-	characters = "؀-ۿݐ-ݿࢠ-ࣿﭐ-﷽ﹰ-ﻼ",
+	varieties = {"Jawi", {"Nastaliq", "Nastaleeq"}},
+	ranges = {
+x0600, 0x06FF,
+x0750, 0x077F,
+x0870, 0x088E,
+x0890, 0x0891,
+x0898, 0x08E1,
+x08E3, 0x08FF,
+xFB50, 0xFBC2,
+xFBD3, 0xFD8F,
+xFD92, 0xFDC7,
+xFDCF, 0xFDCF,
+xFDF0, 0xFDFF,
+xFE70, 0xFE74,
+xFE76, 0xFEFC,
+x102E0, 0x102FB,
+x10E60, 0x10E7E,
+x10EFD, 0x10EFF,
+x1EE00, 0x1EE03,
+x1EE05, 0x1EE1F,
+x1EE21, 0x1EE22,
+x1EE24, 0x1EE24,
+x1EE27, 0x1EE27,
+x1EE29, 0x1EE32,
+x1EE34, 0x1EE37,
+x1EE39, 0x1EE39,
+x1EE3B, 0x1EE3B,
+x1EE42, 0x1EE42,
+x1EE47, 0x1EE47,
+x1EE49, 0x1EE49,
+x1EE4B, 0x1EE4B,
+x1EE4D, 0x1EE4F,
+x1EE51, 0x1EE52,
+x1EE54, 0x1EE54,
+x1EE57, 0x1EE57,
+x1EE59, 0x1EE59,
+x1EE5B, 0x1EE5B,
+x1EE5D, 0x1EE5D,
+x1EE5F, 0x1EE5F,
+x1EE61, 0x1EE62,
+x1EE64, 0x1EE64,
+x1EE67, 0x1EE6A,
+x1EE6C, 0x1EE72,
+x1EE74, 0x1EE77,
+x1EE79, 0x1EE7C,
+x1EE7E, 0x1EE7E,
+x1EE80, 0x1EE89,
+x1EE8B, 0x1EE9B,
+x1EEA1, 0x1EEA3,
+x1EEA5, 0x1EEA9,
+x1EEAB, 0x1EEBB,
+x1EEF0, 0x1EEF1,
+	},
 	direction = "rtl",
-	systems = {"abjad"},	-- more precisely, impure abjad
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ٳ"},
+		to = {"اٟ"}
+	},
 }
-m["fa-Arab"] = {
+	m["fa-Arab"] = {
-	canonicalName = "Arabic",
+		"Arabic",
-	otherNames = {"Perso-Arabic"},
+		m["Arab"][2],
-	characters = m["Arab"].characters,
+		ranges = m["Arab"].ranges,
-	direction = "rtl",
+		characters = m["Arab"].characters,
-	parent = "Arab",
+		otherNames = {"Perso-Arabic"},
-}
+		direction = "rtl",
+		parent = "Arab",
+		normalizationFixes = m["Arab"].normalizationFixes,
+	}
+	m["kk-Arab"] = {
+		"Arabic",
+		m["Arab"][2],
+		ranges = m["Arab"].ranges,
+		characters = m["Arab"].characters,
+		direction = "rtl",
+		parent = "Arab",
+		normalizationFixes = m["Arab"].normalizationFixes,
+	}
+	m["ks-Arab"] = m["fa-Arab"]
+	m["ku-Arab"] = m["fa-Arab"]
+	m["ms-Arab"] = m["kk-Arab"]
+	m["mzn-Arab"] = m["fa-Arab"]
+	m["ota-Arab"] = m["fa-Arab"]
+	m["pa-Arab"] = {
+		"Shahmukhi",
+		m["Arab"][2],
+		ranges = m["Arab"].ranges,
+		characters = m["Arab"].characters,
+		otherNames = {"Arabic"},
+		direction = "rtl",
+		parent = "Arab",
+		normalizationFixes = m["Arab"].normalizationFixes,
+	}
+	m["ps-Arab"] = m["fa-Arab"]
+	m["sd-Arab"] = m["fa-Arab"]
+	m["tt-Arab"] = m["fa-Arab"]
+	m["ug-Arab"] = m["fa-Arab"]
+	m["ur-Arab"] = m["fa-Arab"]
-m["kk-Arab"] = {
+-- Aran (Nastaliq) is subsumed into Arab
-	canonicalName = "Arabic",
-	characters = m["Arab"].characters,
-	direction = "rtl",
-	parent = "Arab",
-}
-m["ks-Arab"] = {
+m["Armi"] = process_ranges{
-	canonicalName = "Arabic",
+	"Imperial Aramaic",
-	characters = m["Arab"].characters,
+	"abjad",
+	ranges = {
+x10840, 0x10855,
+x10857, 0x1085F,
+	},
 	direction = "rtl",
-	parent = "Arab",
 }
-m["ku-Arab"] = {
+m["Armn"] = process_ranges{
-	canonicalName = "Arabic",
+	"Armenian",
-	characters = m["Arab"].characters,
+	"alphabet",
-	direction = "rtl",
+	ranges = {
-	parent = "Arab",
+x0531, 0x0556,
+x0559, 0x058A,
+x058D, 0x058F,
+xFB13, 0xFB17,
+	},
+	capitalized = true,
 }
-m["ms-Arab"] = {
+m["Avst"] = process_ranges{
-	canonicalName = "Arabic",
+	"Avestan",
-	characters = m["Arab"].characters,
+	"alphabet",
+	ranges = {
+x10B00, 0x10B35,
+x10B39, 0x10B3F,
+	},
 	direction = "rtl",
-	parent = "Arab",
 }
-m["mzn-Arab"] = {
+	m["pal-Avst"] = {
-	canonicalName = "Arabic",
+		"Pazend",
-	characters = m["Arab"].characters,
+		m["Avst"][2],
-	direction = "rtl",
+		ranges = m["Avst"].ranges,
-	parent = "Arab",
+		characters = m["Avst"].characters,
-}
+		direction = "rtl",
+		parent = "Avst",
+	}
-m["ota-Arab"] = {
+m["Bali"] = process_ranges{
-	canonicalName = "Arabic",
+	"Balinese",
-	characters = m["Arab"].characters,
+	"abugida",
-	direction = "rtl",
+	ranges = {
-	parent = "Arab",
+x1B00, 0x1B4C,
+x1B50, 0x1B7E,
+	},
 }
-m["pa-Arab"] = {
+m["Bamu"] = process_ranges{
-	canonicalName = "Shahmukhi",
+	"Bamum",
-	otherNames = {"Arabic"},
+	"syllabary",
-	characters = m["Arab"].characters,
+	ranges = {
-	direction = "rtl",
+xA6A0, 0xA6F7,
-	parent = "Arab",
+x16800, 0x16A38,
+	},
 }
-m["ps-Arab"] = {
+m["Bass"] = process_ranges{
-	canonicalName = "Arabic",
+	"Bassa",
-	characters = m["Arab"].characters,
+	"alphabet",
-	direction = "rtl",
+	aliases = {"Bassa Vah", "Vah"},
-	parent = "Arab",
+	ranges = {
+x16AD0, 0x16AED,
+x16AF0, 0x16AF5,
+	},
 }
-m["sd-Arab"] = {
+m["Batk"] = process_ranges{
-	canonicalName = "Arabic",
+	"Batak",
-	characters = m["Arab"].characters,
+	"abugida",
-	direction = "rtl",
+	ranges = {
-	parent = "Arab",
+x1BC0, 0x1BF3,
+x1BFC, 0x1BFF,
+	},
 }
-m["tt-Arab"] = {
+m["Beng"] = process_ranges{
-	canonicalName = "Arabic",
+	"Bengali",
-	characters = m["Arab"].characters,
+	"abugida",
-	direction = "rtl",
+	ranges = {
-	parent = "Arab",
+x0951, 0x0952,
+x0964, 0x0965,
+x0980, 0x0983,
+x0985, 0x098C,
+x098F, 0x0990,
+x0993, 0x09A8,
+x09AA, 0x09B0,
+x09B2, 0x09B2,
+x09B6, 0x09B9,
+x09BC, 0x09C4,
+x09C7, 0x09C8,
+x09CB, 0x09CE,
+x09D7, 0x09D7,
+x09DC, 0x09DD,
+x09DF, 0x09E3,
+x09E6, 0x09EF,
+x09F2, 0x09FE,
+x1CD0, 0x1CD0,
+x1CD2, 0x1CD2,
+x1CD5, 0x1CD6,
+x1CD8, 0x1CD8,
+x1CE1, 0x1CE1,
+x1CEA, 0x1CEA,
+x1CED, 0x1CED,
+x1CF2, 0x1CF2,
+x1CF5, 0x1CF7,
+xA8F1, 0xA8F1,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"অা", "ঋৃ", "ঌৢ"},
+		to = {"আ", "ৠ", "ৡ"}
+	},
 }
-m["ug-Arab"] = {
+	m["as-Beng"] = process_ranges{
-	canonicalName = "Arabic",
+		"Assamese",
-	characters = m["Arab"].characters,
+		m["Beng"][2],
-	direction = "rtl",
+		otherNames = {"Bengali-Assamese", "Eastern Nagari"},
-	parent = "Arab",
+		ranges = {
-}
+x0951, 0x0952,
+x0964, 0x0965,
+x0980, 0x0983,
+x0985, 0x098C,
+x098F, 0x0990,
+x0993, 0x09A8,
+x09AA, 0x09AF,
+x09B2, 0x09B2,
+x09B6, 0x09B9,
+x09BC, 0x09C4,
+x09C7, 0x09C8,
+x09CB, 0x09CE,
+x09D7, 0x09D7,
+x09DC, 0x09DD,
+x09DF, 0x09E3,
+x09E6, 0x09FE,
+x1CD0, 0x1CD0,
+x1CD2, 0x1CD2,
+x1CD5, 0x1CD6,
+x1CD8, 0x1CD8,
+x1CE1, 0x1CE1,
+x1CEA, 0x1CEA,
+x1CED, 0x1CED,
+x1CF2, 0x1CF2,
+x1CF5, 0x1CF7,
+xA8F1, 0xA8F1,
+		},
+		normalizationFixes = m["Beng"].normalizationFixes,
+	}
-m["ur-Arab"] = {
+m["Bhks"] = process_ranges{
-	canonicalName = "Arabic",
+	"Bhaiksuki",
-	characters = m["Arab"].characters,
+	"abugida",
-	direction = "rtl",
+	ranges = {
-	parent = "Arab",
+x11C00, 0x11C08,
+x11C0A, 0x11C36,
+x11C38, 0x11C45,
+x11C50, 0x11C6C,
+	},
 }
--- Aran (Nastaliq) is subsumed into Arab
+m["Blis"] = {
+	"Blissymbols",
-m["Armi"] = {
+	"logography",
-	canonicalName = "Imperial Aramaic",
+	aliases = {"Blissymbolics"},
-	characters = "𐡀-𐡟",
+	-- Not in Unicode
-	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Armn"] = {
+m["Bopo"] = process_ranges{
-	canonicalName = "Armenian",
+	"Zhuyin",
-	characters = "Ա-֏ﬓ-ﬗ",
+	"semisyllabary",
+	aliases = {"Zhuyin Fuhao", "Bopomofo"},
+	ranges = {
+x02EA, 0x02EB,
+x3001, 0x3003,
+x3008, 0x3011,
+x3013, 0x301F,
+x302A, 0x302D,
+x3030, 0x3030,
+x3037, 0x3037,
+x30FB, 0x30FB,
+x3105, 0x312F,
+x31A0, 0x31BF,
+xFE45, 0xFE46,
+xFF61, 0xFF65,
+	},
 }
-m["Avst"] = {
+m["Brah"] = process_ranges{
-	canonicalName = "Avestan",
+	"Brahmi",
-	characters = "𐬀-𐬿",
+	"abugida",
-	direction = "rtl",
+	ranges = {
+x11000, 0x1104D,
+x11052, 0x11075,
+x1107F, 0x1107F,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑀅𑀸", "𑀋𑀾", "𑀏𑁂"},
+		to = {"𑀆", "𑀌", "𑀐"}
+	},
 }
-m["Bali"] = {
+m["Brai"] = process_ranges{
-	canonicalName = "Balinese",
+	"Braille",
-	characters = "ᬀ-᭼",
+	"alphabet",
-	systems = {"abugida"},
+	ranges = {
+x2800, 0x28FF,
+	},
 }
-m["Bamu"] = {
+m["Bugi"] = process_ranges{
-	canonicalName = "Bamum",
+	"Lontara",
-	characters = "ꚠ-꛷𖠀-𖨸",
+	"abugida",
+	aliases = {"Buginese"},
+	ranges = {
+x1A00, 0x1A1B,
+x1A1E, 0x1A1F,
+xA9CF, 0xA9CF,
+	},
 }
-m["Bass"] = {
+m["Buhd"] = process_ranges{
-	canonicalName = "Bassa",
+	"Buhid",
-	otherNames = {"Bassa Vah", "Vah"},
+	"abugida",
-	characters = "𖫐-𖫵",
+	ranges = {
+x1735, 0x1736,
+x1740, 0x1751,
+x1752, 0x1753,
+	},
 }
-m["Batk"] = {
+m["Cakm"] = process_ranges{
-	canonicalName = "Batak",
+	"Chakma",
-	characters = "ᯀ-᯿",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x09E6, 0x09EF,
+x1040, 0x1049,
+x11100, 0x11134,
+x11136, 0x11147,
+	},
 }
-m["Beng"] = {
+m["Cans"] = process_ranges{
-	canonicalName = "Bengali",
+	"Canadian syllabics",
-	otherNames = {"Bengali-Assamese", "Eastern Nagari"},
+	"abugida",
-	characters = "ঀ-ঃঅ-ঌএঐও-নপ-রললশ-হ়-ৄেৈো-ৎৗড়ঢ়য়়ৠ-ৣ০-৯",
+	ranges = {
-	systems = {"abugida"},
+x1400, 0x167F,
+x18B0, 0x18F5,
+x11AB0, 0x11ABF,
+	},
 }
-m["as-Beng"] = {
+m["Cari"] = process_ranges{
-	canonicalName = "Assamese",
+	"Carian",
-	otherNames = {"Bengali-Assamese", "Eastern Nagari"},
+	"alphabet",
-	characters = "ঁ-ঃঅ-ঌএঐও-নপ-যশ-হ়-ৄেৈো-ৎৗড়ঢ়য়়ৠ-ৣ০-ৱ",
+	ranges = {
-	systems = {"abugida"},
+x102A0, 0x102D0,
+	},
 }
-m["Bhks"] = {
+m["Cham"] = process_ranges{
-	canonicalName = "Bhaiksuki",
+	"Cham",
-	characters = "𑰀-𑱬",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+xAA00, 0xAA36,
+xAA40, 0xAA4D,
+xAA50, 0xAA59,
+xAA5C, 0xAA5F,
+	},
 }
-m["Bopo"] = {
+m["Cher"] = process_ranges{
-	canonicalName = "Zhuyin",
+	"Cherokee",
-	otherNames = {"Zhuyin Fuhao", "Bopomofo"},
+	"syllabary",
-	characters = "ㄅ-ㄯㆠ-ㆺ",
+	ranges = {
+x13A0, 0x13F5,
+x13F8, 0x13FD,
+xAB70, 0xABBF,
+	},
 }
-m["Brah"] = {
+m["Chis"] = {
-	canonicalName = "Brahmi",
+	"Chisoi",
-	characters = "𑀀-𑁿",
+	"abugida",
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Brai"] = {
+m["Chrs"] = process_ranges{
-	canonicalName = "Braille",
+	"Chorasmian",
-	characters = "⠀-⣿",
+	"abjad",
+	ranges = {
+x10FB0, 0x10FCB,
+	},
+	direction = "rtl",
 }
-m["Bugi"] = {
+m["Copt"] = process_ranges{
-	canonicalName = "Buginese",
+	"Coptic",
-	otherNames = {"Lontara"},
+	"alphabet",
-	characters = "ᨀ-᨟",
+	ranges = {
-	systems = {"abugida"},
+x03E2, 0x03EF,
+x2C80, 0x2CF3,
+x2CF9, 0x2CFF,
+x102E0, 0x102FB,
+	},
+	capitalized = true,
 }
-m["Buhd"] = {
+m["Cpmn"] = process_ranges{
-	canonicalName = "Buhid",
+	"Cypro-Minoan",
-	characters = "ᝀ-ᝓ",
+	"syllabary",
-	systems = {"abugida"},
+	aliases = {"Cypro Minoan"},
+	ranges = {
+x10100, 0x10101,
+x12F90, 0x12FF2,
+	},
 }
-m["Cakm"] = {
+m["Cprt"] = process_ranges{
-	canonicalName = "Chakma",
+	"Cypriot",
-	characters = "𑄀-𑅆",
+	"syllabary",
-	systems = {"abugida"},
+	ranges = {
+x10100, 0x10102,
+x10107, 0x10133,
+x10137, 0x1013F,
+x10800, 0x10805,
+x10808, 0x10808,
+x1080A, 0x10835,
+x10837, 0x10838,
+x1083C, 0x1083C,
+x1083F, 0x1083F,
+	},
+	direction = "rtl",
 }
-m["Cans"] = {
+m["Cyrl"] = process_ranges{
-	canonicalName = "Canadian syllabics",
+	"Cyrillic",
-	characters = "᐀-ᙿ",
+	"alphabet",
-	systems = {"abugida"},
+	ranges = {
+x0400, 0x052F,
+x1C80, 0x1C88,
+x1D2B, 0x1D2B,
+x1D78, 0x1D78,
+x1DF8, 0x1DF8,
+x2DE0, 0x2DFF,
+x2E43, 0x2E43,
+xA640, 0xA69F,
+xFE2E, 0xFE2F,
+x1E030, 0x1E06D,
+x1E08F, 0x1E08F,
+	},
+	capitalized = true,
 }
-m["Cari"] = {
+m["Cyrs"] = {
-	canonicalName = "Carian",
+	"Old Cyrillic",
-	characters = "𐊠-𐋐",
+	m["Cyrl"][2],
-	systems = {"alphabet"},
+	aliases = {"Early Cyrillic"},
+	ranges = m["Cyrl"].ranges,
+	characters = m["Cyrl"].characters,
+	capitalized = m["Cyrl"].capitalized,
+	wikipedia_article = "Early Cyrillic alphabet",
+	normalizationFixes = handle_normalization_fixes{
+		from = {"Ѹ", "ѹ"},
+		to = {"Ꙋ", "ꙋ"}
+	},
 }
-m["Cham"] = {
+m["Deva"] = process_ranges{
-	canonicalName = "Cham",
+	"Devanagari",
-	characters = "ꨀ-꩟",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0900, 0x097F,
+x1CD0, 0x1CF6,
+x1CF8, 0x1CF9,
+x20F0, 0x20F0,
+xA830, 0xA839,
+xA8E0, 0xA8FF,
+x11B00, 0x11B09,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ॆॆ", "ेे", "ाॅ", "ाॆ", "ाꣿ", "ॊॆ", "ाे", "ाै", "ोे", "ाऺ", "ॖॖ", "अॅ", "अॆ", "अा", "एॅ", "एॆ", "एे", "एꣿ", "ऎॆ", "अॉ", "आॅ", "अॊ", "आॆ", "अो", "आे", "अौ", "आै", "ओे", "अऺ", "अऻ", "आऺ", "अाꣿ", "आꣿ", "ऒॆ", "अॖ", "अॗ", "ॶॖ", "्‍?ा"},
+		to = {"ꣿ", "ै", "ॉ", "ॊ", "ॏ", "ॏ", "ो", "ौ", "ौ", "ऻ", "ॗ", "ॲ", "ऄ", "आ", "ऍ", "ऎ", "ऐ", "ꣾ", "ꣾ", "ऑ", "ऑ", "ऒ", "ऒ", "ओ", "ओ", "औ", "औ", "औ", "ॳ", "ॴ", "ॴ", "ॵ", "ॵ", "ॵ", "ॶ", "ॷ", "ॷ"}
+	},
 }
-m["Cher"] = {
+m["Diak"] = process_ranges{
-	canonicalName = "Cherokee",
+	"Dhives Akuru",
-	characters = "Ꭰ-Ᏼꭰ-ꮿ",
+	"abugida",
-	systems = {"syllabary"},
+	aliases = {"Dhivehi Akuru", "Dives Akuru", "Divehi Akuru"},
+	ranges = {
+x11900, 0x11906,
+x11909, 0x11909,
+x1190C, 0x11913,
+x11915, 0x11916,
+x11918, 0x11935,
+x11937, 0x11938,
+x1193B, 0x11946,
+x11950, 0x11959,
+	},
 }
-m["Copt"] = {
+m["Dogr"] = process_ranges{
-	canonicalName = "Coptic",
+	"Dogra",
-	characters = "Ϣ-ϯⲀ-⳿𐋡-𐋻", -- this is mostly "Coptic", not unified "Greek and Coptic"
+	"abugida",
-	systems = {"alphabet"},
+	ranges = {
+x0964, 0x096F,
+xA830, 0xA839,
+x11800, 0x1183B,
+	},
 }
-m["Cprt"] = {
+m["Dsrt"] = process_ranges{
-	canonicalName = "Cypriot",
+	"Deseret",
-	characters = "𐠀-𐠿",
+	"alphabet",
-	direction = "rtl",
+	ranges = {
-	systems = {"syllabary"},
+x10400, 0x1044F,
+	},
+	capitalized = true,
 }
-m["Cyrl"] = {
+m["Dupl"] = process_ranges{
-	canonicalName = "Cyrillic",
+	"Duployan",
-	characters = "Ѐ-џѢѣѪѫѬѭѲѳѴѵҊ-ԧꚀ-ꚗ",
+	"alphabet",
-	systems = {"alphabet"},
+	ranges = {
+x1BC00, 0x1BC6A,
+x1BC70, 0x1BC7C,
+x1BC80, 0x1BC88,
+x1BC90, 0x1BC99,
+x1BC9C, 0x1BCA3,
+	},
 }
-m["Cyrs"] = {
+m["Egyd"] = {
-	canonicalName = "Old Cyrillic",
+	"Demotic",
-	otherNames = { "Early Cyrillic" },
+	"abjad, logography",
-	characters = "Ѐ-ԧꙀ-ꚗ",
+	-- Not in Unicode
-	wikipedia_article = "Early Cyrillic alphabet",
-	systems = {"alphabet"},
 }
-m["Deva"] = {
+m["Egyh"] = {
-	canonicalName = "Devanagari",
+	"Hieratic",
-	characters = "ऀ-ॿ꣠-ꣿ",
+	"abjad, logography",
-	systems = {"abugida"},
+	-- Unified with Egyptian hieroglyphic in Unicode
 }
-m["Dogr"] = {
+m["Egyp"] = process_ranges{
-	canonicalName = "Dogra",
+	"Egyptian hieroglyphic",
-	characters = "𑠀-𑠻",
+	"abjad, logography",
-	systems = {"abugida"},
+	ranges = {
+x13000, 0x13455,
+	},
+	varieties = {"Hieratic"},
+	wikipedia_article = "Egyptian hieroglyphs",
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𓃁", "𓆖"},
+		to = {"𓃀𓐶𓂝", "𓆓𓐳𓐷𓏏𓐰𓇿𓐸"}
+	},
 }
-m["Dsrt"] = {
+m["Elba"] = process_ranges{
-	canonicalName = "Deseret",
+	"Elbasan",
-	characters = "𐐀-𐑏",
+	"alphabet",
-	systems = {"alphabet"},
+	ranges = {
+x10500, 0x10527,
+	},
 }
-m["Dupl"] = {
+m["Elym"] = process_ranges{
-	canonicalName = "Duployan",
+	"Elymaic",
-	characters = "𛰀-𛲟",
+	"abjad",
+	ranges = {
+x10FE0, 0x10FF6,
+	},
+	direction = "rtl",
 }
-m["Egyd"] = {
+m["Ethi"] = process_ranges{
-	canonicalName = "Demotic",
+	"Ethiopic",
+	"abugida",
+	aliases = {"Ge'ez"},
+	ranges = {
+x1200, 0x1248,
+x124A, 0x124D,
+x1250, 0x1256,
+x1258, 0x1258,
+x125A, 0x125D,
+x1260, 0x1288,
+x128A, 0x128D,
+x1290, 0x12B0,
+x12B2, 0x12B5,
+x12B8, 0x12BE,
+x12C0, 0x12C0,
+x12C2, 0x12C5,
+x12C8, 0x12D6,
+x12D8, 0x1310,
+x1312, 0x1315,
+x1318, 0x135A,
+x135D, 0x137C,
+x1380, 0x1399,
+x2D80, 0x2D96,
+x2DA0, 0x2DA6,
+x2DA8, 0x2DAE,
+x2DB0, 0x2DB6,
+x2DB8, 0x2DBE,
+x2DC0, 0x2DC6,
+x2DC8, 0x2DCE,
+x2DD0, 0x2DD6,
+x2DD8, 0x2DDE,
+xAB01, 0xAB06,
+xAB09, 0xAB0E,
+xAB11, 0xAB16,
+xAB20, 0xAB26,
+xAB28, 0xAB2E,
+x1E7E0, 0x1E7E6,
+x1E7E8, 0x1E7EB,
+x1E7ED, 0x1E7EE,
+x1E7F0, 0x1E7FE,
+	},
 }
-m["Egyp"] = {
+m["Gara"] = {
-	canonicalName = "Egyptian hieroglyphic",
+	"Garay",
-	characters = "𓀀-𓐮",
+	"alphabet",
+	capitalized = true,
+	direction = "rtl",
+	-- Not in Unicode
 }
-m["Elba"] = {
+m["Geok"] = process_ranges{
-	canonicalName = "Elbasan",
+	"Khutsuri",
-	characters = "𐔀-𐔧",
+	"alphabet",
+	ranges = { -- Ⴀ-Ⴭ is Asomtavruli, ⴀ-ⴭ is Nuskhuri
+x10A0, 0x10C5,
+x10C7, 0x10C7,
+x10CD, 0x10CD,
+x10FB, 0x10FB,
+x2D00, 0x2D25,
+x2D27, 0x2D27,
+x2D2D, 0x2D2D,
+	},
+	varieties = {"Nuskhuri", "Asomtavruli"},
+	capitalized = true,
 }
-m["Ethi"] = {
+m["Geor"] = process_ranges{
-	canonicalName = "Ethiopic",
+	"Georgian",
-	otherNames = {"Ge'ez"},
+	"alphabet",
-	characters = "ሀ-᎙ⶀ-ⷞꬁ-ꬮ",
+	ranges = { -- ა-ჿ is lowercase Mkhedruli; Ა-Ჿ is uppercase Mkhedruli (Mtavruli)
-	systems = {"abugida"},
+x10D0, 0x10FF,
+x1C90, 0x1CBA,
+x1CBD, 0x1CBF,
+	},
+	varieties = {"Mkhedruli", "Mtavruli"},
+	capitalized = true,
 }
-m["Geok"] = {
+m["Glag"] = process_ranges{
-	canonicalName = "Khutsuri",
+	"Glagolitic",
-	otherNames = {"Nuskhuri", "Asomtavruli"},
+	"alphabet",
-	characters = "Ⴀ-Ⴭⴀ-ⴭ", -- Ⴀ-Ⴭ is Asomtavruli, ⴀ-ⴭ is Nuskhuri
+	ranges = {
-	systems = {"alphabet"},
+x0484, 0x0484,
+x0487, 0x0487,
+x2C00, 0x2C5F,
+x2E43, 0x2E43,
+xA66F, 0xA66F,
+x1E000, 0x1E006,
+x1E008, 0x1E018,
+x1E01B, 0x1E021,
+x1E023, 0x1E024,
+x1E026, 0x1E02A,
+	},
+	capitalized = true,
 }
-m["Geor"] = {
+m["Gong"] = process_ranges{
-	canonicalName = "Georgian",
+	"Gunjala Gondi",
-	otherNames = {"Mkhedruli", "Mtavruli"},
+	"abugida",
-	characters = "ა-ჿᲐ-Ჿ", -- ა-ჿ is lowercase Mkhedruli; Ა-Ჿ is uppercase Mkhedruli (Mtavruli)
+	ranges = {
-	systems = {"alphabet"},
+x0964, 0x0965,
+x11D60, 0x11D65,
+x11D67, 0x11D68,
+x11D6A, 0x11D8E,
+x11D90, 0x11D91,
+x11D93, 0x11D98,
+x11DA0, 0x11DA9,
+	},
 }
-m["Glag"] = {
+m["Gonm"] = process_ranges{
-	canonicalName = "Glagolitic",
+	"Masaram Gondi",
-	characters = "Ⰰ-ⱞ𞀀-𞀪",
+	"abugida",
-	systems = {"alphabet"},
+	ranges = {
+x0964, 0x0965,
+x11D00, 0x11D06,
+x11D08, 0x11D09,
+x11D0B, 0x11D36,
+x11D3A, 0x11D3A,
+x11D3C, 0x11D3D,
+x11D3F, 0x11D47,
+x11D50, 0x11D59,
+	},
 }
-m["Gong"] = {
+m["Goth"] = process_ranges{
-	canonicalName = "Gunjala Gondi",
+	"Gothic",
-	characters = "𑵠-𑶩",
+	"alphabet",
-	systems = {"abugida"},
+	ranges = {
+x10330, 0x1034A,
+	},
+	wikipedia_article = "Gothic alphabet",
 }
-m["Gonm"] = {
+m["Gran"] = process_ranges{
-	canonicalName = "Masaram Gondi",
+	"Grantha",
-	characters = "𑴀-𑵙",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0BE6, 0x0BF3,
+x1CD0, 0x1CD0,
+x1CD2, 0x1CD3,
+x1CF2, 0x1CF4,
+x1CF8, 0x1CF9,
+x20F0, 0x20F0,
+x11300, 0x11303,
+x11305, 0x1130C,
+x1130F, 0x11310,
+x11313, 0x11328,
+x1132A, 0x11330,
+x11332, 0x11333,
+x11335, 0x11339,
+x1133B, 0x11344,
+x11347, 0x11348,
+x1134B, 0x1134D,
+x11350, 0x11350,
+x11357, 0x11357,
+x1135D, 0x11363,
+x11366, 0x1136C,
+x11370, 0x11374,
+x11FD0, 0x11FD1,
+x11FD3, 0x11FD3,
+	},
 }
-m["Goth"] = {
+m["Grek"] = process_ranges{
-	canonicalName = "Gothic",
+	"Greek",
-	characters = "𐌰-𐍊",
+	"alphabet",
-	systems = {"alphabet"},
+	ranges = {
+x0342, 0x0342,
+x0345, 0x0345,
+x0370, 0x0377,
+x037A, 0x037F,
+x0384, 0x038A,
+x038C, 0x038C,
+x038E, 0x03A1,
+x03A3, 0x03E1,
+x03F0, 0x03FF,
+x1D26, 0x1D2A,
+x1D5D, 0x1D61,
+x1D66, 0x1D6A,
+x1DBF, 0x1DBF,
+x2126, 0x2127,
+x2129, 0x2129,
+x213C, 0x2140,
+xAB65, 0xAB65,
+x10140, 0x1018E,
+x101A0, 0x101A0,
+x1D200, 0x1D245,
+	},
+	capitalized = true,
 }
-m["Gran"] = {
+	m["Polyt"] = process_ranges{
-	canonicalName = "Grantha",
+		"Greek",
-	characters = "𑌁-𑍴",
+		m["Grek"][2],
-	systems = {"abugida"},
+		ranges = union(m["Grek"].ranges, {
-}
+x1F00, 0x1F15,
+x1F18, 0x1F1D,
+x1F20, 0x1F45,
+x1F48, 0x1F4D,
+x1F50, 0x1F57,
+x1F59, 0x1F59,
+x1F5B, 0x1F5B,
+x1F5D, 0x1F5D,
+x1F5F, 0x1F7D,
+x1F80, 0x1FB4,
+x1FB6, 0x1FC4,
+x1FC6, 0x1FD3,
+x1FD6, 0x1FDB,
+x1FDD, 0x1FEF,
+x1FF2, 0x1FF4,
+x1FF6, 0x1FFE,
+		}),
+		ietf_subtag = "Grek",
+		capitalized = m["Grek"].capitalized,
+		parent = "Grek",
+	}
-m["Grek"] = {
+m["Gujr"] = process_ranges{
-	canonicalName = "Greek",
+	"Gujarati",
-	characters = "Ͱ-ϡϰ-Ͽ",
+	"abugida",
-	systems = {"alphabet"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0A81, 0x0A83,
+x0A85, 0x0A8D,
+x0A8F, 0x0A91,
+x0A93, 0x0AA8,
+x0AAA, 0x0AB0,
+x0AB2, 0x0AB3,
+x0AB5, 0x0AB9,
+x0ABC, 0x0AC5,
+x0AC7, 0x0AC9,
+x0ACB, 0x0ACD,
+x0AD0, 0x0AD0,
+x0AE0, 0x0AE3,
+x0AE6, 0x0AF1,
+x0AF9, 0x0AFF,
+xA830, 0xA839,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ઓ", "અાૈ", "અા", "અૅ", "અે", "અૈ", "અૉ", "અો", "અૌ", "આૅ", "આૈ", "ૅા"},
+		to = {"અાૅ", "ઔ", "આ", "ઍ", "એ", "ઐ", "ઑ", "ઓ", "ઔ", "ઓ", "ઔ", "ૉ"}
+	},
 }
-m["polytonic"] = {
+m["Gukh"] = {
-	canonicalName = "Greek",
+	"Khema",
-	characters = "ἀ-῾" .. m["Grek"].characters,
+	"abugida",
-	parent = "Grek",
+	aliases = {"Gurung Khema", "Khema Phri", "Khema Lipi"},
-	systems = {"alphabet"},
+	-- Not in Unicode
 }
-m["Gujr"] = {
+m["Guru"] = process_ranges{
-	canonicalName = "Gujarati",
+	"Gurmukhi",
-	characters = "ઁ-૱",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0A01, 0x0A03,
+x0A05, 0x0A0A,
+x0A0F, 0x0A10,
+x0A13, 0x0A28,
+x0A2A, 0x0A30,
+x0A32, 0x0A33,
+x0A35, 0x0A36,
+x0A38, 0x0A39,
+x0A3C, 0x0A3C,
+x0A3E, 0x0A42,
+x0A47, 0x0A48,
+x0A4B, 0x0A4D,
+x0A51, 0x0A51,
+x0A59, 0x0A5C,
+x0A5E, 0x0A5E,
+x0A66, 0x0A76,
+xA830, 0xA839,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ਅਾ", "ਅੈ", "ਅੌ", "ੲਿ", "ੲੀ", "ੲੇ", "ੳੁ", "ੳੂ", "ੳੋ"},
+		to = {"ਆ", "ਐ", "ਔ", "ਇ", "ਈ", "ਏ", "ਉ", "ਊ", "ਓ"}
+	},
 }
-m["Guru"] = {
+m["Hang"] = process_ranges{
-	canonicalName = "Gurmukhi",
+	"Hangul",
-	characters = "ਁ-੶",
+	"syllabary",
-	systems = {"abugida"},
+	aliases = {"Hangeul"},
+	ranges = {
+x1100, 0x11FF,
+x3001, 0x3003,
+x3008, 0x3011,
+x3013, 0x301F,
+x302E, 0x3030,
+x3037, 0x3037,
+x30FB, 0x30FB,
+x3131, 0x318E,
+x3200, 0x321E,
+x3260, 0x327E,
+xA960, 0xA97C,
+xAC00, 0xD7A3,
+xD7B0, 0xD7C6,
+xD7CB, 0xD7FB,
+xFE45, 0xFE46,
+xFF61, 0xFF65,
+xFFA0, 0xFFBE,
+xFFC2, 0xFFC7,
+xFFCA, 0xFFCF,
+xFFD2, 0xFFD7,
+xFFDA, 0xFFDC,
+	},
 }
-m["Gvoz"] = {
+m["Hani"] = process_ranges{
-	canonicalName = "Oz",
+	"Han",
-	systems = {"alphabet"},
+	"logography",
+	ranges = {
+x2E80, 0x2E99,
+x2E9B, 0x2EF3,
+x2F00, 0x2FD5,
+x2FF0, 0x2FFF,
+x3001, 0x3003,
+x3005, 0x3011,
+x3013, 0x301F,
+x3021, 0x302D,
+x3030, 0x3030,
+x3037, 0x303F,
+x3190, 0x319F,
+x31C0, 0x31E3,
+x31EF, 0x31EF,
+x3220, 0x3247,
+x3280, 0x32B0,
+x32C0, 0x32CB,
+x30FB, 0x30FB,
+x32FF, 0x32FF,
+x3358, 0x3370,
+x337B, 0x337F,
+x33E0, 0x33FE,
+x3400, 0x4DBF,
+x4E00, 0x9FFF,
+xA700, 0xA707,
+xF900, 0xFA6D,
+xFA70, 0xFAD9,
+xFE45, 0xFE46,
+xFF61, 0xFF65,
+x16FE2, 0x16FE3,
+x16FF0, 0x16FF1,
+x1D360, 0x1D371,
+x1F250, 0x1F251,
+x20000, 0x2A6DF,
+x2A700, 0x2B739,
+x2B740, 0x2B81D,
+x2B820, 0x2CEA1,
+x2CEB0, 0x2EBE0,
+x2EBF0, 0x2EE5D,
+x2F800, 0x2FA1D,
+x30000, 0x3134A,
+x31350, 0x323AF,
+	},
+	varieties = {"Hanzi", "Kanji", "Hanja", "Chu Nom"},
+	spaces = false,
 }
-m["Hang"] = {
+	m["Hans"] = {
-	canonicalName = "Hangul",
+		"Simplified Han",
-	characters = "ᄀ-ᇿ가-힣ㄱ-ㆎ",
+		m["Hani"][2],
-	systems = {"syllabary"},
+		ranges = m["Hani"].ranges,
-}
+		characters = m["Hani"].characters,
+		spaces = m["Hani"].spaces,
+		parent = "Hani",
+	}
-m["Hani"] = {
+	m["Hant"] = {
-	canonicalName = "Han",
+		"Traditional Han",
-	otherNames = {"Hanzi", "Chu Nom"},
+		m["Hani"][2],
-	characters = "一-鿿㐀-䶵𠀀-"..u(0x2EBE0).."﨎﨏﨑﨓﨔﨟﨡﨣﨤﨧﨨﨩⺀-⿟㇀-㇣　-〿㍻-㍿",
+		ranges = m["Hani"].ranges,
-	systems = {"logography"},
+		characters = m["Hani"].characters,
-}
+		spaces = m["Hani"].spaces,
+		parent = "Hani",
+	}
-m["Hans"] = {
+m["Hano"] = process_ranges{
-	canonicalName = "Simplified Han",
+	"Hanunoo",
-	characters = m["Hani"].characters,
+	"abugida",
-	systems = {"logography"},
+	ranges = {
+x1720, 0x1736,
+	},
 }
-m["Hant"] = {
+m["Hatr"] = process_ranges{
-	canonicalName = "Traditional Han",
+	"Hatran",
-	characters = m["Hani"].characters,
+	"abjad",
-	systems = {"logography"},
+	ranges = {
+x108E0, 0x108F2,
+x108F4, 0x108F5,
+x108FB, 0x108FF,
+	},
+	direction = "rtl",
 }
-m["Hatr"] = {
+m["Hebr"] = process_ranges{
-	canonicalName = "Hatran",
+	"Hebrew",
-	characters = "𐣠-𐣿",
+	"abjad",	-- more precisely, impure abjad
-	systems = {"abjad"},
+	ranges = {
+x0591, 0x05C7,
+x05D0, 0x05EA,
+x05EF, 0x05F4,
+x2135, 0x2138,
+xFB1D, 0xFB36,
+xFB38, 0xFB3C,
+xFB3E, 0xFB3E,
+xFB40, 0xFB41,
+xFB43, 0xFB44,
+xFB46, 0xFB4F,
+	},
+	direction = "rtl",
 }
-m["Hira"] = {
+m["Hira"] = process_ranges{
-	canonicalName = "Hiragana",
+	"Hiragana",
-	otherNames = {"Hentaigana"},
+	"syllabary",
-	characters = "ぁ-ゟ𛀁-𛄞",
+	ranges = {
-	systems = {"syllabary"},
+x3001, 0x3003,
+x3008, 0x3011,
+x3013, 0x301F,
+x3030, 0x3035,
+x3037, 0x3037,
+x303C, 0x303D,
+x3041, 0x3096,
+x3099, 0x30A0,
+x30FB, 0x30FC,
+xFE45, 0xFE46,
+xFF61, 0xFF65,
+xFF70, 0xFF70,
+xFF9E, 0xFF9F,
+x1B001, 0x1B11F,
+x1B132, 0x1B132,
+x1B150, 0x1B152,
+x1F200, 0x1F200,
+	},
+	varieties = {"Hentaigana"},
+	spaces = false,
 }
-m["Hluw"] = {
+m["Hluw"] = process_ranges{
-	canonicalName = "Anatolian Hieroglyphs",
+	"Anatolian Hieroglyphs",
-	characters = "𔐀-𔙆",
+	"logography, syllabary",
+	ranges = {
+x14400, 0x14646,
+	},
 	wikipedia_article = "Anatolian hieroglyphs",
 }
-m["Hung"] = {
+m["Hmng"] = process_ranges{
-	canonicalName = "Old Hungarian",
+	"Pahawh Hmong",
-	otherNames = {"Hungarian runic"},
+	"semisyllabary",
-	characters = "𐲀-𐲲",
+	aliases = {"Hmong"},
-}
+	ranges = {
+x16B00, 0x16B45,
-m["Kana"] = {
+x16B50, 0x16B59,
-	canonicalName = "Katakana",
+x16B5B, 0x16B61,
-	characters = "゠-ヿㇰ-ㇿ𛀀㌀-㍗",
+x16B63, 0x16B77,
-	systems = {"syllabary"},
+x16B7D, 0x16B8F,
-}
+	},
--- These should be defined after the scripts they are composed of
-m["Kore"] = {
-	canonicalName = "Korean",
-	characters = m["Hang"].characters .. m["Hani"].characters .. "！-￮",
-	systems = {"syllabary", "logography"},
 }
-m["Hano"] = {
+m["Hmnp"] = process_ranges{
-	canonicalName = "Hanunoo",
+	"Nyiakeng Puachue Hmong",
-	characters = "ᜠ-᜴",
+	"alphabet",
-	systems = {"abugida"},
+	ranges = {
+x1E100, 0x1E12C,
+x1E130, 0x1E13D,
+x1E140, 0x1E149,
+x1E14E, 0x1E14F,
+	},
 }
-m["Hebr"] = {
+m["Hung"] = process_ranges{
-	canonicalName = "Hebrew",
+	"Old Hungarian",
-	characters = u(0x0590) .. "-" .. u(0x05FF) .. u(0xFB1D) .. "-" .. u(0xFB4F),
+	"alphabet",
+	aliases = {"Hungarian runic"},
+	ranges = {
+x10C80, 0x10CB2,
+x10CC0, 0x10CF2,
+x10CFA, 0x10CFF,
+	},
+	capitalized = true,
 	direction = "rtl",
-	systems = {"abjad"},	-- more precisely, impure abjad
 }
-m["Hmng"] = {
+m["Ibrnn"] = {
-	canonicalName = "Hmong",
+	"Northeastern Iberian",
-	otherNames = {"Pahawh Hmong"},
+	"semisyllabary",
-	characters = "𖬀-𖮏",
+	ietf_subtag = "Zzzz",
+	-- Not in Unicode
 }
-m["Ibrn"] = {
+m["Ibrns"] = {
-	canonicalName = "Iberian",
+	"Southeastern Iberian",
+	"semisyllabary",
+	ietf_subtag = "Zzzz",
+	-- Not in Unicode
 }
-m["Imag"] = {
+m["Image"] = {
 	-- To be used to avoid any formatting or link processing
-	canonicalName = "Image-rendered",
+	"Image-rendered",
 	-- This should not have any characters listed
+	ietf_subtag = "Zyyy",
+	translit = false,
 	character_category = false,
 }
 m["Inds"] = {
-	canonicalName = "Indus",
+	"Indus",
-	otherNames = {"Harappan", "Indus Valley"},
+	aliases = {"Harappan", "Indus Valley"},
 }
-m["IPAchar"] = {
+m["Ipach"] = {
-	canonicalName = "International Phonetic Alphabet",
+	"International Phonetic Alphabet",
+	aliases = {"IPA"},
+	ietf_subtag = "Latn",
 }
-m["Ital"] = {
+m["Ital"] = process_ranges{
-	canonicalName = "Old Italic",
+	"Old Italic",
-	characters = "𐌀-𐌣",
+	"alphabet",
-	systems = {"alphabet"},
+	ranges = {
+x10300, 0x10323,
+x1032D, 0x1032F,
+	},
 }
-m["Java"] = {
+m["Java"] = process_ranges{
-	canonicalName = "Javanese",
+	"Javanese",
-	characters = "ꦀ-꧟",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+xA980, 0xA9CD,
+xA9CF, 0xA9D9,
+xA9DE, 0xA9DF,
+	},
 }
 m["Jurc"] = {
-	canonicalName = "Jurchen",
+	"Jurchen",
+	"logography",
+	spaces = false,
+}
+m["Kali"] = process_ranges{
+	"Kayah Li",
+	"abugida",
+	ranges = {
+xA900, 0xA92F,
+	},
+}
+m["Kana"] = process_ranges{
+	"Katakana",
+	"syllabary",
+	ranges = {
+x3001, 0x3003,
+x3008, 0x3011,
+x3013, 0x301F,
+x3030, 0x3035,
+x3037, 0x3037,
+x303C, 0x303D,
+x3099, 0x309C,
+x30A0, 0x30FF,
+x31F0, 0x31FF,
+x32D0, 0x32FE,
+x3300, 0x3357,
+xFE45, 0xFE46,
+xFF61, 0xFF9F,
+x1AFF0, 0x1AFF3,
+x1AFF5, 0x1AFFB,
+x1AFFD, 0x1AFFE,
+x1B000, 0x1B000,
+x1B120, 0x1B122,
+x1B155, 0x1B155,
+x1B164, 0x1B167,
+	},
+	spaces = false,
 }
-m["Kali"] = {
+m["Kawi"] = process_ranges{
-	canonicalName = "Kayah Li",
+	"Kawi",
-	characters = "꤀-꤯",
+	"abugida",
+	ranges = {
+x11F00, 0x11F10,
+x11F12, 0x11F3A,
+x11F3E, 0x11F59,
+	},
 }
-m["Khar"] = {
+m["Khar"] = process_ranges{
-	canonicalName = "Kharoshthi",
+	"Kharoshthi",
-	characters = "𐨀-𐩘",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x10A00, 0x10A03,
+x10A05, 0x10A06,
+x10A0C, 0x10A13,
+x10A15, 0x10A17,
+x10A19, 0x10A35,
+x10A38, 0x10A3A,
+x10A3F, 0x10A48,
+x10A50, 0x10A58,
+	},
 	direction = "rtl",
 }
-m["Khmr"] = {
+m["Khmr"] = process_ranges{
-	canonicalName = "Khmer",
+	"Khmer",
-	characters = "ក-៹᧠-᧿",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x1780, 0x17DD,
+x17E0, 0x17E9,
+x17F0, 0x17F9,
+x19E0, 0x19FF,
+	},
+	spaces = false,
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ឣ", "ឤ"},
+		to = {"អ", "អា"}
+	},
 }
-m["Khoj"] = {
+m["Khoj"] = process_ranges{
-	canonicalName = "Khojki",
+	"Khojki",
-	characters = "𑈀-𑈽",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0AE6, 0x0AEF,
+xA830, 0xA839,
+x11200, 0x11211,
+x11213, 0x11241,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑈀𑈬𑈱", "𑈀𑈬", "𑈀𑈱", "𑈀𑈳", "𑈁𑈱", "𑈆𑈬", "𑈬𑈰", "𑈬𑈱", "𑉀𑈮"},
+		to = {"𑈇", "𑈁", "𑈅", "𑈇", "𑈇", "𑈃", "𑈲", "𑈳", "𑈂"}
+	},
 }
 m["Kitl"] = {
-	canonicalName = "Khitan Large",
+	"Khitan Large",
+	"logography",
+	spaces = false,
 }
-m["Kits"] = {
+m["Kits"] = process_ranges{
-	canonicalName = "Khitan Small",
+	"Khitan Small",
+	"logography, syllabary",
+	ranges = {
+x16FE4, 0x16FE4,
+x18B00, 0x18CD5,
+	},
+	spaces = false,
 }
-m["Knda"] = {
+m["Knda"] = process_ranges{
-	canonicalName = "Kannada",
+	"Kannada",
-	characters = "ಀ-ೲ",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0C80, 0x0C8C,
+x0C8E, 0x0C90,
+x0C92, 0x0CA8,
+x0CAA, 0x0CB3,
+x0CB5, 0x0CB9,
+x0CBC, 0x0CC4,
+x0CC6, 0x0CC8,
+x0CCA, 0x0CCD,
+x0CD5, 0x0CD6,
+x0CDD, 0x0CDE,
+x0CE0, 0x0CE3,
+x0CE6, 0x0CEF,
+x0CF1, 0x0CF3,
+x1CD0, 0x1CD0,
+x1CD2, 0x1CD2,
+x1CDA, 0x1CDA,
+x1CF2, 0x1CF2,
+x1CF4, 0x1CF4,
+xA830, 0xA835,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ಉಾ", "ಋಾ", "ಒೌ"},
+		to = {"ಊ", "ೠ", "ಔ"}
+	},
 }
-m["Kthi"] = {
+m["Kpel"] = {
-	canonicalName = "Kaithi",
+	"Kpelle",
-	characters = "𑂀-𑃍",
+	"syllabary",
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Lana"] = {
+m["Krai"] = {
-	canonicalName = "Tai Tham",
+	"Kirat Rai",
-	otherNames = {"Tham", "Tua Mueang", "Lanna"},
+	"abugida",
-	characters = "ᨠ-᪭",
+	aliases = {"Rai", "Khambu Rai", "Rai Barṇamālā", "Kirat Khambu Rai"},
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Laoo"] = {
+m["Kthi"] = process_ranges{
-	canonicalName = "Lao",
+	"Kaithi",
-	characters = "ກ-ໟ",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0966, 0x096F,
+xA830, 0xA839,
+x11080, 0x110C2,
+x110CD, 0x110CD,
+	},
 }
-m["Latn"] = {
+m["Lana"] = process_ranges{
-	canonicalName = "Latin",
+	"Tai Tham",
-	otherNames = {"Roman", "Rumi", "Romaji", "Rōmaji"},
+	"abugida",
-	characters = "A-Za-zÀ-ÖØ-öø-ɏḀ-ỿ",
+	aliases = {"Tham", "Tua Mueang", "Lanna"},
-	systems = {"alphabet"},
+	ranges = {
+x1A20, 0x1A5E,
+x1A60, 0x1A7C,
+x1A7F, 0x1A89,
+x1A90, 0x1A99,
+x1AA0, 0x1AAD,
+	},
+	spaces = false,
 }
-m["Latf"] = {
+m["Laoo"] = process_ranges{
-	canonicalName = "Fraktur",
+	"Lao",
-	otherNames = {"Blackletter"},
+	"abugida",
-	characters = m["Latn"].characters,
+	ranges = {
+x0E81, 0x0E82,
+x0E84, 0x0E84,
+x0E86, 0x0E8A,
+x0E8C, 0x0EA3,
+x0EA5, 0x0EA5,
+x0EA7, 0x0EBD,
+x0EC0, 0x0EC4,
+x0EC6, 0x0EC6,
+x0EC8, 0x0ECE,
+x0ED0, 0x0ED9,
+x0EDC, 0x0EDF,
+	},
+	spaces = false,
 }
-m["Latinx"] = {
+m["Latn"] = process_ranges{
-	canonicalName = "Latin",
+	"Latin",
-	characters = m["Latn"].characters .. "Ⱡ-Ɀ꜠-ꟿꬰ-ꭥ",
+	"alphabet",
-	parent = "Latn",
+	aliases = {"Roman"},
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x00AA, 0x00AA,
+x00BA, 0x00BA,
+x00C0, 0x00D6,
+x00D8, 0x00F6,
+x00F8, 0x02B8,
+x02C0, 0x02C1,
+x02E0, 0x02E4,
+x0363, 0x036F,
+x0485, 0x0486,
+x0951, 0x0952,
+x10FB, 0x10FB,
+x1D00, 0x1D25,
+x1D2C, 0x1D5C,
+x1D62, 0x1D65,
+x1D6B, 0x1D77,
+x1D79, 0x1DBE,
+x1E00, 0x1EFF,
+x202F, 0x202F,
+x2071, 0x2071,
+x207F, 0x207F,
+x2090, 0x209C,
+x20F0, 0x20F0,
+x2100, 0x2125,
+x2128, 0x2128,
+x212A, 0x2134,
+x2139, 0x213B,
+x2141, 0x214E,
+x2160, 0x2188,
+x2C60, 0x2C7F,
+xA700, 0xA707,
+xA722, 0xA787,
+xA78B, 0xA7CA,
+xA7D0, 0xA7D1,
+xA7D3, 0xA7D3,
+xA7D5, 0xA7D9,
+xA7F2, 0xA7FF,
+xA92E, 0xA92E,
+xAB30, 0xAB5A,
+xAB5C, 0xAB64,
+xAB66, 0xAB69,
+xFB00, 0xFB06,
+xFF21, 0xFF3A,
+xFF41, 0xFF5A,
+x10780, 0x10785,
+x10787, 0x107B0,
+x107B2, 0x107BA,
+x1DF00, 0x1DF1E,
+x1DF25, 0x1DF2A,
+	},
+	varieties = {"Rumi", "Romaji", "Rōmaji", "Romaja"},
+	capitalized = true,
+	translit = false,
 }
-m["nv-Latn"] = {
+	m["Latf"] = {
-	canonicalName = "Latin",
+		"Fraktur",
-	characters = m["Latn"].characters,
+		m["Latn"][2],
-	parent = "Latn",
+		ranges = m["Latn"].ranges,
+		characters = m["Latn"].characters,
+		otherNames = {"Blackletter"}, -- Blackletter is actually the parent "script"
+		capitalized = m["Latn"].capitalized,
+		translit = m["Latn"].translit,
+		parent = "Latn",
+	}
+	m["Latg"] = {
+		"Gaelic",
+		m["Latn"][2],
+		ranges = m["Latn"].ranges,
+		characters = m["Latn"].characters,
+		otherNames = {"Irish"},
+		capitalized = m["Latn"].capitalized,
+		translit = m["Latn"].translit,
+		parent = "Latn",
+	}
+	m["pjt-Latn"] = {
+		"Latin",
+		m["Latn"][2],
+		ranges = m["Latn"].ranges,
+		characters = m["Latn"].characters,
+		capitalized = m["Latn"].capitalized,
+		translit = m["Latn"].translit,
+		parent = "Latn",
+	}
+m["Leke"] = {
+	"Leke",
+	"abugida",
+	-- Not in Unicode
 }
-m["pjt-Latn"] = {
+m["Lepc"] = process_ranges{
-	canonicalName = "Latin",
+	"Lepcha",
-	characters = m["Latn"].characters,
+	"abugida",
-	parent = "Latn",
+	ranges = {
+x1C00, 0x1C37,
+x1C3B, 0x1C49,
+x1C4D, 0x1C4F,
+	},
 }
-m["Jpan"] = {
+m["Limb"] = process_ranges{
-	canonicalName = "Japanese",
+	"Limbu",
-	characters = m["Hira"].characters .. m["Kana"].characters .. m["Hani"].characters .. m["Latn"].characters,
+	"abugida",
-	systems = {"syllabary", "logography"},
+	ranges = {
+x0965, 0x0965,
+x1900, 0x191E,
+x1920, 0x192B,
+x1930, 0x193B,
+x1940, 0x1940,
+x1944, 0x194F,
+	},
 }
-m["Kwan"] = {
+m["Lina"] = process_ranges{
-	canonicalName = "Kwandon",
+	"Linear A",
-	systems = {"abjad"},
+	ranges = {
+x10107, 0x10133,
+x10600, 0x10736,
+x10740, 0x10755,
+x10760, 0x10767,
+	},
 }
-m["Leke"] = {
+m["Linb"] = process_ranges{
-	canonicalName = "Leke",
+	"Linear B",
-	systems = {"abugida"},
+	ranges = {
+x10000, 0x1000B,
+x1000D, 0x10026,
+x10028, 0x1003A,
+x1003C, 0x1003D,
+x1003F, 0x1004D,
+x10050, 0x1005D,
+x10080, 0x100FA,
+x10100, 0x10102,
+x10107, 0x10133,
+x10137, 0x1013F,
+	},
 }
-m["Lepc"] = {
+m["Lisu"] = process_ranges{
-	canonicalName = "Lepcha",
+	"Fraser",
-	characters = "ᰀ-ᱏ",
+	"alphabet",
-	systems = {"abugida"},
+	aliases = {"Old Lisu", "Lisu"},
+	ranges = {
+xA4D0, 0xA4FF,
+x11FB0, 0x11FB0,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"['’]", "[.ꓸ][.ꓸ]", "[.ꓸ][,ꓹ]"},
+		to = {"ʼ", "ꓺ", "ꓻ"}
+	},
 }
-m["Limb"] = {
+m["Loma"] = {
-	canonicalName = "Limbu",
+	"Loma",
-	characters = "ᤀ-᥏",
+	"syllabary",
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Lina"] = {
+m["Lyci"] = process_ranges{
-	canonicalName = "Linear A",
+	"Lycian",
-	characters = "𐘀-𐝧",
+	"alphabet",
+	ranges = {
+x10280, 0x1029C,
+	},
 }
-m["Linb"] = {
+m["Lydi"] = process_ranges{
-	canonicalName = "Linear B",
+	"Lydian",
-	characters = "𐀀-𐃺",
+	"alphabet",
+	ranges = {
+x10920, 0x10939,
+x1093F, 0x1093F,
+	},
+	direction = "rtl",
 }
-m["Lisu"] = {
+m["Mahj"] = process_ranges{
-	canonicalName = "Lisu",
+	"Mahajani",
-	otherNames = {"Fraser"},
+	"abugida",
-	characters = "ꓐ-꓿",
+	ranges = {
-	systems = {"alphabet"},
+x0964, 0x096F,
+xA830, 0xA839,
+x11150, 0x11176,
+	},
 }
-m["Lyci"] = {
+m["Maka"] = process_ranges{
-	canonicalName = "Lycian",
+	"Makasar",
-	characters = "𐊀-𐊜",
+	"abugida",
-	systems = {"alphabet"},
+	aliases = {"Old Makasar"},
+	ranges = {
+x11EE0, 0x11EF8,
+	},
 }
-m["Lydi"] = {
+m["Mand"] = process_ranges{
-	canonicalName = "Lydian",
+	"Mandaic",
-	characters = "𐤠-𐤿",
+	aliases = {"Mandaean"},
-	systems = {"alphabet"},
+	ranges = {
+x0640, 0x0640,
+x0840, 0x085B,
+x085E, 0x085E,
+	},
+	direction = "rtl",
 }
-m["Mahj"] = {
+m["Mani"] = process_ranges{
-	canonicalName = "Mahajani",
+	"Manichaean",
-	characters = "𑅐-𑅶",
+	"abjad",
-	systems = {"abugida"},
+	ranges = {
+x0640, 0x0640,
+x10AC0, 0x10AE6,
+x10AEB, 0x10AF6,
+	},
+	direction = "rtl",
 }
-m["Maka"] = {
+m["Marc"] = process_ranges{
-	canonicalName = "Makasar",
+	"Marchen",
-	characters = "𑻠-𑻸",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x11C70, 0x11C8F,
+x11C92, 0x11CA7,
+x11CA9, 0x11CB6,
+	},
 }
-m["Mand"] = {
+m["Maya"] = process_ranges{
-	canonicalName = "Mandaic",
+	"Maya",
-	otherNames = {"Mandaean"},
+	aliases = {"Maya hieroglyphic", "Mayan", "Mayan hieroglyphic"},
-	characters = "ࡀ-࡞",
+	ranges = {
+x1D2E0, 0x1D2F3,
+	},
+}
+m["Medf"] = process_ranges{
+	"Medefaidrin",
+	aliases = {"Oberi Okaime", "Oberi Ɔkaimɛ"},
+	ranges = {
+x16E40, 0x16E9A,
+	},
+	capitalized = true,
+}
+m["Mend"] = process_ranges{
+	"Mende",
+	aliases = {"Mende Kikakui"},
+	ranges = {
+x1E800, 0x1E8C4,
+x1E8C7, 0x1E8D6,
+	},
 	direction = "rtl",
 }
-m["Mani"] = {
+m["Merc"] = process_ranges{
-	canonicalName = "Manichaean",
+	"Meroitic cursive",
-	characters = "𐫀-𐫶",
+	"abugida",
+	ranges = {
+x109A0, 0x109B7,
+x109BC, 0x109CF,
+x109D2, 0x109FF,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Maya"] = {
+m["Mero"] = process_ranges{
-	canonicalName = "Maya",
+	"Meroitic hieroglyphic",
-	otherNames = {"Maya hieroglyphic", "Mayan", "Mayan hieroglyphic"},
+	"abugida",
-	characters = "𝋠-𝋳",
+	ranges = {
+x10980, 0x1099F,
+	},
+	direction = "rtl",
 }
-m["Medf"] = {
+m["Mlym"] = process_ranges{
-	canonicalName = "Medefaidrin",
+	"Malayalam",
-	otherNames = {"Oberi Okaime", "Oberi Ɔkaimɛ"},
+	"abugida",
-	characters = "𖹀-𖺚",
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0D00, 0x0D0C,
+x0D0E, 0x0D10,
+x0D12, 0x0D44,
+x0D46, 0x0D48,
+x0D4A, 0x0D4F,
+x0D54, 0x0D63,
+x0D66, 0x0D7F,
+x1CDA, 0x1CDA,
+x1CF2, 0x1CF2,
+xA830, 0xA832,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ഇൗ", "ഉൗ", "എെ", "ഒാ", "ഒൗ", "ക്‍", "ണ്‍", "ന്‍റ", "ന്‍", "മ്‍", "യ്‍", "ര്‍", "ല്‍", "ള്‍", "ഴ്‍", "െെ", "ൻ്റ"},
+		to = {"ഈ", "ഊ", "ഐ", "ഓ", "ഔ", "ൿ", "ൺ", "ൻറ", "ൻ", "ൔ", "ൕ", "ർ", "ൽ", "ൾ", "ൖ", "ൈ", "ന്റ"}
+	},
 }
-m["Mend"] = {
+m["Modi"] = process_ranges{
-	canonicalName = "Mende",
+	"Modi",
-	otherNames = {"Mende Kikakui"},
+	"abugida",
-	characters = "𞠀-𞣖",
+	ranges = {
-	direction = "rtl",
+xA830, 0xA839,
+x11600, 0x11644,
+x11650, 0x11659,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑘀𑘹", "𑘀𑘺", "𑘁𑘹", "𑘁𑘺"},
+		to = {"𑘊", "𑘋", "𑘌", "𑘍"}
+	},
 }
-m["Merc"] = {
+m["Mong"] = process_ranges{
-	canonicalName = "Meroitic cursive",
+	"Mongolian",
-	characters = "𐦠-𐦿",
+	"alphabet",
-	systems = {"abugida"},
+	aliases = {"Mongol bichig", "Hudum Mongol bichig"},
+	ranges = {
+x1800, 0x1805,
+x180A, 0x1819,
+x1820, 0x1842,
+x1878, 0x1878,
+x1880, 0x1897,
+x18A6, 0x18A6,
+x18A9, 0x18A9,
+x200C, 0x200D,
+x202F, 0x202F,
+x11660, 0x11668,
+	},
+	direction = "vertical-ltr",
 }
-m["Mero"] = {
+	m["mnc-Mong"] = process_ranges{
-	canonicalName = "Meroitic hieroglyphic",
+		"Manchu",
-	characters = "𐦀-𐦟",
+		m["Mong"][2],
-	systems = {"abugida"},
+		ranges = {
+x1801, 0x1801,
+x1804, 0x1804,
+x1808, 0x180F,
+x1820, 0x1820,
+x1823, 0x1823,
+x1828, 0x182A,
+x182E, 0x1830,
+x1834, 0x1838,
+x183A, 0x183A,
+x185D, 0x185D,
+x185F, 0x1861,
+x1864, 0x1869,
+x186C, 0x1871,
+x1873, 0x1877,
+x1880, 0x1888,
+x188F, 0x188F,
+x189A, 0x18A5,
+x18A8, 0x18A8,
+x18AA, 0x18AA,
+x200C, 0x200D,
+x202F, 0x202F,
+		},
+		direction = "vertical-ltr",
+		parent = "Mong",
+	}
+	m["sjo-Mong"] = process_ranges{
+		"Xibe",
+		m["Mong"][2],
+		aliases = {"Sibe"},
+		ranges = {
+x1804, 0x1804,
+x1807, 0x1807,
+x180A, 0x180F,
+x1820, 0x1820,
+x1823, 0x1823,
+x1828, 0x1828,
+x182A, 0x182A,
+x182E, 0x1830,
+x1834, 0x1838,
+x183A, 0x183A,
+x185D, 0x1872,
+x200C, 0x200D,
+x202F, 0x202F,
+		},
+		direction = "vertical-ltr",
+		parent = "mnc-Mong",
+	}
+	m["xwo-Mong"] = process_ranges{
+		"Clear Script",
+		m["Mong"][2],
+		aliases = {"Todo", "Todo bichig"},
+		ranges = {
+x1800, 0x1801,
+x1804, 0x1806,
+x180A, 0x1820,
+x1828, 0x1828,
+x182F, 0x1831,
+x1834, 0x1834,
+x1837, 0x1838,
+x183A, 0x183B,
+x1840, 0x1840,
+x1843, 0x185C,
+x1880, 0x1887,
+x1889, 0x188F,
+x1894, 0x1894,
+x1896, 0x1899,
+x18A7, 0x18A7,
+x200C, 0x200D,
+x202F, 0x202F,
+x11669, 0x1166C,
+		},
+		direction = "vertical-ltr",
+		parent = "Mong",
+	}
+m["Moon"] = {
+	"Moon",
+	"alphabet",
+	aliases = {"Moon System of Embossed Reading", "Moon type", "Moon writing", "Moon alphabet", "Moon code"},
+	-- Not in Unicode
 }
-m["Mlym"] = {
+m["Morse"] = {
-	canonicalName = "Malayalam",
+	"Morse code",
-	characters = "ം-ൿ",
+	ietf_subtag = "Zsym",
-	systems = {"abugida"},
 }
-m["Modi"] = {
+m["Mroo"] = process_ranges{
-	canonicalName = "Modi",
+	"Mro",
-	characters = "𑘀-𑙙",
+	ranges = {
-	systems = {"abugida"},
+x16A40, 0x16A5E,
+x16A60, 0x16A69,
+x16A6E, 0x16A6F,
+	},
 }
-m["Mong"] = {
+m["Mtei"] = process_ranges{
-	canonicalName = "Mongolian",
+	"Meitei Mayek",
-	characters = "᠀-ᢪ",
+	"abugida",
-	direction = "down",
+	aliases = {"Meetei Mayek", "Manipuri"},
+	ranges = {
+xAAE0, 0xAAF6,
+xABC0, 0xABED,
+xABF0, 0xABF9,
+	},
 }
-m["Morse"] = {
+m["Mult"] = process_ranges{
-	canonicalName = "Morse code",
+	"Multani",
+	"abugida",
+	ranges = {
+x0A66, 0x0A6F,
+x11280, 0x11286,
+x11288, 0x11288,
+x1128A, 0x1128D,
+x1128F, 0x1129D,
+x1129F, 0x112A9,
+	},
 }
-m["Mroo"] = {
+m["Music"] = process_ranges{
-	canonicalName = "Mro",
+	"Musical notation",
-	characters = "𖩀-𖩯",
+	"pictography",
+	ranges = {
+x2669, 0x266F,
+x1D100, 0x1D126,
+x1D129, 0x1D1EA,
+	},
+	ietf_subtag = "Zsym",
+	translit = false,
 }
-m["Mtei"] = {
+m["Mymr"] = process_ranges{
-	canonicalName = "Meitei Mayek",
+	"Burmese",
-	characters = "ꯀ-꯿ꫠ-꫿",
+	"abugida",
+	aliases = {"Myanmar"},
+	ranges = {
+x1000, 0x109F,
+xA92E, 0xA92E,
+xA9E0, 0xA9FE,
+xAA60, 0xAA7F,
+	},
+	spaces = false,
 }
-m["Mult"] = {
+m["Nagm"] = process_ranges{
-	canonicalName = "Multani",
+	"Nag Mundari",
-	characters = "𑊀-𑊩",
+	"alphabet",
-	systems = {"abugida"},
+	ranges = {
+x1E4D0, 0x1E4F9,
+	},
 }
-m["musical"] = {
+m["Nand"] = process_ranges{
-	canonicalName = "Musical notation",
+	"Nandinagari",
-	characters = "𝄀-𝇝",
+	"abugida",
-	systems = {"pictography"},
+	ranges = {
+x0964, 0x0965,
+x0CE6, 0x0CEF,
+x1CE9, 0x1CE9,
+x1CF2, 0x1CF2,
+x1CFA, 0x1CFA,
+xA830, 0xA835,
+x119A0, 0x119A7,
+x119AA, 0x119D7,
+x119DA, 0x119E4,
+	},
 }
-m["Mymr"] = {
+m["Narb"] = process_ranges{
-	canonicalName = "Burmese",
+	"Old North Arabian",
-	otherNames = {"Myanmar"},
+	"abjad",
-	characters = "က-႟ꩠ-ꩿꧠ-ꧾ",
+	ranges = {
-	systems = {"abugida"},
+x10A80, 0x10A9F,
+	},
+	direction = "rtl",
 }
-m["Narb"] = {
+m["Nbat"] = process_ranges{
-	canonicalName = "Old North Arabian",
+	"Nabataean",
-	characters = "𐪀-𐪟",
+	"abjad",
+	aliases = {"Nabatean"},
+	ranges = {
+x10880, 0x1089E,
+x108A7, 0x108AF,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Nbat"] = {
+m["Newa"] = process_ranges{
-	canonicalName = "Nabataean",
+	"Newa",
-	otherNames = {"Nabatean"},
+	"abugida",
-	characters = "𐢀-𐢯",
+	aliases = {"Newar", "Newari", "Prachalit Nepal"},
-	direction = "rtl",
+	ranges = {
-	systems = {"abjad"},
+x11400, 0x1145B,
+x1145D, 0x11461,
+	},
+}
+m["Nkdb"] = {
+	"Dongba",
+	"pictography",
+	aliases = {"Naxi Dongba", "Nakhi Dongba", "Tomba", "Tompa", "Mo-so"},
+	spaces = false,
+	-- Not in Unicode
 }
-m["Newa"] = {
+m["Nkgb"] = {
-	canonicalName = "Newa",
+	"Geba",
-	otherNames = {"Newar", "Newari", "Prachalit Nepal"}, -- and Ranjana?
+	"syllabary",
-	characters = "𑐀-𑑞",
+	aliases = {"Nakhi Geba", "Naxi Geba"},
-	systems = {"abugida"},
+	spaces = false,
+	-- Not in Unicode
 }
-m["Nkoo"] = {
+m["Nkoo"] = process_ranges{
-	canonicalName = "N'Ko",
+	"N'Ko",
-	characters = "߀-߿",
+	"alphabet",
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061B,
+x061F, 0x061F,
+x07C0, 0x07FA,
+x07FD, 0x07FF,
+xFD3E, 0xFD3F,
+	},
 	direction = "rtl",
 }
 m["None"] = {
-	canonicalName = "Unspecified", -- renders as 'unspecified script'
+	"Unspecified", -- renders as 'unspecified script'
 	-- This should not have any characters listed
-	character_category = false, -- none
+	ietf_subtag = "Zyyy",
+	translit = false,
+	character_category = false,
+}
+m["Nshu"] = process_ranges{
+	"Nüshu",
+	"syllabary",
+	aliases = {"Nushu"},
+	ranges = {
+x16FE1, 0x16FE1,
+x1B170, 0x1B2FB,
+	},
+	spaces = false,
 }
-m["Nshu"] = {
+m["Ogam"] = process_ranges{
-	canonicalName = "Nushu",
+	"Ogham",
-	otherNames = {"Nüshu"},
+	ranges = {
-	characters = "𖿡𛅰-𛋻",
+x1680, 0x169C,
-	systems = {"syllabary"},
+	},
 }
-m["Ogam"] = {
+m["Olck"] = process_ranges{
-	canonicalName = "Ogham",
+	"Ol Chiki",
-	characters = " -᚜",
+	aliases = {"Ol Chemetʼ", "Ol", "Santali"},
+	ranges = {
+x1C50, 0x1C7F,
+	},
 }
-m["Olck"] = {
+m["Onao"] = {
-	canonicalName = "Ol Chiki",
+	"Ol Onal",
-	characters = "᱐-᱿",
+	"alphabet",
+	-- Not in Unicode
 }
-m["Orkh"] = {
+m["Orkh"] = process_ranges{
-	canonicalName = "Orkhon runes",
+	"Orkhon runes",
-	characters = "𐰀-𐱈",
+	aliases = {"Old Turkic"},
+	ranges = {
+x10C00, 0x10C48,
+	},
 	direction = "rtl",
 }
-m["Orya"] = {
+m["Orya"] = process_ranges{
-	canonicalName = "Oriya",
+	"Odia",
-	otherNames = {"Odia"},
+	"abugida",
-	characters = "ଁ-୷",
+	aliases = {"Oriya"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0B01, 0x0B03,
+x0B05, 0x0B0C,
+x0B0F, 0x0B10,
+x0B13, 0x0B28,
+x0B2A, 0x0B30,
+x0B32, 0x0B33,
+x0B35, 0x0B39,
+x0B3C, 0x0B44,
+x0B47, 0x0B48,
+x0B4B, 0x0B4D,
+x0B55, 0x0B57,
+x0B5C, 0x0B5D,
+x0B5F, 0x0B63,
+x0B66, 0x0B77,
+x1CDA, 0x1CDA,
+x1CF2, 0x1CF2,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ଅା", "ଏୗ", "ଓୗ"},
+		to = {"ଆ", "ଐ", "ଔ"}
+	},
 }
-m["Osge"] = {
+m["Osge"] = process_ranges{
-	canonicalName = "Osage",
+	"Osage",
-	characters = "𐒰-𐓻",
+	ranges = {
+x104B0, 0x104D3,
+x104D8, 0x104FB,
+	},
+	capitalized = true,
 }
-m["Osma"] = {
+m["Osma"] = process_ranges{
-	canonicalName = "Osmanya",
+	"Osmanya",
-	characters = "𐒀-𐒩",
+	ranges = {
+x10480, 0x1049D,
+x104A0, 0x104A9,
+	},
 }
-m["Palm"] = {
+m["Ougr"] = process_ranges{
-	canonicalName = "Palmyrene",
+	"Old Uyghur",
-	characters = "𐡠-𐡿",
+	"abjad, alphabet",
+	ranges = {
+x0640, 0x0640,
+x10AF2, 0x10AF2,
+x10F70, 0x10F89,
+	},
+	-- This should ideally be "vertical-ltr", but getting the CSS right is tricky because it's right-to-left horizontally, but left-to-right vertically. Currently, displaying it vertically causes it to display bottom-to-top.
+	direction = "rtl",
 }
-m["Pauc"] = {
+m["Palm"] = process_ranges{
-	canonicalName = "Pau Cin Hau",
+	"Palmyrene",
-	characters = "𑫀-𑫸",
+	ranges = {
+x10860, 0x1087F,
+	},
+	direction = "rtl",
 }
-m["Perm"] = {
+m["Pauc"] = process_ranges{
-	canonicalName = "Old Permic",
+	"Pau Cin Hau",
-	characters = "𐍐-𐍺",
+	ranges = {
+x11AC0, 0x11AF8,
+	},
 }
-m["Phag"] = {
+m["Perm"] = process_ranges{
-	canonicalName = "Phags-pa",
+	"Old Permic",
-	characters = "ꡀ-꡷",
+	ranges = {
-	systems = {"abugida"},
+x0483, 0x0483,
+x10350, 0x1037A,
+	},
 }
-m["Marc"] = {
+m["Phag"] = process_ranges{
-	canonicalName = "Marchen",
+	"Phags-pa",
-	characters = "𑱰-𑲶",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x1802, 0x1803,
+x1805, 0x1805,
+x200C, 0x200D,
+x202F, 0x202F,
+x3002, 0x3002,
+xA840, 0xA877,
+	},
+	direction = "vertical-ltr",
 }
-m["Phli"] = {
+m["Phli"] = process_ranges{
-	canonicalName = "Inscriptional Pahlavi",
+	"Inscriptional Pahlavi",
-	characters = "𐭠-𐭿",
+	"abjad",
+	ranges = {
+x10B60, 0x10B72,
+x10B78, 0x10B7F,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Phlp"] = {
+m["Phlp"] = process_ranges{
-	canonicalName = "Psalter Pahlavi",
+	"Psalter Pahlavi",
-	characters = "𐮀-𐮯",
+	"abjad",
+	ranges = {
+x0640, 0x0640,
+x10B80, 0x10B91,
+x10B99, 0x10B9C,
+x10BA9, 0x10BAF,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
 m["Phlv"] = {
-	canonicalName = "Book Pahlavi",
+	"Book Pahlavi",
+	"abjad",
 	direction = "rtl",
-	systems = {"abjad"},
 	-- Not in Unicode
 }
-m["Phnx"] = {
+m["Phnx"] = process_ranges{
-	canonicalName = "Phoenician",
+	"Phoenician",
-	characters = "𐤀-𐤟",
+	"abjad",
+	ranges = {
+x10900, 0x1091B,
+x1091F, 0x1091F,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Plrd"] = {
+m["Plrd"] = process_ranges{
-	canonicalName = "Pollard",
+	"Pollard",
-	characters = "𖼀-𖾟",
+	"abugida",
-	systems = {"abugida"},
+	aliases = {"Miao"},
+	ranges = {
+x16F00, 0x16F4A,
+x16F4F, 0x16F87,
+x16F8F, 0x16F9F,
+	},
 }
-m["Prti"] = {
+m["Prti"] = process_ranges{
-	canonicalName = "Inscriptional Parthian",
+	"Inscriptional Parthian",
-	characters = "𐭀-𐭟",
+	ranges = {
+x10B40, 0x10B55,
+x10B58, 0x10B5F,
+	},
 	direction = "rtl",
 }
-m["Rjng"] = {
+m["Ranj"] = {
-	canonicalName = "Rejang",
+	"Ranjana",
-	characters = "ꤰ-꥟",
+	"abugida",
-	systems = {"abugida"},
+	-- Not in Unicode
+}
+m["Rjng"] = process_ranges{
+	"Rejang",
+	"abugida",
+	ranges = {
+xA930, 0xA953,
+xA95F, 0xA95F,
+	},
 }
-m["Rohg"] = {
+m["Rohg"] = process_ranges{
-	canonicalName = "Hanifi Rohingya",
+	"Hanifi Rohingya",
-	characters = "𐴀-𐴹",
+	"alphabet",
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061B,
+x061F, 0x061F,
+x0640, 0x0640,
+x06D4, 0x06D4,
+x10D00, 0x10D27,
+x10D30, 0x10D39,
+	},
 	direction = "rtl",
-	systems = {"alphabet"},
 }
-m["Ruminumerals"] = {
+m["Roro"] = {
-	canonicalName = "Rumi numerals",
+	"Rongorongo",
-	characters = "𐹠-𐹾",
+	-- Not in Unicode
+}
+m["Rumin"] = process_ranges{
+	"Rumi numerals",
+	ranges = {
+x10E60, 0x10E7E,
+	},
+	ietf_subtag = "Arab",
 	character_category = "Rumi numerals",
 }
-m["Runr"] = {
+m["Runr"] = process_ranges{
-	canonicalName = "Runic",
+	"Runic",
-	characters = "ᚠ-ᛰ",
+	"alphabet",
-	systems = {"alphabet"},
+	ranges = {
+x16A0, 0x16EA,
+x16EE, 0x16F8,
+	},
 }
-m["Samr"] = {
+m["Samr"] = process_ranges{
-	canonicalName = "Samaritan",
+	"Samaritan",
-	characters = "ࠀ-࠾",
+	"abjad",
+	ranges = {
+x0800, 0x082D,
+x0830, 0x083E,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Sarb"] = {
+m["Sarb"] = process_ranges{
-	canonicalName = "Old South Arabian",
+	"Old South Arabian",
-	characters = "𐩠-𐩿",
+	"abjad",
+	ranges = {
+x10A60, 0x10A7F,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Saur"] = {
+m["Saur"] = process_ranges{
-	canonicalName = "Saurashtra",
+	"Saurashtra",
-	characters = "ꢀ-꣙",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+xA880, 0xA8C5,
+xA8CE, 0xA8D9,
+	},
 }
 m["Semap"] = {
-	canonicalName = "flag semaphore",
+	"flag semaphore",
-	systems = {"pictography"},
+	"pictography",
+	ietf_subtag = "Zsym",
+}
+m["Sgnw"] = process_ranges{
+	"SignWriting",
+	"pictography",
+	aliases = {"Sutton SignWriting"},
+	ranges = {
+x1D800, 0x1DA8B,
+x1DA9B, 0x1DA9F,
+x1DAA1, 0x1DAAF,
+	},
+	translit = false,
+}
+m["Shaw"] = process_ranges{
+	"Shavian",
+	aliases = {"Shaw"},
+	ranges = {
+x10450, 0x1047F,
+	},
 }
-m["Sgnw"] = {
+m["Shrd"] = process_ranges{
-	canonicalName = "SignWriting",
+	"Sharada",
-	characters = "𝠀-𝪯",
+	"abugida",
-	systems = {"pictography"},
+	ranges = {
+x0951, 0x0951,
+x1CD7, 0x1CD7,
+x1CD9, 0x1CD9,
+x1CDC, 0x1CDD,
+x1CE0, 0x1CE0,
+xA830, 0xA835,
+xA838, 0xA838,
+x11180, 0x111DF,
+	},
 }
-m["Shaw"] = {
+m["Shui"] = {
-	canonicalName = "Shavian",
+	"Sui",
-	characters = "𐑐-𐑿",
+	"logography",
+	spaces = false,
+	-- Not in Unicode
 }
-m["Shrd"] = {
+m["Sidd"] = process_ranges{
-	canonicalName = "Sharada",
+	"Siddham",
-	characters = "𑆀-𑇙",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x11580, 0x115B5,
+x115B8, 0x115DD,
+	},
 }
-m["Sidd"] = {
+m["Sidt"] = {
-	canonicalName = "Siddham",
+	"Sidetic",
-	characters = "𑖀-𑗝",
+	"alphabet",
-	systems = {"abugida"},
+	direction = "rtl",
+	-- Not in Unicode
 }
-m["Sind"] = {
+m["Sind"] = process_ranges{
-	canonicalName = "Khudawadi",
+	"Khudawadi",
-	characters = "𑊰-𑋹",
+	"abugida",
-	systems = {"abugida"},
+	aliases = {"Khudabadi"},
+	ranges = {
+x0964, 0x0965,
+xA830, 0xA839,
+x112B0, 0x112EA,
+x112F0, 0x112F9,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑊰𑋠", "𑊰𑋥", "𑊰𑋦", "𑊰𑋧", "𑊰𑋨"},
+		to = {"𑊱", "𑊶", "𑊷", "𑊸", "𑊹"}
+	},
 }
-m["Sinh"] = {
+m["Sinh"] = process_ranges{
-	canonicalName = "Sinhalese",
+	"Sinhalese",
-	characters = "ං-෴",
+	"abugida",
-	systems = {"abugida"},
+	aliases = {"Sinhala"},
+	ranges = {
+x0964, 0x0965,
+x0D81, 0x0D83,
+x0D85, 0x0D96,
+x0D9A, 0x0DB1,
+x0DB3, 0x0DBB,
+x0DBD, 0x0DBD,
+x0DC0, 0x0DC6,
+x0DCA, 0x0DCA,
+x0DCF, 0x0DD4,
+x0DD6, 0x0DD6,
+x0DD8, 0x0DDF,
+x0DE6, 0x0DEF,
+x0DF2, 0x0DF4,
+x1CF2, 0x1CF2,
+x111E1, 0x111F4,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"අා", "අැ", "අෑ", "උෟ", "ඍෘ", "ඏෟ", "එ්", "එෙ", "ඔෟ", "ෘෘ"},
+		to = {"ආ", "ඇ", "ඈ", "ඌ", "ඎ", "ඐ", "ඒ", "ඓ", "ඖ", "ෲ"}
+	},
 }
-m["Sogd"] = {
+m["Sogd"] = process_ranges{
-	canonicalName = "Sogdian",
+	"Sogdian",
-	characters = "𐼰-𐽙",
+	"abjad",
+	ranges = {
+x0640, 0x0640,
+x10F30, 0x10F59,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Sogo"] = {
+m["Sogo"] = process_ranges{
-	canonicalName = "Old Sogdian",
+	"Old Sogdian",
-	characters = "𐼀-𐼧",
+	"abjad",
+	ranges = {
+x10F00, 0x10F27,
+	},
 	direction = "rtl",
-	systems = {"abjad"},
 }
-m["Sora"] = {
+m["Sora"] = process_ranges{
-	canonicalName = "Sorang Sompeng",
+	"Sorang Sompeng",
-	otherNames = {"Sora Sompeng"},
+	aliases = {"Sora Sompeng"},
-	characters = "𑃐-𑃹",
+	ranges = {
+x110D0, 0x110E8,
+x110F0, 0x110F9,
+	},
+}
+m["Soyo"] = process_ranges{
+	"Soyombo",
+	"abugida",
+	ranges = {
+x11A50, 0x11AA2,
+	},
 }
-m["Soyo"] = {
+m["Sund"] = process_ranges{
-	canonicalName = "Soyombo",
+	"Sundanese",
-	characters = "𑩐-𑪢",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x1B80, 0x1BBF,
+x1CC0, 0x1CC7,
+	},
 }
-m["Sund"] = {
+m["Sunu"] = {
-	canonicalName = "Sundanese",
+	"Sunuwar",
-	characters = "ᮀ-ᮿ",
+	"alphabet",
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Sylo"] = {
+m["Sylo"] = process_ranges{
-	canonicalName = "Syloti Nagri",
+	"Syloti Nagri",
-	otherNames = {"Sylheti Nagari"},
+	"abugida",
-	characters = "ꠀ-꠫",
+	aliases = {"Sylheti Nagari"},
-	systems = {"abugida"},
+	ranges = {
+x0964, 0x0965,
+x09E6, 0x09EF,
+xA800, 0xA82C,
+	},
 }
-m["Syrc"] = {
+m["Syrc"] = process_ranges{
-	canonicalName = "Syriac",
+	"Syriac",
-	characters = "܀-ݏ"..u(0x0860).."-"..u(0x086A),
+	"abjad",	-- more precisely, impure abjad
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061C,
+x061F, 0x061F,
+x0640, 0x0640,
+x064B, 0x0655,
+x0670, 0x0670,
+x0700, 0x070D,
+x070F, 0x074A,
+x074D, 0x074F,
+x0860, 0x086A,
+x1DF8, 0x1DF8,
+x1DFA, 0x1DFA,
+	},
 	direction = "rtl",
-	systems = {"abjad"},	-- more precisely, impure abjad
 }
 -- Syre, Syrj, Syrn are apparently subsumed into Syrc; discuss if this causes issues
-m["Tagb"] = {
+m["Tagb"] = process_ranges{
-	canonicalName = "Tagbanwa",
+	"Tagbanwa",
-	characters = "ᝠ-ᝳ",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x1735, 0x1736,
+x1760, 0x176C,
+x176E, 0x1770,
+x1772, 0x1773,
+	},
+}
+m["Takr"] = process_ranges{
+	"Takri",
+	"abugida",
+	ranges = {
+x0964, 0x0965,
+xA830, 0xA839,
+x11680, 0x116B9,
+x116C0, 0x116C9,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑚀𑚭", "𑚀𑚴", "𑚀𑚵", "𑚆𑚲"},
+		to = {"𑚁", "𑚈", "𑚉", "𑚇"}
+	},
 }
-m["Takr"] = {
+m["Tale"] = process_ranges{
-	canonicalName = "Takri",
+	"Tai Nüa",
-	characters = "𑚀-𑛉",
+	"abugida",
-	systems = {"abugida"},
+	aliases = {"Tai Nuea", "New Tai Nüa", "New Tai Nuea", "Dehong Dai", "Tai Dehong", "Tai Le"},
+	ranges = {
+x1040, 0x1049,
+x1950, 0x196D,
+x1970, 0x1974,
+	},
+	spaces = false,
 }
-m["Tale"] = {
+m["Talu"] = process_ranges{
-	canonicalName = "Tai Nüa",
+	"New Tai Lue",
-	otherNames = {"Tai Nuea", "New Tai Nüa", "New Tai Nuea", "Dehong Dai", "Tai Dehong", "Tai Le"},
+	"abugida",
-	characters = "ᥐ-ᥴ",
+	ranges = {
-	systems = {"abugida"},
+x1980, 0x19AB,
+x19B0, 0x19C9,
+x19D0, 0x19DA,
+x19DE, 0x19DF,
+	},
+	spaces = false,
 }
-m["Talu"] = {
+m["Taml"] = process_ranges{
-	canonicalName = "New Tai Lue",
+	"Tamil",
-	characters = "ᦀ-᧟",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0B82, 0x0B83,
+x0B85, 0x0B8A,
+x0B8E, 0x0B90,
+x0B92, 0x0B95,
+x0B99, 0x0B9A,
+x0B9C, 0x0B9C,
+x0B9E, 0x0B9F,
+x0BA3, 0x0BA4,
+x0BA8, 0x0BAA,
+x0BAE, 0x0BB9,
+x0BBE, 0x0BC2,
+x0BC6, 0x0BC8,
+x0BCA, 0x0BCD,
+x0BD0, 0x0BD0,
+x0BD7, 0x0BD7,
+x0BE6, 0x0BFA,
+x1CDA, 0x1CDA,
+xA8F3, 0xA8F3,
+x11301, 0x11301,
+x11303, 0x11303,
+x1133B, 0x1133C,
+x11FC0, 0x11FF1,
+x11FFF, 0x11FFF,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"அூ", "ஸ்ரீ"},
+		to = {"ஆ", "ஶ்ரீ"}
+	},
 }
-m["Taml"] = {
+m["Tang"] = process_ranges{
-	canonicalName = "Tamil",
+	"Tangut",
-	characters = "ஂ-௺",
+	"logography, syllabary",
-	systems = {"abugida"},
+	ranges = {
+x16FE0, 0x16FE0,
+x17000, 0x187F7,
+x18800, 0x18AFF,
+x18D00, 0x18D08,
+	},
+	spaces = false,
 }
-m["Tang"] = {
+m["Tavt"] = process_ranges{
-	canonicalName = "Tangut",
+	"Tai Viet",
-	characters = "𖿠𗀀-𘫲",
+	"abugida",
-	systems = {"logography", "syllabary"},
+	ranges = {
+xAA80, 0xAAC2,
+xAADB, 0xAADF,
+	},
+	spaces = false,
 }
-m["Tavt"] = {
+m["Tayo"] = {
-	canonicalName = "Tai Viet",
+	"Lai Tay",
-	characters = "ꪀ-꫟",
+	"abugida",
-	systems = {"abugida"},
+	aliases = {"Tai Yo"},
+	direction = "vertical-rtl",
+	-- Not in Unicode
 }
-m["Telu"] = {
+m["Telu"] = process_ranges{
-	canonicalName = "Telugu",
+	"Telugu",
-	characters = "ఀ-౿",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x0C00, 0x0C0C,
+x0C0E, 0x0C10,
+x0C12, 0x0C28,
+x0C2A, 0x0C39,
+x0C3C, 0x0C44,
+x0C46, 0x0C48,
+x0C4A, 0x0C4D,
+x0C55, 0x0C56,
+x0C58, 0x0C5A,
+x0C5D, 0x0C5D,
+x0C60, 0x0C63,
+x0C66, 0x0C6F,
+x0C77, 0x0C7F,
+x1CDA, 0x1CDA,
+x1CF2, 0x1CF2,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ఒౌ", "ఒౕ", "ిౕ", "ెౕ", "ొౕ"},
+		to = {"ఔ", "ఓ", "ీ", "ే", "ో"}
+	},
 }
 m["Teng"] = {
-	canonicalName = "Tengwar",
+	"Tengwar",
 }
-m["Tfng"] = {
+m["Tfng"] = process_ranges{
-	canonicalName = "Tifinagh",
+	"Tifinagh",
-	otherNames = {"Libyco-Berber", "Berber"},
+	"abjad, alphabet",
-	characters = "ⴰ-⵿",
+	ranges = {
-	systems = {"abjad", "alphabet"},
+x2D30, 0x2D67,
+x2D6F, 0x2D70,
+x2D7F, 0x2D7F,
+	},
+	otherNames = {"Libyco-Berber", "Berber"}, -- per Wikipedia, Libyco-Berber is the parent
 }
-m["Tglg"] = {
+m["Tglg"] = process_ranges{
-	canonicalName = "Baybayin",
+	"Baybayin",
-	otherNames = {"Tagalog"},
+	"abugida",
-	characters = "ᜀ-᜔",
+	aliases = {"Tagalog"},
-	systems = {"abugida"},
+	ranges = {
+x1700, 0x1715,
+x171F, 0x171F,
+x1735, 0x1736,
+	},
 }
-m["Thaa"] = {
+m["Thaa"] = process_ranges{
-	canonicalName = "Thaana",
+	"Thaana",
-	characters = "ހ-ޱ",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061C,
+x061F, 0x061F,
+x0660, 0x0669,
+x0780, 0x07B1,
+xFDF2, 0xFDF2,
+xFDFD, 0xFDFD,
+	},
 	direction = "rtl",
 }
-m["Thai"] = {
+m["Thai"] = process_ranges{
-	canonicalName = "Thai",
+	"Thai",
-	characters = "ก-๛",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x0E01, 0x0E3A,
+x0E40, 0x0E5B,
+	},
+	spaces = false,
+}
+m["Tibt"] = process_ranges{
+	"Tibetan",
+	"abugida",
+	ranges = {
+x0F00, 0x0F47,
+x0F49, 0x0F6C,
+x0F71, 0x0F97,
+x0F99, 0x0FBC,
+x0FBE, 0x0FCC,
+x0FCE, 0x0FD4,
+x0FD9, 0x0FDA,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		combiningClasses = {["༹"] = 1},
+		from = {"ཷ", "ཹ"},
+		to = {"ྲཱྀ", "ླཱྀ"}
+	},
+}
+	m["sit-tam-Tibt"] = {
+		"Tamyig",
+		m["Tibt"][2],
+		ranges = m["Tibt"].ranges,
+		characters = m["Tibt"].characters,
+		parent = "Tibt",
+		normalizationFixes = m["Tibt"].normalizationFixes,
+	}
+m["Tirh"] = process_ranges{
+	"Tirhuta",
+	"abugida",
+	ranges = {
+x0951, 0x0952,
+x0964, 0x0965,
+x1CF2, 0x1CF2,
+xA830, 0xA839,
+x11480, 0x114C7,
+x114D0, 0x114D9,
+	},
+	normalizationFixes = handle_normalization_fixes{
+		from = {"𑒁𑒰", "𑒋𑒺", "𑒍𑒺", "𑒪𑒵", "𑒪𑒶"},
+		to = {"𑒂", "𑒌", "𑒎", "𑒉", "𑒊"}
+	},
+}
+m["Tnsa"] = process_ranges{
+	"Tangsa",
+	"alphabet",
+	ranges = {
+x16A70, 0x16ABE,
+x16AC0, 0x16AC9,
+	},
+}
+m["Todr"] = {
+	"Todhri",
+	"alphabet",
+	direction = "rtl",
+	-- Not in Unicode
 }
-m["Tibt"] = {
+m["Tols"] = {
-	canonicalName = "Tibetan",
+	"Tolong Siki",
-	characters = "ༀ-࿚",
+	"alphabet",
-	systems = {"abugida"},
+	-- Not in Unicode
 }
-m["Tirh"] = {
+m["Toto"] = process_ranges{
-	canonicalName = "Tirhuta",
+	"Toto",
-	characters = "𑒀-𑓙",
+	"abugida",
-	systems = {"abugida"},
+	ranges = {
+x1E290, 0x1E2AE,
+	},
 }
-m["xzh-Tibt"] = {
+m["Tutg"] = {
-	canonicalName = "Zhang-Zhung",
+	"Tigalari",
-	systems = {"abugida"},
+	"abugida",
+	aliases = {"Tulu"},
+	-- Not in Unicode
 }
-m["Todj"] = {
+m["Ugar"] = process_ranges{
-	canonicalName = "Todjydheenil",
+	"Ugaritic",
-	systems = {"alphabet"},
+	"abjad",
+	ranges = {
+x10380, 0x1039D,
+x1039F, 0x1039F,
+	},
 }
-m["Ugar"] = {
+m["Vaii"] = process_ranges{
-	canonicalName = "Ugaritic",
+	"Vai",
-	characters = "𐎀-𐎟",
+	"syllabary",
-	systems = {"abjad"},
+	ranges = {
+xA500, 0xA62B,
+	},
 }
-m["Vaii"] = {
+m["Visp"] = {
-	canonicalName = "Vai",
+	"Visible Speech",
-	characters = "ꔀ-ꘫ",
+	"alphabet",
-	systems = {"syllabary"},
+	-- Not in Unicode
 }
-m["Vkht"] = {
+m["Vith"] = process_ranges{
-	canonicalName = "Vukht",
+	"Vithkuqi",
-	systems = {"abjad"},
+	"alphabet",
+	ranges = {
+x10570, 0x1057A,
+x1057C, 0x1058A,
+x1058C, 0x10592,
+x10594, 0x10595,
+x10597, 0x105A1,
+x105A3, 0x105B1,
+x105B3, 0x105B9,
+x105BB, 0x105BC,
+	},
+	capitalized = true,
 }
-m["Wara"] = {
+m["Wara"] = process_ranges{
-	canonicalName = "Varang Kshiti",
+	"Varang Kshiti",
-	characters = "𑢠-𑣿",
+	aliases = {"Warang Citi"},
+	ranges = {
+x118A0, 0x118F2,
+x118FF, 0x118FF,
+	},
+	capitalized = true,
 }
-m["Wlqr"] = {
+m["Wcho"] = process_ranges{
-	canonicalName = "Welqor",
+	"Wancho",
-	systems = {"abjad"},
+	"alphabet",
+	ranges = {
+x1E2C0, 0x1E2F9,
+x1E2FF, 0x1E2FF,
+	},
 }
-m["Xpeo"] = {
+m["Wole"] = {
-	canonicalName = "Old Persian",
+	"Woleai",
-	characters = "𐎠-𐏕",
+	"syllabary",
+	-- Not in Unicode
 }
-m["Xsux"] = {
+m["Xpeo"] = process_ranges{
-	canonicalName = "Cuneiform",
+	"Old Persian",
-	otherNames = {"Sumero-Akkadian Cuneiform"},
+	ranges = {
-	characters = "𒀀-𒍮𒐀-𒑳",
+x103A0, 0x103C3,
+x103C8, 0x103D5,
+	},
 }
-m["Yesu"] = {
+m["Xsux"] = process_ranges{
-	canonicalName = "Yesuthoh",
+	"Cuneiform",
-	systems = {"alphabet"},
+	aliases = {"Sumero-Akkadian Cuneiform"},
+	ranges = {
+x12000, 0x12399,
+x12400, 0x1246E,
+x12470, 0x12474,
+x12480, 0x12543,
+	},
 }
-m["Yiii"] = {
+m["Yezi"] = process_ranges{
-	canonicalName = "Yi",
+	"Yezidi",
-	characters = "ꀀ-꓆",
+	"alphabet",
-	systems = {"syllabary"},
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061B,
+x061F, 0x061F,
+x0660, 0x0669,
+x10E80, 0x10EA9,
+x10EAB, 0x10EAD,
+x10EB0, 0x10EB1,
+	},
+	direction = "rtl",
 }
-m["Zadu"] = {
+m["Yiii"] = process_ranges{
-	canonicalName = "Zaduusel",
+	"Yi",
-	systems = {"alphabet"},
+	"syllabary",
+	ranges = {
+x3001, 0x3002,
+x3008, 0x3011,
+x3014, 0x301B,
+x30FB, 0x30FB,
+xA000, 0xA48C,
+xA490, 0xA4C6,
+xFF61, 0xFF65,
+	},
 }
-m["Zanb"] = {
+m["Zanb"] = process_ranges{
-	canonicalName = "Zanabazar Square",
+	"Zanabazar Square",
-	characters = u(0x11A00).."-"..u(0x11A47),
+	ranges = {
+x11A00, 0x11A47,
+	},
 }
-m["Zmth"] = {
+m["Zmth"] = process_ranges{
-	canonicalName = "mathematical notation",
+	"mathematical notation",
-	characters = "ℵ∀-⋿⟀-⟯⦀-⫿𝐀-𝟿",
+	ranges = {
+x00AC, 0x00AC,
+x00B1, 0x00B1,
+x00D7, 0x00D7,
+x00F7, 0x00F7,
+x03D0, 0x03D2,
+x03D5, 0x03D5,
+x03F0, 0x03F1,
+x03F4, 0x03F6,
+x0606, 0x0608,
+x2016, 0x2016,
+x2032, 0x2034,
+x2040, 0x2040,
+x2044, 0x2044,
+x2052, 0x2052,
+x205F, 0x205F,
+x2061, 0x2064,
+x207A, 0x207E,
+x208A, 0x208E,
+x20D0, 0x20DC,
+x20E1, 0x20E1,
+x20E5, 0x20E6,
+x20EB, 0x20EF,
+x2102, 0x2102,
+x2107, 0x2107,
+x210A, 0x2113,
+x2115, 0x2115,
+x2118, 0x211D,
+x2124, 0x2124,
+x2128, 0x2129,
+x212C, 0x212D,
+x212F, 0x2131,
+x2133, 0x2138,
+x213C, 0x2149,
+x214B, 0x214B,
+x2190, 0x21A7,
+x21A9, 0x21AE,
+x21B0, 0x21B1,
+x21B6, 0x21B7,
+x21BC, 0x21DB,
+x21DD, 0x21DD,
+x21E4, 0x21E5,
+x21F4, 0x22FF,
+x2308, 0x230B,
+x2320, 0x2321,
+x237C, 0x237C,
+x239B, 0x23B5,
+x23B7, 0x23B7,
+x23D0, 0x23D0,
+x23DC, 0x23E2,
+x25A0, 0x25A1,
+x25AE, 0x25B7,
+x25BC, 0x25C1,
+x25C6, 0x25C7,
+x25CA, 0x25CB,
+x25CF, 0x25D3,
+x25E2, 0x25E2,
+x25E4, 0x25E4,
+x25E7, 0x25EC,
+x25F8, 0x25FF,
+x2605, 0x2606,
+x2640, 0x2640,
+x2642, 0x2642,
+x2660, 0x2663,
+x266D, 0x266F,
+x27C0, 0x27FF,
+x2900, 0x2AFF,
+x2B30, 0x2B44,
+x2B47, 0x2B4C,
+xFB29, 0xFB29,
+xFE61, 0xFE66,
+xFE68, 0xFE68,
+xFF0B, 0xFF0B,
+xFF1C, 0xFF1E,
+xFF3C, 0xFF3C,
+xFF3E, 0xFF3E,
+xFF5C, 0xFF5C,
+xFF5E, 0xFF5E,
+xFFE2, 0xFFE2,
+xFFE9, 0xFFEC,
+x1D400, 0x1D454,
+x1D456, 0x1D49C,
+x1D49E, 0x1D49F,
+x1D4A2, 0x1D4A2,
+x1D4A5, 0x1D4A6,
+x1D4A9, 0x1D4AC,
+x1D4AE, 0x1D4B9,
+x1D4BB, 0x1D4BB,
+x1D4BD, 0x1D4C3,
+x1D4C5, 0x1D505,
+x1D507, 0x1D50A,
+x1D50D, 0x1D514,
+x1D516, 0x1D51C,
+x1D51E, 0x1D539,
+x1D53B, 0x1D53E,
+x1D540, 0x1D544,
+x1D546, 0x1D546,
+x1D54A, 0x1D550,
+x1D552, 0x1D6A5,
+x1D6A8, 0x1D7CB,
+x1D7CE, 0x1D7FF,
+x1EE00, 0x1EE03,
+x1EE05, 0x1EE1F,
+x1EE21, 0x1EE22,
+x1EE24, 0x1EE24,
+x1EE27, 0x1EE27,
+x1EE29, 0x1EE32,
+x1EE34, 0x1EE37,
+x1EE39, 0x1EE39,
+x1EE3B, 0x1EE3B,
+x1EE42, 0x1EE42,
+x1EE47, 0x1EE47,
+x1EE49, 0x1EE49,
+x1EE4B, 0x1EE4B,
+x1EE4D, 0x1EE4F,
+x1EE51, 0x1EE52,
+x1EE54, 0x1EE54,
+x1EE57, 0x1EE57,
+x1EE59, 0x1EE59,
+x1EE5B, 0x1EE5B,
+x1EE5D, 0x1EE5D,
+x1EE5F, 0x1EE5F,
+x1EE61, 0x1EE62,
+x1EE64, 0x1EE64,
+x1EE67, 0x1EE6A,
+x1EE6C, 0x1EE72,
+x1EE74, 0x1EE77,
+x1EE79, 0x1EE7C,
+x1EE7E, 0x1EE7E,
+x1EE80, 0x1EE89,
+x1EE8B, 0x1EE9B,
+x1EEA1, 0x1EEA3,
+x1EEA5, 0x1EEA9,
+x1EEAB, 0x1EEBB,
+x1EEF0, 0x1EEF1,
+	},
+	translit = false,
 	character_category = "Mathematical notation symbols", -- ?
 }
-m["Zsym"] = {
+m["Zsym"] = process_ranges{
-	canonicalName = "symbol",
+	"symbol",
-	characters = "─-➿←-⇿⌀-⏿⬀-⯾🀀-🃵🌀-🩭",
+	"pictography",
+	ranges = {
+x20DD, 0x20E0,
+x20E2, 0x20E4,
+x20E7, 0x20EA,
+x20F0, 0x20F0,
+x2100, 0x2101,
+x2103, 0x2106,
+x2108, 0x2109,
+x2114, 0x2114,
+x2116, 0x2117,
+x211E, 0x2123,
+x2125, 0x2127,
+x212A, 0x212B,
+x212E, 0x212E,
+x2132, 0x2132,
+x2139, 0x213B,
+x214A, 0x214A,
+x214C, 0x214F,
+x21A8, 0x21A8,
+x21AF, 0x21AF,
+x21B2, 0x21B5,
+x21B8, 0x21BB,
+x21DC, 0x21DC,
+x21DE, 0x21E3,
+x21E6, 0x21F3,
+x2300, 0x2307,
+x230C, 0x231F,
+x2322, 0x237B,
+x237D, 0x239A,
+x23B6, 0x23B6,
+x23B8, 0x23CF,
+x23D1, 0x23DB,
+x23E3, 0x23FF,
+x2500, 0x259F,
+x25A2, 0x25AD,
+x25B8, 0x25BB,
+x25C2, 0x25C5,
+x25C8, 0x25C9,
+x25CC, 0x25CE,
+x25D4, 0x25E1,
+x25E3, 0x25E3,
+x25E5, 0x25E6,
+x25ED, 0x25F7,
+x2600, 0x2604,
+x2607, 0x263F,
+x2641, 0x2641,
+x2643, 0x265F,
+x2664, 0x266C,
+x2670, 0x27BF,
+x2B00, 0x2B2F,
+x2B45, 0x2B46,
+x2B4D, 0x2B73,
+x2B76, 0x2B95,
+x2B97, 0x2BFF,
+x4DC0, 0x4DFF,
+x1F000, 0x1F02B,
+x1F030, 0x1F093,
+x1F0A0, 0x1F0AE,
+x1F0B1, 0x1F0BF,
+x1F0C1, 0x1F0CF,
+x1F0D1, 0x1F0F5,
+x1F300, 0x1F6D7,
+x1F6DC, 0x1F6EC,
+x1F6F0, 0x1F6FC,
+x1F700, 0x1F776,
+x1F77B, 0x1F7D9,
+x1F7E0, 0x1F7EB,
+x1F7F0, 0x1F7F0,
+x1F800, 0x1F80B,
+x1F810, 0x1F847,
+x1F850, 0x1F859,
+x1F860, 0x1F887,
+x1F890, 0x1F8AD,
+x1F8B0, 0x1F8B1,
+x1F900, 0x1FA53,
+x1FA60, 0x1FA6D,
+x1FA70, 0x1FA7C,
+x1FA80, 0x1FA88,
+x1FA90, 0x1FABD,
+x1FABF, 0x1FAC5,
+x1FACE, 0x1FADB,
+x1FAE0, 0x1FAE8,
+x1FAF0, 0x1FAF8,
+x1FB00, 0x1FB92,
+x1FB94, 0x1FBCA,
+x1FBF0, 0x1FBF9,
+	},
+	translit = false,
 	character_category = false, -- none
-	systems = {"pictography"},
 }
 m["Zyyy"] = {
-	canonicalName = "undetermined",
+	"undetermined",
 	-- This should not have any characters listed, probably
+	translit = false,
 	character_category = false, -- none
-	characters = m["Latn"].characters,
 }
 m["Zzzz"] = {
-	canonicalName = "uncoded",
+	"uncoded",
 	-- This should not have any characters listed
+	translit = false,
 	character_category = false, -- none
+}
+-- These should be defined after the scripts they are composed of.
+m["Hrkt"] = process_ranges{
+	"Kana",
+	"syllabary",
+	aliases = {"Japanese syllabaries"},
+	ranges = union(
+		m["Hira"].ranges,
+		m["Kana"].ranges
+	),
+	spaces = false,
+}
+m["Jpan"] = process_ranges{
+	"Japanese",
+	"logography, syllabary",
+	ranges = union(
+		m["Hrkt"].ranges,
+		m["Hani"].ranges,
+		m["Latn"].ranges
+	),
+	spaces = false,
+	sort_by_scraping = true,
+}
+m["Kore"] = process_ranges{
+	"Korean",
+	"logography, syllabary",
+	ranges = union(
+		m["Hang"].ranges,
+		m["Hani"].ranges,
+		m["Latn"].ranges
+	),
 }
 return m

Retrieved from "https://linguifex.com/wiki/Module:scripts/data"

Languages

This page is not available in other languages.

Linguifex

Privacy policy
About Linguifex
Disclaimers
Desktop