Home
Random

Log in

Settings

About Linguifex
Disclaimers

Module:scripts/data: Difference between revisions

Language
Watch
View history
View source

@@ Line 1: / Line 1: @@
 --[=[
-    This is imported from Wiktionary - it'll be updated for this wiki - the data is left currently as examples.
 	When adding new scripts to this file, please don't forget to add
-	style definitons for the script in [[MediaWiki:Common.css]].
+	style definitons for the script in [[MediaWiki:Gadget-LanguagesAndScripts.css]].
 ]=]
 local concat = table.concat
 local insert = table.insert
@@ Line 13: / Line 10: @@
 local select = select
 local sort = table.sort
-local u = require("Module:string utilities").char
+-- Loaded on demand, as it may not be needed (depending on the data).
+local function u(...)
+	u = require("Module:string/char")
+	return u(...)
+end
+-- We can't use mw.loadData() on [[Module:languages/chars]] because [[Module:languages/data]] itself is sometimes loaded
+-- using mw.loadData(), and calling mw.loadData() on [[Module:languages/chars]] will insert metatables into the
+-- character tables, which the second mw.loadData() will choke on.
+local m_chars = require("Module:languages/chars")
+local c = m_chars.chars
+local p = m_chars.puaChars
+local cs = m_chars.chars_substitutions
 ------------------------------------------------------------------------------------
@@ Line 92: / Line 103: @@
 local m = {}
---Constructed languages
+m["Adlm"] = process_ranges{
-m["Ayer"] = {
+	"Adlam",
-	"Tahano Hikamu",
+	19606346,
-	"abugida",
+	"alphabet",
 	ranges = {
-x0041, 0x005A,
+x061F, 0x061F,
-x0061, 0x007A,
+x0640, 0x0640,
-x002A, 0x002A,
+x1E900, 0x1E94B,
-x00F1, 0x00F1,
+x1E950, 0x1E959,
-x00D1, 0x00D1,
+x1E95E, 0x1E95F,
-x0294, 0x0294,
-x0259, 0x0259,
-x018F, 0x018F,
-xA736, 0xA737,
-x0026, 0x0026,
-x002B, 0x002D,
-x005B, 0x005B,
-x005D, 0x005D,
-x00A8, 0x00A8,
-x00AF, 0x00AF,
-x00B2, 0x00B2,
-x00B9, 0x00B9,
-x02B0, 0x2B2,
-x02C0, 0x02C0,
-x02D0, 0x02D0,
 	},
-	character_category = false,
+	capitalized = true,
+	direction = "rtl",
 }
-m["Roka"] = {
+m["Afak"] = {
-	"Rokadong Curakjang",
+	"Afaka",
-	"abugida",
+,
-	ranges = {
+	"syllabary",
-x0041, 0x005A,
+	-- Not in Unicode
-x0061, 0x007A,
-x0022, 0x0022,
-x0027, 0x0027,
-x002A, 0x002A,
-x002D, 0x002D,
-x005B, 0x005D,
-x007B, 0x007B,
-x007D, 0x007D
-	},
-	character_category = false,
 }
-m["Rsnold"] = {
+m["Aghb"] = process_ranges{
-	"Old Raysian",
+	"Caucasian Albanian",
+	2495716,
 	"alphabet",
 	ranges = {
-x0041, 0x007A
+x10530, 0x10563,
+x1056F, 0x1056F,
 	},
-	character_category = false,
 }
-m["Pann"] = {
+m["Ahom"] = process_ranges{
-	"Pannonian",
+	"Ahom",
-	"alphabet",
+	2839633,
+	"abugida",
 	ranges = {
-x0041, 0x005A,
+x11700, 0x1171A,
-x0061, 0x007A,
+x1171D, 0x1172B,
-x1D9C, 0x1D9D,
+x11730, 0x11746,
-x1D47, 0x1D4B,
-x02E1, 0x02E3,
-x0410, 0x044F,
-x0404, 0x0454,
-x04AE, 0x04B1,
-x0250, 0x0254,
-x0265, 0x0278,
-x028C, 0x028D,
-x0224, 0x0225,
-x01BA, 0x01BE,
-x019A, 0x01A3,
-x012D, 0x0131,
-xA793, 0xA794
 	},
-	character_category = false,
 }
---Natural languages
+m["Arab"] = process_ranges{
+	"Arabic",
-m["Adlm"] = process_ranges{
+	1828555,
-	"Adlam",
+	"abjad", -- more precisely, impure abjad
-	"alphabet",
+	varieties = {"Jawi", {"Nastaliq", "Nastaleeq"}},
 	ranges = {
-x061F, 0x061F,
+x0600, 0x06FF,
-x0640, 0x0640,
+x0750, 0x077F,
-x1E900, 0x1E94B,
+x0870, 0x088E,
-x1E950, 0x1E959,
+x0890, 0x0891,
-x1E95E, 0x1E95F,
+x0897, 0x08E1,
-	},
+x08E3, 0x08FF,
-	capitalized = true,
+xFB50, 0xFBC2,
-	direction = "rtl",
+xFBD3, 0xFD8F,
-}
+xFD92, 0xFDC7,
+xFDCF, 0xFDCF,
-m["Afak"] = {
+xFDF0, 0xFDFF,
-	"Afaka",
+xFE70, 0xFE74,
-	"syllabary",
+xFE76, 0xFEFC,
-	-- Not in Unicode
+x102E0, 0x102FB,
-}
+x10E60, 0x10E7E,
+x10EC2, 0x10EC4,
-m["Aghb"] = process_ranges{
+x10EFC, 0x10EFF,
-	"Caucasian Albanian",
+x1EE00, 0x1EE03,
-	"alphabet",
+x1EE05, 0x1EE1F,
-	ranges = {
+x1EE21, 0x1EE22,
-x10530, 0x10563,
+x1EE24, 0x1EE24,
-x1056F, 0x1056F,
+x1EE27, 0x1EE27,
-	},
+x1EE29, 0x1EE32,
-}
+x1EE34, 0x1EE37,
+x1EE39, 0x1EE39,
-m["Ahom"] = process_ranges{
+x1EE3B, 0x1EE3B,
-	"Ahom",
+x1EE42, 0x1EE42,
-	"abugida",
+x1EE47, 0x1EE47,
-	ranges = {
+x1EE49, 0x1EE49,
-x11700, 0x1171A,
+x1EE4B, 0x1EE4B,
-x1171D, 0x1172B,
+x1EE4D, 0x1EE4F,
-x11730, 0x11746,
+x1EE51, 0x1EE52,
+x1EE54, 0x1EE54,
+x1EE57, 0x1EE57,
+x1EE59, 0x1EE59,
+x1EE5B, 0x1EE5B,
+x1EE5D, 0x1EE5D,
+x1EE5F, 0x1EE5F,
+x1EE61, 0x1EE62,
+x1EE64, 0x1EE64,
+x1EE67, 0x1EE6A,
+x1EE6C, 0x1EE72,
+x1EE74, 0x1EE77,
+x1EE79, 0x1EE7C,
+x1EE7E, 0x1EE7E,
+x1EE80, 0x1EE89,
+x1EE8B, 0x1EE9B,
+x1EEA1, 0x1EEA3,
+x1EEA5, 0x1EEA9,
+x1EEAB, 0x1EEBB,
+x1EEF0, 0x1EEF1,
+	},
+	direction = "rtl",
+	normalizationFixes = handle_normalization_fixes{
+		from = {"ٳ"},
+		to = {"اٟ"}
 	},
 }
-m["Arab"] = process_ranges{
+	m["fa-Arab"] = {
-	"Arabic",
+		"Arabic",
-	"abjad",	-- more precisely, impure abjad
+,
-	varieties = {"Jawi", {"Nastaliq", "Nastaleeq"}},
+		m["Arab"][3],
-	ranges = {
+		ranges = m["Arab"].ranges,
-x0600, 0x06FF,
+		characters = m["Arab"].characters,
-x0750, 0x077F,
+		other_names = {"Perso-Arabic"},
-x0870, 0x088E,
+		direction = "rtl",
-x0890, 0x0891,
+		parent = "Arab",
-x0898, 0x08E1,
+		normalizationFixes = m["Arab"].normalizationFixes,
-x08E3, 0x08FF,
+	}
-xFB50, 0xFBC2,
-xFBD3, 0xFD8F,
+	m["kk-Arab"] = {
-xFD92, 0xFDC7,
+		"Arabic",
-xFDCF, 0xFDCF,
+		90681452,
-xFDF0, 0xFDFF,
+		m["Arab"][3],
-xFE70, 0xFE74,
+		ranges = m["Arab"].ranges,
-xFE76, 0xFEFC,
+		characters = m["Arab"].characters,
-x102E0, 0x102FB,
+		direction = "rtl",
-x10E60, 0x10E7E,
+		parent = "Arab",
-x10EFD, 0x10EFF,
+		normalizationFixes = m["Arab"].normalizationFixes,
-x1EE00, 0x1EE03,
+	}
-x1EE05, 0x1EE1F,
-x1EE21, 0x1EE22,
+	m["ks-Arab"] = m["fa-Arab"]
-x1EE24, 0x1EE24,
+	m["ku-Arab"] = m["fa-Arab"]
-x1EE27, 0x1EE27,
+	m["ms-Arab"] = m["kk-Arab"]
-x1EE29, 0x1EE32,
+	m["mzn-Arab"] = m["fa-Arab"]
-x1EE34, 0x1EE37,
+	m["ota-Arab"] = m["fa-Arab"]
-x1EE39, 0x1EE39,
-x1EE3B, 0x1EE3B,
+	m["pa-Arab"] = {
-x1EE42, 0x1EE42,
+		"Shahmukhi",
-x1EE47, 0x1EE47,
+,
-x1EE49, 0x1EE49,
+		m["Arab"][3],
-x1EE4B, 0x1EE4B,
+		ranges = m["Arab"].ranges,
-x1EE4D, 0x1EE4F,
+		characters = m["Arab"].characters,
-x1EE51, 0x1EE52,
+		other_names = {"Arabic"},
-x1EE54, 0x1EE54,
+		direction = "rtl",
-x1EE57, 0x1EE57,
+		parent = "Arab",
-x1EE59, 0x1EE59,
+		normalizationFixes = m["Arab"].normalizationFixes,
-x1EE5B, 0x1EE5B,
+	}
-x1EE5D, 0x1EE5D,
-x1EE5F, 0x1EE5F,
+	m["ps-Arab"] = m["fa-Arab"]
-x1EE61, 0x1EE62,
+	m["sd-Arab"] = m["fa-Arab"]
-x1EE64, 0x1EE64,
+	m["tt-Arab"] = m["fa-Arab"]
-x1EE67, 0x1EE6A,
+	m["ug-Arab"] = m["fa-Arab"]
-x1EE6C, 0x1EE72,
+	m["ur-Arab"] = m["fa-Arab"]
-x1EE74, 0x1EE77,
-x1EE79, 0x1EE7C,
+-- Aran (Nastaliq) is subsumed into Arab
-x1EE7E, 0x1EE7E,
-x1EE80, 0x1EE89,
+m["Armi"] = process_ranges{
-x1EE8B, 0x1EE9B,
+	"Imperial Aramaic",
-x1EEA1, 0x1EEA3,
+,
-x1EEA5, 0x1EEA9,
+	"abjad",
-x1EEAB, 0x1EEBB,
+	ranges = {
-x1EEF0, 0x1EEF1,
+x10840, 0x10855,
+x10857, 0x1085F,
 	},
 	direction = "rtl",
-	normalizationFixes = handle_normalization_fixes{
+}
-		from = {"ٳ"},
-		to = {"اٟ"}
+m["Armn"] = process_ranges{
+	"Armenian",
+,
+	"alphabet",
+	ranges = {
+x0531, 0x0556,
+x0559, 0x058A,
+x058D, 0x058F,
+xFB13, 0xFB17,
 	},
+	capitalized = true,
+	translit = "Armn-translit",
 }
-	m["fa-Arab"] = {
+m["Avst"] = process_ranges{
-		"Arabic",
+	"Avestan",
-		m["Arab"][2],
+,
-		ranges = m["Arab"].ranges,
+	"alphabet",
-		characters = m["Arab"].characters,
+	ranges = {
-		otherNames = {"Perso-Arabic"},
+x10B00, 0x10B35,
+x10B39, 0x10B3F,
+	},
+	direction = "rtl",
+}
+	m["pal-Avst"] = {
+		"Pazend",
+		4925073,
+		m["Avst"][3],
+		ranges = m["Avst"].ranges,
+		characters = m["Avst"].characters,
 		direction = "rtl",
-		parent = "Arab",
+		parent = "Avst",
-		normalizationFixes = m["Arab"].normalizationFixes,
 	}
-	m["kk-Arab"] = {
+m["Bali"] = process_ranges{
-		"Arabic",
+	"Balinese",
-		m["Arab"][2],
+,
-		ranges = m["Arab"].ranges,
+	"abugida",
-		characters = m["Arab"].characters,
+	ranges = {
-		direction = "rtl",
+x1B00, 0x1B4C,
-		parent = "Arab",
+x1B4E, 0x1B7F,
-		normalizationFixes = m["Arab"].normalizationFixes,
+	},
-	}
+}
-	m["ks-Arab"] = m["fa-Arab"]
+m["Bamu"] = process_ranges{
-	m["ku-Arab"] = m["fa-Arab"]
+	"Bamum",
-	m["ms-Arab"] = m["kk-Arab"]
+,
-	m["mzn-Arab"] = m["fa-Arab"]
+	"syllabary",
-	m["ota-Arab"] = m["fa-Arab"]
-	m["pa-Arab"] = {
-		"Shahmukhi",
-		m["Arab"][2],
-		ranges = m["Arab"].ranges,
-		characters = m["Arab"].characters,
-		otherNames = {"Arabic"},
-		direction = "rtl",
-		parent = "Arab",
-		normalizationFixes = m["Arab"].normalizationFixes,
-	}
-	m["ps-Arab"] = m["fa-Arab"]
-	m["sd-Arab"] = m["fa-Arab"]
-	m["tt-Arab"] = m["fa-Arab"]
-	m["ug-Arab"] = m["fa-Arab"]
-	m["ur-Arab"] = m["fa-Arab"]
--- Aran (Nastaliq) is subsumed into Arab
-m["Armi"] = process_ranges{
-	"Imperial Aramaic",
-	"abjad",
 	ranges = {
-x10840, 0x10855,
+xA6A0, 0xA6F7,
-x10857, 0x1085F,
+x16800, 0x16A38,
 	},
-	direction = "rtl",
 }
-m["Armn"] = process_ranges{
+m["Bass"] = process_ranges{
-	"Armenian",
+	"Bassa",
+,
 	"alphabet",
+	aliases = {"Bassa Vah", "Vah"},
 	ranges = {
-x0531, 0x0556,
+x16AD0, 0x16AED,
-x0559, 0x058A,
+x16AF0, 0x16AF5,
-x058D, 0x058F,
-xFB13, 0xFB17,
 	},
-	capitalized = true,
 }
-m["Avst"] = process_ranges{
+m["Batk"] = process_ranges{
-	"Avestan",
+	"Batak",
-	"alphabet",
+,
+	"abugida",
 	ranges = {
-x10B00, 0x10B35,
+x1BC0, 0x1BF3,
-x10B39, 0x10B3F,
+x1BFC, 0x1BFF,
 	},
-	direction = "rtl",
 }
-	m["pal-Avst"] = {
+m["Beng"] = process_ranges{
-		"Pazend",
+	"Bengali",
-		m["Avst"][2],
+,
-		ranges = m["Avst"].ranges,
-		characters = m["Avst"].characters,
-		direction = "rtl",
-		parent = "Avst",
-	}
-m["Bali"] = process_ranges{
-	"Balinese",
 	"abugida",
 	ranges = {
-x1B00, 0x1B4C,
+x0951, 0x0952,
-x1B50, 0x1B7E,
+x0964, 0x0965,
-	},
+x0980, 0x0983,
-}
-m["Bamu"] = process_ranges{
-	"Bamum",
-	"syllabary",
-	ranges = {
-xA6A0, 0xA6F7,
-x16800, 0x16A38,
-	},
-}
-m["Bass"] = process_ranges{
-	"Bassa",
-	"alphabet",
-	aliases = {"Bassa Vah", "Vah"},
-	ranges = {
-x16AD0, 0x16AED,
-x16AF0, 0x16AF5,
-	},
-}
-m["Batk"] = process_ranges{
-	"Batak",
-	"abugida",
-	ranges = {
-x1BC0, 0x1BF3,
-x1BFC, 0x1BFF,
-	},
-}
-m["Beng"] = process_ranges{
-	"Bengali",
-	"abugida",
-	ranges = {
-x0951, 0x0952,
-x0964, 0x0965,
-x0980, 0x0983,
 x0985, 0x098C,
 x098F, 0x0990,
@@ Line 439: / Line 388: @@
 	m["as-Beng"] = process_ranges{
 		"Assamese",
-		m["Beng"][2],
+,
-		otherNames = {"Bengali-Assamese", "Eastern Nagari"},
+		m["Beng"][3],
+		other_names = {"Eastern Nagari"},
 		ranges = {
 x0951, 0x0952,
@@ Line 474: / Line 424: @@
 m["Bhks"] = process_ranges{
 	"Bhaiksuki",
+	17017839,
 	"abugida",
 	ranges = {
@@ Line 484: / Line 435: @@
 m["Blis"] = {
-	"Blissymbols",
+	"Blissymbolic",
+,
 	"logography",
-	aliases = {"Blissymbolics"},
+	aliases = {"Blissymbols"},
 	-- Not in Unicode
 }
@@ Line 492: / Line 444: @@
 m["Bopo"] = process_ranges{
 	"Zhuyin",
+,
 	"semisyllabary",
 	aliases = {"Zhuyin Fuhao", "Bopomofo"},
@@ Line 512: / Line 465: @@
 m["Brah"] = process_ranges{
 	"Brahmi",
+,
 	"abugida",
 	ranges = {
@@ Line 522: / Line 476: @@
 		to = {"𑀆", "𑀌", "𑀐"}
 	},
+	translit = "Brah-translit",
 }
 m["Brai"] = process_ranges{
 	"Braille",
+,
 	"alphabet",
 	ranges = {
@@ Line 534: / Line 490: @@
 m["Bugi"] = process_ranges{
 	"Lontara",
+	1074947,
 	"abugida",
 	aliases = {"Buginese"},
@@ Line 545: / Line 502: @@
 m["Buhd"] = process_ranges{
 	"Buhid",
+	1002969,
 	"abugida",
 	ranges = {
@@ Line 555: / Line 513: @@
 m["Cakm"] = process_ranges{
 	"Chakma",
+	1059328,
 	"abugida",
 	ranges = {
@@ Line 565: / Line 524: @@
 m["Cans"] = process_ranges{
-	"Canadian syllabics",
+	"Canadian syllabic",
+	2479183,
 	"abugida",
 	ranges = {
@@ Line 576: / Line 536: @@
 m["Cari"] = process_ranges{
 	"Carian",
+	1094567,
 	"alphabet",
 	ranges = {
@@ Line 584: / Line 545: @@
 m["Cham"] = process_ranges{
 	"Cham",
+	1060381,
 	"abugida",
 	ranges = {
@@ Line 595: / Line 557: @@
 m["Cher"] = process_ranges{
 	"Cherokee",
+,
 	"syllabary",
 	ranges = {
@@ Line 605: / Line 568: @@
 m["Chis"] = {
 	"Chisoi",
+	123173777,
 	"abugida",
 	-- Not in Unicode
@@ Line 610: / Line 574: @@
 m["Chrs"] = process_ranges{
-	"Chorasmian",
+	"Khwarezmian",
+	72386710,
 	"abjad",
+	aliases = {"Chorasmian"},
 	ranges = {
 x10FB0, 0x10FCB,
@@ Line 620: / Line 586: @@
 m["Copt"] = process_ranges{
 	"Coptic",
+,
 	"alphabet",
 	ranges = {
@@ Line 632: / Line 599: @@
 m["Cpmn"] = process_ranges{
 	"Cypro-Minoan",
+	1751985,
 	"syllabary",
 	aliases = {"Cypro Minoan"},
@@ Line 642: / Line 610: @@
 m["Cprt"] = process_ranges{
 	"Cypriot",
+	1757689,
 	"syllabary",
 	ranges = {
@@ Line 659: / Line 628: @@
 m["Cyrl"] = process_ranges{
 	"Cyrillic",
+,
 	"alphabet",
 	ranges = {
 x0400, 0x052F,
-x1C80, 0x1C88,
+x1C80, 0x1C8A,
 x1D2B, 0x1D2B,
 x1D78, 0x1D78,
@@ Line 678: / Line 648: @@
 m["Cyrs"] = {
 	"Old Cyrillic",
-	m["Cyrl"][2],
+,
+	m["Cyrl"][3],
 	aliases = {"Early Cyrillic"},
 	ranges = m["Cyrl"].ranges,
@@ Line 688: / Line 659: @@
 		to = {"Ꙋ", "ꙋ"}
 	},
+	strip_diacritics = {remove_diacritics = cs.Cyrs_remove_diacritics},
+	sort_key = {
+		remove_diacritics = cs.Cyrs_remove_diacritics,
+		from = {
+			"ї", "оу", -- 2 chars
+			"[ґꙣєѕꙃꙅꙁіꙇђꙉѻꙩꙫꙭꙮꚙꚛꙋѡѿꙍѽꙑѣꙗѥꙕѧꙙѩꙝꙛѫѭѯѱѳѵҁ]"
+		},
+		to = {
+			"и" .. p[1], "у", {
+				["ґ"] = "г" .. p[1], ["ꙣ"] = "д" .. p[1], ["є"] = "е", ["ѕ"] = "ж" .. p[1], ["ꙃ"] = "ж" .. p[1],
+				["ꙅ"] = "ж" .. p[1], ["ꙁ"] = "з", ["і"] = "и" .. p[1], ["ꙇ"] = "и" .. p[1], ["ђ"] = "и" .. p[2],
+				["ꙉ"] = "и" .. p[2], ["ѻ"] = "о", ["ꙩ"] = "о", ["ꙫ"] = "о", ["ꙭ"] = "о",
+				["ꙮ"] = "о", ["ꚙ"] = "о", ["ꚛ"] = "о", ["ꙋ"] = "у", ["ѡ"] = "х" .. p[1],
+				["ѿ"] = "х" .. p[1], ["ꙍ"] = "х" .. p[1], ["ѽ"] = "х" .. p[1], ["ꙑ"] = "ы", ["ѣ"] = "ь" .. p[1],
+				["ꙗ"] = "ь" .. p[2], ["ѥ"] = "ь" .. p[3], ["ꙕ"] = "ю", ["ѧ"] = "я", ["ꙙ"] = "я",
+				["ѩ"] = "я" .. p[1], ["ꙝ"] = "я" .. p[1], ["ꙛ"] = "я" .. p[2], ["ѫ"] = "я" .. p[3], ["ѭ"] = "я" .. p[4],
+				["ѯ"] = "я" .. p[5], ["ѱ"] = "я" .. p[6], ["ѳ"] = "я" .. p[7], ["ѵ"] = "я" .. p[8], ["ҁ"] = "я" .. p[9],
+			}
+		},
+	}
 }
 m["Deva"] = process_ranges{
 	"Devanagari",
+,
 	"abugida",
 	ranges = {
@@ Line 710: / Line 702: @@
 m["Diak"] = process_ranges{
 	"Dhives Akuru",
+	3307073,
 	"abugida",
 	aliases = {"Dhivehi Akuru", "Dives Akuru", "Divehi Akuru"},
@@ Line 726: / Line 719: @@
 m["Dogr"] = process_ranges{
 	"Dogra",
+	72402987,
 	"abugida",
 	ranges = {
@@ Line 736: / Line 730: @@
 m["Dsrt"] = process_ranges{
 	"Deseret",
+	1200582,
 	"alphabet",
 	ranges = {
@@ Line 745: / Line 740: @@
 m["Dupl"] = process_ranges{
 	"Duployan",
+	5316025,
 	"alphabet",
 	ranges = {
@@ Line 757: / Line 753: @@
 m["Egyd"] = {
 	"Demotic",
+,
 	"abjad, logography",
 	-- Not in Unicode
@@ Line 763: / Line 760: @@
 m["Egyh"] = {
 	"Hieratic",
+,
 	"abjad, logography",
 	-- Unified with Egyptian hieroglyphic in Unicode
@@ Line 769: / Line 767: @@
 m["Egyp"] = process_ranges{
 	"Egyptian hieroglyphic",
+,
 	"abjad, logography",
 	ranges = {
 x13000, 0x13455,
+x13460, 0x143FA,
 	},
 	varieties = {"Hieratic"},
@@ Line 783: / Line 783: @@
 m["Elba"] = process_ranges{
 	"Elbasan",
+	1036714,
 	"alphabet",
 	ranges = {
@@ Line 791: / Line 792: @@
 m["Elym"] = process_ranges{
 	"Elymaic",
+	60744423,
 	"abjad",
 	ranges = {
@@ Line 800: / Line 802: @@
 m["Ethi"] = process_ranges{
 	"Ethiopic",
+,
 	"abugida",
-	aliases = {"Ge'ez"},
+	aliases = {"Ge'ez", "Geʽez"},
 	ranges = {
 x1200, 0x1248,
@@ Line 840: / Line 843: @@
 x1E7F0, 0x1E7FE,
 	},
+	sort_key = "Ethi-sortkey",
+	strip_diacritics = {remove_diacritics = u(0x135D) .. u(0x135E) .. u(0x135F)}
 }
-m["Gara"] = {
+m["Gara"] = process_ranges{
 	"Garay",
+	3095302,
 	"alphabet",
 	capitalized = true,
 	direction = "rtl",
-	-- Not in Unicode
+	ranges = {
+x060C, 0x060C,
+x061B, 0x061B,
+x061F, 0x061F,
+x10D40, 0x10D65,
+x10D69, 0x10D85,
+x10D8E, 0x10D8F,
+	},
 }
 m["Geok"] = process_ranges{
 	"Khutsuri",
+	1090055,
 	"alphabet",
 	ranges = { -- Ⴀ-Ⴭ is Asomtavruli, ⴀ-ⴭ is Nuskhuri
@@ Line 864: / Line 878: @@
 	varieties = {"Nuskhuri", "Asomtavruli"},
 	capitalized = true,
+	translit = "Geok-translit",
 }
 m["Geor"] = process_ranges{
 	"Georgian",
+	3317411,
 	"alphabet",
 	ranges = { -- ა-ჿ is lowercase Mkhedruli; Ა-Ჿ is uppercase Mkhedruli (Mtavruli)
+x0589, 0x0589,
 x10D0, 0x10FF,
 x1C90, 0x1CBA,
@@ Line 876: / Line 893: @@
 	varieties = {"Mkhedruli", "Mtavruli"},
 	capitalized = true,
+	translit = "Geor-translit",
 }
 m["Glag"] = process_ranges{
 	"Glagolitic",
+,
 	"alphabet",
 	ranges = {
 x0484, 0x0484,
 x0487, 0x0487,
+x0589, 0x0589,
+x10FB, 0x10FB,
 x2C00, 0x2C5F,
 x2E43, 0x2E43,
@@ Line 898: / Line 919: @@
 m["Gong"] = process_ranges{
 	"Gunjala Gondi",
+	18125340,
 	"abugida",
 	ranges = {
@@ Line 912: / Line 934: @@
 m["Gonm"] = process_ranges{
 	"Masaram Gondi",
+	16977603,
 	"abugida",
 	ranges = {
@@ Line 927: / Line 950: @@
 m["Goth"] = process_ranges{
 	"Gothic",
+,
 	"alphabet",
 	ranges = {
@@ Line 936: / Line 960: @@
 m["Gran"] = process_ranges{
 	"Grantha",
+	1119274,
 	"abugida",
 	ranges = {
@@ Line 968: / Line 993: @@
 m["Grek"] = process_ranges{
 	"Greek",
+,
 	"alphabet",
 	ranges = {
-x0342, 0x0342,
+x0341, 0x0341,
-x0345, 0x0345,
+x0374, 0x0375,
-x0370, 0x0377,
+x037E, 0x037E,
-x037A, 0x037F,
 x0384, 0x038A,
 x038C, 0x038C,
 x038E, 0x03A1,
-x03A3, 0x03E1,
+x03A3, 0x03D7,
-x03F0, 0x03FF,
+x03DA, 0x03DB,
+x03DE, 0x03E1,
+x03F0, 0x03F1,
+x03F4, 0x03F4,
+x03FC, 0x03FC,
 x1D26, 0x1D2A,
 x1D5D, 0x1D61,
@@ Line 992: / Line 1,021: @@
 	},
 	capitalized = true,
+	display_text = cs["Grek-displaytext"],
+	strip_diacritics = cs["Grek-stripdiacritics"],
+	sort_key = {
+		remove_diacritics = "'ʼ;·`¨´῀" .. c.grave .. c.acute .. c.diaer .. c.caron .. c.turnedcommaabove .. c.commaabove .. c.revcommaabove .. c.macron .. c.breve .. c.diaerbelow .. c.brevebelow .. c.perispomeni .. c.ypogegrammeni .. c.RSQuo .. c.prime .. c.keraia .. c.lowerkeraia .. c.tonos .. c.coronis .. c.psili .. c.dasia,
+		from = {"ϝ", "ͷ", "ϛ", "ͱ", "ͺ", "ϳ", "ϻ", "[ϟϙ]", "[ςϲ]", "ͳ"},
+		to = {"ε" .. p[1], "ε" .. p[2], "ε" .. p[3], "ζ" .. p[1], "ι", "ι" .. p[1], "π" .. p[1], "π" .. p[2], "σ", "ϡ"},
+	},
 }
 	m["Polyt"] = process_ranges{
 		"Greek",
-		m["Grek"][2],
+		1475332,
+		m["Grek"][3],
 		ranges = union(m["Grek"].ranges, {
+x0340, 0x0340,
+x0342, 0x0345,
+x0370, 0x0373,
+x0376, 0x0377,
+x037A, 0x037D,
+x037F, 0x037F,
+x03D8, 0x03D9,
+x03DC, 0x03DD,
+x03F2, 0x03F3,
+x03F5, 0x03FB,
+x03FD, 0x03FF,
 x1F00, 0x1F15,
 x1F18, 0x1F1D,
@@ Line 1,018: / Line 1,066: @@
 		capitalized = m["Grek"].capitalized,
 		parent = "Grek",
+		display_text = m["Grek"].display_text,
+		strip_diacritics = "Polyt-stripdiacritics",
+		sort_key = m["Grek"].sort_key,
+		translit = "grc-translit",
 	}
 m["Gujr"] = process_ranges{
 	"Gujarati",
+,
 	"abugida",
 	ranges = {
@@ Line 1,048: / Line 1,101: @@
 }
-m["Gukh"] = {
+m["Gukh"] = process_ranges{
 	"Khema",
+	110064239,
 	"abugida",
 	aliases = {"Gurung Khema", "Khema Phri", "Khema Lipi"},
-	-- Not in Unicode
+	ranges = {
+x0965, 0x0965,
+x16100, 0x16139,
+	},
 }
 m["Guru"] = process_ranges{
 	"Gurmukhi",
+,
 	"abugida",
 	ranges = {
@@ Line 1,087: / Line 1,145: @@
 m["Hang"] = process_ranges{
 	"Hangul",
+,
 	"syllabary",
 	aliases = {"Hangeul"},
@@ Line 1,116: / Line 1,175: @@
 m["Hani"] = process_ranges{
 	"Han",
+,
 	"logography",
 	ranges = {
@@ Line 1,129: / Line 1,189: @@
 x3037, 0x303F,
 x3190, 0x319F,
-x31C0, 0x31E3,
+x31C0, 0x31E5,
 x31EF, 0x31EF,
 x3220, 0x3247,
@@ Line 1,166: / Line 1,226: @@
 	m["Hans"] = {
 		"Simplified Han",
-		m["Hani"][2],
+,
+		m["Hani"][3],
 		ranges = m["Hani"].ranges,
 		characters = m["Hani"].characters,
@@ Line 1,175: / Line 1,236: @@
 	m["Hant"] = {
 		"Traditional Han",
-		m["Hani"][2],
+,
+		m["Hani"][3],
 		ranges = m["Hani"].ranges,
 		characters = m["Hani"].characters,
@@ Line 1,184: / Line 1,246: @@
 m["Hano"] = process_ranges{
 	"Hanunoo",
+	1584045,
 	"abugida",
+	aliases = {"Hanunó'o", "Hanuno'o"},
 	ranges = {
 x1720, 0x1736,
@@ Line 1,192: / Line 1,256: @@
 m["Hatr"] = process_ranges{
 	"Hatran",
+	20813038,
 	"abjad",
 	ranges = {
@@ Line 1,203: / Line 1,268: @@
 m["Hebr"] = process_ranges{
 	"Hebrew",
-	"abjad",	-- more precisely, impure abjad
+,
+	"abjad", -- more precisely, impure abjad
 	ranges = {
 x0591, 0x05C7,
@@ Line 1,217: / Line 1,283: @@
 	},
 	direction = "rtl",
+	display_text = "Hebr-common",
+	sort_key = "Hebr-common",
+	strip_diacritics = "Hebr-common",
 }
 m["Hira"] = process_ranges{
 	"Hiragana",
+,
 	"syllabary",
 	ranges = {
@@ Line 1,246: / Line 1,316: @@
 m["Hluw"] = process_ranges{
-	"Anatolian Hieroglyphs",
+	"Anatolian hieroglyphic",
+,
 	"logography, syllabary",
 	ranges = {
@@ Line 1,256: / Line 1,327: @@
 m["Hmng"] = process_ranges{
 	"Pahawh Hmong",
+,
 	"semisyllabary",
 	aliases = {"Hmong"},
@@ Line 1,269: / Line 1,341: @@
 m["Hmnp"] = process_ranges{
 	"Nyiakeng Puachue Hmong",
+	33712499,
 	"alphabet",
 	ranges = {
@@ Line 1,280: / Line 1,353: @@
 m["Hung"] = process_ranges{
 	"Old Hungarian",
+,
 	"alphabet",
 	aliases = {"Hungarian runic"},
@@ Line 1,293: / Line 1,367: @@
 m["Ibrnn"] = {
 	"Northeastern Iberian",
+	1113155,
 	"semisyllabary",
 	ietf_subtag = "Zzzz",
@@ Line 1,300: / Line 1,375: @@
 m["Ibrns"] = {
 	"Southeastern Iberian",
+	2305351,
 	"semisyllabary",
 	ietf_subtag = "Zzzz",
@@ Line 1,308: / Line 1,384: @@
 	-- To be used to avoid any formatting or link processing
 	"Image-rendered",
+,
 	-- This should not have any characters listed
 	ietf_subtag = "Zyyy",
 	translit = false,
-	character_category = false,
+	character_category = false, -- none
 }
 m["Inds"] = {
 	"Indus",
+,
 	aliases = {"Harappan", "Indus Valley"},
 }
@@ Line 1,321: / Line 1,399: @@
 m["Ipach"] = {
 	"International Phonetic Alphabet",
+,
 	aliases = {"IPA"},
 	ietf_subtag = "Latn",
@@ Line 1,327: / Line 1,406: @@
 m["Ital"] = process_ranges{
 	"Old Italic",
+	4891256,
 	"alphabet",
 	ranges = {
@@ Line 1,332: / Line 1,412: @@
 x1032D, 0x1032F,
 	},
+	translit = "Ital-translit",
 }
 m["Java"] = process_ranges{
 	"Javanese",
+,
 	"abugida",
 	ranges = {
@@ Line 1,346: / Line 1,428: @@
 m["Jurc"] = {
 	"Jurchen",
+,
 	"logography",
 	spaces = false,
@@ Line 1,352: / Line 1,435: @@
 m["Kali"] = process_ranges{
 	"Kayah Li",
+	4919239,
 	"abugida",
 	ranges = {
@@ Line 1,360: / Line 1,444: @@
 m["Kana"] = process_ranges{
 	"Katakana",
+,
 	"syllabary",
 	ranges = {
@@ Line 1,388: / Line 1,473: @@
 m["Kawi"] = process_ranges{
 	"Kawi",
+,
 	"abugida",
 	ranges = {
 x11F00, 0x11F10,
 x11F12, 0x11F3A,
-x11F3E, 0x11F59,
+x11F3E, 0x11F5A,
 	},
 }
@@ Line 1,398: / Line 1,484: @@
 m["Khar"] = process_ranges{
 	"Kharoshthi",
+	1161266,
 	"abugida",
 	ranges = {
@@ Line 1,414: / Line 1,501: @@
 m["Khmr"] = process_ranges{
 	"Khmer",
+	1054190,
 	"abugida",
 	ranges = {
@@ Line 1,430: / Line 1,518: @@
 m["Khoj"] = process_ranges{
 	"Khojki",
+	1740656,
 	"abugida",
 	ranges = {
@@ Line 1,441: / Line 1,530: @@
 		to = {"𑈇", "𑈁", "𑈅", "𑈇", "𑈇", "𑈃", "𑈲", "𑈳", "𑈂"}
 	},
+}
+m["Khomt"] = {
+	"Khom Thai",
+	13023788,
+	"abugida",
+	-- Not in Unicode
 }
 m["Kitl"] = {
-	"Khitan Large",
+	"Khitan large",
+	6401797,
 	"logography",
 	spaces = false,
@@ Line 1,450: / Line 1,547: @@
 m["Kits"] = process_ranges{
-	"Khitan Small",
+	"Khitan small",
+	6401800,
 	"logography, syllabary",
 	ranges = {
 x16FE4, 0x16FE4,
 x18B00, 0x18CD5,
+x18CFF, 0x18CFF,
 	},
 	spaces = false,
@@ Line 1,461: / Line 1,560: @@
 m["Knda"] = process_ranges{
 	"Kannada",
+,
 	"abugida",
 	ranges = {
@@ Line 1,479: / Line 1,579: @@
 x0CF1, 0x0CF3,
 x1CD0, 0x1CD0,
-x1CD2, 0x1CD2,
+x1CD2, 0x1CD3,
 x1CDA, 0x1CDA,
 x1CF2, 0x1CF2,
@@ Line 1,489: / Line 1,589: @@
 		to = {"ಊ", "ೠ", "ಔ"}
 	},
+	translit = "kn-translit",
 }
 m["Kpel"] = {
 	"Kpelle",
+	1586299,
 	"syllabary",
 	-- Not in Unicode
 }
-m["Krai"] = {
+m["Krai"] = process_ranges{
 	"Kirat Rai",
+	123173834,
 	"abugida",
 	aliases = {"Rai", "Khambu Rai", "Rai Barṇamālā", "Kirat Khambu Rai"},
-	-- Not in Unicode
+	ranges = {
+x16D40, 0x16D79,
+	},
 }
 m["Kthi"] = process_ranges{
 	"Kaithi",
+	1253814,
 	"abugida",
 	ranges = {
@@ Line 1,513: / Line 1,619: @@
 x110CD, 0x110CD,
 	},
+}
+m["Kulit"] = {
+	"Kulitan",
+	6443044,
+	"abugida",
+	-- Not in Unicode
 }
 m["Lana"] = process_ranges{
 	"Tai Tham",
+	1314503,
 	"abugida",
 	aliases = {"Tham", "Tua Mueang", "Lanna"},
@@ Line 1,531: / Line 1,645: @@
 m["Laoo"] = process_ranges{
 	"Lao",
+	1815229,
 	"abugida",
 	ranges = {
@@ Line 1,550: / Line 1,665: @@
 m["Latn"] = process_ranges{
 	"Latin",
+,
 	"alphabet",
 	aliases = {"Roman"},
@@ Line 1,571: / Line 1,687: @@
 x1D6B, 0x1D77,
 x1D79, 0x1DBE,
+x1DF8, 0x1DF8,
 x1E00, 0x1EFF,
 x202F, 0x202F,
@@ Line 1,586: / Line 1,703: @@
 xA700, 0xA707,
 xA722, 0xA787,
-xA78B, 0xA7CA,
+xA78B, 0xA7CD,
 xA7D0, 0xA7D1,
 xA7D3, 0xA7D3,
-xA7D5, 0xA7D9,
+xA7D5, 0xA7DC,
 xA7F2, 0xA7FF,
 xA92E, 0xA92E,
@@ Line 1,611: / Line 1,728: @@
 	m["Latf"] = {
 		"Fraktur",
-		m["Latn"][2],
+,
+		m["Latn"][3],
 		ranges = m["Latn"].ranges,
 		characters = m["Latn"].characters,
-		otherNames = {"Blackletter"}, -- Blackletter is actually the parent "script"
+		other_names = {"Blackletter"}, -- Blackletter is actually the parent "script"
 		capitalized = m["Latn"].capitalized,
 		translit = m["Latn"].translit,
@@ Line 1,622: / Line 1,740: @@
 	m["Latg"] = {
 		"Gaelic",
-		m["Latn"][2],
+		1432616,
+		m["Latn"][3],
 		ranges = m["Latn"].ranges,
 		characters = m["Latn"].characters,
-		otherNames = {"Irish"},
+		other_names = {"Irish"},
 		capitalized = m["Latn"].capitalized,
 		translit = m["Latn"].translit,
@@ Line 1,633: / Line 1,752: @@
 	m["pjt-Latn"] = {
 		"Latin",
-		m["Latn"][2],
+		nil,
+		m["Latn"][3],
 		ranges = m["Latn"].ranges,
 		characters = m["Latn"].characters,
@@ Line 1,643: / Line 1,763: @@
 m["Leke"] = {
 	"Leke",
+	19572613,
 	"abugida",
 	-- Not in Unicode
@@ Line 1,649: / Line 1,770: @@
 m["Lepc"] = process_ranges{
 	"Lepcha",
+	1481626,
 	"abugida",
+	aliases = {"Róng"},
 	ranges = {
 x1C00, 0x1C37,
@@ Line 1,659: / Line 1,782: @@
 m["Limb"] = process_ranges{
 	"Limbu",
+,
 	"abugida",
 	ranges = {
@@ Line 1,672: / Line 1,796: @@
 m["Lina"] = process_ranges{
 	"Linear A",
+,
 	ranges = {
 x10107, 0x10133,
@@ Line 1,682: / Line 1,807: @@
 m["Linb"] = process_ranges{
 	"Linear B",
+,
 	ranges = {
 x10000, 0x1000B,
@@ Line 1,698: / Line 1,824: @@
 m["Lisu"] = process_ranges{
 	"Fraser",
+	1194621,
 	"alphabet",
 	aliases = {"Old Lisu", "Lisu"},
 	ranges = {
+x300A, 0x300B,
 xA4D0, 0xA4FF,
 x11FB0, 0x11FB0,
@@ Line 1,707: / Line 1,835: @@
 		from = {"['’]", "[.ꓸ][.ꓸ]", "[.ꓸ][,ꓹ]"},
 		to = {"ʼ", "ꓺ", "ꓻ"}
+	},
+	translit = "Lisu-translit",
+	sort_key = {
+		from = {"𑾰"},
+		to = {"ꓬ" .. p[1]}
 	},
 }
@@ Line 1,712: / Line 1,845: @@
 m["Loma"] = {
 	"Loma",
+	13023816,
 	"syllabary",
 	-- Not in Unicode
@@ Line 1,718: / Line 1,852: @@
 m["Lyci"] = process_ranges{
 	"Lycian",
+,
 	"alphabet",
 	ranges = {
@@ Line 1,726: / Line 1,861: @@
 m["Lydi"] = process_ranges{
 	"Lydian",
+	4261300,
 	"alphabet",
 	ranges = {
@@ Line 1,736: / Line 1,872: @@
 m["Mahj"] = process_ranges{
 	"Mahajani",
+	6732850,
 	"abugida",
 	ranges = {
@@ Line 1,746: / Line 1,883: @@
 m["Maka"] = process_ranges{
 	"Makasar",
+	72947229,
 	"abugida",
 	aliases = {"Old Makasar"},
@@ Line 1,755: / Line 1,893: @@
 m["Mand"] = process_ranges{
 	"Mandaic",
+	1812130,
 	aliases = {"Mandaean"},
 	ranges = {
@@ Line 1,766: / Line 1,905: @@
 m["Mani"] = process_ranges{
 	"Manichaean",
+	3544702,
 	"abjad",
 	ranges = {
@@ Line 1,773: / Line 1,913: @@
 	},
 	direction = "rtl",
+	translit = "Mani-translit",
 }
 m["Marc"] = process_ranges{
 	"Marchen",
+	72403709,
 	"abugida",
 	ranges = {
@@ Line 1,787: / Line 1,929: @@
 m["Maya"] = process_ranges{
 	"Maya",
+,
 	aliases = {"Maya hieroglyphic", "Mayan", "Mayan hieroglyphic"},
 	ranges = {
@@ Line 1,795: / Line 1,938: @@
 m["Medf"] = process_ranges{
 	"Medefaidrin",
+	1519764,
 	aliases = {"Oberi Okaime", "Oberi Ɔkaimɛ"},
 	ranges = {
@@ Line 1,804: / Line 1,948: @@
 m["Mend"] = process_ranges{
 	"Mende",
+,
 	aliases = {"Mende Kikakui"},
 	ranges = {
@@ Line 1,814: / Line 1,959: @@
 m["Merc"] = process_ranges{
 	"Meroitic cursive",
+	73028124,
 	"abugida",
 	ranges = {
@@ Line 1,825: / Line 1,971: @@
 m["Mero"] = process_ranges{
 	"Meroitic hieroglyphic",
+	73028623,
 	"abugida",
 	ranges = {
@@ Line 1,830: / Line 1,977: @@
 	},
 	direction = "rtl",
+	wikipedia_article = "Meroitic hieroglyphs",
 }
 m["Mlym"] = process_ranges{
 	"Malayalam",
+	1164129,
 	"abugida",
 	ranges = {
@@ Line 1,853: / Line 2,002: @@
 		to = {"ഈ", "ഊ", "ഐ", "ഓ", "ഔ", "ൿ", "ൺ", "ൻറ", "ൻ", "ൔ", "ൕ", "ർ", "ൽ", "ൾ", "ൖ", "ൈ", "ന്റ"}
 	},
+	translit = "ml-translit",
 }
 m["Modi"] = process_ranges{
 	"Modi",
+	1703713,
 	"abugida",
 	ranges = {
@@ Line 1,869: / Line 2,020: @@
 }
-m["Mong"] = process_ranges{
+do
-	"Mongolian",
+	local Mong_displaytext = {
-	"alphabet",
+		from = {"([ᠨ-ᡂᡸ])ᠶ([ᠨ-ᡂᡸ])", "([ᠠ-ᡂᡸ])ᠸ([^᠋ᠠ-ᠧ])", "([ᠠ-ᡂᡸ])ᠸ$"},
-	aliases = {"Mongol bichig", "Hudum Mongol bichig"},
+		to = {"%1ᠢ%2", "%1ᠧ%2", "%1ᠧ"}
-	ranges = {
+	}
-x1800, 0x1805,
-x180A, 0x1819,
+	m["Mong"] = process_ranges{
-x1820, 0x1842,
+		"Mongolian",
-x1878, 0x1878,
+		1055705,
-x1880, 0x1897,
+		"alphabet",
-x18A6, 0x18A6,
+		aliases = {"Mongol bichig", "Hudum Mongol bichig"},
-x18A9, 0x18A9,
-x200C, 0x200D,
-x202F, 0x202F,
-x11660, 0x11668,
-	},
-	direction = "vertical-ltr",
-}
-	m["mnc-Mong"] = process_ranges{
-		"Manchu",
-		m["Mong"][2],
 		ranges = {
-x1801, 0x1801,
+x1800, 0x1805,
-x1804, 0x1804,
+x180A, 0x1819,
-x1808, 0x180F,
+x1820, 0x1842,
-x1820, 0x1820,
+x1878, 0x1878,
-x1823, 0x1823,
+x1880, 0x1897,
-x1828, 0x182A,
+x18A6, 0x18A6,
-x182E, 0x1830,
+x18A9, 0x18A9,
-x1834, 0x1838,
-x183A, 0x183A,
-x185D, 0x185D,
-x185F, 0x1861,
-x1864, 0x1869,
-x186C, 0x1871,
-x1873, 0x1877,
-x1880, 0x1888,
-x188F, 0x188F,
-x189A, 0x18A5,
-x18A8, 0x18A8,
-x18AA, 0x18AA,
 x200C, 0x200D,
 x202F, 0x202F,
+x3001, 0x3002,
+x3008, 0x300B,
+x11660, 0x11668,
 		},
 		direction = "vertical-ltr",
-		parent = "Mong",
+		display_text = Mong_displaytext,
-	}
+		strip_diacritics = Mong_displaytext,
+		translit = "Mong-translit",
-	m["sjo-Mong"] = process_ranges{
-		"Xibe",
-		m["Mong"][2],
-		aliases = {"Sibe"},
-		ranges = {
-x1804, 0x1804,
-x1807, 0x1807,
-x180A, 0x180F,
-x1820, 0x1820,
-x1823, 0x1823,
-x1828, 0x1828,
-x182A, 0x182A,
-x182E, 0x1830,
-x1834, 0x1838,
-x183A, 0x183A,
-x185D, 0x1872,
-x200C, 0x200D,
-x202F, 0x202F,
-		},
-		direction = "vertical-ltr",
-		parent = "mnc-Mong",
-	}
-	m["xwo-Mong"] = process_ranges{
-		"Clear Script",
-		m["Mong"][2],
-		aliases = {"Todo", "Todo bichig"},
-		ranges = {
-x1800, 0x1801,
-x1804, 0x1806,
-x180A, 0x1820,
-x1828, 0x1828,
-x182F, 0x1831,
-x1834, 0x1834,
-x1837, 0x1838,
-x183A, 0x183B,
-x1840, 0x1840,
-x1843, 0x185C,
-x1880, 0x1887,
-x1889, 0x188F,
-x1894, 0x1894,
-x1896, 0x1899,
-x18A7, 0x18A7,
-x200C, 0x200D,
-x202F, 0x202F,
-x11669, 0x1166C,
-		},
-		direction = "vertical-ltr",
-		parent = "Mong",
 	}
+		m["mnc-Mong"] = process_ranges{
+			"Manchu",
+,
+			m["Mong"][3],
+			ranges = {
+x1801, 0x1801,
+x1804, 0x1804,
+x1808, 0x180F,
+x1820, 0x1820,
+x1823, 0x1823,
+x1828, 0x182A,
+x182E, 0x1830,
+x1834, 0x1838,
+x183A, 0x183A,
+x185D, 0x185D,
+x185F, 0x1861,
+x1864, 0x1869,
+x186C, 0x1871,
+x1873, 0x1877,
+x1880, 0x1888,
+x188F, 0x188F,
+x189A, 0x18A5,
+x18A8, 0x18A8,
+x18AA, 0x18AA,
+x200C, 0x200D,
+x202F, 0x202F,
+			},
+			direction = "vertical-ltr",
+			parent = "Mong",
+			translit = "mnc-translit",
+		}
+		m["sjo-Mong"] = process_ranges{
+			"Xibe",
+			113624153,
+			m["Mong"][3],
+			aliases = {"Sibe"},
+			ranges = {
+x1804, 0x1804,
+x1807, 0x1807,
+x180A, 0x180F,
+x1820, 0x1820,
+x1823, 0x1823,
+x1828, 0x1828,
+x182A, 0x182A,
+x182E, 0x1830,
+x1834, 0x1838,
+x183A, 0x183A,
+x185D, 0x1872,
+x200C, 0x200D,
+x202F, 0x202F,
+			},
+			direction = "vertical-ltr",
+			parent = "mnc-Mong",
+		}
+		m["xwo-Mong"] = process_ranges{
+			"Clear Script",
+,
+			m["Mong"][3],
+			aliases = {"Todo", "Todo bichig"},
+			ranges = {
+x1800, 0x1801,
+x1804, 0x1806,
+x180A, 0x1820,
+x1828, 0x1828,
+x182F, 0x1831,
+x1834, 0x1834,
+x1837, 0x1838,
+x183A, 0x183B,
+x1840, 0x1840,
+x1843, 0x185C,
+x1880, 0x1887,
+x1889, 0x188F,
+x1894, 0x1894,
+x1896, 0x1899,
+x18A7, 0x18A7,
+x200C, 0x200D,
+x202F, 0x202F,
+x11669, 0x1166C,
+			},
+			direction = "vertical-ltr",
+			parent = "Mong",
+			translit = "xwo-translit",
+		}
+end
 m["Moon"] = {
 	"Moon",
+,
 	"alphabet",
 	aliases = {"Moon System of Embossed Reading", "Moon type", "Moon writing", "Moon alphabet", "Moon code"},
@@ Line 1,978: / Line 2,148: @@
 m["Morse"] = {
 	"Morse code",
+,
 	ietf_subtag = "Zsym",
 }
 m["Mroo"] = process_ranges{
-	"Mro",
+	"Mru",
+	75919253,
+	aliases = {"Mro", "Mrung"},
 	ranges = {
 x16A40, 0x16A5E,
@@ Line 1,992: / Line 2,165: @@
 m["Mtei"] = process_ranges{
 	"Meitei Mayek",
+	2981413,
 	"abugida",
 	aliases = {"Meetei Mayek", "Manipuri"},
@@ Line 2,003: / Line 2,177: @@
 m["Mult"] = process_ranges{
 	"Multani",
+	17047906,
 	"abugida",
 	ranges = {
@@ Line 2,015: / Line 2,190: @@
 m["Music"] = process_ranges{
-	"Musical notation",
+	"musical notation",
+,
 	"pictography",
 	ranges = {
@@ Line 2,028: / Line 2,204: @@
 m["Mymr"] = process_ranges{
 	"Burmese",
+	43887939,
 	"abugida",
 	aliases = {"Myanmar"},
@@ Line 2,035: / Line 2,212: @@
 xA9E0, 0xA9FE,
 xAA60, 0xAA7F,
+x116D0, 0x116E3,
 	},
 	spaces = false,
@@ Line 2,040: / Line 2,218: @@
 m["Nagm"] = process_ranges{
-	"Nag Mundari",
+	"Mundari Bani",
+	106917274,
 	"alphabet",
+	aliases = {"Nag Mundari"},
 	ranges = {
 x1E4D0, 0x1E4F9,
@@ Line 2,049: / Line 2,229: @@
 m["Nand"] = process_ranges{
 	"Nandinagari",
+	6963324,
 	"abugida",
 	ranges = {
@@ Line 2,064: / Line 2,245: @@
 m["Narb"] = process_ranges{
-	"Old North Arabian",
+	"Ancient North Arabian",
+	1472213,
 	"abjad",
+	aliases = {"Old North Arabian"},
 	ranges = {
 x10A80, 0x10A9F,
 	},
 	direction = "rtl",
+	translit = "Narb-translit",
 }
 m["Nbat"] = process_ranges{
 	"Nabataean",
+,
 	"abjad",
 	aliases = {"Nabatean"},
@@ Line 2,085: / Line 2,270: @@
 m["Newa"] = process_ranges{
 	"Newa",
+	7237292,
 	"abugida",
 	aliases = {"Newar", "Newari", "Prachalit Nepal"},
@@ Line 2,095: / Line 2,281: @@
 m["Nkdb"] = {
 	"Dongba",
+	1190953,
 	"pictography",
 	aliases = {"Naxi Dongba", "Nakhi Dongba", "Tomba", "Tompa", "Mo-so"},
@@ Line 2,103: / Line 2,290: @@
 m["Nkgb"] = {
 	"Geba",
+,
 	"syllabary",
 	aliases = {"Nakhi Geba", "Naxi Geba"},
@@ Line 2,111: / Line 2,299: @@
 m["Nkoo"] = process_ranges{
 	"N'Ko",
+	1062587,
 	"alphabet",
 	ranges = {
@@ Line 2,124: / Line 2,313: @@
 m["None"] = {
-	"Unspecified", -- renders as 'unspecified script'
+	"unspecified",
+	nil,
 	-- This should not have any characters listed
 	ietf_subtag = "Zyyy",
 	translit = false,
-	character_category = false,
+	character_category = false, -- none
 }
 m["Nshu"] = process_ranges{
 	"Nüshu",
+,
 	"syllabary",
 	aliases = {"Nushu"},
@@ Line 2,144: / Line 2,335: @@
 m["Ogam"] = process_ranges{
 	"Ogham",
+,
 	ranges = {
 x1680, 0x169C,
@@ Line 2,151: / Line 2,343: @@
 m["Olck"] = process_ranges{
 	"Ol Chiki",
+,
 	aliases = {"Ol Chemetʼ", "Ol", "Santali"},
 	ranges = {
@@ Line 2,157: / Line 2,350: @@
 }
-m["Onao"] = {
+m["Onao"] = process_ranges{
 	"Ol Onal",
+	108607084,
 	"alphabet",
-	-- Not in Unicode
+	ranges = {
+x0964, 0x0965,
+x1E5D0, 0x1E5FA,
+x1E5FF, 0x1E5FF,
+	},
 }
 m["Orkh"] = process_ranges{
-	"Orkhon runes",
+	"Old Turkic",
-	aliases = {"Old Turkic"},
+	5058305,
+	aliases = {"Orkhon runic"},
 	ranges = {
 x10C00, 0x10C48,
 	},
 	direction = "rtl",
+	translit = "Orkh-translit",
 }
 m["Orya"] = process_ranges{
 	"Odia",
+	1760127,
 	"abugida",
 	aliases = {"Oriya"},
@@ Line 2,204: / Line 2,405: @@
 m["Osge"] = process_ranges{
 	"Osage",
+	7105529,
 	ranges = {
 x104B0, 0x104D3,
@@ Line 2,213: / Line 2,415: @@
 m["Osma"] = process_ranges{
 	"Osmanya",
+	1377866,
 	ranges = {
 x10480, 0x1049D,
@@ Line 2,221: / Line 2,424: @@
 m["Ougr"] = process_ranges{
 	"Old Uyghur",
+	1998938,
 	"abjad, alphabet",
 	ranges = {
@@ Line 2,233: / Line 2,437: @@
 m["Palm"] = process_ranges{
 	"Palmyrene",
+	17538100,
 	ranges = {
 x10860, 0x1087F,
@@ Line 2,241: / Line 2,446: @@
 m["Pauc"] = process_ranges{
 	"Pau Cin Hau",
+	25339852,
 	ranges = {
 x11AC0, 0x11AF8,
 	},
+}
+m["Pcun"] = {
+	"Proto-Cuneiform",
+	1650699,
+	"pictography",
+	-- Not in Unicode
+}
+m["Pelm"] = {
+	"Proto-Elamite",
+	56305763,
+	"pictography",
+	-- Not in Unicode
 }
 m["Perm"] = process_ranges{
 	"Old Permic",
+,
 	ranges = {
 x0483, 0x0483,
@@ Line 2,256: / Line 2,477: @@
 m["Phag"] = process_ranges{
 	"Phags-pa",
+,
 	"abugida",
 	ranges = {
@@ Line 2,270: / Line 2,492: @@
 m["Phli"] = process_ranges{
 	"Inscriptional Pahlavi",
+	24089793,
 	"abjad",
 	ranges = {
@@ Line 2,280: / Line 2,503: @@
 m["Phlp"] = process_ranges{
 	"Psalter Pahlavi",
+	7253954,
 	"abjad",
 	ranges = {
@@ Line 2,292: / Line 2,516: @@
 m["Phlv"] = {
 	"Book Pahlavi",
+	72403118,
 	"abjad",
 	direction = "rtl",
+	wikipedia_article = "Pahlavi scripts#Book Pahlavi",
 	-- Not in Unicode
 }
@@ Line 2,299: / Line 2,525: @@
 m["Phnx"] = process_ranges{
 	"Phoenician",
+,
 	"abjad",
 	ranges = {
@@ Line 2,305: / Line 2,532: @@
 	},
 	direction = "rtl",
+	translit = "Phnx-translit",
 }
 m["Plrd"] = process_ranges{
 	"Pollard",
+,
 	"abugida",
 	aliases = {"Miao"},
@@ Line 2,320: / Line 2,549: @@
 m["Prti"] = process_ranges{
 	"Inscriptional Parthian",
+	13023804,
 	ranges = {
 x10B40, 0x10B55,
@@ Line 2,325: / Line 2,555: @@
 	},
 	direction = "rtl",
+}
+m["Psin"] = {
+	"Proto-Sinaitic",
+	1065250,
+	"abjad",
+	direction = "rtl",
+	-- Not in Unicode
 }
 m["Ranj"] = {
 	"Ranjana",
+	2385276,
 	"abugida",
 	-- Not in Unicode
@@ Line 2,335: / Line 2,574: @@
 m["Rjng"] = process_ranges{
 	"Rejang",
+	2007960,
 	"abugida",
 	ranges = {
@@ Line 2,344: / Line 2,584: @@
 m["Rohg"] = process_ranges{
 	"Hanifi Rohingya",
+	21028705,
 	"alphabet",
 	ranges = {
@@ Line 2,359: / Line 2,600: @@
 m["Roro"] = {
 	"Rongorongo",
+,
 	-- Not in Unicode
 }
@@ Line 2,364: / Line 2,606: @@
 m["Rumin"] = process_ranges{
 	"Rumi numerals",
+	nil,
 	ranges = {
 x10E60, 0x10E7E,
 	},
 	ietf_subtag = "Arab",
-	character_category = "Rumi numerals",
 }
 m["Runr"] = process_ranges{
 	"Runic",
+,
 	"alphabet",
 	ranges = {
@@ Line 2,380: / Line 2,623: @@
 }
-m["Samr"] = process_ranges{
+do
-	"Samaritan",
+	local Samr_stripdiacritics = {
-	"abjad",
+		remove_diacritics = c.CGJ .. u(0x0816) .. "-" .. u(0x082D),
-	ranges = {
+	}
-x0800, 0x082D,
-x0830, 0x083E,
+	m["Samr"] = process_ranges{
-	},
+		"Samaritan",
-	direction = "rtl",
+		1550930,
-}
+		"abjad",
+		ranges = {
+x0800, 0x082D,
+x0830, 0x083E,
+		},
+		direction = "rtl",
+		strip_diacritics = Samr_stripdiacritics,
+		sort_key = Samr_stripdiacritics,
+	}
+end
 m["Sarb"] = process_ranges{
-	"Old South Arabian",
+	"Ancient South Arabian",
+,
 	"abjad",
+	aliases = {"Old South Arabian"},
 	ranges = {
 x10A60, 0x10A7F,
 	},
 	direction = "rtl",
+	translit = "Sarb-translit",
 }
 m["Saur"] = process_ranges{
 	"Saurashtra",
+	3535165,
 	"abugida",
 	ranges = {
@@ Line 2,410: / Line 2,666: @@
 m["Semap"] = {
 	"flag semaphore",
+,
 	"pictography",
 	ietf_subtag = "Zsym",
@@ Line 2,416: / Line 2,673: @@
 m["Sgnw"] = process_ranges{
 	"SignWriting",
+	1497335,
 	"pictography",
 	aliases = {"Sutton SignWriting"},
@@ Line 2,428: / Line 2,686: @@
 m["Shaw"] = process_ranges{
 	"Shavian",
+	1970098,
 	aliases = {"Shaw"},
 	ranges = {
@@ Line 2,436: / Line 2,695: @@
 m["Shrd"] = process_ranges{
 	"Sharada",
+	2047117,
 	"abugida",
 	ranges = {
@@ Line 2,447: / Line 2,707: @@
 x11180, 0x111DF,
 	},
+	translit = "Shrd-translit",
 }
 m["Shui"] = {
 	"Sui",
+,
 	"logography",
 	spaces = false,
@@ Line 2,458: / Line 2,720: @@
 m["Sidd"] = process_ranges{
 	"Siddham",
+,
 	"abugida",
 	ranges = {
@@ Line 2,463: / Line 2,726: @@
 x115B8, 0x115DD,
 	},
+	translit = "Sidd-translit",
 }
 m["Sidt"] = {
 	"Sidetic",
+,
 	"alphabet",
 	direction = "rtl",
@@ Line 2,473: / Line 2,738: @@
 m["Sind"] = process_ranges{
-	"Khudawadi",
+	"Khudabadi",
+	6402810,
 	"abugida",
-	aliases = {"Khudabadi"},
+	aliases = {"Khudawadi"},
 	ranges = {
 x0964, 0x0965,
@@ Line 2,490: / Line 2,756: @@
 m["Sinh"] = process_ranges{
 	"Sinhalese",
+	1574992,
 	"abugida",
 	aliases = {"Sinhala"},
@@ Line 2,517: / Line 2,784: @@
 m["Sogd"] = process_ranges{
 	"Sogdian",
+,
 	"abjad",
 	ranges = {
@@ Line 2,527: / Line 2,795: @@
 m["Sogo"] = process_ranges{
 	"Old Sogdian",
+	72403254,
 	"abjad",
 	ranges = {
@@ Line 2,536: / Line 2,805: @@
 m["Sora"] = process_ranges{
 	"Sorang Sompeng",
+	7563292,
 	aliases = {"Sora Sompeng"},
 	ranges = {
@@ Line 2,545: / Line 2,815: @@
 m["Soyo"] = process_ranges{
 	"Soyombo",
+	8009382,
 	"abugida",
 	ranges = {
@@ Line 2,553: / Line 2,824: @@
 m["Sund"] = process_ranges{
 	"Sundanese",
+,
 	"abugida",
 	ranges = {
@@ Line 2,560: / Line 2,832: @@
 }
-m["Sunu"] = {
+m["Sunu"] = process_ranges{
 	"Sunuwar",
+	109984965,
 	"alphabet",
-	-- Not in Unicode
+	ranges = {
+x11BC0, 0x11BE1,
+x11BF0, 0x11BF9,
+	},
 }
 m["Sylo"] = process_ranges{
-	"Syloti Nagri",
+	"Sylheti Nagri",
+,
 	"abugida",
-	aliases = {"Sylheti Nagari"},
+	aliases = {"Sylheti Nāgarī", "Syloti Nagri"},
 	ranges = {
 x0964, 0x0965,
@@ Line 2,579: / Line 2,856: @@
 m["Syrc"] = process_ranges{
 	"Syriac",
-	"abjad",	-- more precisely, impure abjad
+,
+	"abjad", -- more precisely, impure abjad
 	ranges = {
 x060C, 0x060C,
@@ Line 2,601: / Line 2,879: @@
 m["Tagb"] = process_ranges{
 	"Tagbanwa",
+,
 	"abugida",
 	ranges = {
@@ Line 2,612: / Line 2,891: @@
 m["Takr"] = process_ranges{
 	"Takri",
+,
 	"abugida",
 	ranges = {
@@ Line 2,627: / Line 2,907: @@
 m["Tale"] = process_ranges{
 	"Tai Nüa",
+	2566326,
 	"abugida",
 	aliases = {"Tai Nuea", "New Tai Nüa", "New Tai Nuea", "Dehong Dai", "Tai Dehong", "Tai Le"},
@@ Line 2,639: / Line 2,920: @@
 m["Talu"] = process_ranges{
 	"New Tai Lue",
+	3498863,
 	"abugida",
 	ranges = {
@@ Line 2,651: / Line 2,933: @@
 m["Taml"] = process_ranges{
 	"Tamil",
+,
 	"abugida",
 	ranges = {
@@ Line 2,687: / Line 2,970: @@
 m["Tang"] = process_ranges{
 	"Tangut",
+	1373610,
 	"logography, syllabary",
 	ranges = {
+x31EF, 0x31EF,
 x16FE0, 0x16FE0,
 x17000, 0x187F7,
@@ Line 2,695: / Line 2,980: @@
 	},
 	spaces = false,
+	translit = "txg-translit",
 }
 m["Tavt"] = process_ranges{
 	"Tai Viet",
+	11818517,
 	"abugida",
 	ranges = {
@@ Line 2,707: / Line 2,994: @@
 }
-m["Tayo"] = {
+m["Tayo"] = process_ranges{
 	"Lai Tay",
+	16306701,
 	"abugida",
 	aliases = {"Tai Yo"},
 	direction = "vertical-rtl",
-	-- Not in Unicode
+	ranges = {
+x1E6C0, 0x1E6DE,
+x1E6E0, 0x1E6F5,
+x1E6FE, 0x1E6FF,
+	},
+	spaces = false,
 }
 m["Telu"] = process_ranges{
 	"Telugu",
+,
 	"abugida",
 	ranges = {
@@ Line 2,745: / Line 3,039: @@
 m["Teng"] = {
 	"Tengwar",
+,
 }
 m["Tfng"] = process_ranges{
 	"Tifinagh",
+,
 	"abjad, alphabet",
 	ranges = {
@@ Line 2,755: / Line 3,051: @@
 x2D7F, 0x2D7F,
 	},
-	otherNames = {"Libyco-Berber", "Berber"}, -- per Wikipedia, Libyco-Berber is the parent
+	other_names = {"Libyco-Berber", "Berber"}, -- per Wikipedia, Libyco-Berber is the parent
 }
 m["Tglg"] = process_ranges{
 	"Baybayin",
+,
 	"abugida",
 	aliases = {"Tagalog"},
+	varieties = {"Kur-itan"},
 	ranges = {
 x1700, 0x1715,
@@ Line 2,771: / Line 3,069: @@
 m["Thaa"] = process_ranges{
 	"Thaana",
+,
 	"abugida",
 	ranges = {
@@ Line 2,786: / Line 3,085: @@
 m["Thai"] = process_ranges{
 	"Thai",
+,
 	"abugida",
 	ranges = {
@@ Line 2,794: / Line 3,094: @@
 }
-m["Tibt"] = process_ranges{
+do
-	"Tibetan",
+	local Tibt_displaytext = {
-	"abugida",
+		from = {"ༀ", "༌", "།།", "༚༚", "༚༝", "༝༚", "༝༝", "ཷ", "ཹ", "ེེ", "ོོ"},
-	ranges = {
+		to = {"ཨོཾ", "་", "༎", "༛", "༟", "࿎", "༞", "ྲཱྀ", "ླཱྀ", "ཻ", "ཽ"}
-x0F00, 0x0F47,
+	}
-x0F49, 0x0F6C,
-x0F71, 0x0F97,
-x0F99, 0x0FBC,
-x0FBE, 0x0FCC,
-x0FCE, 0x0FD4,
-x0FD9, 0x0FDA,
-	},
-	normalizationFixes = handle_normalization_fixes{
-		combiningClasses = {["༹"] = 1},
-		from = {"ཷ", "ཹ"},
-		to = {"ྲཱྀ", "ླཱྀ"}
-	},
-}
-	m["sit-tam-Tibt"] = {
+	m["Tibt"] = process_ranges{
-		"Tamyig",
+		"Tibetan",
-		m["Tibt"][2],
+,
-		ranges = m["Tibt"].ranges,
+		"abugida",
-		characters = m["Tibt"].characters,
+		ranges = {
-		parent = "Tibt",
+x0F00, 0x0F47,
-		normalizationFixes = m["Tibt"].normalizationFixes,
+x0F49, 0x0F6C,
+x0F71, 0x0F97,
+x0F99, 0x0FBC,
+x0FBE, 0x0FCC,
+x0FCE, 0x0FD4,
+x0FD9, 0x0FDA,
+x3008, 0x300B,
+		},
+		normalizationFixes = handle_normalization_fixes{
+			combiningClasses = {["༹"] = 1},
+			from = {"ཷ", "ཹ"},
+			to = {"ྲཱྀ", "ླཱྀ"}
+		},
+		display_text = Tibt_displaytext,
+		strip_diacritics = Tibt_displaytext,
+		sort_key = "Tibt-sortkey",
+		translit = "Tibt-translit",
 	}
+		m["sit-tam-Tibt"] = {
+			"Tamyig",
+			109875213,
+			m["Tibt"][3],
+			-- There is no inheritance of properties currently implemented for scripts. Per [[User:Theknightwho]], this
+			-- is because it's tricky to do since there are several types of child scripts: those that are mere display
+			-- variants (like fa-Arab, kk-Arab), which should be eliminated in favor of CSS language selectors to
+			-- handle the font differences; those that are genuinely different scripts that happen to share the same
+			-- Unicode codepoints but have mostly different properties (e.g. Manchu vs. Mongolian); and those that are
+			-- somewhere in between (like Tamyig vs. Tibetan). As a result, we currently have to manually specify
+			-- which properties we want inherited as follows.
+			ranges = m["Tibt"].ranges,
+			characters = m["Tibt"].characters,
+			parent = "Tibt",
+			normalizationFixes = m["Tibt"].normalizationFixes,
+			display_text = m["Tibt"].display_text,
+			strip_diacritics = m["Tibt"].strip_diacritics,
+			sort_key = m["Tibt"].sort_key,
+			translit = m["Tibt"].translit,
+		}
+end
 m["Tirh"] = process_ranges{
 	"Tirhuta",
+	1765752,
 	"abugida",
 	ranges = {
@@ Line 2,841: / Line 3,167: @@
 m["Tnsa"] = process_ranges{
 	"Tangsa",
+	105576311,
 	"alphabet",
 	ranges = {
@@ Line 2,848: / Line 3,175: @@
 }
-m["Todr"] = {
+m["Todr"] = process_ranges{
 	"Todhri",
+	10274731,
 	"alphabet",
 	direction = "rtl",
-	-- Not in Unicode
+	ranges = {
+x105C0, 0x105F3,
+	},
 }
 m["Tols"] = {
 	"Tolong Siki",
+	4459822,
 	"alphabet",
 	-- Not in Unicode
@@ Line 2,863: / Line 3,194: @@
 m["Toto"] = process_ranges{
 	"Toto",
+	104837516,
 	"abugida",
 	ranges = {
@@ Line 2,869: / Line 3,201: @@
 }
-m["Tutg"] = {
+m["Tutg"] = process_ranges{
 	"Tigalari",
+	2604990,
 	"abugida",
 	aliases = {"Tulu"},
-	-- Not in Unicode
+	ranges = {
+x1CF2, 0x1CF2,
+x1CF4, 0x1CF4,
+xA8F1, 0xA8F1,
+x11380, 0x11389,
+x1138B, 0x1138B,
+x1138E, 0x1138E,
+x11390, 0x113B5,
+x113B7, 0x113C0,
+x113C2, 0x113C2,
+x113C5, 0x113C5,
+x113C7, 0x113CA,
+x113CC, 0x113D5,
+x113D7, 0x113D8,
+x113E1, 0x113E2,
+	},
 }
 m["Ugar"] = process_ranges{
 	"Ugaritic",
+,
 	"abjad",
 	ranges = {
@@ Line 2,887: / Line 3,236: @@
 m["Vaii"] = process_ranges{
 	"Vai",
+,
 	"syllabary",
 	ranges = {
@@ Line 2,895: / Line 3,245: @@
 m["Visp"] = {
 	"Visible Speech",
+	1303365,
 	"alphabet",
 	-- Not in Unicode
@@ Line 2,901: / Line 3,252: @@
 m["Vith"] = process_ranges{
 	"Vithkuqi",
+	3301993,
 	"alphabet",
 	ranges = {
@@ Line 2,917: / Line 3,269: @@
 m["Wara"] = process_ranges{
 	"Varang Kshiti",
+,
 	aliases = {"Warang Citi"},
 	ranges = {
@@ Line 2,927: / Line 3,280: @@
 m["Wcho"] = process_ranges{
 	"Wancho",
+	33713728,
 	"alphabet",
 	ranges = {
@@ Line 2,936: / Line 3,290: @@
 m["Wole"] = {
 	"Woleai",
+	6643710,
 	"syllabary",
 	-- Not in Unicode
@@ Line 2,942: / Line 3,297: @@
 m["Xpeo"] = process_ranges{
 	"Old Persian",
+	1471822,
 	ranges = {
 x103A0, 0x103C3,
@@ Line 2,950: / Line 3,306: @@
 m["Xsux"] = process_ranges{
 	"Cuneiform",
+,
 	aliases = {"Sumero-Akkadian Cuneiform"},
 	ranges = {
@@ Line 2,961: / Line 3,318: @@
 m["Yezi"] = process_ranges{
 	"Yezidi",
+	13175481,
 	"alphabet",
 	ranges = {
@@ Line 2,976: / Line 3,334: @@
 m["Yiii"] = process_ranges{
 	"Yi",
+	1197646,
 	"syllabary",
 	ranges = {
@@ Line 2,990: / Line 3,349: @@
 m["Zanb"] = process_ranges{
 	"Zanabazar Square",
+	50809208,
+	"abugida",
 	ranges = {
 x11A00, 0x11A47,
@@ Line 2,997: / Line 3,358: @@
 m["Zmth"] = process_ranges{
 	"mathematical notation",
+	1140046,
 	ranges = {
 x00AC, 0x00AC,
@@ Line 3,134: / Line 3,496: @@
 	},
 	translit = false,
-	character_category = "Mathematical notation symbols", -- ?
+}
+m["Zname"] = process_ranges{
+	"Znamenny musical notation",
+,
+	"pictography",
+	ranges = {
+x1CF00, 0x1CF2D,
+x1CF30, 0x1CF46,
+x1CF50, 0x1CFC3,
+	},
+	ietf_subtag = "Zsym",
+	translit = false,
 }
 m["Zsym"] = process_ranges{
-	"symbol",
+	"symbolic",
+,
 	"pictography",
 	ranges = {
@@ Line 3,233: / Line 3,608: @@
 m["Zyyy"] = {
 	"undetermined",
+	104839687,
 	-- This should not have any characters listed, probably
 	translit = false,
@@ Line 3,240: / Line 3,616: @@
 m["Zzzz"] = {
 	"uncoded",
-	-- This should not have any characters listed
+	104839675,
-	translit = false,
+	-- This should not have any characters listed
-	character_category = false, -- none
+	translit = false,
+	character_category = false, -- none
+}
+-- These should be defined after the scripts they are composed of.
+m["Hrkt"] = process_ranges{
+	"Kana",
+,
+	"syllabary",
+	aliases = {"Japanese syllabaries"},
+	ranges = union(
+		m["Hira"].ranges,
+		m["Kana"].ranges
+	),
+	spaces = false,
+}
+m["Jpan"] = process_ranges{
+	"Japanese",
+,
+	"logography, syllabary",
+	ranges = union(
+		m["Hrkt"].ranges,
+		m["Hani"].ranges,
+		m["Latn"].ranges
+	),
+	spaces = false,
+	sort_by_scraping = true,
+}
+m["Kore"] = process_ranges{
+	"Korean",
+,
+	"logography, syllabary",
+	ranges = union(
+		m["Hang"].ranges,
+		m["Hani"].ranges,
+		m["Latn"].ranges
+	),
+	-- `漢字(한자)`→`漢字`
+	-- `가-나-다`→`가나다`, `가--나--다`→`가-나-다`
+	-- `온돌(溫突/溫堗)`→`온돌` ([[ondol]])
+	strip_diacritics = {
+		remove_diacritics = u(0x302E) .. u(0x302F),
+		from = {"([" .. m["Hani"].characters .. "])%(.-%)", "^%-", "%-$", "%-(%-?)", "\1", "%([" .. m["Hani"].characters .. "/]+%)"},
+		to = {"%1", "\1", "\1", "%1", "-"}
+	}
+}
+--Constructed languages
+m["Ayer"] = process_ranges{
+	"Tahano Hikamu",
+	nil,
+	"abugida",
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x002A, 0x002A,
+x00F1, 0x00F1,
+x00D1, 0x00D1,
+x0294, 0x0294,
+x0259, 0x0259,
+x018F, 0x018F,
+xA736, 0xA737,
+x0026, 0x0026,
+x002B, 0x002D,
+x005B, 0x005B,
+x005D, 0x005D,
+x00A8, 0x00A8,
+x00AF, 0x00AF,
+x00B2, 0x00B2,
+x00B9, 0x00B9,
+x02B0, 0x2B2,
+x02C0, 0x02C0,
+x02D0, 0x02D0,
+	},
+	character_category = false,
+}
+m["Jovl"] = process_ranges{
+	"Jovlish",
+	nil,
+	"alphabet",
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x00AA, 0x00AA,
+x00BA, 0x00BA,
+x00C0, 0x00D6,
+x00D8, 0x00F6,
+x00F8, 0x02B8,
+x022B, 0x022B,
+x02C0, 0x02C1,
+x02E0, 0x02E4,
+x0363, 0x036F,
+x039E, 0x039E,
+x03A8, 0x03A8,
+x03BE, 0x03BE,
+x03C8, 0x03C8,
+x0485, 0x0486,
+x0951, 0x0952,
+x10FB, 0x10FB,
+x1D00, 0x1D25,
+x1D2C, 0x1D5C,
+x1D62, 0x1D65,
+x1D6B, 0x1D77,
+x1D79, 0x1DBE,
+x1DF8, 0x1DF8,
+x1E00, 0x1EFF,
+x202F, 0x202F,
+x2071, 0x2071,
+x207F, 0x207F,
+x2090, 0x209C,
+x20F0, 0x20F0,
+x2100, 0x2125,
+x2128, 0x2128,
+x212A, 0x2134,
+x2139, 0x213B,
+x2141, 0x214E,
+x2160, 0x2188,
+x2C60, 0x2C7F,
+xA700, 0xA707,
+xA722, 0xA787,
+xA78B, 0xA7CD,
+xA7D0, 0xA7D1,
+xA7D3, 0xA7D3,
+xA7D5, 0xA7DC,
+xA7F2, 0xA7FF,
+xA92E, 0xA92E,
+xAB30, 0xAB5A,
+xAB5C, 0xAB64,
+xAB66, 0xAB69,
+xFB00, 0xFB06,
+xFF21, 0xFF3A,
+xFF41, 0xFF5A,
+x10780, 0x10785,
+x10787, 0x107B0,
+x107B2, 0x107BA,
+x1DF00, 0x1DF1E,
+x1DF25, 0x1DF2A,
+	},
+	character_category = false,
+}
+m["Gthv"] = process_ranges{
+	"Gothevian",
+	nil,
+	"alphabet",
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x00C1, 0x00C4,
+x00C8, 0x00CB,
+x00CD, 0x00CD,
+x00CF, 0x00CF,
+x00D2, 0x00D4,
+x00D6, 0x00D6,
+x00DA, 0x00DC,
+x00DD, 0x00DD,
+x00E1, 0x00E4,
+x00E8, 0x00EB,
+x00ED, 0x00ED,
+x00EF, 0x00EF,
+x00F2, 0x00F4,
+x00F6, 0x00F6,
+x00FA, 0x00FC,
+x00FD, 0x00FD,
+x00FF, 0x00FF,
+x0110, 0x0111,
+x0160, 0x0161,
+x0178, 0x0178,
+x017D, 0x017E,
+x0186, 0x0186,
+x0190, 0x0190,
+x0195, 0x0195,
+x01F6, 0x01F6,
+x0254, 0x0254,
+x025B, 0x025B,
+x0398, 0x0398,
+x039E, 0x039E,
+x03A8, 0x03A8,
+x03B8, 0x03B8,
+x03BE, 0x03BE,
+x03C8, 0x03C8,
+	},
+	character_category = false,
+}
+m["Roka"] = process_ranges{
+	"Rokadong Curakjang",
+	nil,
+	"abugida",
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x0022, 0x0022,
+x0027, 0x0027,
+x002A, 0x002A,
+x002D, 0x002D,
+x005B, 0x005D,
+x007B, 0x007B,
+x007D, 0x007D
+	},
+	character_category = false,
+}
+m["Rsnold"] = process_ranges{
+	"Old Raysian",
+	nil,
+	"alphabet",
+	ranges = {
+x0041, 0x007A
+	},
+	character_category = false,
+}
+m["Pann"] = process_ranges{
+	"Pannonian",
+	nil,
+	"alphabet",
+	ranges = {
+x0041, 0x005A,
+x0061, 0x007A,
+x1D9C, 0x1D9D,
+x1D47, 0x1D4B,
+x02E1, 0x02E3,
+x0410, 0x044F,
+x0404, 0x0454,
+x04AE, 0x04B1,
+x0250, 0x0254,
+x0265, 0x0278,
+x028C, 0x028D,
+x0224, 0x0225,
+x01BA, 0x01BE,
+x019A, 0x01A3,
+x012D, 0x0131,
+xA793, 0xA794
+	},
+	character_category = false,
+}
+m["Teul"] = process_ranges{
+	"Teulgi",
+	nil,
+	"alphabet",
+	ranges = m["Latn"].ranges,
+	characters = m["Latn"].characters,
+	character_category = false,
+}
+m["Tugv"] = process_ranges{
+	"Tuġvut",
+	nil,
+	"alphabet",
+	ranges = m["Latn"].ranges,
+	characters = m["Latn"].characters,
+	character_category = false,
+}
+m["Ucrn"] = process_ranges{
+	"Draconian",
+	nil,
+	"alphabet",
+	ranges = {
+x0020, 0x0021,
+x0023, 0x0023,
+x0027, 0x0027,
+x0030, 0x0034,
+x0040, 0x0040,
+x0047, 0x0048,
+x004B, 0x004B,
+x0050, 0x0050,
+x0058, 0x0058,
+x0066, 0x0067,
+x0069, 0x006A,
+x006F, 0x0072,
+x0079, 0x0079,
+x010D, 0x010D,
+x014B, 0x014B,
+x01A9, 0x01A9,
+x01E7, 0x01E7,
+x0238, 0x0238,
+x024F, 0x024F,
+x1EFA, 0x1EFB,
+	};
+	character_category = false,
 }
--- These should be defined after the scripts they are composed of.
-m["Hrkt"] = process_ranges{
-	"Kana",
-	"syllabary",
-	aliases = {"Japanese syllabaries"},
-	ranges = union(
-		m["Hira"].ranges,
-		m["Kana"].ranges
-	),
-	spaces = false,
-}
-m["Jpan"] = process_ranges{
-	"Japanese",
-	"logography, syllabary",
-	ranges = union(
-		m["Hrkt"].ranges,
-		m["Hani"].ranges,
-		m["Latn"].ranges
-	),
-	spaces = false,
-	sort_by_scraping = true,
-}
-m["Kore"] = process_ranges{
-	"Korean",
-	"logography, syllabary",
-	ranges = union(
-		m["Hang"].ranges,
-		m["Hani"].ranges,
-		m["Latn"].ranges
-	),
-}
-return m
+return require("Module:languages").finalizeData(m, "script")

Retrieved from "https://linguifex.com/wiki/Module:scripts/data"

Languages

This page is not available in other languages.

Linguifex

Privacy policy
About Linguifex
Disclaimers
Desktop