Modul:Language/data
Videz
The redirects
table in Module:Language/data connects Wikipedia language codes to the corresponding code used on the English Wiktionary. wikt:Wiktionary:Language treatment records this relationship for ISO codes. For instance, all of bs
(Bosnian), hr
(Croatian), sr
(Serbian), cnr
(Montenegrin), kjv
(Kajkavian) are placed under the header for sh
(Serbo-Croatian) in Wiktionary entries. See for instance wikt:kaj#Serbo-Croatian, the word that Kajkavian is named after. The subsumed codes should still be used in language-tagging on Wikipedia.
Subpages
[uredi kodo]Pages with the prefix 'Language/data' in the 'Module' and 'Module talk' namespaces:
Module:
Language/data |
- Language/data/ISO 639-1
- Language/data/ISO 639-2
- Language/data/ISO 639-2B
- Language/data/ISO 639-3
- Language/data/ISO 639-3 (dep)
- Language/data/ISO 639-5
- Language/data/ISO 639 deprecated
- Language/data/ISO 639 name to code
- Language/data/ISO 639 override
- Language/data/dok
- Language/data/iana languages
- Language/data/iana languages/dok
- Language/data/iana languages translation
- Language/data/iana languages translation/testniprimeri
- Language/data/iana languages translation/testniprimeri 2
- Language/data/iana regions
- Language/data/iana scripts
- Language/data/iana suppressed scripts
- Language/data/iana variants
- Language/data/wp languages
- Language/data/wp languages/dok
Module talk:
Zgornja dokumentacija je vključena iz Modul:Language/data/dok. (uredi | zgodovina) Urejevalci lahko preizkušate ta modul v peskovniku (ustvari | mirror) in testnihprimerih (ustvari). Prosimo, da dodate kategorije v /dok podstran. Podstrani te predloge. |
local U = mw.ustring.char
-- Diacritics, from the [[Combining Diacritical Marks]] block.
local grave = U(0x300)
local acute = U(0x301)
local circumflex = U(0x302)
local tilde = U(0x303)
local macron = U(0x304)
local breve = U(0x306)
local dot = U(0x307)
local diaeresis = U(0x308)
local double_acute = U(0x30B)
local double_grave = U(0x30F)
local invbreve = U(0x311)
local dot_below = U(0x323)
local undertie = U(0x35C)
--[[
This is a table of Wiktionary language codes with data belonging to them.
Name is the "canonical name" used on Wiktionary.
Article is the Wikipedia article.
Script is the ISO 15924 code.
]]
local data = {
["languages"] = {
["ab"] = {
["name"] = "abhaščina",
},
["ang"] = {
["name"] = "stara angleščina",
["article"] = {"stara angleščina"},
-- ["scripts"] = {"Latn"},
-- Remove macrons, acutes, and overdots
["replacements"] = {
decompose = true,
from = { "[" .. macron .. acute .. dot .. "]" },
},
},
["ar"] = {
["name"] = "arabščina",
["article"] = "arabščina",
-- ["scripts"] = { "Arab" },
["direction"] = "rtl", -- Should be in the script data module.
["replacements"] = {
-- ālif with wasla is replaced by ālif;
[U(0x0671)] = U(0x0627),
-- taṭwīl, fatḥatan, ḍammatan, kasratan,
-- fatḥa, ḍamma, kasra,
-- shadda, sukūn, and superscript (dagger) ālif are removed.
["["..U(0x0640)..U(0x064B)..U(0x064C)..U(0x064D)
..U(0x064E)..U(0x064F)..U(0x0650)
..U(0x0651)..U(0x0652)..U(0x0670).."]"] = "",
},
},
["av"] = {
["name"] = "avarščina"
},
["be"] = {
["article"] = "beloruščina",
-- ["scripts"] = { "Cyrl" },
["replacements"] = { [acute] = "", },
},
["bn"] = {
["name"] = "bengalščina",
["article"] = "bengalščina",
-- ["scripts"] = { "Beng" },
},
["bua"] = {
["name"] = "burjatščina",
},
["cel-pro"] = {
["name"] = "prakeltščina",
["Wikipedia_code"] = "cel-x-proto",
},
["cu"] = {
["name"] = "starocerkvena slovanščina",
["article"] = "starocerkvena slovanščina",
-- ["scripts"] = { "Cyrs" },
},
["de"] = {
["name"] = "nemščina",
["article"] = "nemščina",
-- ["scripts"] = { "Latn" },
--[[
["replacements"] = {
["ae"] = "ä",
["oe"] = "ö",
["ue"] = "ü",
["A[Ee]"] = "Ä",
["O[Ee]"] = "Ö",
["U[Ee]"] = "Ü",
},
]]
},
["en"] = {
["name"] = "angleščina",
["article"] = "angleščina",
-- ["scripts"] = { "Latn" },
},
["es"] = {
["name"] = "španščina",
["article"] = "španščina",
-- ["scripts"] = { "Latn" },
},
["egy"] = {
["name"] = "egipščanščina",
},
["fr"] = {
["name"] = "francoščina",
["article"] = "francoščina",
-- ["scripts"] = { "Latn" },
},
["frm"] = {
["name"] = "srednja francoščina",
["article"] = "srednja francoščina",
-- ["scripts"] = { "Latn" },
},
["frp"] = {
["name"] = "frankoprovansalščina",
},
["ff"] = {
["name"] = "fulščina",
},
["gem-pro"] = {
["name"] = "pragermanščina",
["article"] = "pragermanščina",
-- ["scripts"] = { "Latn" },
["type"] = "reconstructed",
["replacements"] = {},
["Wikipedia_code"] = "gem-x-proto",
},
["gmw-ecg"] = {
["name"] = "East Central German",
},
["got"] = {
["name"] = "gotščina",
["article"] = "gotščina",
-- ["scripts"] = { "Goth" },
["replacements"] = {
-- Latin to Gothic since people will not want to have to copy
-- and paste Gothic letters in
["[AÁaáĀā]"] = "𐌰",
["[Bb]"] = "𐌱",
["[Gg]"] = "𐌲",
["[Dd]"] = "𐌳",
["[EeĒē]"] = "𐌴",
["[Qq]"] = "𐌵",
["[Zz]"] = "𐌶",
["[Hh]"] = "𐌷",
["[Þþ]"] = "𐌸",
["[IiÍí]"] = "𐌹",
["[Kk]"] = "𐌺",
["[Ll]"] = "𐌻",
["[Mm]"] = "𐌼",
["[Nn]"] = "𐌽",
["[Jj]"] = "𐌾",
["[UuÚúŪū]"] = "𐌿",
["[Pp]"] = "𐍀",
["[Rr]"] = "𐍂",
["[Ss]"] = "𐍃",
["[Tt]"] = "𐍄",
["[WwYy]"] = "𐍅",
["[Ff]"] = "𐍆",
["[Xx]"] = "𐍇",
["[Ƕƕ]"] = "𐍈", -- Not sure if "hw" and "hv" can safely be converted
["[OoŌō]"] = "𐍉",
},
},
["gsw"] = {
["name"] = "alemanska nemščina",
},
["grc"] = {
["name"] = "stara grščina",
["article"] = "stara grščina",
-- ["scripts"] = { "Grek" },
["replacements"] = {
decompose = true,
from = {
-- Replace variant letterforms with standard ones.
"ϐ", "ϵ", "ϑ", "ϰ", "ϱ", "ϲ", "ϕ",
-- Remove macrons and breves.
"[" .. macron .. breve .. undertie .. "]"
},
to = {
"β", "ε", "θ", "κ", "ρ", "σ", "φ",
}
},
},
["grk-pro"] = {
["name"] = "pragrščina",
["Wikipedia_name"] = "pragrščina",
["article"] = "pragrščina",
-- ["scripts"] = { "Latn" },
["type"] = "reconstructed",
["replacements"] = {},
},
["ha"] = {
["name"] = "havščina",
-- remove tilde, grave, acute, macron, circumflex
["replacements"] = {
decompose = true,
from = { "[" .. grave .. circumflex .. macron .. acute .. tilde .. "]" },
},
},
["hi"] = {
["name"] = "hindijščina",
["article"] = "hindijščina",
-- ["scripts"] = { "Deva" },
},
["ine-bsl-pro"] = {
["name"] = "prabaltoslovanščina",
["article"] = "prabaltoslovanščina",
["type"] = "reconstructed",
},
["ine-pro"] = {
["name"] = "praindoevropščina",
["article"] = "indoevropski prajezik",
-- ["scripts"] = { "Latn" },
["type"] = "reconstructed",
["replacements"] = {},
["Wikipedia_code"] = "ine-x-proto",
},
["ja"] = {
["name"] = "japonščina",
["article"] = "japonščina",
-- ["scripts"] = { "Jpan" },
},
["jbo"] = { -- Lojban
["type"] = "appendix",
},
["la"] = {
["name"] = "latinščina",
["article"] = "latinščina",
-- ["scripts"] = { "Latn" },
["replacements"] = {
-- Remove macrons, breves, and diaereses.
decompose = true,
from = { "[" .. macron .. breve .. diaeresis .. "]" },
},
},
["lt"] = {
["name"] = "litovščina",
["article"] = "litovščina", -- remove acute, tilde, grave
["replacements"] = {
decompose = true,
from = { "[" .. acute .. tilde .. grave .. "]" },
},
},
["moe"] = {
["name"] = "krijščina",
["article"] = "krijščina",
-- ["scripts"] = { "Latn" },
},
["mul"] = {
["name"] = "translingvalno",
["article"] = "",
-- ["scripts"] = { "" },
},
["nci"] = {
["name"] = "klasična nahuatlščina",
["article"] = "klasična nahuatlščina",
-- ["scripts"] = {"Latn"},
-- Remove macrons, acutes, circumflexes and graves
["replacements"] = {
decompose = true,
-- Remove macrons, acutes, circumflexes, graves, and saltillo;
-- see [[Saltillo (linguistics)]].
from = { "[" .. grave .. acute .. macron .. circumflex .. "Ꞌꞌʻʼ'ʔ]" },
},
},
["nds-de"] = {
["name"] = "nizka nemščina",
},
["oj"] = {
["name"] = "anašinabščina",
["article"] = "anašinabščina",
-- ["scripts"] = { "Latn" },
},
["orv"] = {
["name"] = "stara vzhodna slovanščina",
["article"] = "stara vzhodna slovanščina",
-- ["scripts"] = { "Cyrs" },
["replacements"] = {
[U(0x484)] = "",
},
},
["pt"] = {
["name"] = "portugalščina",
["article"] = "portugalščina",
-- ["scripts"] = { "Latn" },
},
["pa"] = {
["name"] = "pandžabščina",
["article"] = "pandžabščina",
-- ["scripts"] = { "Guru", "Arab", },
},
["ru"] = {
["name"] = "ruščina",
["article"] = "ruščina",
-- ["scripts"] = { "Cyrl" },
["replacements"] = { [acute] = "", },
},
["rw"] = {
["name"] = "Rwanda-Rundi",
},
["se"] = {
["replacements"] = {
["([đflmnŋrsšŧv])'%1"] = "%1%1",
},
},
["sh"] = {
["article"] = "srbohrvaščina",
-- ["scripts"] = { "Latn", "Cyrl" },
["replacements"] = {
decompose = true,
from = { "([AaEeIiOoUuRrАаЕеИиОоУуРр])[" .. double_grave
.. grave .. invbreve .. acute .. macron .. tilde .. "]" },
to = { "%1" },
},
},
["sla-pro"] = {
["name"] = "praslovanščina", -- also Common Slavic
["type"] = "reconstructed",
-- ["scripts"] = { "Latn" },
["replacements"] = {
["[ÀÁÃĀȀȂ]"] = "A",
["[àáãāȁȃ]"] = "a",
["[ÈÉẼĒȄȆ]"] = "E",
["[èéẽēȅȇ]"] = "e",
["[ÌÍĨĪȈȊ]"] = "I",
["[ìíĩīȉȋ]"] = "i",
["[ÒÓÕŌȌȎŐ]"] = "O",
["[òóõōȍȏő]"] = "o",
["[ÙÚŨŪȔȖŰ]"] = "U",
["[ùúũūȕȗű]"] = "u",
["[ỲÝỸȲ]"] = "Y",
["[ỳýỹȳ]"] = "y",
["Ǭ"] = "Ǫ",
["ǭ"] = "ǫ",
["[" .. grave .. acute .. double_acute .. tilde .. macron .. double_grave .. invbreve .. "]"] = "",
["ĭ"] = "ь",
["ŭ"] = "ъ",
},
},
["uk"] = {
["article"] = "ukrajinščina",
-- ["scripts"] = { "Cyrl" },
["replacements"] = { [acute] = "", }
},
["ur"] = {
["name"] = "urdujščina",
["article"] = "urdujščina",
-- ["scripts"] = { "Arab" },
},
["zh"] = {
["name"] = "kitajščina",
["article"] = "kitajščina",
-- ["scripts"] = { "Hani" },
},
["xcl"] = {
["name"] = "stara armenščina",
["article"] = "klasična armenščina",
-- ["scripts"] = { "Armn" },
["replacements"] = {
["[՞՜՛՟]"] = "",
["և"] = "եւ",
},
},
["xvn"] = {
["name"] = "vandalščina",
["article"] = "vandalščina",
-- ["scripts"] = { "Latn" },
},
--[[
[""] = {
["name"] = "",
["article"] = "",
-- ["scripts"] = { "" },
},
[""] = {
["name"] = "",
["article"] = "",
-- ["scripts"] = { "" },
["replacements"] = {
},
},
]]
},
-- Here, keys (for example, "gem") are Wikipedia language codes used in
-- {{lang}}, and values (for example, "gem-pro") are the equivalent Wiktionary
-- code.
-- Subtags are not currently supported.
["redirects"] = {
["aae"] = "sq",
["aiq"] = "fa",
["aln"] = "sq",
["als"] = "sq",
["azb"] = "az",
["azj"] = "az",
["bgn"] = "bal",
["bs"] = "sh",
["bxr"] = "bua",
["cel-x-proto"] = "cel-pro",
["ciw"] = "oj",
["cnr"] = "sh",
["fil"] = "tl",
["fuf"] = "ff",
["gem"] = "gem-pro", -- Not correct, but is commonly used.
["gem-x-proto"] = "gem-pro",
["hak"] = "zh",
["hbo"] = "he",
["hr"] = "sh",
["ine"] = "ine-pro", -- Not correct, but might be commonly used.
["ine-x-proto"] = "ine-pro",
["kjv"] = "sh",
["nan"] = "zh",
["prs"] = "fa",
["rn"] = "rw",
["sli"] = "gmw-ecg",
["sr"] = "sh",
["src"] = "sc",
["sro"] = "sc",
["tw"] = "ak",
["wae"] = "gsw",
["wep"] = "nds-de",
["yue"] = "zh",
["xno"] = "fro",
},
}
return data