From 35d49f3bdb089c6afe5071068da6aca3ef922118 Mon Sep 17 00:00:00 2001
From: Charles Lew <crlf0710@gmail.com>
Date: Mon, 4 May 2020 18:00:08 +0800
Subject: [PATCH] Implement rustc_mixed_script_confusable_detection.

---
 scripts/unicode.py                            | 332 +++++++++++++++++-
 src/lib.rs                                    |   2 +
 ...rustc_mixed_script_confusable_detection.rs |  17 +
 src/tables.rs                                 | 155 ++++++++
 4 files changed, 497 insertions(+), 9 deletions(-)
 create mode 100644 src/rustc_mixed_script_confusable_detection.rs

diff --git a/scripts/unicode.py b/scripts/unicode.py
index 1ef28ec..fbcdd0a 100644
--- a/scripts/unicode.py
+++ b/scripts/unicode.py
@@ -47,6 +47,15 @@ def fetch(f):
         sys.stderr.write("cannot load %s\n" % f)
         exit(1)
 
+def fetch_unidata(f):
+    if not os.path.exists(os.path.basename(f)):
+        os.system("curl -O http://www.unicode.org/Public/%s/ucd/%s"
+                  % (UNICODE_VERSION_NUMBER, f))
+
+    if not os.path.exists(os.path.basename(f)):
+        sys.stderr.write("cannot load %s" % f)
+        exit(1)
+
 # Implementation from unicode-segmentation
 def load_properties(f, interestingprops = None):
     fetch(f)
@@ -81,6 +90,41 @@ def load_properties(f, interestingprops = None):
 
     return props
 
+def load_script_properties(f, interestingprops):
+    fetch_unidata(f)
+    props = {}
+    # Note: these regexes are different from those in unicode-segmentation,
+    # becase we need to handle spaces here
+    re1 = re.compile(r"^ *([0-9A-F]+) *; *([^#]+) *#")
+    re2 = re.compile(r"^ *([0-9A-F]+)\.\.([0-9A-F]+) *; *([^#]+) *#")
+
+    for line in fileinput.input(os.path.basename(f)):
+        prop = None
+        d_lo = 0
+        d_hi = 0
+        m = re1.match(line)
+        if m:
+            d_lo = m.group(1)
+            d_hi = m.group(1)
+            prop = m.group(2).strip()
+        else:
+            m = re2.match(line)
+            if m:
+                d_lo = m.group(1)
+                d_hi = m.group(2)
+                prop = m.group(3).strip()
+            else:
+                continue
+        if interestingprops and prop not in interestingprops:
+            continue
+        d_lo = int(d_lo, 16)
+        d_hi = int(d_hi, 16)
+        if prop not in props:
+            props[prop] = []
+        props[prop].append((d_lo, d_hi))
+
+    return props
+
 def load_confusables(f):
     fetch(f)
     confusables = []
@@ -97,12 +141,244 @@ def load_confusables(f):
             raise Exception('More than one code point in first column')
         d_input = int(d_inputs[0].strip(), 16)
         for d_output in m.group(2).split():
-            d_outputitem = int(d_output, 16);
-            d_outputs.append(d_outputitem);
+            d_outputitem = int(d_output, 16)
+            d_outputs.append(d_outputitem)
         confusables.append((d_input, d_outputs))
 
     return confusables
 
+def aliases():
+    """
+    Fetch the shorthand aliases for each longhand Script name
+    """
+    fetch_unidata("PropertyValueAliases.txt")
+    longforms = {}
+    shortforms = {}
+    re1 = re.compile(r"^ *sc *; *(\w+) *; *(\w+)")
+    for line in fileinput.input(os.path.basename("PropertyValueAliases.txt")):
+        m = re1.match(line)
+        if m:
+            l = m.group(2).strip()
+            s = m.group(1).strip()
+            assert(s not in longforms)
+            assert(l not in shortforms)
+            longforms[s] = l
+            shortforms[l] = s
+        else:
+            continue
+
+    return (longforms, shortforms)
+
+def load_scripts(f):
+    (longforms, shortforms) = aliases()
+    scripts = load_script_properties(f, [])
+
+    script_table = []
+    script_list = []
+
+    for script in scripts:
+        if script not in ["Common", "Unknown", "Inherited"]:
+            script_list.append(shortforms[script])
+        script_table.extend([(x, y, shortforms[script]) for (x, y) in scripts[script]])
+    script_list.sort()
+    script_table.sort(key=lambda w: w[0])
+    return (longforms, script_table)
+
+def is_script_ignored_in_mixedscript(source):
+    return source == 'Zinh' or source == 'Zyyy' or source == 'Zzzz'
+
+def process_mixedscript_single_to_multi(item_i, script_i, proto_lst, scripts):
+    script_lst = script_list(proto_lst, scripts)
+    script_lst.sort()
+    # here's a few rules to process current version of Unicode data (13.0 at this time)
+    script_lst_len = len(script_lst)
+    assert(script_lst_len > 0)
+    # Rule: A - A -> Processed, DontAdd
+    if script_lst_len == 1 and script_lst[0] == script_i:
+        return True, False
+    # Rule: A(not in (Zinh, Zyyy, Zzzz)) - B(not in (Zinh, Zyyy, Zzzz)) -> Processed, Add
+    if (script_lst_len == 1 and not is_script_ignored_in_mixedscript(script_lst[0])
+            and not is_script_ignored_in_mixedscript(script_i)
+            and script_lst[0] != script_i):
+        return True, True    
+    # Rule: (Zinh | Zyyy | Zzzz) - A(not in (Zinh, Zyyy, Zzzz)) -> Processed, Add
+    if (script_lst_len == 1 and is_script_ignored_in_mixedscript(script_lst[0]) 
+            and not is_script_ignored_in_mixedscript(script_i)):
+        return True, True
+    # Rule: A ... - A -> Processed, DontAdd
+    if script_lst_len > 1 and script_i in script_lst:
+        return True, False
+    # Rule: (Zinh | Zyyy | Zzzz) A(not in (Zinh, Zyyy, Zzzz)) - B(not in (Zinh, Zyyy, Zzzz)) -> Processed, Add
+    if (script_lst_len == 2 and is_script_ignored_in_mixedscript(script_lst[0])
+            and not is_script_ignored_in_mixedscript(script_lst[1])
+            and not is_script_ignored_in_mixedscript(script_i)
+            and script_lst[1] != script_i):
+        return True, True
+    if (script_lst_len == 2 and is_script_ignored_in_mixedscript(script_lst[1])
+            and not is_script_ignored_in_mixedscript(script_lst[0])
+            and not is_script_ignored_in_mixedscript(script_i)
+            and script_lst[0] != script_i):
+        return True, True
+    # Rule: (Zinh | Zyyy | Zzzz) (Zinh | Zyyy | Zzzz) - A(not in (Zinh, Zyyy, Zzzz)) -> Processed, Add
+    if (script_lst_len == 2 and is_script_ignored_in_mixedscript(script_lst[0])
+            and is_script_ignored_in_mixedscript(script_lst[1])
+            and not is_script_ignored_in_mixedscript(script_i)):
+        return True, True
+
+    # NotProcessed, DontAdd
+    return False, False
+
+def is_codepoint_identifier_allowed(c, identifier_allowed):
+    for data in identifier_allowed:
+        if c >= data[0] and c <= data[1]:
+            return True
+    return False
+
+def load_rustc_mixedscript_confusables(f, identifier_allowed, scripts):
+    confusables = load_confusables(f)
+    seekup_map = {}
+    for item in confusables:
+        d_proto_list = item[1]
+        d_source = item[0]
+        assert(len(d_proto_list) > 0)
+        if len(d_proto_list) == 1:
+            seekup_map[escape_char(d_source)] = d_proto_list
+    # collect prototypes
+    codepoint_map = {}
+    multicodepoint_map = {}
+    for item in confusables:
+        d_source = item[0]
+        if not is_codepoint_identifier_allowed(d_source, identifier_allowed):
+            continue
+        d_proto_list = item[1]
+        if len(d_proto_list) == 1:
+            d_proto = escape_char(d_proto_list[0])
+            if d_proto not in codepoint_map:
+                codepoint_map[d_proto] = []
+                if d_proto not in seekup_map and is_codepoint_identifier_allowed(d_proto_list[0], identifier_allowed):
+                    codepoint_map[d_proto].append(d_proto_list[0])
+            codepoint_map[d_proto].append(d_source)
+        else:
+            d_protos = escape_char_list(d_proto_list)
+            if d_protos not in multicodepoint_map:
+                multicodepoint_map[d_protos] = (d_proto_list, [])
+            multicodepoint_map[d_protos][1].append(d_source)
+    
+    mixedscript_confusable = {}
+
+    def confusable_entry_item(confusable, script, item_text, item):
+        if script not in confusable:
+            confusable[script] = {}
+        script_entry = confusable[script]
+        if item_text not in script_entry:
+            script_entry[item_text] = (item, [])
+        return script_entry[item_text][1]
+
+    # between single charpoint that has single charpoint prototype
+    for _, source in codepoint_map.items():
+        source_len = len(source)
+        for i in range(0, source_len - 1):
+            for j in range(i + 1, source_len):
+                item_i, item_j = source[i], source[j]
+                script_i, script_j = codepoint_script(item_i, scripts), codepoint_script(item_j, scripts)
+                if script_i == script_j:
+                    continue
+                if not is_script_ignored_in_mixedscript(script_i):
+                    confusable_entry_item(mixedscript_confusable, script_i, escape_char(item_i), item_i).append(item_j)
+                if not is_script_ignored_in_mixedscript(script_j):
+                    confusable_entry_item(mixedscript_confusable, script_j, escape_char(item_j), item_j).append(item_i)
+
+    # between single charpoint that has multi charpoint prototype
+    for _, proto_lst_and_source in multicodepoint_map.items():
+        source = proto_lst_and_source[1]
+        source_len = len(source)
+        for i in range(0, source_len - 1):
+            for j in range(i + 1, source_len):
+                item_i, item_j = source[i], source[j]
+                script_i, script_j = codepoint_script(item_i, scripts), codepoint_script(item_j, scripts)
+                if script_i == script_j:
+                    continue
+                if not is_script_ignored_in_mixedscript(script_i):
+                    confusable_entry_item(mixedscript_confusable, script_i, escape_char(item_i), item_i).append(item_j)
+                if not is_script_ignored_in_mixedscript(script_j):
+                    confusable_entry_item(mixedscript_confusable, script_j, escape_char(item_j), item_j).append(item_i)
+
+    mixedscript_confusable_unresolved = {}
+    # single charpoint that has multi charpoint prototype and its prototype
+    for _, proto_lst_and_source in multicodepoint_map.items():
+        proto_lst = proto_lst_and_source[0]
+        proto_lst_can_be_part_of_identifier = True
+        for c in proto_lst:
+            if not is_codepoint_identifier_allowed(c, identifier_allowed):
+                proto_lst_can_be_part_of_identifier = False
+                break
+        if not proto_lst_can_be_part_of_identifier:
+            continue
+        source = proto_lst_and_source[1]
+        source_len = len(source)
+        for i in range(0, source_len):
+            item_i = source[i]
+            script_i = codepoint_script(item_i, scripts)
+            if is_script_ignored_in_mixedscript(script_i):
+                continue
+            processed, should_add = process_mixedscript_single_to_multi(item_i, script_i, proto_lst, scripts)
+            if should_add:
+                assert(processed)
+                confusable_entry_item(mixedscript_confusable, script_i, escape_char(item_i), item_i).append('multi')
+            if processed:
+                continue
+            proto_lst_text = escape_char_list(proto_lst)
+            if not proto_lst_text in mixedscript_confusable_unresolved:
+                mixedscript_confusable_unresolved[proto_lst_text] = (proto_lst, [])
+            mixedscript_confusable_unresolved[proto_lst_text][1].append(item_i)
+    return (mixedscript_confusable, mixedscript_confusable_unresolved)
+
+def codepoint_script(c, scripts):
+    for x, y, script in scripts:
+        if c >= x and c <= y:
+            return script
+    raise Exception("Not in scripts: " + escape_char(c))
+
+def debug_emit_mixedscript_confusable(f, mixedscript_confusable, text, scripts):
+    f.write("/* " + text + "\n")
+    for script, lst in mixedscript_confusable.items():
+        f.write("/// Script - " + script + "\n")
+        source_lst = [v[0] for (_, v) in lst.items()]
+        source_lst.sort()
+        for source in source_lst:
+            source_text = escape_char(source)
+            source_item_and_target_lst = lst[source_text]
+            target_lst = source_item_and_target_lst[1]
+            f.write(source_text + " => " + escape_char_list(target_lst) + " // " + escape_script_list(target_lst, scripts)+ "\n")
+    f.write("*/\n")
+    
+
+def script_list(char_lst, scripts):
+    script_lst = []
+    for c in char_lst:
+        if c == 'multi':
+            script = 'Z~multi'
+        else:
+            script = codepoint_script(c, scripts)
+        if script not in script_lst:
+            script_lst.append(script)
+    return script_lst
+
+def escape_script_list(char_lst, scripts):
+    script_lst = script_list(char_lst, scripts)
+    script_lst.sort()
+    return str(script_lst)
+
+def debug_emit_mixedscript_confusable_unresolved(f, map, text, scripts):
+    if len(map) == 0:
+        return
+    print("// " + text + "\n")
+    for prototype_text, pair in map.items():
+        prototype = pair[0]
+        source = pair[1]
+        print(prototype_text + " => " + escape_char_list(source) + " // " + escape_script_list(prototype, scripts) + " => " + escape_script_list(source, scripts) + "\n")
+    raise Exception("update the python script to add new rules for new data")
+
 def format_table_content(f, content, indent):
     line = " "*indent
     first = True
@@ -119,18 +395,20 @@ def format_table_content(f, content, indent):
     f.write(line)
 
 def escape_char(c):
+    if c == 'multi':
+        return "\"<multiple code points>\""
     return "'\\u{%x}'" % c
 
 def escape_char_list(l):
-    line = "[";
-    first = True;
+    line = "["
+    first = True
     for c in l:
         if first:
-            line += escape_char(c);
+            line += escape_char(c)
         else:
-            line += ", " + escape_char(c);
-        first = False;
-    line += "]";
+            line += ", " + escape_char(c)
+        first = False
+    line += "]"
     return line
 
 def emit_table(f, name, t_data, t_type = "&'static [(char, char)]", is_pub=True,
@@ -226,7 +504,7 @@ def emit_confusable_detection_module(f):
     confusable_table.sort(key=lambda w: w[0])
     
     last_key = None
-    for (k, v) in confusable_table:
+    for (k, _) in confusable_table:
         if k == last_key:
             raise Exception("duplicate keys in confusables table: %s" % k)
         last_key = k
@@ -235,6 +513,40 @@ def emit_confusable_detection_module(f):
             pfun=lambda x: "(%s, &%s)" % (escape_char(x[0]), escape_char_list(x[1])))
     f.write("}\n\n")
 
+def escape_script_constant(name, longforms):
+    return "Script::" + longforms[name].strip()
+
+def emit_rustc_mixed_script_confusable_detection(f):
+    f.write("pub mod rustc_mixed_script_confusable_detection {")
+    f.write("""
+    use unicode_script::Script;
+
+    #[inline]
+    pub fn is_rustc_mixed_script_confusable(c: char) -> Option<Script> {
+        match c as usize {
+            _ => super::util::bsearch_value_table(c, CONFUSABLES)
+        }
+    }
+
+""")
+    identifier_status_table = load_properties("IdentifierStatus.txt")
+    longforms, scripts = load_scripts("Scripts.txt")
+    identifier_allowed = identifier_status_table['Allowed']
+    (mixedscript_confusable, mixedscript_confusable_unresolved) = load_rustc_mixedscript_confusables("confusables.txt", identifier_allowed, scripts)
+    debug = False
+    if debug == True:
+        debug_emit_mixedscript_confusable(f, mixedscript_confusable, "mixedscript_confusable", scripts)
+        debug_emit_mixedscript_confusable_unresolved(f, mixedscript_confusable_unresolved, "mixedscript_confusable_unresolved", scripts)
+    confusable_table = []
+    for script, lst in mixedscript_confusable.items():
+        for _, pair in lst.items():
+            source = pair[0]
+            confusable_table.append((source, script))
+    confusable_table.sort(key=lambda w: w[0])
+    emit_table(f, "CONFUSABLES", confusable_table, "&'static [(char, Script)]", is_pub=False,
+            pfun=lambda x: "(%s,%s)" % (escape_char(x[0]), escape_script_constant(x[1], longforms)))
+    f.write("}\n\n")
+
 
 def emit_util_mod(f):
     f.write("""
@@ -301,3 +613,5 @@ def emit_util_mod(f):
         emit_identifier_module(rf)
         ### confusable_detection module
         emit_confusable_detection_module(rf)
+        ### mixed_script_confusable_detection module
+        emit_rustc_mixed_script_confusable_detection(rf)
diff --git a/src/lib.rs b/src/lib.rs
index 2e34beb..10fcc3a 100644
--- a/src/lib.rs
+++ b/src/lib.rs
@@ -62,11 +62,13 @@ pub mod confusable_detection;
 pub mod general_security_profile;
 pub mod mixed_script;
 pub mod restriction_level;
+pub mod rustc_mixed_script_confusable_detection;
 
 pub use confusable_detection::skeleton;
 pub use general_security_profile::GeneralSecurityProfile;
 pub use mixed_script::MixedScript;
 pub use restriction_level::{RestrictionLevel, RestrictionLevelDetection};
+pub use rustc_mixed_script_confusable_detection::is_rustc_mixed_script_confusable_codepoint;
 
 #[rustfmt::skip]
 pub(crate) mod tables;
diff --git a/src/rustc_mixed_script_confusable_detection.rs b/src/rustc_mixed_script_confusable_detection.rs
new file mode 100644
index 0000000..7bd652e
--- /dev/null
+++ b/src/rustc_mixed_script_confusable_detection.rs
@@ -0,0 +1,17 @@
+//! [Rust RFC 2457 mixed script confusable detection](https://rust-lang.github.io/rfcs/2457-non-ascii-idents.html#mixed-script-confusables-lint)
+
+use crate::tables::rustc_mixed_script_confusable_detection::is_rustc_mixed_script_confusable;
+
+pub use unicode_script::Script;
+
+/// Check whether a code point is considered mixed script confusable.
+///
+/// If a code point is not restricted from use for identifiers,
+/// check whether it is considered mixed script confusable with other
+/// non-restricted code points.
+///
+/// Returns the Unicode script property of that code point in the option if it is
+/// considered mixed script confusable.
+pub fn rustc_mixed_script_confusable_codepoint(c: char) -> Option<Script> {
+    is_rustc_mixed_script_confusable(c)
+}
diff --git a/src/tables.rs b/src/tables.rs
index 1910839..c6e5427 100644
--- a/src/tables.rs
+++ b/src/tables.rs
@@ -4220,3 +4220,158 @@ pub mod confusable_detection {
 
 }
 
+pub mod rustc_mixed_script_confusable_detection {
+    use unicode_script::Script;
+
+    #[inline]
+    pub fn is_rustc_mixed_script_confusable(c: char) -> Option<Script> {
+        match c as usize {
+            _ => super::util::bsearch_value_table(c, CONFUSABLES)
+        }
+    }
+
+    const CONFUSABLES: &'static [(char, Script)] = &[
+        ('\u{41}', Script::Latin), ('\u{42}', Script::Latin), ('\u{43}', Script::Latin), ('\u{45}',
+        Script::Latin), ('\u{48}', Script::Latin), ('\u{49}', Script::Latin), ('\u{4a}',
+        Script::Latin), ('\u{4b}', Script::Latin), ('\u{4d}', Script::Latin), ('\u{4e}',
+        Script::Latin), ('\u{4f}', Script::Latin), ('\u{50}', Script::Latin), ('\u{53}',
+        Script::Latin), ('\u{54}', Script::Latin), ('\u{55}', Script::Latin), ('\u{56}',
+        Script::Latin), ('\u{57}', Script::Latin), ('\u{58}', Script::Latin), ('\u{59}',
+        Script::Latin), ('\u{5a}', Script::Latin), ('\u{61}', Script::Latin), ('\u{62}',
+        Script::Latin), ('\u{63}', Script::Latin), ('\u{65}', Script::Latin), ('\u{66}',
+        Script::Latin), ('\u{67}', Script::Latin), ('\u{68}', Script::Latin), ('\u{69}',
+        Script::Latin), ('\u{6a}', Script::Latin), ('\u{6c}', Script::Latin), ('\u{6e}',
+        Script::Latin), ('\u{6f}', Script::Latin), ('\u{70}', Script::Latin), ('\u{71}',
+        Script::Latin), ('\u{72}', Script::Latin), ('\u{73}', Script::Latin), ('\u{75}',
+        Script::Latin), ('\u{76}', Script::Latin), ('\u{77}', Script::Latin), ('\u{78}',
+        Script::Latin), ('\u{79}', Script::Latin), ('\u{c6}', Script::Latin), ('\u{c7}',
+        Script::Latin), ('\u{df}', Script::Latin), ('\u{e6}', Script::Latin), ('\u{e7}',
+        Script::Latin), ('\u{f6}', Script::Latin), ('\u{127}', Script::Latin), ('\u{131}',
+        Script::Latin), ('\u{138}', Script::Latin), ('\u{18f}', Script::Latin), ('\u{259}',
+        Script::Latin), ('\u{391}', Script::Greek), ('\u{392}', Script::Greek), ('\u{393}',
+        Script::Greek), ('\u{395}', Script::Greek), ('\u{396}', Script::Greek), ('\u{397}',
+        Script::Greek), ('\u{398}', Script::Greek), ('\u{399}', Script::Greek), ('\u{39a}',
+        Script::Greek), ('\u{39b}', Script::Greek), ('\u{39c}', Script::Greek), ('\u{39d}',
+        Script::Greek), ('\u{39f}', Script::Greek), ('\u{3a0}', Script::Greek), ('\u{3a1}',
+        Script::Greek), ('\u{3a4}', Script::Greek), ('\u{3a5}', Script::Greek), ('\u{3a6}',
+        Script::Greek), ('\u{3a7}', Script::Greek), ('\u{3b1}', Script::Greek), ('\u{3b2}',
+        Script::Greek), ('\u{3b3}', Script::Greek), ('\u{3b4}', Script::Greek), ('\u{3b5}',
+        Script::Greek), ('\u{3b8}', Script::Greek), ('\u{3b9}', Script::Greek), ('\u{3ba}',
+        Script::Greek), ('\u{3bd}', Script::Greek), ('\u{3bf}', Script::Greek), ('\u{3c0}',
+        Script::Greek), ('\u{3c1}', Script::Greek), ('\u{3c3}', Script::Greek), ('\u{3c4}',
+        Script::Greek), ('\u{3c5}', Script::Greek), ('\u{3c6}', Script::Greek), ('\u{404}',
+        Script::Cyrillic), ('\u{405}', Script::Cyrillic), ('\u{406}', Script::Cyrillic), ('\u{408}',
+        Script::Cyrillic), ('\u{410}', Script::Cyrillic), ('\u{411}', Script::Cyrillic), ('\u{412}',
+        Script::Cyrillic), ('\u{413}', Script::Cyrillic), ('\u{415}', Script::Cyrillic), ('\u{417}',
+        Script::Cyrillic), ('\u{41a}', Script::Cyrillic), ('\u{41b}', Script::Cyrillic), ('\u{41c}',
+        Script::Cyrillic), ('\u{41d}', Script::Cyrillic), ('\u{41e}', Script::Cyrillic), ('\u{41f}',
+        Script::Cyrillic), ('\u{420}', Script::Cyrillic), ('\u{421}', Script::Cyrillic), ('\u{422}',
+        Script::Cyrillic), ('\u{423}', Script::Cyrillic), ('\u{424}', Script::Cyrillic), ('\u{425}',
+        Script::Cyrillic), ('\u{42b}', Script::Cyrillic), ('\u{42c}', Script::Cyrillic), ('\u{42e}',
+        Script::Cyrillic), ('\u{430}', Script::Cyrillic), ('\u{431}', Script::Cyrillic), ('\u{433}',
+        Script::Cyrillic), ('\u{435}', Script::Cyrillic), ('\u{43a}', Script::Cyrillic), ('\u{43e}',
+        Script::Cyrillic), ('\u{43f}', Script::Cyrillic), ('\u{440}', Script::Cyrillic), ('\u{441}',
+        Script::Cyrillic), ('\u{442}', Script::Cyrillic), ('\u{443}', Script::Cyrillic), ('\u{444}',
+        Script::Cyrillic), ('\u{445}', Script::Cyrillic), ('\u{454}', Script::Cyrillic), ('\u{455}',
+        Script::Cyrillic), ('\u{456}', Script::Cyrillic), ('\u{458}', Script::Cyrillic), ('\u{45b}',
+        Script::Cyrillic), ('\u{48c}', Script::Cyrillic), ('\u{48d}', Script::Cyrillic), ('\u{490}',
+        Script::Cyrillic), ('\u{491}', Script::Cyrillic), ('\u{492}', Script::Cyrillic), ('\u{493}',
+        Script::Cyrillic), ('\u{498}', Script::Cyrillic), ('\u{49e}', Script::Cyrillic), ('\u{49f}',
+        Script::Cyrillic), ('\u{4aa}', Script::Cyrillic), ('\u{4ab}', Script::Cyrillic), ('\u{4ae}',
+        Script::Cyrillic), ('\u{4af}', Script::Cyrillic), ('\u{4b0}', Script::Cyrillic), ('\u{4b1}',
+        Script::Cyrillic), ('\u{4bb}', Script::Cyrillic), ('\u{4bd}', Script::Cyrillic), ('\u{4bf}',
+        Script::Cyrillic), ('\u{4c0}', Script::Cyrillic), ('\u{4c7}', Script::Cyrillic), ('\u{4c9}',
+        Script::Cyrillic), ('\u{4cd}', Script::Cyrillic), ('\u{4cf}', Script::Cyrillic), ('\u{4d4}',
+        Script::Cyrillic), ('\u{4d5}', Script::Cyrillic), ('\u{4d8}', Script::Cyrillic), ('\u{4d9}',
+        Script::Cyrillic), ('\u{4e0}', Script::Cyrillic), ('\u{4e8}', Script::Cyrillic), ('\u{4e9}',
+        Script::Cyrillic), ('\u{511}', Script::Cyrillic), ('\u{51b}', Script::Cyrillic), ('\u{51c}',
+        Script::Cyrillic), ('\u{51d}', Script::Cyrillic), ('\u{53b}', Script::Armenian), ('\u{544}',
+        Script::Armenian), ('\u{548}', Script::Armenian), ('\u{54a}', Script::Armenian), ('\u{54c}',
+        Script::Armenian), ('\u{54d}', Script::Armenian), ('\u{54f}', Script::Armenian), ('\u{553}',
+        Script::Armenian), ('\u{555}', Script::Armenian), ('\u{561}', Script::Armenian), ('\u{563}',
+        Script::Armenian), ('\u{566}', Script::Armenian), ('\u{56e}', Script::Armenian), ('\u{570}',
+        Script::Armenian), ('\u{571}', Script::Armenian), ('\u{578}', Script::Armenian), ('\u{57a}',
+        Script::Armenian), ('\u{57c}', Script::Armenian), ('\u{57d}', Script::Armenian), ('\u{581}',
+        Script::Armenian), ('\u{584}', Script::Armenian), ('\u{585}', Script::Armenian), ('\u{5b4}',
+        Script::Hebrew), ('\u{5d5}', Script::Hebrew), ('\u{5d8}', Script::Hebrew), ('\u{5d9}',
+        Script::Hebrew), ('\u{5df}', Script::Hebrew), ('\u{5e1}', Script::Hebrew), ('\u{5f0}',
+        Script::Hebrew), ('\u{5f1}', Script::Hebrew), ('\u{5f2}', Script::Hebrew), ('\u{5f3}',
+        Script::Hebrew), ('\u{5f4}', Script::Hebrew), ('\u{625}', Script::Arabic), ('\u{627}',
+        Script::Arabic), ('\u{629}', Script::Arabic), ('\u{647}', Script::Arabic), ('\u{660}',
+        Script::Arabic), ('\u{661}', Script::Arabic), ('\u{665}', Script::Arabic), ('\u{667}',
+        Script::Arabic), ('\u{668}', Script::Arabic), ('\u{669}', Script::Arabic), ('\u{6be}',
+        Script::Arabic), ('\u{6c1}', Script::Arabic), ('\u{6c3}', Script::Arabic), ('\u{6d5}',
+        Script::Arabic), ('\u{6f0}', Script::Arabic), ('\u{6f1}', Script::Arabic), ('\u{6f5}',
+        Script::Arabic), ('\u{6f7}', Script::Arabic), ('\u{6f8}', Script::Arabic), ('\u{6f9}',
+        Script::Arabic), ('\u{6ff}', Script::Arabic), ('\u{901}', Script::Devanagari), ('\u{902}',
+        Script::Devanagari), ('\u{903}', Script::Devanagari), ('\u{93c}', Script::Devanagari),
+        ('\u{93d}', Script::Devanagari), ('\u{941}', Script::Devanagari), ('\u{942}',
+        Script::Devanagari), ('\u{946}', Script::Devanagari), ('\u{94d}', Script::Devanagari),
+        ('\u{966}', Script::Devanagari), ('\u{967}', Script::Devanagari), ('\u{968}',
+        Script::Devanagari), ('\u{969}', Script::Devanagari), ('\u{96a}', Script::Devanagari),
+        ('\u{96e}', Script::Devanagari), ('\u{971}', Script::Devanagari), ('\u{981}',
+        Script::Bengali), ('\u{983}', Script::Bengali), ('\u{9bc}', Script::Bengali), ('\u{9e6}',
+        Script::Bengali), ('\u{9ea}', Script::Bengali), ('\u{9ed}', Script::Bengali), ('\u{a02}',
+        Script::Gurmukhi), ('\u{a03}', Script::Gurmukhi), ('\u{a3c}', Script::Gurmukhi), ('\u{a4b}',
+        Script::Gurmukhi), ('\u{a4d}', Script::Gurmukhi), ('\u{a66}', Script::Gurmukhi), ('\u{a67}',
+        Script::Gurmukhi), ('\u{a6a}', Script::Gurmukhi), ('\u{a81}', Script::Gujarati), ('\u{a82}',
+        Script::Gujarati), ('\u{a83}', Script::Gujarati), ('\u{abc}', Script::Gujarati), ('\u{abd}',
+        Script::Gujarati), ('\u{ac1}', Script::Gujarati), ('\u{ac2}', Script::Gujarati), ('\u{acd}',
+        Script::Gujarati), ('\u{ae6}', Script::Gujarati), ('\u{ae8}', Script::Gujarati), ('\u{ae9}',
+        Script::Gujarati), ('\u{aea}', Script::Gujarati), ('\u{aee}', Script::Gujarati), ('\u{b01}',
+        Script::Oriya), ('\u{b03}', Script::Oriya), ('\u{b20}', Script::Oriya), ('\u{b3c}',
+        Script::Oriya), ('\u{b66}', Script::Oriya), ('\u{b68}', Script::Oriya), ('\u{b82}',
+        Script::Tamil), ('\u{b89}', Script::Tamil), ('\u{b90}', Script::Tamil), ('\u{b9c}',
+        Script::Tamil), ('\u{ba3}', Script::Tamil), ('\u{bb4}', Script::Tamil), ('\u{bb6}',
+        Script::Tamil), ('\u{bbf}', Script::Tamil), ('\u{bcd}', Script::Tamil), ('\u{be6}',
+        Script::Tamil), ('\u{be8}', Script::Tamil), ('\u{c02}', Script::Telugu), ('\u{c03}',
+        Script::Telugu), ('\u{c05}', Script::Telugu), ('\u{c06}', Script::Telugu), ('\u{c07}',
+        Script::Telugu), ('\u{c12}', Script::Telugu), ('\u{c13}', Script::Telugu), ('\u{c14}',
+        Script::Telugu), ('\u{c1c}', Script::Telugu), ('\u{c1e}', Script::Telugu), ('\u{c23}',
+        Script::Telugu), ('\u{c2f}', Script::Telugu), ('\u{c31}', Script::Telugu), ('\u{c32}',
+        Script::Telugu), ('\u{c66}', Script::Telugu), ('\u{c67}', Script::Telugu), ('\u{c68}',
+        Script::Telugu), ('\u{c6f}', Script::Telugu), ('\u{c82}', Script::Kannada), ('\u{c83}',
+        Script::Kannada), ('\u{c85}', Script::Kannada), ('\u{c86}', Script::Kannada), ('\u{c87}',
+        Script::Kannada), ('\u{c92}', Script::Kannada), ('\u{c93}', Script::Kannada), ('\u{c94}',
+        Script::Kannada), ('\u{c9c}', Script::Kannada), ('\u{c9e}', Script::Kannada), ('\u{ca3}',
+        Script::Kannada), ('\u{caf}', Script::Kannada), ('\u{cb1}', Script::Kannada), ('\u{cb2}',
+        Script::Kannada), ('\u{ce6}', Script::Kannada), ('\u{ce7}', Script::Kannada), ('\u{ce8}',
+        Script::Kannada), ('\u{cef}', Script::Kannada), ('\u{d02}', Script::Malayalam), ('\u{d03}',
+        Script::Malayalam), ('\u{d09}', Script::Malayalam), ('\u{d1c}', Script::Malayalam),
+        ('\u{d20}', Script::Malayalam), ('\u{d23}', Script::Malayalam), ('\u{d34}',
+        Script::Malayalam), ('\u{d36}', Script::Malayalam), ('\u{d3a}', Script::Malayalam),
+        ('\u{d3f}', Script::Malayalam), ('\u{d40}', Script::Malayalam), ('\u{d4e}',
+        Script::Malayalam), ('\u{d66}', Script::Malayalam), ('\u{d6d}', Script::Malayalam),
+        ('\u{d82}', Script::Sinhala), ('\u{d83}', Script::Sinhala), ('\u{e08}', Script::Thai),
+        ('\u{e1a}', Script::Thai), ('\u{e1b}', Script::Thai), ('\u{e1d}', Script::Thai), ('\u{e1e}',
+        Script::Thai), ('\u{e1f}', Script::Thai), ('\u{e22}', Script::Thai), ('\u{e34}',
+        Script::Thai), ('\u{e35}', Script::Thai), ('\u{e36}', Script::Thai), ('\u{e37}',
+        Script::Thai), ('\u{e38}', Script::Thai), ('\u{e39}', Script::Thai), ('\u{e48}',
+        Script::Thai), ('\u{e49}', Script::Thai), ('\u{e4a}', Script::Thai), ('\u{e4b}',
+        Script::Thai), ('\u{e4d}', Script::Thai), ('\u{e50}', Script::Thai), ('\u{e88}',
+        Script::Lao), ('\u{e8d}', Script::Lao), ('\u{e9a}', Script::Lao), ('\u{e9b}', Script::Lao),
+        ('\u{e9d}', Script::Lao), ('\u{e9e}', Script::Lao), ('\u{e9f}', Script::Lao), ('\u{eb8}',
+        Script::Lao), ('\u{eb9}', Script::Lao), ('\u{ec8}', Script::Lao), ('\u{ec9}', Script::Lao),
+        ('\u{eca}', Script::Lao), ('\u{ecb}', Script::Lao), ('\u{ecd}', Script::Lao), ('\u{ed0}',
+        Script::Lao), ('\u{f37}', Script::Tibetan), ('\u{101d}', Script::Myanmar), ('\u{1036}',
+        Script::Myanmar), ('\u{1038}', Script::Myanmar), ('\u{1040}', Script::Myanmar), ('\u{10e7}',
+        Script::Georgian), ('\u{10ff}', Script::Georgian), ('\u{1200}', Script::Ethiopic),
+        ('\u{1206}', Script::Ethiopic), ('\u{1223}', Script::Ethiopic), ('\u{1240}',
+        Script::Ethiopic), ('\u{1260}', Script::Ethiopic), ('\u{1261}', Script::Ethiopic),
+        ('\u{1294}', Script::Ethiopic), ('\u{12ae}', Script::Ethiopic), ('\u{12d0}',
+        Script::Ethiopic), ('\u{1323}', Script::Ethiopic), ('\u{17b7}', Script::Khmer), ('\u{17b8}',
+        Script::Khmer), ('\u{17b9}', Script::Khmer), ('\u{17ba}', Script::Khmer), ('\u{17c6}',
+        Script::Khmer), ('\u{3007}', Script::Han), ('\u{304f}', Script::Hiragana), ('\u{3078}',
+        Script::Hiragana), ('\u{30a4}', Script::Katakana), ('\u{30a8}', Script::Katakana),
+        ('\u{30ab}', Script::Katakana), ('\u{30bf}', Script::Katakana), ('\u{30c8}',
+        Script::Katakana), ('\u{30cb}', Script::Katakana), ('\u{30ce}', Script::Katakana),
+        ('\u{30cf}', Script::Katakana), ('\u{30d8}', Script::Katakana), ('\u{30ed}',
+        Script::Katakana), ('\u{4e00}', Script::Han), ('\u{4e3f}', Script::Han), ('\u{4e8c}',
+        Script::Han), ('\u{4ebb}', Script::Han), ('\u{516b}', Script::Han), ('\u{529b}',
+        Script::Han), ('\u{535c}', Script::Han), ('\u{53e3}', Script::Han), ('\u{56d7}',
+        Script::Han), ('\u{5915}', Script::Han), ('\u{5de5}', Script::Han), ('\u{a792}',
+        Script::Latin), ('\u{a793}', Script::Latin), ('\u{21fe8}', Script::Han)
+    ];
+
+}
+