Merge branch 'development' into hermes

# Conflicts:
#	bazarr.py
#	bazarr/get_series.py
#	bazarr/list_subtitles.py
#	bazarr/main.py
This commit is contained in:
Louis Vézina 2020-02-10 19:42:17 -05:00
commit d933108766
153 changed files with 21065 additions and 1623 deletions

View file

@ -107,18 +107,12 @@ class DaemonStatus(ProcessRegistry):
def start_bazarr(process_registry=ProcessRegistry()):
script = [sys.executable, "-u", os.path.normcase(os.path.join(dir_name, 'bazarr', 'main.py'))] + sys.argv[1:]
ep = subprocess.Popen(script, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, stdin=subprocess.PIPE)
process_registry.register(ep)
print("Bazarr starting...")
ep = subprocess.Popen(script, stdout=None, stderr=None, stdin=subprocess.DEVNULL)
process_registry.register(ep)
try:
while True:
line = ep.stdout.readline()
if line == '' or not line:
# Process ended so let's unregister it
process_registry.unregister(ep)
break
sys.stdout.buffer.write(line)
sys.stdout.flush()
ep.wait()
process_registry.unregister(ep)
except KeyboardInterrupt:
pass

View file

@ -134,31 +134,31 @@ def update_movies():
current_movies_radarr.append(six.text_type(movie['tmdbId']))
if six.text_type(movie['tmdbId']) in current_movies_db_list:
movies_to_update.append({'radarrId': movie["id"],
'title': six.text_type(movie["title"]),
'path': six.text_type(movie["path"] + separator + movie['movieFile']['relativePath']),
movies_to_update.append({'radarrId': int(movie["id"]),
'title': movie["title"],
'path': movie["path"] + separator + movie['movieFile']['relativePath'],
'tmdbId': six.text_type(movie["tmdbId"]),
'poster': six.text_type(poster),
'fanart': six.text_type(fanart),
'audio_language': six.text_type(profile_id_to_language(movie['qualityProfileId'], audio_profiles)),
'poster': poster,
'fanart': fanart,
'audio_language': profile_id_to_language(movie['qualityProfileId'], audio_profiles),
'sceneName': sceneName,
'monitored': six.text_type(bool(movie['monitored'])),
'year': six.text_type(movie['year']),
'sortTitle': six.text_type(movie['sortTitle']),
'alternativeTitles': six.text_type(alternativeTitles),
'format': six.text_type(format),
'resolution': six.text_type(resolution),
'video_codec': six.text_type(videoCodec),
'audio_codec': six.text_type(audioCodec),
'overview': six.text_type(overview),
'imdbId': six.text_type(imdbId),
'movie_file_id': movie['movieFile']['id']})
'sortTitle': movie['sortTitle'],
'alternativeTitles': alternativeTitles,
'format': format,
'resolution': resolution,
'video_codec': videoCodec,
'audio_codec': audioCodec,
'overview': overview,
'imdbId': imdbId,
'movie_file_id': int(movie['movieFile']['id'])})
else:
if movie_default_enabled is True:
movies_to_add.append({'radarrId': movie["id"],
movies_to_add.append({'radarrId': int(movie["id"]),
'title': movie["title"],
'path': movie["path"] + separator + movie['movieFile']['relativePath'],
'tmdbId': movie["tmdbId"],
'tmdbId': six.text_type(movie["tmdbId"]),
'languages': movie_default_language,
'subtitles': '[]',
'hearing_impaired': movie_default_hi,
@ -169,7 +169,7 @@ def update_movies():
'sceneName': sceneName,
'monitored': six.text_type(bool(movie['monitored'])),
'sortTitle': movie['sortTitle'],
'year': movie['year'],
'year': six.text_type(movie['year']),
'alternativeTitles': alternativeTitles,
'format': format,
'resolution': resolution,
@ -177,12 +177,12 @@ def update_movies():
'audio_codec': audioCodec,
'imdbId': imdbId,
'forced': movie_default_forced,
'movie_file_id': movie['movieFile']['id']})
'movie_file_id': int(movie['movieFile']['id'])})
else:
movies_to_add.append({'radarrId': movie["id"],
movies_to_add.append({'radarrId': int(movie["id"]),
'title': movie["title"],
'path': movie["path"] + separator + movie['movieFile']['relativePath'],
'tmdbId': movie["tmdbId"],
'tmdbId': six.text_type(movie["tmdbId"]),
'languages': None,
'subtitles': '[]',
'hearing_impaired': None,
@ -193,7 +193,7 @@ def update_movies():
'sceneName': sceneName,
'monitored': six.text_type(bool(movie['monitored'])),
'sortTitle': movie['sortTitle'],
'year': movie['year'],
'year': six.text_type(movie['year']),
'alternativeTitles': alternativeTitles,
'format': format,
'resolution': resolution,
@ -201,7 +201,7 @@ def update_movies():
'audio_codec': audioCodec,
'imdbId': imdbId,
'forced': None,
'movie_file_id': movie['movieFile']['id']})
'movie_file_id': int(movie['movieFile']['id'])})
else:
logging.error(
'BAZARR Radarr returned a movie without a file path: ' + movie["path"] + separator +

View file

@ -5,6 +5,7 @@ from __future__ import print_function
import os
import requests
import logging
import six
from queueconfig import notifications
from config import settings, url_sonarr
@ -107,7 +108,7 @@ def update_series():
'fanart': fanart,
'audio_language': audio_language,
'sortTitle': show['sortTitle'],
'year': show['year'],
'year': six.text_type(show['year']),
'alternateTitles': alternate_titles,
'forced': serie_default_forced})
else:
@ -120,7 +121,7 @@ def update_series():
'fanart': fanart,
'audio_language': audio_language,
'sortTitle': show['sortTitle'],
'year': show['year'],
'year': six.text_type(show['year']),
'alternateTitles': alternate_titles})
# Remove old series from DB

View file

@ -5,7 +5,8 @@ import gc
import os
import logging
import ast
import langdetect
from guess_language import guess_language
import subliminal
import subliminal_patch
from subliminal import core
from subliminal_patch import search_external_subtitles
@ -382,7 +383,7 @@ def guess_external_subtitles(dest_folder, subtitles):
try:
encoding = UnicodeDammit(text)
detected_language = langdetect.detect(text)
detected_language = guess_language(text)
except Exception as e:
logging.exception('BAZARR Error trying to detect language for this subtitles file: ' +
subtitle_path + ' You should try to delete this subtitles file manually and ask '

View file

@ -43,7 +43,7 @@ from cherrypy.wsgiserver import CherryPyWSGIServer
from io import BytesIO
from six import text_type
from datetime import timedelta
from datetime import timedelta, datetime
from get_languages import load_language_in_db, language_from_alpha3, language_from_alpha2, alpha2_from_alpha3
from flask import make_response, request, redirect, abort, render_template, Response, session, flash, url_for, \
send_file, stream_with_context
@ -188,6 +188,9 @@ def logout():
@app.route('/shutdown/')
@login_required
def shutdown():
doShutdown()
def doShutdown():
try:
server.stop()
except:
@ -1507,4 +1510,4 @@ try:
if not args.dev:
server.start()
except KeyboardInterrupt:
shutdown()
doShutdown()

View file

@ -80,6 +80,7 @@ import sys
import threading
import time
import urllib
from six import PY2
try:
from json import read as json_decode, write as json_encode
except ImportError:
@ -265,7 +266,10 @@ class HttpClient(Client):
else:
self._log('RECV', '%d %s' % (len(response), response))
try:
return json_decode(response)
if PY2:
return json_decode(response.decode('utf-8'))
else:
return json_decode(response)
except Exception:
raise RuntimeError('Invalid API response')
return {}
@ -369,8 +373,8 @@ class SocketClient(Client):
def _sendrecv(self, sock, buf):
self._log('SEND', buf)
fds = [sock]
buf += self.TERMINATOR
response = ''
buf.extend(bytearray(self.TERMINATOR, encoding='utf-8'))
response = bytearray()
intvl_idx = 0
while True:
intvl, intvl_idx = self._get_poll_interval(intvl_idx)
@ -390,14 +394,14 @@ class SocketClient(Client):
if not s:
raise IOError('recv(): connection lost')
else:
response += s
response.extend(s)
except socket.error as err:
if (err.args[0] not in
(errno.EAGAIN, errno.EWOULDBLOCK, errno.EINPROGRESS)):
raise err
if response.endswith(self.TERMINATOR):
if response.endswith(self.TERMINATOR.encode('utf-8')):
self._log('RECV', response)
return response.rstrip(self.TERMINATOR)
return response.rstrip(self.TERMINATOR.encode('utf-8'))
raise IOError('send/recv timed out')
def _call(self, cmd, data=None):
@ -405,7 +409,7 @@ class SocketClient(Client):
data = {}
data['cmd'] = cmd
data['version'] = API_VERSION
request = json_encode(data)
request = bytearray(json_encode(data), encoding='utf-8')
response = None
for _ in range(2):
@ -431,7 +435,10 @@ class SocketClient(Client):
raise IOError('Connection lost or timed out during API request')
try:
response = json_decode(response)
if PY2:
return json_decode(response.decode('utf-8'))
else:
return json_decode(response)
except Exception:
raise RuntimeError('Invalid API response')

View file

@ -0,0 +1,666 @@
# -*- coding: utf-8 -*-
"""Guess the natural language of a text
"""
# © 2012 spirit <hiddenspirit@gmail.com>
# https://bitbucket.org/spirit/guess_language
#
# Original Python package:
# Copyright (c) 2008, Kent S Johnson
# http://code.google.com/p/guess-language/
#
# Original C++ version for KDE:
# Copyright (c) 2006 Jacob R Rideout <kde@jacobrideout.net>
# http://websvn.kde.org/branches/work/sonnet-refactoring/common/nlp/guesslanguage.cpp?view=markup
#
# Original Language::Guess Perl module:
# Copyright (c) 2004-2006 Maciej Ceglowski
# http://web.archive.org/web/20090228163219/http://languid.cantbedone.org/
#
# Note: Language::Guess is GPL-licensed. KDE developers received permission
# from the author to distribute their port under LGPL:
# http://lists.kde.org/?l=kde-sonnet&m=116910092228811&w=2
#
# This program is free software: you can redistribute it and/or modify it
# under the terms of the GNU Lesser General Public License as published
# by the Free Software Foundation, either version 3 of the License,
# or (at your option) any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty
# of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
# See the GNU Lesser General Public License for more details.
#
# You should have received a copy of the GNU Lesser General Public License
# along with this program. If not, see <http://www.gnu.org/licenses/>.
from __future__ import unicode_literals
import functools
import re
import warnings
from collections import defaultdict, OrderedDict
from .data import BLOCKS, BLOCK_RSHIFT
__all__ = [
"guess_language", "use_enchant",
]
MAX_LENGTH = 4096
MIN_LENGTH = 20
MAX_GRAMS = 300
WORD_RE = re.compile(r"(?:[^\W\d_]|['])+", re.U)
MODEL_ROOT = __name__ + ".data.models."
FALLBACK_LANGUAGE = "en_US"
BASIC_LATIN = {
"ceb", "en", "eu", "ha", "haw", "id", "la", "nr", "nso", "so", "ss", "st",
"sw", "tlh", "tn", "ts", "xh", "zu"
}
EXTENDED_LATIN = {
"af", "az", "ca", "cs", "cy", "da", "de", "eo", "es", "et", "fi", "fr",
"hr", "hu", "is", "it", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "sk",
"sl", "sq", "sv", "tl", "tr", "ve", "vi"
}
ALL_LATIN = BASIC_LATIN.union(EXTENDED_LATIN)
CYRILLIC = {"bg", "kk", "ky", "mk", "mn", "ru", "sr", "uk", "uz"}
ARABIC = {"ar", "fa", "ps", "ur"}
DEVANAGARI = {"hi", "ne"}
PT = {"pt_BR", "pt_PT"}
# NOTE mn appears twice, once for mongolian script and once for CYRILLIC
SINGLETONS = [
("Armenian", "hy"),
("Hebrew", "he"),
("Bengali", "bn"),
("Gurmukhi", "pa"),
("Greek", "el"),
("Gujarati", "gu"),
("Oriya", "or"),
("Tamil", "ta"),
("Telugu", "te"),
("Kannada", "kn"),
("Malayalam", "ml"),
("Sinhala", "si"),
("Thai", "th"),
("Lao", "lo"),
("Tibetan", "bo"),
("Burmese", "my"),
("Georgian", "ka"),
("Mongolian", "mn-Mong"),
("Khmer", "km"),
]
NAME_MAP = {
"ab": "Abkhazian",
"af": "Afrikaans",
"ar": "Arabic",
"az": "Azeri",
"be": "Byelorussian",
"bg": "Bulgarian",
"bn": "Bengali",
"bo": "Tibetan",
"br": "Breton",
"ca": "Catalan",
"ceb": "Cebuano",
"cs": "Czech",
"cy": "Welsh",
"da": "Danish",
"de": "German",
"el": "Greek",
"en": "English",
"eo": "Esperanto",
"es": "Spanish",
"et": "Estonian",
"eu": "Basque",
"fa": "Farsi",
"fi": "Finnish",
"fo": "Faroese",
"fr": "French",
"fy": "Frisian",
"gd": "Scots Gaelic",
"gl": "Galician",
"gu": "Gujarati",
"ha": "Hausa",
"haw": "Hawaiian",
"he": "Hebrew",
"hi": "Hindi",
"hr": "Croatian",
"hu": "Hungarian",
"hy": "Armenian",
"id": "Indonesian",
"is": "Icelandic",
"it": "Italian",
"ja": "Japanese",
"ka": "Georgian",
"kk": "Kazakh",
"km": "Cambodian",
"ko": "Korean",
"ku": "Kurdish",
"ky": "Kyrgyz",
"la": "Latin",
"lt": "Lithuanian",
"lv": "Latvian",
"mg": "Malagasy",
"mk": "Macedonian",
"ml": "Malayalam",
"mn": "Mongolian",
"mr": "Marathi",
"ms": "Malay",
"nd": "Ndebele",
"ne": "Nepali",
"nl": "Dutch",
"nn": "Nynorsk",
"no": "Norwegian",
"nso": "Sepedi",
"pa": "Punjabi",
"pl": "Polish",
"ps": "Pashto",
"pt": "Portuguese",
"pt_PT": "Portuguese (Portugal)",
"pt_BR": "Portuguese (Brazil)",
"ro": "Romanian",
"ru": "Russian",
"sa": "Sanskrit",
"sh": "Serbo-Croatian",
"sk": "Slovak",
"sl": "Slovene",
"so": "Somali",
"sq": "Albanian",
"sr": "Serbian",
"sv": "Swedish",
"sw": "Swahili",
"ta": "Tamil",
"te": "Telugu",
"th": "Thai",
"tl": "Tagalog",
"tlh": "Klingon",
"tn": "Setswana",
"tr": "Turkish",
"ts": "Tsonga",
"tw": "Twi",
"uk": "Ukrainian",
"ur": "Urdu",
"uz": "Uzbek",
"ve": "Venda",
"vi": "Vietnamese",
"xh": "Xhosa",
"zh": "Chinese",
"zh_TW": "Traditional Chinese (Taiwan)",
"zu": "Zulu",
}
IANA_MAP = {
"ab": 12026,
"af": 40,
"ar": 26020,
"az": 26030,
"be": 11890,
"bg": 26050,
"bn": 26040,
"bo": 26601,
"br": 1361,
"ca": 3,
"ceb": 26060,
"cs": 26080,
"cy": 26560,
"da": 26090,
"de": 26160,
"el": 26165,
"en": 26110,
"eo": 11933,
"es": 26460,
"et": 26120,
"eu": 1232,
"fa": 26130,
"fi": 26140,
"fo": 11817,
"fr": 26150,
"fy": 1353,
"gd": 65555,
"gl": 1252,
"gu": 26599,
"ha": 26170,
"haw": 26180,
"he": 26592,
"hi": 26190,
"hr": 26070,
"hu": 26200,
"hy": 26597,
"id": 26220,
"is": 26210,
"it": 26230,
"ja": 26235,
"ka": 26600,
"kk": 26240,
"km": 1222,
"ko": 26255,
"ku": 11815,
"ky": 26260,
"la": 26280,
"lt": 26300,
"lv": 26290,
"mg": 1362,
"mk": 26310,
"ml": 26598,
"mn": 26320,
"mr": 1201,
"ms": 1147,
"ne": 26330,
"nl": 26100,
"nn": 172,
"no": 26340,
"pa": 65550,
"pl": 26380,
"ps": 26350,
"pt": 26390,
"ro": 26400,
"ru": 26410,
"sa": 1500,
"sh": 1399,
"sk": 26430,
"sl": 26440,
"so": 26450,
"sq": 26010,
"sr": 26420,
"sv": 26480,
"sw": 26470,
"ta": 26595,
"te": 26596,
"th": 26594,
"tl": 26490,
"tlh": 26250,
"tn": 65578,
"tr": 26500,
"tw": 1499,
"uk": 26520,
"ur": 26530,
"uz": 26540,
"vi": 26550,
"zh": 26065,
"zh_TW": 22,
}
models = {}
try:
from importlib import import_module
except ImportError:
import sys
def import_module(name):
"""Import a module.
"""
__import__(name)
return sys.modules[name]
try:
from collections import namedtuple
LanguageInfo = namedtuple("LanguageInfo", ["tag", "id", "name"])
except ImportError:
class LanguageInfo(tuple):
def __new__(cls, tag, id, name): #@ReservedAssignment
return tuple.__new__(cls, (tag, id, name))
def __init__(self, tag, id, name): #@ReservedAssignment
self.tag = tag
self.id = id
self.name = name
class UNKNOWN(str):
"""Unknown language
"""
def __bool__(self):
return False
def __nonzero__(self):
return False
UNKNOWN = UNKNOWN("UNKNOWN")
def guess_language(text, hints=None):
"""Return the ISO 639-1 language code.
"""
words = WORD_RE.findall(text[:MAX_LENGTH].replace("", "'"))
return identify(words, find_runs(words), hints)
def guess_language_info(text, hints=None):
"""Return LanguageInfo(tag, id, name).
"""
tag = guess_language(text, hints)
if tag is UNKNOWN:
return LanguageInfo(UNKNOWN, UNKNOWN, UNKNOWN)
return LanguageInfo(tag, _get_id(tag), _get_name(tag))
# An alias for guess_language
guess_language_tag = guess_language
def guess_language_id(text, hints=None):
"""Return the language ID.
"""
return _get_id(guess_language(text, hints))
def guess_language_name(text, hints=None):
"""Return the language name (in English).
"""
return _get_name(guess_language(text, hints))
def _get_id(tag):
return IANA_MAP.get(tag, UNKNOWN)
def _get_name(tag):
return NAME_MAP.get(tag, UNKNOWN)
def find_runs(words):
"""Count the number of characters in each character block.
"""
run_types = defaultdict(int)
total_count = 0
for word in words:
for char in word:
block = BLOCKS[ord(char) >> BLOCK_RSHIFT]
run_types[block] += 1
total_count += 1
#pprint(run_types)
# return run types that used for 40% or more of the string
# return Basic Latin if found more than 15%
## and extended additional latin if over 10% (for Vietnamese)
relevant_runs = []
for key, value in run_types.items():
pct = value * 100 // total_count
if pct >= 40 or pct >= 15 and key == "Basic Latin":
relevant_runs.append(key)
#elif pct >= 10 and key == "Latin Extended Additional":
#relevant_runs.append(key)
return relevant_runs
def identify(words, scripts, hints=None):
"""Identify the language.
"""
if ("Hangul Syllables" in scripts or "Hangul Jamo" in scripts or
"Hangul Compatibility Jamo" in scripts or "Hangul" in scripts):
return "ko"
if "Greek and Coptic" in scripts:
return "el"
if "Kana" in scripts:
return "ja"
if ("CJK Unified Ideographs" in scripts or "Bopomofo" in scripts or
"Bopomofo Extended" in scripts or "KangXi Radicals" in scripts):
# This is in both Ceglowski and Rideout
# I can't imagine why...
# or "Arabic Presentation Forms-A" in scripts
return "zh"
if "Cyrillic" in scripts:
return check(words, filter_languages(CYRILLIC, hints))
if ("Arabic" in scripts or "Arabic Presentation Forms-A" in scripts or
"Arabic Presentation Forms-B" in scripts):
return check(words, filter_languages(ARABIC, hints))
if "Devanagari" in scripts:
return check(words, filter_languages(DEVANAGARI, hints))
# Try languages with unique scripts
for block_name, lang_name in SINGLETONS:
if block_name in scripts:
return lang_name
#if "Latin Extended Additional" in scripts:
#return "vi"
if "Extended Latin" in scripts:
latin_lang = check(words, filter_languages(EXTENDED_LATIN, hints))
if latin_lang == "pt":
return check(words, filter_languages(PT))
else:
return latin_lang
if "Basic Latin" in scripts:
return check(words, filter_languages(ALL_LATIN, hints))
return UNKNOWN
def filter_languages(languages, hints=None):
"""Filter languages.
"""
return languages.intersection(hints) if hints else languages
def check_with_all(words, languages):
"""Check what the best match is.
"""
return (check_with_enchant(words, languages) or
check_with_models(words, languages))
check = check_with_all
def use_enchant(use_enchant=True):
"""Enable or disable checking with PyEnchant.
"""
global check
check = check_with_all if use_enchant else check_with_models
def check_with_models(words, languages):
"""Check against known models.
"""
sample = " ".join(words)
if len(sample) < MIN_LENGTH:
return UNKNOWN
scores = []
model = create_ordered_model(sample) # QMap<int,QString>
for key in languages:
lkey = key.lower()
try:
known_model = models[lkey]
except KeyError:
try:
known_model = import_module(MODEL_ROOT + lkey).model
except ImportError:
known_model = None
models[lkey] = known_model
if known_model:
scores.append((distance(model, known_model), key))
if not scores:
return UNKNOWN
# we want the lowest score, less distance = greater chance of match
#pprint(sorted(scores))
return min(scores)[1]
def create_ordered_model(content):
"""Create a list of trigrams in content sorted by frequency.
"""
trigrams = defaultdict(int) # QHash<QString,int>
content = content.lower()
for i in range(len(content) - 2):
trigrams[content[i:i+3]] += 1
return sorted(trigrams.keys(), key=lambda k: (-trigrams[k], k))
def distance(model, known_model):
"""Calculate the distance to the known model.
"""
dist = 0
for i, value in enumerate(model[:MAX_GRAMS]):
if value in known_model:
dist += abs(i - known_model[value])
else:
dist += MAX_GRAMS
return dist
try:
import enchant
except ImportError:
warnings.warn("PyEnchant is unavailable", ImportWarning)
enchant = None
def check_with_enchant(*args, **kwargs):
return UNKNOWN
else:
import locale
enchant_base_languages_dict = None
def check_with_enchant(words, languages,
threshold=0.7, min_words=1, dictionaries={}):
"""Check against installed spelling dictionaries.
"""
if len(words) < min_words:
return UNKNOWN
best_score = 0
best_tag = UNKNOWN
for tag, enchant_tag in get_enchant_base_languages_dict().items():
if tag not in languages:
continue
try:
d = dictionaries[tag]
except KeyError:
d = dictionaries[tag] = enchant.Dict(enchant_tag)
score = sum([1 for word in words if d.check(word)])
if score > best_score:
best_score = score
best_tag = tag
if float(best_score) / len(words) < threshold:
return UNKNOWN
return best_tag
def get_enchant_base_languages_dict():
"""Get ordered dictionary of enchant base languages.
locale_language, then "en", then the rest.
"""
global enchant_base_languages_dict
if enchant_base_languages_dict is None:
def get_language_sub_tag(tag):
return tag.split("_")[0]
enchant_base_languages_dict = OrderedDict()
enchant_languages = sorted(enchant.list_languages())
for full_tag in [get_locale_language(), FALLBACK_LANGUAGE]:
sub_tag = get_language_sub_tag(full_tag)
if sub_tag not in enchant_base_languages_dict:
for tag in [full_tag, sub_tag]:
try:
index = enchant_languages.index(tag)
except ValueError:
pass
else:
enchant_base_languages_dict[sub_tag] = tag
del enchant_languages[index]
break
for tag in enchant_languages:
sub_tag = get_language_sub_tag(tag)
if sub_tag not in enchant_base_languages_dict:
enchant_base_languages_dict[sub_tag] = tag
return enchant_base_languages_dict
def get_locale_language():
"""Get the language code for the current locale setting.
"""
return (locale.getlocale()[0] or locale.getdefaultlocale()[0] or
FALLBACK_LANGUAGE)
def deprecated(func):
"""This is a decorator which can be used to mark functions
as deprecated. It will result in a warning being emitted
when the function is used.
"""
@functools.wraps(func)
def new_func(*args, **kwargs):
warnings.warn(
"call to deprecated function %s()" % func.__name__,
category=DeprecationWarning,
stacklevel=2
)
return func(*args, **kwargs)
return new_func
@deprecated
def guessLanguage(text):
"""Deprecated function - use guess_language() instead.
"""
return guess_language(decode_text(text))
@deprecated
def guessLanguageTag(text):
"""Deprecated function - use guess_language_tag() instead.
"""
return guess_language_tag(decode_text(text))
@deprecated
def guessLanguageId(text):
"""Deprecated function - use guess_language_id() instead.
"""
return guess_language_id(decode_text(text))
@deprecated
def guessLanguageName(text):
"""Deprecated function - use guess_language_name() instead.
"""
return guess_language_name(decode_text(text))
@deprecated
def guessLanguageInfo(text):
"""Deprecated function - use guess_language_info() instead.
"""
return guess_language_info(decode_text(text))
def decode_text(text, encoding="utf-8"):
"""Decode text if needed (for deprecated functions).
"""
if not isinstance(text, str):
warnings.warn("passing an encoded string is deprecated",
DeprecationWarning, 4)
text = text.decode(encoding)
return text

View file

@ -0,0 +1,53 @@
"""Guess the natural language of a text
"""
import argparse
import locale
import os
import sys
import guess_language.console_mode #@UnusedImport
def parse_args():
parser = argparse.ArgumentParser(
description=__doc__.strip(),
prog="{} -m {}".format(os.path.basename(sys.executable),
"guess_language")
)
parser.add_argument("file",
help="plain text file or “-” for stdin")
parser.add_argument("-c", "--encoding",
help="input encoding")
parser.add_argument("--disable-enchant", dest="use_enchant",
action="store_false",
help="disable enchant")
return parser.parse_args()
def main():
args = parse_args()
if args.file == "-":
file = sys.stdin.fileno()
encoding = args.encoding or (
sys.stdin.encoding if sys.stdin.isatty()
else locale.getpreferredencoding()
)
else:
file = args.file
encoding = args.encoding or "utf-8"
with open(file, encoding=encoding) as f:
text = "".join(f.readlines())
if not args.use_enchant:
guess_language.use_enchant(False)
tag = guess_language.guess_language(text)
print(tag)
return 0 if tag else 1
if __name__ == "__main__":
sys.exit(main())

View file

@ -0,0 +1,63 @@
"""Write to stdout without causing UnicodeEncodeError
"""
import sys
if (getattr(sys.stdout, "errors", "") == "strict" and
not getattr(sys.stdout, "encoding", "").lower().startswith("utf")):
try:
import translit
sys.stdout = translit.StreamFilter(sys.stdout)
except ImportError:
import codecs
import unicodedata
import warnings
TRANSLIT_MAP = {
0x2018: "'",
0x2019: "'",
0x201c: '"',
0x201d: '"',
}
def simplify(s):
s = s.translate(TRANSLIT_MAP)
return "".join([c for c in unicodedata.normalize("NFKD", s)
if not unicodedata.combining(c)])
def simple_translit_error_handler(error):
if not isinstance(error, UnicodeEncodeError):
raise error
chunk = error.object[error.start:error.end]
repl = simplify(chunk)
repl = (repl.encode(error.encoding, "backslashreplace")
.decode(error.encoding))
return repl, error.end
class SimpleTranslitStreamFilter:
"""Filter a stream through simple transliteration.
"""
errors = "simple_translit"
def __init__(self, target):
self.target = target
def __getattr__(self, name):
return getattr(self.target, name)
def write(self, s):
self.target.write(self.downgrade(s))
def writelines(self, lines):
self.target.writelines(
[self.downgrade(line) for line in lines])
def downgrade(self, s):
return (s.encode(self.target.encoding, self.errors)
.decode(self.target.encoding))
codecs.register_error(SimpleTranslitStreamFilter.errors,
simple_translit_error_handler)
sys.stdout = SimpleTranslitStreamFilter(sys.stdout)
warnings.warn("translit is unavailable", ImportWarning)

View file

@ -0,0 +1,152 @@
BLOCK_RSHIFT = 4
BLOCKS = [None] * 0x2fa2
BLOCKS[0x0:0x8] = ['Basic Latin'] * 0x8
BLOCKS[0x8:0x10] = ['Extended Latin'] * 0x8 # Latin-1 Supplement
BLOCKS[0x10:0x18] = ['Extended Latin'] * 0x8 # Latin Extended-A
BLOCKS[0x18:0x25] = ['Latin Extended-B'] * 0xd
BLOCKS[0x25:0x2b] = ['Extended Latin'] * 0x6 # IPA Extensions
BLOCKS[0x2b:0x30] = ['Spacing Modifier Letters'] * 0x5
BLOCKS[0x37:0x40] = ['Greek and Coptic'] * 0x9
BLOCKS[0x40:0x50] = ['Cyrillic'] * 0x10
BLOCKS[0x50:0x53] = ['Cyrillic Supplement'] * 0x3
BLOCKS[0x53:0x59] = ['Armenian'] * 0x6
BLOCKS[0x59:0x60] = ['Hebrew'] * 0x7
BLOCKS[0x60:0x70] = ['Arabic'] * 0x10
BLOCKS[0x70:0x75] = ['Syriac'] * 0x5
BLOCKS[0x75:0x78] = ['Arabic Supplement'] * 0x3
BLOCKS[0x78:0x7c] = ['Thaana'] * 0x4
BLOCKS[0x7c:0x80] = ['NKo'] * 0x4
BLOCKS[0x80:0x84] = ['Samaritan'] * 0x4
BLOCKS[0x84:0x86] = ['Mandaic'] * 0x2
BLOCKS[0x8a:0x90] = ['Arabic Extended-A'] * 0x6
BLOCKS[0x90:0x98] = ['Devanagari'] * 0x8
BLOCKS[0x98:0xa0] = ['Bengali'] * 0x8
BLOCKS[0xa0:0xa8] = ['Gurmukhi'] * 0x8
BLOCKS[0xa8:0xb0] = ['Gujarati'] * 0x8
BLOCKS[0xb0:0xb8] = ['Oriya'] * 0x8
BLOCKS[0xb8:0xc0] = ['Tamil'] * 0x8
BLOCKS[0xc0:0xc8] = ['Telugu'] * 0x8
BLOCKS[0xc8:0xd0] = ['Kannada'] * 0x8
BLOCKS[0xd0:0xd8] = ['Malayalam'] * 0x8
BLOCKS[0xd8:0xe0] = ['Sinhala'] * 0x8
BLOCKS[0xe0:0xe8] = ['Thai'] * 0x8
BLOCKS[0xe8:0xf0] = ['Lao'] * 0x8
BLOCKS[0xf0:0x100] = ['Tibetan'] * 0x10
BLOCKS[0x100:0x10a] = ['Myanmar'] * 0xa
BLOCKS[0x10a:0x110] = ['Georgian'] * 0x6
BLOCKS[0x110:0x120] = ['Hangul Jamo'] * 0x10
BLOCKS[0x120:0x138] = ['Ethiopic'] * 0x18
BLOCKS[0x138:0x13a] = ['Ethiopic Supplement'] * 0x2
BLOCKS[0x13a:0x140] = ['Cherokee'] * 0x6
BLOCKS[0x140:0x168] = ['Unified Canadian Aboriginal Syllabics'] * 0x28
BLOCKS[0x168:0x16a] = ['Ogham'] * 0x2
BLOCKS[0x16a:0x170] = ['Runic'] * 0x6
BLOCKS[0x170:0x172] = ['Tagalog'] * 0x2
BLOCKS[0x172:0x174] = ['Hanunoo'] * 0x2
BLOCKS[0x174:0x176] = ['Buhid'] * 0x2
BLOCKS[0x176:0x178] = ['Tagbanwa'] * 0x2
BLOCKS[0x178:0x180] = ['Khmer'] * 0x8
BLOCKS[0x180:0x18b] = ['Mongolian'] * 0xb
BLOCKS[0x18b:0x190] = ['Unified Canadian Aboriginal Syllabics Extended'] * 0x5
BLOCKS[0x190:0x195] = ['Limbu'] * 0x5
BLOCKS[0x195:0x198] = ['Tai Le'] * 0x3
BLOCKS[0x198:0x19e] = ['New Tai Lue'] * 0x6
BLOCKS[0x1a0:0x1a2] = ['Buginese'] * 0x2
BLOCKS[0x1a2:0x1ab] = ['Tai Tham'] * 0x9
BLOCKS[0x1b0:0x1b8] = ['Balinese'] * 0x8
BLOCKS[0x1b8:0x1bc] = ['Sundanese'] * 0x4
BLOCKS[0x1bc:0x1c0] = ['Batak'] * 0x4
BLOCKS[0x1c0:0x1c5] = ['Lepcha'] * 0x5
BLOCKS[0x1c5:0x1c8] = ['Ol Chiki'] * 0x3
BLOCKS[0x1cd:0x1d0] = ['Vedic Extensions'] * 0x3
BLOCKS[0x1d0:0x1d8] = ['Phonetic Extensions'] * 0x8
BLOCKS[0x1d8:0x1dc] = ['Phonetic Extensions Supplement'] * 0x4
BLOCKS[0x1e0:0x1f0] = ['Latin Extended Additional'] * 0x10
BLOCKS[0x1f0:0x200] = ['Greek Extended'] * 0x10
BLOCKS[0x207:0x20a] = ['Superscripts and Subscripts'] * 0x3
BLOCKS[0x210:0x215] = ['Letterlike Symbols'] * 0x5
BLOCKS[0x215:0x219] = ['Number Forms'] * 0x4
BLOCKS[0x2c0:0x2c6] = ['Glagolitic'] * 0x6
BLOCKS[0x2c6:0x2c8] = ['Latin Extended-C'] * 0x2
BLOCKS[0x2c8:0x2d0] = ['Coptic'] * 0x8
BLOCKS[0x2d0:0x2d3] = ['Georgian Supplement'] * 0x3
BLOCKS[0x2d3:0x2d8] = ['Tifinagh'] * 0x5
BLOCKS[0x2d8:0x2de] = ['Ethiopic Extended'] * 0x6
BLOCKS[0x2e0:0x2e8] = ['Supplemental Punctuation'] * 0x8
BLOCKS[0x300:0x304] = ['CJK Symbols and Punctuation'] * 0x4
BLOCKS[0x304:0x30a] = ['Kana'] * 0x6 # Hiragana
BLOCKS[0x30a:0x310] = ['Kana'] * 0x6 # Katakana
BLOCKS[0x310:0x313] = ['Bopomofo'] * 0x3
BLOCKS[0x313:0x319] = ['Hangul Compatibility Jamo'] * 0x6
BLOCKS[0x31a:0x31c] = ['Bopomofo Extended'] * 0x2
BLOCKS[0x31f:0x320] = ['Kana'] * 0x1 # Katakana Phonetic Extensions
BLOCKS[0x340:0x4dc] = ['CJK Unified Ideographs Extension A'] * 0x19c
BLOCKS[0x4e0:0xa00] = ['CJK Unified Ideographs'] * 0x520
BLOCKS[0xa00:0xa49] = ['Yi Syllables'] * 0x49
BLOCKS[0xa4d:0xa50] = ['Lisu'] * 0x3
BLOCKS[0xa50:0xa64] = ['Vai'] * 0x14
BLOCKS[0xa64:0xa6a] = ['Cyrillic Extended-B'] * 0x6
BLOCKS[0xa6a:0xa70] = ['Bamum'] * 0x6
BLOCKS[0xa70:0xa72] = ['Modifier Tone Letters'] * 0x2
BLOCKS[0xa72:0xa80] = ['Latin Extended-D'] * 0xe
BLOCKS[0xa80:0xa83] = ['Syloti Nagri'] * 0x3
BLOCKS[0xa84:0xa88] = ['Phags-pa'] * 0x4
BLOCKS[0xa88:0xa8e] = ['Saurashtra'] * 0x6
BLOCKS[0xa8e:0xa90] = ['Devanagari Extended'] * 0x2
BLOCKS[0xa90:0xa93] = ['Kayah Li'] * 0x3
BLOCKS[0xa93:0xa96] = ['Rejang'] * 0x3
BLOCKS[0xa96:0xa98] = ['Hangul Jamo Extended-A'] * 0x2
BLOCKS[0xa98:0xa9e] = ['Javanese'] * 0x6
BLOCKS[0xaa0:0xaa6] = ['Cham'] * 0x6
BLOCKS[0xaa6:0xaa8] = ['Myanmar Extended-A'] * 0x2
BLOCKS[0xaa8:0xaae] = ['Tai Viet'] * 0x6
BLOCKS[0xaae:0xab0] = ['Meetei Mayek Extensions'] * 0x2
BLOCKS[0xab0:0xab3] = ['Ethiopic Extended-A'] * 0x3
BLOCKS[0xabc:0xac0] = ['Meetei Mayek'] * 0x4
BLOCKS[0xac0:0xd7b] = ['Hangul Syllables'] * 0x2bb
BLOCKS[0xd7b:0xd80] = ['Hangul Jamo Extended-B'] * 0x5
BLOCKS[0xf90:0xfb0] = ['CJK Compatibility Ideographs'] * 0x20
BLOCKS[0xfb0:0xfb5] = ['Alphabetic Presentation Forms'] * 0x5
BLOCKS[0xfb5:0xfe0] = ['Arabic Presentation Forms-A'] * 0x2b
BLOCKS[0xfe7:0xff0] = ['Arabic Presentation Forms-B'] * 0x9
BLOCKS[0xff0:0xfff] = ['Halfwidth and Fullwidth Forms'] * 0xf
BLOCKS[0x1000:0x1008] = ['Linear B Syllabary'] * 0x8
BLOCKS[0x1008:0x1010] = ['Linear B Ideograms'] * 0x8
BLOCKS[0x1028:0x102a] = ['Lycian'] * 0x2
BLOCKS[0x102a:0x102e] = ['Carian'] * 0x4
BLOCKS[0x1030:0x1033] = ['Old Italic'] * 0x3
BLOCKS[0x1033:0x1035] = ['Gothic'] * 0x2
BLOCKS[0x1038:0x103a] = ['Ugaritic'] * 0x2
BLOCKS[0x103a:0x103e] = ['Old Persian'] * 0x4
BLOCKS[0x1040:0x1045] = ['Deseret'] * 0x5
BLOCKS[0x1045:0x1048] = ['Shavian'] * 0x3
BLOCKS[0x1048:0x104b] = ['Osmanya'] * 0x3
BLOCKS[0x1080:0x1084] = ['Cypriot Syllabary'] * 0x4
BLOCKS[0x1084:0x1086] = ['Imperial Aramaic'] * 0x2
BLOCKS[0x1090:0x1092] = ['Phoenician'] * 0x2
BLOCKS[0x1092:0x1094] = ['Lydian'] * 0x2
BLOCKS[0x1098:0x109a] = ['Meroitic Hieroglyphs'] * 0x2
BLOCKS[0x109a:0x10a0] = ['Meroitic Cursive'] * 0x6
BLOCKS[0x10a0:0x10a6] = ['Kharoshthi'] * 0x6
BLOCKS[0x10a6:0x10a8] = ['Old South Arabian'] * 0x2
BLOCKS[0x10b0:0x10b4] = ['Avestan'] * 0x4
BLOCKS[0x10b4:0x10b6] = ['Inscriptional Parthian'] * 0x2
BLOCKS[0x10b6:0x10b8] = ['Inscriptional Pahlavi'] * 0x2
BLOCKS[0x10c0:0x10c5] = ['Old Turkic'] * 0x5
BLOCKS[0x1100:0x1108] = ['Brahmi'] * 0x8
BLOCKS[0x1108:0x110d] = ['Kaithi'] * 0x5
BLOCKS[0x110d:0x1110] = ['Sora Sompeng'] * 0x3
BLOCKS[0x1110:0x1115] = ['Chakma'] * 0x5
BLOCKS[0x1118:0x111e] = ['Sharada'] * 0x6
BLOCKS[0x1168:0x116d] = ['Takri'] * 0x5
BLOCKS[0x1200:0x1240] = ['Cuneiform'] * 0x40
BLOCKS[0x1300:0x1343] = ['Egyptian Hieroglyphs'] * 0x43
BLOCKS[0x1680:0x16a4] = ['Bamum Supplement'] * 0x24
BLOCKS[0x16f0:0x16fa] = ['Miao'] * 0xa
BLOCKS[0x1b00:0x1b10] = ['Kana Supplement'] * 0x10
BLOCKS[0x1d40:0x1d80] = ['Mathematical Alphanumeric Symbols'] * 0x40
BLOCKS[0x1ee0:0x1ef0] = ['Arabic Mathematical Alphabetic Symbols'] * 0x10
BLOCKS[0x2000:0x2a6e] = ['CJK Unified Ideographs Extension B'] * 0xa6e
BLOCKS[0x2a70:0x2b74] = ['CJK Unified Ideographs Extension C'] * 0x104
BLOCKS[0x2b74:0x2b82] = ['CJK Unified Ideographs Extension D'] * 0xe
BLOCKS[0x2f80:0x2fa2] = ['CJK Compatibility Ideographs Supplement'] * 0x22

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ie ': 0,
' di': 1,
'die': 2,
'en ': 3,
'ing': 4,
'an ': 5,
' en': 6,
'van': 7,
' va': 8,
'ng ': 9,
'te ': 10,
'n d': 11,
'ver': 12,
'er ': 13,
'e v': 14,
' ge': 15,
' be': 16,
'de ': 17,
' ve': 18,
'nde': 19,
' in': 20,
' te': 21,
'le ': 22,
'der': 23,
'ers': 24,
'et ': 25,
'oor': 26,
" 'n": 27,
"'n ": 28,
'at ': 29,
'eer': 30,
'ste': 31,
'ord': 32,
'aar': 33,
'sie': 34,
' wa': 35,
'es ': 36,
'e s': 37,
'aan': 38,
' on': 39,
'is ': 40,
'in ': 41,
'e o': 42,
'rde': 43,
'e b': 44,
'asi': 45,
'rin': 46,
'ond': 47,
'e w': 48,
'el ': 49,
' is': 50,
'and': 51,
'e e': 52,
'eid': 53,
'e d': 54,
'om ': 55,
'ke ': 56,
' om': 57,
'eri': 58,
' wo': 59,
'e g': 60,
'r d': 61,
'ale': 62,
'wat': 63,
' vo': 64,
'id ': 65,
'it ': 66,
'rd ': 67,
' aa': 68,
'lik': 69,
' we': 70,
't d': 71,
' op': 72,
'e t': 73,
'ngs': 74,
'se ': 75,
'end': 76,
'uit': 77,
' st': 78,
' le': 79,
'ens': 80,
'ter': 81,
' re': 82,
'e a': 83,
'ies': 84,
'wor': 85,
'g v': 86,
'sta': 87,
'n s': 88,
' na': 89,
' pr': 90,
'n o': 91,
' me': 92,
'al ': 93,
'of ': 94,
' vi': 95,
'erd': 96,
'lee': 97,
'e k': 98,
' de': 99,
'ite': 100,
'erk': 101,
'ik ': 102,
'e r': 103,
'e p': 104,
'n v': 105,
'e i': 106,
'e n': 107,
'een': 108,
'eli': 109,
'wer': 110,
' of': 111,
' da': 112,
'tel': 113,
'nie': 114,
'ike': 115,
's e': 116,
'taa': 117,
'ge ': 118,
'vir': 119,
'hei': 120,
'ir ': 121,
'reg': 122,
'ede': 123,
's v': 124,
'ur ': 125,
'pro': 126,
'ele': 127,
'ion': 128,
'wet': 129,
'e l': 130,
' mo': 131,
'e m': 132,
'daa': 133,
'sio': 134,
's d': 135,
' he': 136,
' to': 137,
'ent': 138,
'ard': 139,
'nge': 140,
' oo': 141,
'eur': 142,
'lle': 143,
'ien': 144,
'n b': 145,
'eke': 146,
'lin': 147,
'raa': 148,
' ni': 149,
'ont': 150,
'bes': 151,
'rdi': 152,
'voo': 153,
'ns ': 154,
'n a': 155,
'del': 156,
'dig': 157,
'nas': 158,
' sa': 159,
' gr': 160,
'nis': 161,
'kom': 162,
' ui': 163,
'men': 164,
'op ': 165,
'ins': 166,
'ona': 167,
'ere': 168,
's o': 169,
' so': 170,
'n g': 171,
'ig ': 172,
'moe': 173,
' ko': 174,
'rs ': 175,
'ges': 176,
'nal': 177,
'vol': 178,
'e h': 179,
'geb': 180,
'rui': 181,
'ang': 182,
'ige': 183,
'oet': 184,
'ar ': 185,
'wys': 186,
'lig': 187,
'as ': 188,
'n w': 189,
' as': 190,
'met': 191,
'gs ': 192,
'deu': 193,
't v': 194,
'aal': 195,
'erw': 196,
'dit': 197,
'ken': 198,
'sse': 199,
'kel': 200,
' hu': 201,
'ewe': 202,
'din': 203,
'n t': 204,
' se': 205,
'est': 206,
'ika': 207,
'n p': 208,
'ntw': 209,
't i': 210,
'eni': 211,
' ka': 212,
'n e': 213,
'doe': 214,
'ali': 215,
'eme': 216,
'gro': 217,
'nte': 218,
' ho': 219,
'nsi': 220,
'gen': 221,
'ier': 222,
'gew': 223,
'n h': 224,
'or ': 225,
' ma': 226,
'ind': 227,
'ne ': 228,
'ek ': 229,
'aat': 230,
"n '": 231,
' sk': 232,
'ide': 233,
' ta': 234,
'dat': 235,
'ska': 236,
'ger': 237,
'soo': 238,
'n k': 239,
's i': 240,
' af': 241,
'tee': 242,
'nd ': 243,
'eel': 244,
'hul': 245,
'nee': 246,
'woo': 247,
'rik': 248,
'd v': 249,
'n m': 250,
're ': 251,
'art': 252,
'ebr': 253,
'lan': 254,
'kke': 255,
'ron': 256,
'aam': 257,
'tre': 258,
'str': 259,
'kan': 260,
'ree': 261,
'lei': 262,
't o': 263,
'gra': 264,
'het': 265,
'evo': 266,
'tan': 267,
'den': 268,
'ist': 269,
' do': 270,
'bru': 271,
'toe': 272,
'olg': 273,
'rsk': 274,
'uik': 275,
'rwy': 276,
'min': 277,
'lge': 278,
'g e': 279,
'g o': 280,
'nst': 281,
'r v': 282,
'gte': 283,
'waa': 284,
'we ': 285,
'ans': 286,
'esi': 287,
'ese': 288,
'voe': 289,
'epa': 290,
'gel': 291,
' hi': 292,
'vin': 293,
'nse': 294,
's w': 295,
's t': 296,
'tei': 297,
'eit': 298,
'pre': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' ال': 0,
'الع': 1,
'لعر': 2,
'عرا': 3,
'راق': 4,
' في': 5,
'في ': 6,
'ين ': 7,
'ية ': 8,
'ن ا': 9,
'الم': 10,
'ات ': 11,
'من ': 12,
'ي ا': 13,
' من': 14,
'الأ': 15,
'ة ا': 16,
'اق ': 17,
' وا': 18,
'اء ': 19,
'الإ': 20,
' أن': 21,
'وال': 22,
'ما ': 23,
' عل': 24,
'لى ': 25,
'ت ا': 26,
'ون ': 27,
'هم ': 28,
'اقي': 29,
'ام ': 30,
'ل ا': 31,
'أن ': 32,
'م ا': 33,
'الت': 34,
'لا ': 35,
'الا': 36,
'ان ': 37,
'ها ': 38,
'ال ': 39,
'ة و': 40,
'ا ا': 41,
'رها': 42,
'لام': 43,
'يين': 44,
' ول': 45,
'لأم': 46,
'نا ': 47,
'على': 48,
'ن ي': 49,
'الب': 50,
'اد ': 51,
'الق': 52,
'د ا': 53,
'ذا ': 54,
'ه ا': 55,
' با': 56,
'الد': 57,
'ب ا': 58,
'مري': 59,
'لم ': 60,
' إن': 61,
' لل': 62,
'سلا': 63,
'أمر': 64,
'ريك': 65,
'مة ': 66,
'ى ا': 67,
'ا ي': 68,
' عن': 69,
' هذ': 70,
'ء ا': 71,
'ر ا': 72,
'كان': 73,
'قتل': 74,
'إسل': 75,
'الح': 76,
'وا ': 77,
' إل': 78,
'ا أ': 79,
'بال': 80,
'ن م': 81,
'الس': 82,
'رة ': 83,
'لإس': 84,
'ن و': 85,
'هاب': 86,
'ي و': 87,
'ير ': 88,
' كا': 89,
'لة ': 90,
'يات': 91,
' لا': 92,
'انت': 93,
'ن أ': 94,
'يكي': 95,
'الر': 96,
'الو': 97,
'ة ف': 98,
'دة ': 99,
'الج': 100,
'قي ': 101,
'وي ': 102,
'الذ': 103,
'الش': 104,
'امي': 105,
'اني': 106,
'ذه ': 107,
'عن ': 108,
'لما': 109,
'هذه': 110,
'ول ': 111,
'اف ': 112,
'اوي': 113,
'بري': 114,
'ة ل': 115,
' أم': 116,
' لم': 117,
' ما': 118,
'يد ': 119,
' أي': 120,
'إره': 121,
'ع ا': 122,
'عمل': 123,
'ولا': 124,
'إلى': 125,
'ابي': 126,
'ن ف': 127,
'ختط': 128,
'لك ': 129,
'نه ': 130,
'ني ': 131,
'إن ': 132,
'دين': 133,
'ف ا': 134,
'لذي': 135,
'ي أ': 136,
'ي ب': 137,
' وأ': 138,
'ا ع': 139,
'الخ': 140,
'تل ': 141,
'تي ': 142,
'قد ': 143,
'لدي': 144,
' كل': 145,
' مع': 146,
'اب ': 147,
'اخت': 148,
'ار ': 149,
'الن': 150,
'علا': 151,
'م و': 152,
'مع ': 153,
'س ا': 154,
'كل ': 155,
'لاء': 156,
'ن ب': 157,
'ن ت': 158,
'ي م': 159,
'عرب': 160,
'م ب': 161,
' وق': 162,
' يق': 163,
'ا ل': 164,
'ا م': 165,
'الف': 166,
'تطا': 167,
'داد': 168,
'لمس': 169,
'له ': 170,
'هذا': 171,
' مح': 172,
'ؤلا': 173,
'بي ': 174,
'ة م': 175,
'ن ل': 176,
'هؤل': 177,
'كن ': 178,
'لإر': 179,
'لتي': 180,
' أو': 181,
' ان': 182,
' عم': 183,
'ا ف': 184,
'ة أ': 185,
'طاف': 186,
'عب ': 187,
'ل م': 188,
'ن ع': 189,
'ور ': 190,
'يا ': 191,
' يس': 192,
'ا ت': 193,
'ة ب': 194,
'راء': 195,
'عال': 196,
'قوا': 197,
'قية': 198,
'لعا': 199,
'م ي': 200,
'مي ': 201,
'مية': 202,
'نية': 203,
'أي ': 204,
'ابا': 205,
'بغد': 206,
'بل ': 207,
'رب ': 208,
'عما': 209,
'غدا': 210,
'مال': 211,
'ملي': 212,
'يس ': 213,
' بأ': 214,
' بع': 215,
' بغ': 216,
' وم': 217,
'بات': 218,
'بية': 219,
'ذلك': 220,
'عة ': 221,
'قاو': 222,
'قيي': 223,
'كي ': 224,
'م م': 225,
'ي ع': 226,
' عر': 227,
' قا': 228,
'ا و': 229,
'رى ': 230,
'ق ا': 231,
'وات': 232,
'وم ': 233,
' هؤ': 234,
'ا ب': 235,
'دام': 236,
'دي ': 237,
'رات': 238,
'شعب': 239,
'لان': 240,
'لشع': 241,
'لقو': 242,
'ليا': 243,
'ن ه': 244,
'ي ت': 245,
'ي ي': 246,
' وه': 247,
' يح': 248,
'جرا': 249,
'جما': 250,
'حمد': 251,
'دم ': 252,
'كم ': 253,
'لاو': 254,
'لره': 255,
'ماع': 256,
'ن ق': 257,
'نة ': 258,
'هي ': 259,
' بل': 260,
' به': 261,
' له': 262,
' وي': 263,
'ا ك': 264,
'اذا': 265,
'اع ': 266,
'ت م': 267,
'تخا': 268,
'خاب': 269,
'ر م': 270,
'لمت': 271,
'مسل': 272,
'ى أ': 273,
'يست': 274,
'يطا': 275,
' لأ': 276,
' لي': 277,
'أمن': 278,
'است': 279,
'بعض': 280,
'ة ت': 281,
'ري ': 282,
'صدا': 283,
'ق و': 284,
'قول': 285,
'مد ': 286,
'نتخ': 287,
'نفس': 288,
'نها': 289,
'هنا': 290,
'أعم': 291,
'أنه': 292,
'ائن': 293,
'الآ': 294,
'الك': 295,
'حة ': 296,
'د م': 297,
'ر ع': 298,
'ربي': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'lər': 0,
'in ': 1,
'ın ': 2,
'lar': 3,
'da ': 4,
'an ': 5,
'ir ': 6,
'': 7,
'ki ': 8,
' bi': 9,
'ən ': 10,
'əri': 11,
'arı': 12,
'ər ': 13,
'dir': 14,
'nda': 15,
' ki': 16,
'rin': 17,
'nın': 18,
'əsi': 19,
'ini': 20,
' ed': 21,
' qa': 22,
'': 23,
' ba': 24,
' ol': 25,
'ası': 26,
'ilə': 27,
'rın': 28,
' ya': 29,
'anı': 30,
'': 31,
'ndə': 32,
'ni ': 33,
'ara': 34,
'ını': 35,
'ınd': 36,
' bu': 37,
'si ': 38,
'ib ': 39,
'aq ': 40,
'dən': 41,
'iya': 42,
'': 43,
'': 44,
'n b': 45,
'sın': 46,
'': 47,
'iri': 48,
'': 49,
'nin': 50,
'əli': 51,
' de': 52,
'': 53,
'bir': 54,
'n s': 55,
'ri ': 56,
'ək ': 57,
' az': 58,
'': 59,
'ar ': 60,
'bil': 61,
'zər': 62,
'bu ': 63,
'dan': 64,
'edi': 65,
'ind': 66,
'man': 67,
'un ': 68,
'ərə': 69,
' ha': 70,
'lan': 71,
'yyə': 72,
'iyy': 73,
' il': 74,
' ne': 75,
'r k': 76,
'ə b': 77,
' is': 78,
'na ': 79,
'nun': 80,
'ır ': 81,
' da': 82,
'': 83,
'a b': 84,
'inə': 85,
'sin': 86,
'yan': 87,
'ərb': 88,
'': 89,
'': 90,
'': 91,
'dır': 92,
'li ': 93,
'ola': 94,
'rba': 95,
'azə': 96,
'can': 97,
'lı ': 98,
'nla': 99,
' et': 100,
'': 101,
'alı': 102,
'ayc': 103,
'bay': 104,
'eft': 105,
'ist': 106,
'n i': 107,
'nef': 108,
'tlə': 109,
'yca': 110,
'yət': 111,
'əcə': 112,
' la': 113,
'ild': 114,
'nı ': 115,
'tin': 116,
'ldi': 117,
'lik': 118,
'n h': 119,
'n m': 120,
'oyu': 121,
'raq': 122,
'ya ': 123,
'əti': 124,
' ar': 125,
'ada': 126,
'edə': 127,
'mas': 128,
'sı ': 129,
'ına': 130,
'ə d': 131,
'ələ': 132,
'ayı': 133,
'iyi': 134,
'lma': 135,
'mək': 136,
'n d': 137,
'ti ': 138,
'yin': 139,
'yun': 140,
'ət ': 141,
'azı': 142,
'ft ': 143,
'i t': 144,
'lli': 145,
'n a': 146,
'ra ': 147,
'': 148,
'': 149,
' ko': 150,
'': 151,
' oy': 152,
'a d': 153,
'ana': 154,
'cək': 155,
'eyi': 156,
'ilm': 157,
'irl': 158,
'lay': 159,
'liy': 160,
'lub': 161,
'n ə': 162,
'ril': 163,
'rlə': 164,
'unu': 165,
'ver': 166,
'ün ': 167,
'ə o': 168,
'əni': 169,
' he': 170,
' ma': 171,
' on': 172,
' pa': 173,
'ala': 174,
'dey': 175,
'i m': 176,
'ima': 177,
'lmə': 178,
'mət': 179,
'par': 180,
'': 181,
'ətl': 182,
' al': 183,
' mi': 184,
' sa': 185,
' əl': 186,
'adı': 187,
'akı': 188,
'and': 189,
'ard': 190,
'art': 191,
'ayi': 192,
'i a': 193,
'i q': 194,
'i y': 195,
'ili': 196,
'ill': 197,
'isə': 198,
'n o': 199,
'n q': 200,
'olu': 201,
'rla': 202,
'stə': 203,
'': 204,
'tan': 205,
'tel': 206,
'yar': 207,
'ədə': 208,
' me': 209,
'': 210,
' ve': 211,
' ye': 212,
'a k': 213,
'at ': 214,
'baş': 215,
'diy': 216,
'ent': 217,
'eti': 218,
'həs': 219,
'i i': 220,
'ik ': 221,
'la ': 222,
'miş': 223,
'n n': 224,
'nu ': 225,
'qar': 226,
'ran': 227,
'tər': 228,
'xan': 229,
'ə a': 230,
'ə g': 231,
'ə t': 232,
'': 233,
'ama': 234,
'b k': 235,
'dil': 236,
'era': 237,
'etm': 238,
'i b': 239,
'kil': 240,
'mil': 241,
'n r': 242,
'qla': 243,
'r s': 244,
'ras': 245,
'siy': 246,
'son': 247,
'tim': 248,
'yer': 249,
'ə k': 250,
'': 251,
' so': 252,
'': 253,
' te': 254,
' xa': 255,
'ai ': 256,
'bar': 257,
'cti': 258,
'di ': 259,
'eri': 260,
'gör': 261,
'gün': 262,
'gəl': 263,
'hbə': 264,
'ihə': 265,
'iki': 266,
'isi': 267,
'lin': 268,
'mai': 269,
'maq': 270,
'n k': 271,
'n t': 272,
'n v': 273,
'onu': 274,
'qan': 275,
'qəz': 276,
'': 277,
'xal': 278,
'yib': 279,
'yih': 280,
'zet': 281,
'zır': 282,
'ıb ': 283,
'ə m': 284,
'əze': 285,
' br': 286,
' in': 287,
' ir': 288,
' pr': 289,
' ta': 290,
' to': 291,
' üç': 292,
'a o': 293,
'ali': 294,
'ani': 295,
'anl': 296,
'aql': 297,
'azi': 298,
'bri': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'на ': 0,
' на': 1,
'то ': 2,
' пр': 3,
' за': 4,
'та ': 5,
' по': 6,
'ите': 7,
'те ': 8,
'а п': 9,
'а с': 10,
' от': 11,
'за ': 12,
'ата': 13,
'ия ': 14,
' в ': 15,
'е н': 16,
' да': 17,
'а н': 18,
' се': 19,
' ко': 20,
'да ': 21,
'от ': 22,
'ани': 23,
'пре': 24,
'не ': 25,
'ени': 26,
'о н': 27,
'ни ': 28,
'се ': 29,
' и ': 30,
'но ': 31,
'ане': 32,
'ето': 33,
'а в': 34,
'ва ': 35,
'ван': 36,
'е п': 37,
'а о': 38,
'ото': 39,
'ран': 40,
'ат ': 41,
'ред': 42,
' не': 43,
'а д': 44,
'и п': 45,
' до': 46,
'про': 47,
' съ': 48,
'ли ': 49,
'при': 50,
'ния': 51,
'ски': 52,
'тел': 53,
'а и': 54,
'по ': 55,
'ри ': 56,
' е ': 57,
' ка': 58,
'ира': 59,
'кат': 60,
'ние': 61,
'нит': 62,
'е з': 63,
'и с': 64,
'о с': 65,
'ост': 66,
'че ': 67,
' ра': 68,
'ист': 69,
'о п': 70,
' из': 71,
' са': 72,
'е д': 73,
'ини': 74,
'ки ': 75,
'мин': 76,
' ми': 77,
'а б': 78,
'ава': 79,
'е в': 80,
'ие ': 81,
'пол': 82,
'ств': 83,
'т н': 84,
' въ': 85,
' ст': 86,
' то': 87,
'аза': 88,
'е о': 89,
'ов ': 90,
'ст ': 91,
'ът ': 92,
'и н': 93,
'ият': 94,
'нат': 95,
'ра ': 96,
' бъ': 97,
' че': 98,
'алн': 99,
'е с': 100,
'ен ': 101,
'ест': 102,
'и д': 103,
'лен': 104,
'нис': 105,
'о о': 106,
'ови': 107,
' об': 108,
' сл': 109,
'а р': 110,
'ато': 111,
'кон': 112,
'нос': 113,
'ров': 114,
'ще ': 115,
' ре': 116,
' с ': 117,
' сп': 118,
'ват': 119,
'еше': 120,
'и в': 121,
'иет': 122,
'о в': 123,
'ове': 124,
'ста': 125,
'а к': 126,
'а т': 127,
'дат': 128,
'ент': 129,
'ка ': 130,
'лед': 131,
'нет': 132,
'ори': 133,
'стр': 134,
'стъ': 135,
'ти ': 136,
'тър': 137,
' те': 138,
'а з': 139,
'а м': 140,
'ад ': 141,
'ана': 142,
'ено': 143,
'и о': 144,
'ина': 145,
'ити': 146,
'ма ': 147,
'ска': 148,
'сле': 149,
'тво': 150,
'тер': 151,
'ция': 152,
'ят ': 153,
' бе': 154,
' де': 155,
' па': 156,
'ате': 157,
'вен': 158,
'ви ': 159,
'вит': 160,
'и з': 161,
'и и': 162,
'нар': 163,
'нов': 164,
'ова': 165,
'пов': 166,
'рез': 167,
'рит': 168,
'са ': 169,
'ята': 170,
' го': 171,
' ще': 172,
'али': 173,
'в п': 174,
'гра': 175,
'е и': 176,
'еди': 177,
'ели': 178,
'или': 179,
'каз': 180,
'кит': 181,
'лно': 182,
'мен': 183,
'оли': 184,
'раз': 185,
' ве': 186,
' гр': 187,
' им': 188,
' ме': 189,
' пъ': 190,
'ави': 191,
'ако': 192,
'ача': 193,
'вин': 194,
'во ': 195,
'гов': 196,
'дан': 197,
'ди ': 198,
'до ': 199,
'ед ': 200,
'ери': 201,
'еро': 202,
'жда': 203,
'ито': 204,
'ков': 205,
'кол': 206,
'лни': 207,
'мер': 208,
'нач': 209,
'о з': 210,
'ола': 211,
'он ': 212,
'она': 213,
'пра': 214,
'рав': 215,
'рем': 216,
'сия': 217,
'сти': 218,
'т п': 219,
'тан': 220,
'ха ': 221,
'ше ': 222,
'шен': 223,
'ълг': 224,
' ба': 225,
' си': 226,
'аро': 227,
'бъл': 228,
'в р': 229,
'гар': 230,
'е е': 231,
'елн': 232,
'еме': 233,
'ико': 234,
'има': 235,
'ко ': 236,
'кои': 237,
'ла ': 238,
'лга': 239,
'о д': 240,
'ози': 241,
'оит': 242,
'под': 243,
'рес': 244,
'рие': 245,
'сто': 246,
'т к': 247,
'т м': 248,
'т с': 249,
'уст': 250,
' би': 251,
' дв': 252,
' дъ': 253,
' ма': 254,
' мо': 255,
' ни': 256,
' ос': 257,
'ала': 258,
'анс': 259,
'ара': 260,
'ати': 261,
'аци': 262,
'беш': 263,
'вър': 264,
'е р': 265,
'едв': 266,
'ема': 267,
'жав': 268,
'и к': 269,
'иал': 270,
'ица': 271,
'иче': 272,
'кия': 273,
'лит': 274,
'о б': 275,
'ово': 276,
'оди': 277,
'ока': 278,
'пос': 279,
'род': 280,
'сед': 281,
'слу': 282,
'т и': 283,
'тов': 284,
'ува': 285,
'циа': 286,
'чес': 287,
'я з': 288,
' во': 289,
' ил': 290,
' ск': 291,
' тр': 292,
' це': 293,
'ами': 294,
'ари': 295,
'бат': 296,
'би ': 297,
'бра': 298,
'бъд': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' de': 0,
'es ': 1,
'de ': 2,
'la ': 3,
' la': 4,
'el ': 5,
'que': 6,
' el': 7,
' co': 8,
'ent': 9,
's d': 10,
' qu': 11,
' i ': 12,
'en ': 13,
'er ': 14,
' a ': 15,
'ls ': 16,
'nt ': 17,
' pe': 18,
'e l': 19,
'a d': 20,
' en': 21,
'per': 22,
'ci ': 23,
'ar ': 24,
'ue ': 25,
'al ': 26,
' se': 27,
'est': 28,
'at ': 29,
' es': 30,
'ts ': 31,
' s ': 32,
' pr': 33,
'aci': 34,
' un': 35,
'res': 36,
'men': 37,
's e': 38,
'del': 39,
's a': 40,
's p': 41,
' re': 42,
'les': 43,
" l'": 44,
'na ': 45,
'a l': 46,
' ca': 47,
" d'": 48,
'els': 49,
'a p': 50,
'ia ': 51,
'ns ': 52,
'con': 53,
' le': 54,
'tat': 55,
'a c': 56,
'i d': 57,
'a a': 58,
'ra ': 59,
'a e': 60,
' no': 61,
'ant': 62,
' al': 63,
't d': 64,
's i': 65,
' di': 66,
'ta ': 67,
're ': 68,
'a s': 69,
'com': 70,
's c': 71,
'ita': 72,
'ons': 73,
'sta': 74,
'ica': 75,
' po': 76,
'r a': 77,
' in': 78,
'pro': 79,
'tre': 80,
' pa': 81,
'ues': 82,
'amb': 83,
'ion': 84,
'des': 85,
'un ': 86,
' ma': 87,
'da ': 88,
's s': 89,
'a i': 90,
'an ': 91,
'mb ': 92,
' am': 93,
'l d': 94,
'e d': 95,
'va ': 96,
'pre': 97,
'ter': 98,
'e e': 99,
'e c': 100,
'a m': 101,
'cia': 102,
'una': 103,
'i e': 104,
'nci': 105,
'tra': 106,
' te': 107,
'ona': 108,
'os ': 109,
't e': 110,
'n e': 111,
'l c': 112,
'ca ': 113,
'cio': 114,
'l p': 115,
' tr': 116,
'par': 117,
'r l': 118,
't a': 119,
'e p': 120,
'aqu': 121,
'nta': 122,
' so': 123,
'ame': 124,
'era': 125,
'r e': 126,
'e s': 127,
'ada': 128,
'n a': 129,
's q': 130,
' si': 131,
' ha': 132,
'als': 133,
'tes': 134,
' va': 135,
' m ': 136,
'ici': 137,
'nte': 138,
's l': 139,
's m': 140,
'i a': 141,
'or ': 142,
' mo': 143,
'ist': 144,
'ect': 145,
'lit': 146,
'm s': 147,
' to': 148,
'ir ': 149,
'a t': 150,
'esp': 151,
'ran': 152,
'str': 153,
'om ': 154,
'l s': 155,
'st ': 156,
'nts': 157,
' me': 158,
'no ': 159,
'r d': 160,
"d'a": 161,
"l'a": 162,
'ats': 163,
'ria': 164,
's t': 165,
' ta': 166,
'sen': 167,
'rs ': 168,
'eix': 169,
'tar': 170,
's n': 171,
'n l': 172,
'tal': 173,
'e a': 174,
't p': 175,
'art': 176,
' mi': 177,
' ll': 178,
'tic': 179,
'ten': 180,
'ser': 181,
' aq': 182,
'ina': 183,
'ntr': 184,
'a f': 185,
'sti': 186,
'ol ': 187,
'a q': 188,
'for': 189,
'ura': 190,
'ers': 191,
'ari': 192,
'int': 193,
'act': 194,
"l'e": 195,
' fi': 196,
'r s': 197,
'e t': 198,
'tor': 199,
'si ': 200,
'ste': 201,
'rec': 202,
'a r': 203,
' fe': 204,
'is ': 205,
'em ': 206,
'n d': 207,
'car': 208,
'bre': 209,
' fo': 210,
' vi': 211,
' an': 212,
'ali': 213,
'i p': 214,
'ix ': 215,
'ell': 216,
'l m': 217,
'pos': 218,
'orm': 219,
'l l': 220,
'i l': 221,
' ac': 222,
'fer': 223,
's r': 224,
'ess': 225,
'eu ': 226,
'e m': 227,
'ens': 228,
'ara': 229,
'eri': 230,
'sa ': 231,
'ssi': 232,
'us ': 233,
'ort': 234,
'tot': 235,
'll ': 236,
'por': 237,
'ora': 238,
' ci': 239,
'tan': 240,
'ass': 241,
'n c': 242,
'ost': 243,
'nes': 244,
'rac': 245,
'a u': 246,
'ver': 247,
'ont': 248,
'ha ': 249,
' ti': 250,
'itz': 251,
'gra': 252,
't c': 253,
' n ': 254,
'a v': 255,
'ren': 256,
'cat': 257,
'nal': 258,
' ri': 259,
'qua': 260,
't l': 261,
' do': 262,
't s': 263,
'rma': 264,
'ual': 265,
'i s': 266,
's f': 267,
'n p': 268,
's v': 269,
'te ': 270,
't i': 271,
' ba': 272,
'cte': 273,
'tam': 274,
'man': 275,
'l t': 276,
'ial': 277,
' fa': 278,
'ic ': 279,
' ve': 280,
'ble': 281,
'a n': 282,
'all': 283,
'tza': 284,
'ies': 285,
" s'": 286,
'le ': 287,
'omp': 288,
'r c': 289,
' nc': 290,
'rti': 291,
'it ': 292,
'rre': 293,
'fic': 294,
'any': 295,
'on ': 296,
' sa': 297,
'r p': 298,
'tur': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ng ': 0,
'sa ': 1,
' sa': 2,
'ang': 3,
'ga ': 4,
'nga': 5,
' ka': 6,
' ng': 7,
'an ': 8,
' an': 9,
' na': 10,
' ma': 11,
' ni': 12,
'a s': 13,
'a n': 14,
'on ': 15,
' pa': 16,
' si': 17,
'a k': 18,
'a m': 19,
' ba': 20,
'ong': 21,
'a i': 22,
'ila': 23,
' mg': 24,
'mga': 25,
'a p': 26,
'iya': 27,
'a a': 28,
'ay ': 29,
'ka ': 30,
'ala': 31,
'ing': 32,
'g m': 33,
'n s': 34,
'g n': 35,
'lan': 36,
' gi': 37,
'na ': 38,
'ni ': 39,
'o s': 40,
'g p': 41,
'n n': 42,
' da': 43,
'ag ': 44,
'pag': 45,
'g s': 46,
'yan': 47,
'ayo': 48,
'o n': 49,
'si ': 50,
' mo': 51,
'a b': 52,
'g a': 53,
'ail': 54,
'g b': 55,
'han': 56,
'a d': 57,
'asu': 58,
'nag': 59,
'ya ': 60,
'man': 61,
'ne ': 62,
'pan': 63,
'kon': 64,
' il': 65,
' la': 66,
'aka': 67,
'ako': 68,
'ana': 69,
'bas': 70,
'ko ': 71,
'od ': 72,
'yo ': 73,
' di': 74,
' ko': 75,
' ug': 76,
'a u': 77,
'g k': 78,
'kan': 79,
'la ': 80,
'len': 81,
'sur': 82,
'ug ': 83,
' ai': 84,
'apa': 85,
'aw ': 86,
'd s': 87,
'g d': 88,
'g g': 89,
'ile': 90,
'nin': 91,
' iy': 92,
' su': 93,
'ene': 94,
'og ': 95,
'ot ': 96,
'aba': 97,
'aha': 98,
'as ': 99,
'imo': 100,
' ki': 101,
'a t': 102,
'aga': 103,
'ban': 104,
'ero': 105,
'nan': 106,
'o k': 107,
'ran': 108,
'ron': 109,
'sil': 110,
'una': 111,
'usa': 112,
' us': 113,
'a g': 114,
'ahi': 115,
'ani': 116,
'er ': 117,
'ha ': 118,
'i a': 119,
'rer': 120,
'yon': 121,
' pu': 122,
'ini': 123,
'nak': 124,
'ro ': 125,
'to ': 126,
'ure': 127,
' ed': 128,
' og': 129,
' wa': 130,
'ili': 131,
'mo ': 132,
'n a': 133,
'nd ': 134,
'o a': 135,
' ad': 136,
' du': 137,
' pr': 138,
'aro': 139,
'i s': 140,
'ma ': 141,
'n m': 142,
'ulo': 143,
'und': 144,
' ta': 145,
'ara': 146,
'asa': 147,
'ato': 148,
'awa': 149,
'dmu': 150,
'e n': 151,
'edm': 152,
'ina': 153,
'mak': 154,
'mun': 155,
'niy': 156,
'san': 157,
'wa ': 158,
' tu': 159,
' un': 160,
'a l': 161,
'bay': 162,
'iga': 163,
'ika': 164,
'ita': 165,
'kin': 166,
'lis': 167,
'may': 168,
'os ': 169,
' ar': 170,
'ad ': 171,
'ali': 172,
'ama': 173,
'ers': 174,
'ipa': 175,
'isa': 176,
'mao': 177,
'nim': 178,
't s': 179,
'tin': 180,
' ak': 181,
' ap': 182,
' hi': 183,
'abo': 184,
'agp': 185,
'ano': 186,
'ata': 187,
'g i': 188,
'gan': 189,
'gka': 190,
'gpa': 191,
'i m': 192,
'iha': 193,
'k s': 194,
'law': 195,
'or ': 196,
'rs ': 197,
'siy': 198,
'tag': 199,
' al': 200,
' at': 201,
' ha': 202,
' hu': 203,
' im': 204,
'a h': 205,
'bu ': 206,
'e s': 207,
'gma': 208,
'kas': 209,
'lag': 210,
'mon': 211,
'nah': 212,
'ngo': 213,
'r s': 214,
'ra ': 215,
'sab': 216,
'sam': 217,
'sul': 218,
'uba': 219,
'uha': 220,
' lo': 221,
' re': 222,
'ada': 223,
'aki': 224,
'aya': 225,
'bah': 226,
'ce ': 227,
'd n': 228,
'lab': 229,
'pa ': 230,
'pak': 231,
's n': 232,
's s': 233,
'tan': 234,
'taw': 235,
'te ': 236,
'uma': 237,
'ura': 238,
' in': 239,
' lu': 240,
'a c': 241,
'abi': 242,
'at ': 243,
'awo': 244,
'bat': 245,
'dal': 246,
'dla': 247,
'ele': 248,
'g t': 249,
'g u': 250,
'gay': 251,
'go ': 252,
'hab': 253,
'hin': 254,
'i e': 255,
'i n': 256,
'kab': 257,
'kap': 258,
'lay': 259,
'lin': 260,
'nil': 261,
'pam': 262,
'pas': 263,
'pro': 264,
'pul': 265,
'ta ': 266,
'ton': 267,
'uga': 268,
'ugm': 269,
'unt': 270,
' co': 271,
' gu': 272,
' mi': 273,
' pi': 274,
' ti': 275,
'a o': 276,
'abu': 277,
'adl': 278,
'ado': 279,
'agh': 280,
'agk': 281,
'ao ': 282,
'art': 283,
'bal': 284,
'cit': 285,
'di ': 286,
'dto': 287,
'dun': 288,
'ent': 289,
'g e': 290,
'gon': 291,
'gug': 292,
'ia ': 293,
'iba': 294,
'ice': 295,
'in ': 296,
'inu': 297,
'it ': 298,
'kaa': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' pr': 0,
' po': 1,
'': 2,
'pro': 3,
' na': 4,
'na ': 5,
'': 6,
'ch ': 7,
' je': 8,
' ne': 9,
'že ': 10,
' že': 11,
' se': 12,
' do': 13,
' ro': 14,
' st': 15,
' v ': 16,
' ve': 17,
'pře': 18,
'se ': 19,
'ho ': 20,
'sta': 21,
' to': 22,
' vy': 23,
' za': 24,
'ou ': 25,
' a ': 26,
'to ': 27,
' by': 28,
'la ': 29,
'ce ': 30,
'e v': 31,
'ist': 32,
'le ': 33,
'pod': 34,
'í p': 35,
' vl': 36,
'e n': 37,
'e s': 38,
'je ': 39,
'': 40,
'by ': 41,
'em ': 42,
'ých': 43,
' od': 44,
'ova': 45,
'řed': 46,
'dy ': 47,
'ení': 48,
'kon': 49,
'li ': 50,
'': 51,
'str': 52,
'': 53,
've ': 54,
' ka': 55,
' sv': 56,
'e p': 57,
'it ': 58,
'lád': 59,
'oho': 60,
'rov': 61,
'roz': 62,
'ter': 63,
'vlá': 64,
'ím ': 65,
' ko': 66,
'hod': 67,
'nis': 68,
'pří': 69,
'ský': 70,
' mi': 71,
' ob': 72,
' so': 73,
'a p': 74,
'ali': 75,
'bud': 76,
'edn': 77,
'ick': 78,
'kte': 79,
'ku ': 80,
'o s': 81,
'al ': 82,
'ci ': 83,
'e t': 84,
'il ': 85,
'ny ': 86,
'': 87,
'odl': 88,
'ová': 89,
'rot': 90,
'sou': 91,
'ání': 92,
' bu': 93,
' mo': 94,
' o ': 95,
'ast': 96,
'byl': 97,
'de ': 98,
'ek ': 99,
'ost': 100,
'': 101,
' ta': 102,
'es ': 103,
'jed': 104,
'ky ': 105,
'las': 106,
'm p': 107,
'nes': 108,
'ním': 109,
'ran': 110,
'rem': 111,
'ros': 112,
'ého': 113,
' de': 114,
' kt': 115,
' ni': 116,
' si': 117,
'': 118,
'at ': 119,
'': 120,
'': 121,
'mi ': 122,
'pre': 123,
'tak': 124,
'tan': 125,
'y v': 126,
'řek': 127,
' ch': 128,
' li': 129,
'': 130,
' pa': 131,
' ře': 132,
'da ': 133,
'dle': 134,
'dne': 135,
'i p': 136,
'i v': 137,
'ly ': 138,
'min': 139,
'o n': 140,
'o v': 141,
'pol': 142,
'tra': 143,
'val': 144,
'vní': 145,
'ích': 146,
'ý p': 147,
'řej': 148,
' ce': 149,
' kd': 150,
' le': 151,
'a s': 152,
'a z': 153,
'cen': 154,
'e k': 155,
'eds': 156,
'ekl': 157,
'emi': 158,
'kl ': 159,
'lat': 160,
'lo ': 161,
'mié': 162,
'nov': 163,
'pra': 164,
'sku': 165,
'ské': 166,
'sti': 167,
'tav': 168,
'ti ': 169,
'ty ': 170,
'ván': 171,
'': 172,
'y n': 173,
'y s': 174,
'í s': 175,
'í v': 176,
'ě p': 177,
' dn': 178,
'': 179,
' sp': 180,
' čs': 181,
'a n': 182,
'a t': 183,
'ak ': 184,
'dní': 185,
'doh': 186,
'e b': 187,
'e m': 188,
'ejn': 189,
'ena': 190,
'est': 191,
'ini': 192,
'm z': 193,
'nal': 194,
'nou': 195,
'': 196,
'ovi': 197,
'ové': 198,
'ový': 199,
'rsk': 200,
'stá': 201,
'': 202,
'tře': 203,
'': 204,
'ude': 205,
'za ': 206,
'é p': 207,
'ém ': 208,
'í d': 209,
' ir': 210,
' zv': 211,
'ale': 212,
'aně': 213,
'ave': 214,
'cké': 215,
'den': 216,
'e z': 217,
'ech': 218,
'en ': 219,
'erý': 220,
'hla': 221,
'i s': 222,
'iér': 223,
'lov': 224,
'mu ': 225,
'neb': 226,
'nic': 227,
'o b': 228,
'o m': 229,
'pad': 230,
'pot': 231,
'rav': 232,
'rop': 233,
'': 234,
'sed': 235,
'si ': 236,
't p': 237,
'tic': 238,
'tu ': 239,
'': 240,
'u p': 241,
'u v': 242,
'': 243,
'výš': 244,
'zvý': 245,
'ční': 246,
'ří ': 247,
'ům ': 248,
' bl': 249,
' br': 250,
' ho': 251,
' ja': 252,
' re': 253,
' s ': 254,
' z ': 255,
' zd': 256,
'a v': 257,
'ani': 258,
'ato': 259,
'bla': 260,
'bri': 261,
'ečn': 262,
'eře': 263,
'h v': 264,
'i n': 265,
'ie ': 266,
'ila': 267,
'irs': 268,
'ite': 269,
'kov': 270,
'nos': 271,
'o o': 272,
'o p': 273,
'oce': 274,
'ody': 275,
'ohl': 276,
'oli': 277,
'ovo': 278,
'pla': 279,
'poč': 280,
'prá': 281,
'ra ': 282,
'rit': 283,
'rod': 284,
'ry ': 285,
'sd ': 286,
'sko': 287,
'ssd': 288,
'tel': 289,
'u s': 290,
'vat': 291,
'veř': 292,
'vit': 293,
'vla': 294,
'y p': 295,
'áln': 296,
'čss': 297,
'šen': 298,
' al': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'yn ': 0,
'dd ': 1,
' yn': 2,
' y ': 3,
'ydd': 4,
'eth': 5,
'th ': 6,
' i ': 7,
'aet': 8,
'd y': 9,
'ch ': 10,
'od ': 11,
'ol ': 12,
'edd': 13,
' ga': 14,
' gw': 15,
"'r ": 16,
'au ': 17,
'ddi': 18,
'ad ': 19,
' cy': 20,
' gy': 21,
' ei': 22,
' o ': 23,
'iad': 24,
'yr ': 25,
'an ': 26,
'bod': 27,
'wed': 28,
' bo': 29,
' dd': 30,
'el ': 31,
'n y': 32,
' am': 33,
'di ': 34,
'edi': 35,
'on ': 36,
' we': 37,
' ym': 38,
' ar': 39,
' rh': 40,
'odd': 41,
' ca': 42,
' ma': 43,
'ael': 44,
'oed': 45,
'dae': 46,
'n a': 47,
'dda': 48,
'er ': 49,
'h y': 50,
'all': 51,
'ei ': 52,
' ll': 53,
'am ': 54,
'eu ': 55,
'fod': 56,
'fyd': 57,
'l y': 58,
'n g': 59,
'wyn': 60,
'd a': 61,
'i g': 62,
'mae': 63,
'neu': 64,
'os ': 65,
' ne': 66,
'd i': 67,
'dod': 68,
'dol': 69,
'n c': 70,
'r h': 71,
'wyd': 72,
'wyr': 73,
'ai ': 74,
'ar ': 75,
'in ': 76,
'rth': 77,
' fy': 78,
' he': 79,
' me': 80,
' yr': 81,
"'n ": 82,
'dia': 83,
'est': 84,
'h c': 85,
'hai': 86,
'i d': 87,
'id ': 88,
'r y': 89,
'y b': 90,
' dy': 91,
' ha': 92,
'ada': 93,
'i b': 94,
'n i': 95,
'ote': 96,
'rot': 97,
'tes': 98,
'y g': 99,
'yd ': 100,
' ad': 101,
' mr': 102,
' un': 103,
'cyn': 104,
'dau': 105,
'ddy': 106,
'edo': 107,
'i c': 108,
'i w': 109,
'ith': 110,
'lae': 111,
'lla': 112,
'nd ': 113,
'oda': 114,
'ryd': 115,
'tho': 116,
' a ': 117,
' dr': 118,
'aid': 119,
'ain': 120,
'ddo': 121,
'dyd': 122,
'fyn': 123,
'gyn': 124,
'hol': 125,
'io ': 126,
'o a': 127,
'wch': 128,
'wyb': 129,
'ybo': 130,
'ych': 131,
' br': 132,
' by': 133,
' di': 134,
' fe': 135,
' na': 136,
" o'": 137,
' pe': 138,
'art': 139,
'byd': 140,
'dro': 141,
'gal': 142,
'l e': 143,
'lai': 144,
'mr ': 145,
'n n': 146,
'r a': 147,
'rhy': 148,
'wn ': 149,
'ynn': 150,
' on': 151,
' r ': 152,
'cae': 153,
'd g': 154,
'd o': 155,
'd w': 156,
'gan': 157,
'gwy': 158,
'n d': 159,
'n f': 160,
'n o': 161,
'ned': 162,
'ni ': 163,
"o'r": 164,
'r d': 165,
'ud ': 166,
'wei': 167,
'wrt': 168,
' an': 169,
' cw': 170,
' da': 171,
' ni': 172,
' pa': 173,
' pr': 174,
' wy': 175,
'd e': 176,
'dai': 177,
'dim': 178,
'eud': 179,
'gwa': 180,
'idd': 181,
'im ': 182,
'iri': 183,
'lwy': 184,
'n b': 185,
'nol': 186,
'r o': 187,
'rwy': 188,
' ch': 189,
' er': 190,
' fo': 191,
' ge': 192,
' hy': 193,
" i'": 194,
' ro': 195,
' sa': 196,
' tr': 197,
'bob': 198,
'cwy': 199,
'cyf': 200,
'dio': 201,
'dyn': 202,
'eit': 203,
'hel': 204,
'hyn': 205,
'ich': 206,
'll ': 207,
'mdd': 208,
'n r': 209,
'ond': 210,
'pro': 211,
'r c': 212,
'r g': 213,
'red': 214,
'rha': 215,
'u a': 216,
'u c': 217,
'u y': 218,
'y c': 219,
'ymd': 220,
'ymr': 221,
'yw ': 222,
' ac': 223,
' be': 224,
' bl': 225,
' co': 226,
' os': 227,
'adw': 228,
'ae ': 229,
'af ': 230,
'd p': 231,
'efn': 232,
'eic': 233,
'en ': 234,
'eol': 235,
'es ': 236,
'fer': 237,
'gel': 238,
'h g': 239,
'hod': 240,
'ied': 241,
'ir ': 242,
'laf': 243,
'n h': 244,
'na ': 245,
'nyd': 246,
'odo': 247,
'ofy': 248,
'rdd': 249,
'rie': 250,
'ros': 251,
'stw': 252,
'twy': 253,
'yda': 254,
'yng': 255,
' at': 256,
' de': 257,
' go': 258,
' id': 259,
' oe': 260,
' â ': 261,
"'ch": 262,
'ac ': 263,
'ach': 264,
"ae'": 265,
'al ': 266,
'bl ': 267,
'd c': 268,
'd l': 269,
'dan': 270,
'dde': 271,
'ddw': 272,
'dir': 273,
'dla': 274,
'ed ': 275,
'ela': 276,
'ell': 277,
'ene': 278,
'ewn': 279,
'gyd': 280,
'hau': 281,
'hyw': 282,
'i a': 283,
'i f': 284,
'iol': 285,
'ion': 286,
'l a': 287,
'l i': 288,
'lia': 289,
'med': 290,
'mon': 291,
'n s': 292,
'no ': 293,
'obl': 294,
'ola': 295,
'ref': 296,
'rn ': 297,
'thi': 298,
'un ': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'er ': 0,
'en ': 1,
' de': 2,
'et ': 3,
'der': 4,
'de ': 5,
'for': 6,
' fo': 7,
' i ': 8,
'at ': 9,
' at': 10,
're ': 11,
'det': 12,
' ha': 13,
'nde': 14,
'ere': 15,
'ing': 16,
'den': 17,
' me': 18,
' og': 19,
'ger': 20,
'ter': 21,
' er': 22,
' si': 23,
'and': 24,
' af': 25,
'or ': 26,
' st': 27,
' ti': 28,
' en': 29,
'og ': 30,
'ar ': 31,
'il ': 32,
'r s': 33,
'ige': 34,
'til': 35,
'ke ': 36,
'r e': 37,
'af ': 38,
'kke': 39,
' ma': 40,
'': 41,
'om ': 42,
'': 43,
'ed ': 44,
'ge ': 45,
'end': 46,
'nge': 47,
't s': 48,
'e s': 49,
'ler': 50,
' sk': 51,
'els': 52,
'ern': 53,
'sig': 54,
'ne ': 55,
'lig': 56,
'r d': 57,
'ska': 58,
' vi': 59,
'har': 60,
' be': 61,
' se': 62,
'an ': 63,
'ikk': 64,
'lle': 65,
'gen': 66,
'n f': 67,
'ste': 68,
't a': 69,
't d': 70,
'rin': 71,
' ik': 72,
'es ': 73,
'ng ': 74,
'ver': 75,
'r b': 76,
'sen': 77,
'ede': 78,
'men': 79,
'r i': 80,
' he': 81,
' et': 82,
'ig ': 83,
'lan': 84,
'med': 85,
'nd ': 86,
'rne': 87,
' da': 88,
' in': 89,
'e t': 90,
'mme': 91,
'und': 92,
' om': 93,
'e e': 94,
'e m': 95,
'her': 96,
'le ': 97,
'r f': 98,
't f': 99,
'': 100,
'te ': 101,
' so': 102,
'ele': 103,
't e': 104,
' ko': 105,
'est': 106,
'ske': 107,
' bl': 108,
'e f': 109,
'ekt': 110,
'mar': 111,
'bru': 112,
'e a': 113,
'el ': 114,
'ers': 115,
'ret': 116,
'som': 117,
'tte': 118,
've ': 119,
' la': 120,
' ud': 121,
' ve': 122,
'age': 123,
'e d': 124,
'e h': 125,
'lse': 126,
'man': 127,
'rug': 128,
'sel': 129,
'ser': 130,
' fi': 131,
' op': 132,
' pr': 133,
'dt ': 134,
'e i': 135,
'n m': 136,
'r m': 137,
' an': 138,
' re': 139,
' sa': 140,
'ion': 141,
'ner': 142,
'res': 143,
't i': 144,
'get': 145,
'n s': 146,
'one': 147,
'orb': 148,
't h': 149,
'vis': 150,
'år ': 151,
' fr': 152,
'bil': 153,
'e k': 154,
'ens': 155,
'ind': 156,
'omm': 157,
't m': 158,
' hv': 159,
' je': 160,
'dan': 161,
'ent': 162,
'fte': 163,
'nin': 164,
' mi': 165,
'e o': 166,
'e p': 167,
'n o': 168,
'nte': 169,
' ku': 170,
'ell': 171,
'nas': 172,
'ore': 173,
'r h': 174,
'r k': 175,
'sta': 176,
'sto': 177,
'dag': 178,
'eri': 179,
'kun': 180,
'lde': 181,
'mer': 182,
'r a': 183,
'r v': 184,
'rek': 185,
'rer': 186,
't o': 187,
'tor': 188,
'tør': 189,
'': 190,
'': 191,
' to': 192,
'boe': 193,
'che': 194,
'e v': 195,
'i d': 196,
'ive': 197,
'kab': 198,
'ns ': 199,
'oel': 200,
'se ': 201,
't v': 202,
' al': 203,
' bo': 204,
' un': 205,
'ans': 206,
'dre': 207,
'ire': 208,
'køb': 209,
'ors': 210,
'ove': 211,
'ren': 212,
't b': 213,
'ør ': 214,
' ka': 215,
'ald': 216,
'bet': 217,
'gt ': 218,
'isk': 219,
'kal': 220,
'kom': 221,
'lev': 222,
'n d': 223,
'n i': 224,
'pri': 225,
'r p': 226,
'rbr': 227,
'søg': 228,
'tel': 229,
'': 230,
' te': 231,
' va': 232,
'al ': 233,
'dir': 234,
'eje': 235,
'fis': 236,
'gså': 237,
'isc': 238,
'jer': 239,
'ker': 240,
'ogs': 241,
'sch': 242,
'st ': 243,
't k': 244,
'uge': 245,
' di': 246,
'ag ': 247,
'd a': 248,
'g i': 249,
'ill': 250,
'l a': 251,
'lsk': 252,
'n a': 253,
'on ': 254,
'sam': 255,
'str': 256,
'tet': 257,
'var': 258,
' mo': 259,
'art': 260,
'ash': 261,
'att': 262,
'e b': 263,
'han': 264,
'hav': 265,
'kla': 266,
'kon': 267,
'n t': 268,
'ned': 269,
'r o': 270,
'ra ': 271,
'rre': 272,
'ves': 273,
'vil': 274,
' el': 275,
' kr': 276,
' ov': 277,
'ann': 278,
'e u': 279,
'ess': 280,
'fra': 281,
'g a': 282,
'g d': 283,
'int': 284,
'ngs': 285,
'rde': 286,
'tra': 287,
' år': 288,
'akt': 289,
'asi': 290,
'em ': 291,
'gel': 292,
'gym': 293,
'hol': 294,
'kan': 295,
'mna': 296,
'n h': 297,
'nsk': 298,
'old': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'en ': 0,
'er ': 1,
' de': 2,
'der': 3,
'ie ': 4,
' di': 5,
'die': 6,
'sch': 7,
'ein': 8,
'che': 9,
'ich': 10,
'den': 11,
'in ': 12,
'te ': 13,
'ch ': 14,
' ei': 15,
'ung': 16,
'n d': 17,
'nd ': 18,
' be': 19,
'ver': 20,
'es ': 21,
' zu': 22,
'eit': 23,
'gen': 24,
'und': 25,
' un': 26,
' au': 27,
' in': 28,
'cht': 29,
'it ': 30,
'ten': 31,
' da': 32,
'ent': 33,
' ve': 34,
'and': 35,
' ge': 36,
'ine': 37,
' mi': 38,
'r d': 39,
'hen': 40,
'ng ': 41,
'nde': 42,
' vo': 43,
'e d': 44,
'ber': 45,
'men': 46,
'ei ': 47,
'mit': 48,
' st': 49,
'ter': 50,
'ren': 51,
't d': 52,
' er': 53,
'ere': 54,
'n s': 55,
'ste': 56,
' se': 57,
'e s': 58,
'ht ': 59,
'des': 60,
'ist': 61,
'ne ': 62,
'auf': 63,
'e a': 64,
'isc': 65,
'on ': 66,
'rte': 67,
' re': 68,
' we': 69,
'ges': 70,
'uch': 71,
'': 72,
' so': 73,
'bei': 74,
'e e': 75,
'nen': 76,
'r s': 77,
'ach': 78,
'für': 79,
'ier': 80,
'par': 81,
'ür ': 82,
' ha': 83,
'as ': 84,
'ert': 85,
' an': 86,
' pa': 87,
' sa': 88,
' sp': 89,
' wi': 90,
'for': 91,
'tag': 92,
'zu ': 93,
'das': 94,
'rei': 95,
'he ': 96,
'hre': 97,
'nte': 98,
'sen': 99,
'vor': 100,
' sc': 101,
'ech': 102,
'etz': 103,
'hei': 104,
'lan': 105,
'n a': 106,
'pd ': 107,
'st ': 108,
'sta': 109,
'ese': 110,
'lic': 111,
' ab': 112,
' si': 113,
'gte': 114,
' wa': 115,
'iti': 116,
'kei': 117,
'n e': 118,
'nge': 119,
'sei': 120,
'tra': 121,
'zen': 122,
' im': 123,
' la': 124,
'art': 125,
'im ': 126,
'lle': 127,
'n w': 128,
'rde': 129,
'rec': 130,
'set': 131,
'str': 132,
'tei': 133,
'tte': 134,
' ni': 135,
'e p': 136,
'ehe': 137,
'ers': 138,
'g d': 139,
'nic': 140,
'von': 141,
' al': 142,
' pr': 143,
'an ': 144,
'aus': 145,
'erf': 146,
'r e': 147,
'tze': 148,
'tür': 149,
'uf ': 150,
'ag ': 151,
'als': 152,
'ar ': 153,
'chs': 154,
'end': 155,
'ge ': 156,
'ige': 157,
'ion': 158,
'ls ': 159,
'n m': 160,
'ngs': 161,
'nis': 162,
'nt ': 163,
'ord': 164,
's s': 165,
'sse': 166,
'': 167,
'ahl': 168,
'e b': 169,
'ede': 170,
'em ': 171,
'len': 172,
'n i': 173,
'orm': 174,
'pro': 175,
'rke': 176,
'run': 177,
's d': 178,
'wah': 179,
'wer': 180,
'ürk': 181,
' me': 182,
'age': 183,
'att': 184,
'ell': 185,
'est': 186,
'hat': 187,
'n b': 188,
'oll': 189,
'raf': 190,
's a': 191,
'tsc': 192,
' es': 193,
' fo': 194,
' gr': 195,
' ja': 196,
'abe': 197,
'auc': 198,
'ben': 199,
'e n': 200,
'ege': 201,
'lie': 202,
'n u': 203,
'r v': 204,
're ': 205,
'rit': 206,
'sag': 207,
' am': 208,
'agt': 209,
'ahr': 210,
'bra': 211,
'de ': 212,
'erd': 213,
'her': 214,
'ite': 215,
'le ': 216,
'n p': 217,
'n v': 218,
'or ': 219,
'rbe': 220,
'rt ': 221,
'sic': 222,
'wie': 223,
'übe': 224,
' is': 225,
' üb': 226,
'cha': 227,
'chi': 228,
'e f': 229,
'e m': 230,
'eri': 231,
'ied': 232,
'mme': 233,
'ner': 234,
'r a': 235,
'sti': 236,
't a': 237,
't s': 238,
'tis': 239,
' ko': 240,
'arb': 241,
'ds ': 242,
'gan': 243,
'n z': 244,
'r f': 245,
'r w': 246,
'ran': 247,
'se ': 248,
't i': 249,
'wei': 250,
'wir': 251,
' br': 252,
' np': 253,
'am ': 254,
'bes': 255,
'd d': 256,
'deu': 257,
'e g': 258,
'e k': 259,
'efo': 260,
'et ': 261,
'eut': 262,
'fen': 263,
'hse': 264,
'lte': 265,
'n r': 266,
'npd': 267,
'r b': 268,
'rhe': 269,
't w': 270,
'tz ': 271,
' fr': 272,
' ih': 273,
' ke': 274,
' ma': 275,
'ame': 276,
'ang': 277,
'd s': 278,
'eil': 279,
'el ': 280,
'era': 281,
'erh': 282,
'h d': 283,
'i d': 284,
'kan': 285,
'n f': 286,
'n l': 287,
'nts': 288,
'och': 289,
'rag': 290,
'rd ': 291,
'spd': 292,
'spr': 293,
'tio': 294,
' ar': 295,
' en': 296,
' ka': 297,
'ark': 298,
'ass': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' th': 0,
'the': 1,
'he ': 2,
'ed ': 3,
' to': 4,
' in': 5,
'er ': 6,
'ing': 7,
'ng ': 8,
' an': 9,
'nd ': 10,
' of': 11,
'and': 12,
'to ': 13,
'of ': 14,
' co': 15,
'at ': 16,
'on ': 17,
'in ': 18,
' a ': 19,
'd t': 20,
' he': 21,
'e t': 22,
'ion': 23,
'es ': 24,
' re': 25,
're ': 26,
'hat': 27,
' sa': 28,
' st': 29,
' ha': 30,
'her': 31,
'tha': 32,
'tio': 33,
'or ': 34,
" ''": 35,
'en ': 36,
' wh': 37,
'e s': 38,
'ent': 39,
'n t': 40,
's a': 41,
'as ': 42,
'for': 43,
'is ': 44,
't t': 45,
' be': 46,
'ld ': 47,
'e a': 48,
'rs ': 49,
' wa': 50,
'ut ': 51,
've ': 52,
'll ': 53,
'al ': 54,
' ma': 55,
'e i': 56,
' fo': 57,
"'s ": 58,
'an ': 59,
'est': 60,
' hi': 61,
' mo': 62,
' se': 63,
' pr': 64,
's t': 65,
'ate': 66,
'st ': 67,
'ter': 68,
'ere': 69,
'ted': 70,
'nt ': 71,
'ver': 72,
'd a': 73,
' wi': 74,
'se ': 75,
'e c': 76,
'ect': 77,
'ns ': 78,
' on': 79,
'ly ': 80,
'tol': 81,
'ey ': 82,
'r t': 83,
' ca': 84,
'ati': 85,
'ts ': 86,
'all': 87,
' no': 88,
'his': 89,
's o': 90,
'ers': 91,
'con': 92,
'e o': 93,
'ear': 94,
'f t': 95,
'e w': 96,
'was': 97,
'ons': 98,
'sta': 99,
"'' ": 100,
'sti': 101,
'n a': 102,
'sto': 103,
't h': 104,
' we': 105,
'id ': 106,
'th ': 107,
' it': 108,
'ce ': 109,
' di': 110,
'ave': 111,
'd h': 112,
'cou': 113,
'pro': 114,
'ad ': 115,
'oll': 116,
'ry ': 117,
'd s': 118,
'e m': 119,
' so': 120,
'ill': 121,
'cti': 122,
'te ': 123,
'tor': 124,
'eve': 125,
'g t': 126,
'it ': 127,
' ch': 128,
' de': 129,
'hav': 130,
'oul': 131,
'ty ': 132,
'uld': 133,
'use': 134,
' al': 135,
'are': 136,
'ch ': 137,
'me ': 138,
'out': 139,
'ove': 140,
'wit': 141,
'ys ': 142,
'chi': 143,
't a': 144,
'ith': 145,
'oth': 146,
' ab': 147,
' te': 148,
' wo': 149,
's s': 150,
'res': 151,
't w': 152,
'tin': 153,
'e b': 154,
'e h': 155,
'nce': 156,
't s': 157,
'y t': 158,
'e p': 159,
'ele': 160,
'hin': 161,
's i': 162,
'nte': 163,
' li': 164,
'le ': 165,
' do': 166,
'aid': 167,
'hey': 168,
'ne ': 169,
's w': 170,
' as': 171,
' fr': 172,
' tr': 173,
'end': 174,
'sai': 175,
' el': 176,
' ne': 177,
' su': 178,
"'t ": 179,
'ay ': 180,
'hou': 181,
'ive': 182,
'lec': 183,
"n't": 184,
' ye': 185,
'but': 186,
'd o': 187,
'o t': 188,
'y o': 189,
' ho': 190,
' me': 191,
'be ': 192,
'cal': 193,
'e e': 194,
'had': 195,
'ple': 196,
' at': 197,
' bu': 198,
' la': 199,
'd b': 200,
's h': 201,
'say': 202,
't i': 203,
' ar': 204,
'e f': 205,
'ght': 206,
'hil': 207,
'igh': 208,
'int': 209,
'not': 210,
'ren': 211,
' is': 212,
' pa': 213,
' sh': 214,
'ays': 215,
'com': 216,
'n s': 217,
'r a': 218,
'rin': 219,
'y a': 220,
' un': 221,
'n c': 222,
'om ': 223,
'thi': 224,
' mi': 225,
'by ': 226,
'd i': 227,
'e d': 228,
'e n': 229,
't o': 230,
' by': 231,
'e r': 232,
'eri': 233,
'old': 234,
'ome': 235,
'whe': 236,
'yea': 237,
' gr': 238,
'ar ': 239,
'ity': 240,
'mpl': 241,
'oun': 242,
'one': 243,
'ow ': 244,
'r s': 245,
's f': 246,
'tat': 247,
' ba': 248,
' vo': 249,
'bou': 250,
'sam': 251,
'tim': 252,
'vot': 253,
'abo': 254,
'ant': 255,
'ds ': 256,
'ial': 257,
'ine': 258,
'man': 259,
'men': 260,
' or': 261,
' po': 262,
'amp': 263,
'can': 264,
'der': 265,
'e l': 266,
'les': 267,
'ny ': 268,
'ot ': 269,
'rec': 270,
'tes': 271,
'tho': 272,
'ica': 273,
'ild': 274,
'ir ': 275,
'nde': 276,
'ose': 277,
'ous': 278,
'pre': 279,
'ste': 280,
'era': 281,
'per': 282,
'r o': 283,
'red': 284,
'rie': 285,
' bo': 286,
' le': 287,
'ali': 288,
'ars': 289,
'ore': 290,
'ric': 291,
's m': 292,
'str': 293,
' fa': 294,
'ess': 295,
'ie ': 296,
'ist': 297,
'lat': 298,
'uri': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' la': 0,
'la ': 1,
' de': 2,
'de ': 3,
'aj ': 4,
'oj ': 5,
'as ': 6,
'is ': 7,
'en ': 8,
' en': 9,
' ka': 10,
'est': 11,
'o d': 12,
' es': 13,
'kaj': 14,
'e l': 15,
'to ': 16,
'sta': 17,
'o e': 18,
'io ': 19,
'o k': 20,
'on ': 21,
' ko': 22,
'ro ': 23,
'ta ': 24,
'tas': 25,
' al': 26,
'a k': 27,
' pr': 28,
'n l': 29,
'a a': 30,
' po': 31,
' ki': 32,
' ma': 33,
'o l': 34,
'jn ': 35,
'ant': 36,
' li': 37,
'a p': 38,
'ist': 39,
's l': 40,
'nto': 41,
'sti': 42,
'j k': 43,
'no ': 44,
'ita': 45,
'tis': 46,
'do ': 47,
'an ': 48,
'ent': 49,
' re': 50,
'': 51,
'j e': 52,
'kon': 53,
'li ': 54,
'toj': 55,
'ran': 56,
'n k': 57,
' ti': 58,
's e': 59,
'el ': 60,
'al ': 61,
'a s': 62,
' in': 63,
'ter': 64,
'aro': 65,
' an': 66,
'a m': 67,
'a e': 68,
'ia ': 69,
'n d': 70,
'ojn': 71,
'per': 72,
' su': 73,
'j d': 74,
' se': 75,
'nta': 76,
'str': 77,
'sto': 78,
'a l': 79,
' pl': 80,
'mo ': 81,
'a d': 82,
' ĝi': 83,
' si': 84,
' tr': 85,
'and': 86,
's k': 87,
'o p': 88,
'lo ': 89,
'j l': 90,
'tra': 91,
'par': 92,
' pa': 93,
'unu': 94,
'pro': 95,
'ono': 96,
'o a': 97,
'nte': 98,
'j p': 99,
' no': 100,
' ku': 101,
'te ': 102,
'mal': 103,
'taj': 104,
' el': 105,
'kom': 106,
'iu ': 107,
'art': 108,
'roj': 109,
' ja': 110,
'ĝis': 111,
' mo': 112,
'lan': 113,
'ra ': 114,
'a r': 115,
's a': 116,
' vi': 117,
'era': 118,
'tro': 119,
'gra': 120,
'er ': 121,
'e k': 122,
'ori': 123,
'n e': 124,
' di': 125,
'ata': 126,
'int': 127,
's p': 128,
'o s': 129,
'a f': 130,
'ko ': 131,
'a t': 132,
'j a': 133,
'n p': 134,
' ek': 135,
'kiu': 136,
'na ': 137,
'ne ': 138,
' pe': 139,
'e e': 140,
'e d': 141,
'da ': 142,
'ili': 143,
'l l': 144,
'ado': 145,
'ank': 146,
'ver': 147,
'por': 148,
'men': 149,
'e a': 150,
' ne': 151,
'man': 152,
' me': 153,
' du': 154,
'un ': 155,
' un': 156,
'ato': 157,
'kun': 158,
'mon': 159,
'ali': 160,
'ste': 161,
'ajn': 162,
'dis': 163,
'tri': 164,
'rio': 165,
'j s': 166,
' lo': 167,
'ara': 168,
'pre': 169,
' te': 170,
' gr': 171,
'oni': 172,
'kie': 173,
'nom': 174,
'jar': 175,
'nda': 176,
'i e': 177,
'ĝi ': 178,
'noj': 179,
'kto': 180,
'ero': 181,
'n s': 182,
'igi': 183,
'cio': 184,
'e s': 185,
'a v': 186,
'a n': 187,
'or ': 188,
'pri': 189,
'e p': 190,
' fo': 191,
' ĉe': 192,
'iĝi': 193,
's s': 194,
'n a': 195,
' ha': 196,
'eri': 197,
' ar': 198,
'ndo': 199,
'a u': 200,
'ont': 201,
'ano': 202,
'lia': 203,
'iel': 204,
'ost': 205,
'ris': 206,
' fa': 207,
'ort': 208,
'iko': 209,
'lin': 210,
'ari': 211,
' ĉi': 212,
'ri ': 213,
'iaj': 214,
'ion': 215,
'mun': 216,
' ve': 217,
'ino': 218,
'tor': 219,
' sa': 220,
'loj': 221,
'co ': 222,
'nis': 223,
'ton': 224,
'': 225,
'e m': 226,
'ona': 227,
'rto': 228,
'aci': 229,
'spe': 230,
'ala': 231,
'ple': 232,
'for': 233,
'o t': 234,
'vas': 235,
'olo': 236,
'tiu': 237,
'jo ': 238,
'pos': 239,
'kaŭ': 240,
're ': 241,
'j m': 242,
'nio': 243,
' fi': 244,
' st': 245,
'o m': 246,
' ba': 247,
'tan': 248,
'a j': 249,
'ekt': 250,
' ge': 251,
'ons': 252,
's m': 253,
'omo': 254,
'ing': 255,
' mi': 256,
'omu': 257,
'a b': 258,
'a i': 259,
'ten': 260,
'enc': 261,
'res': 262,
'ika': 263,
'rbo': 264,
'vis': 265,
'nka': 266,
'pli': 267,
' a ': 268,
' mu': 269,
'iuj': 270,
'tem': 271,
'hav': 272,
' kr': 273,
' na': 274,
'ila': 275,
'alo': 276,
' ke': 277,
'aĵo': 278,
'umo': 279,
'i l': 280,
'ani': 281,
'ova': 282,
'num': 283,
'r l': 284,
'urb': 285,
'ron': 286,
' ap': 287,
'am ': 288,
'tat': 289,
'tur': 290,
'cia': 291,
' ri': 292,
'ovi': 293,
'ava': 294,
'ntr': 295,
' or': 296,
'ejo': 297,
'nst': 298,
'ka ': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' de': 0,
'de ': 1,
' la': 2,
'os ': 3,
'la ': 4,
'el ': 5,
'es ': 6,
' qu': 7,
' co': 8,
'e l': 9,
'as ': 10,
'que': 11,
' el': 12,
'ue ': 13,
'en ': 14,
'ent': 15,
' en': 16,
' se': 17,
'nte': 18,
'res': 19,
'con': 20,
'est': 21,
' es': 22,
's d': 23,
' lo': 24,
' pr': 25,
'los': 26,
' y ': 27,
'do ': 28,
'ón ': 29,
'ión': 30,
' un': 31,
'ció': 32,
'del': 33,
'o d': 34,
' po': 35,
'a d': 36,
'aci': 37,
'sta': 38,
'te ': 39,
'ado': 40,
'pre': 41,
'to ': 42,
'par': 43,
'a e': 44,
'a l': 45,
'ra ': 46,
'al ': 47,
'e e': 48,
'se ': 49,
'pro': 50,
'ar ': 51,
'ia ': 52,
'o e': 53,
' re': 54,
'ida': 55,
'dad': 56,
'tra': 57,
'por': 58,
's p': 59,
' a ': 60,
'a p': 61,
'ara': 62,
'cia': 63,
' pa': 64,
'com': 65,
'no ': 66,
' di': 67,
' in': 68,
'ien': 69,
'n l': 70,
'ad ': 71,
'ant': 72,
'e s': 73,
'men': 74,
'a c': 75,
'on ': 76,
'un ': 77,
'las': 78,
'nci': 79,
' tr': 80,
'cio': 81,
'ier': 82,
'nto': 83,
'tiv': 84,
'n d': 85,
'n e': 86,
'or ': 87,
's c': 88,
'enc': 89,
'ern': 90,
'io ': 91,
'a s': 92,
'ici': 93,
's e': 94,
' ma': 95,
'dos': 96,
'e a': 97,
'e c': 98,
'emp': 99,
'ica': 100,
'ivo': 101,
'l p': 102,
'n c': 103,
'r e': 104,
'ta ': 105,
'ter': 106,
'e d': 107,
'esa': 108,
'ez ': 109,
'mpr': 110,
'o a': 111,
's a': 112,
' ca': 113,
' su': 114,
'ion': 115,
' cu': 116,
' ju': 117,
'an ': 118,
'da ': 119,
'ene': 120,
'ero': 121,
'na ': 122,
'rec': 123,
'ro ': 124,
'tar': 125,
' al': 126,
' an': 127,
'bie': 128,
'e p': 129,
'er ': 130,
'l c': 131,
'n p': 132,
'omp': 133,
'ten': 134,
' em': 135,
'ist': 136,
'nes': 137,
'nta': 138,
'o c': 139,
'so ': 140,
'tes': 141,
'era': 142,
'l d': 143,
'l m': 144,
'les': 145,
'ntr': 146,
'o s': 147,
'ore': 148,
'': 149,
's q': 150,
's y': 151,
'sto': 152,
'a a': 153,
'a r': 154,
'ari': 155,
'des': 156,
'e q': 157,
'ivi': 158,
'lic': 159,
'lo ': 160,
'n a': 161,
'one': 162,
'ora': 163,
'per': 164,
'pue': 165,
'r l': 166,
're ': 167,
'ren': 168,
'una': 169,
'ía ': 170,
'ada': 171,
'cas': 172,
'ere': 173,
'ide': 174,
'min': 175,
'n s': 176,
'ndo': 177,
'ran': 178,
'rno': 179,
' ac': 180,
' ex': 181,
' go': 182,
' no': 183,
'a t': 184,
'aba': 185,
'ble': 186,
'ece': 187,
'ect': 188,
'l a': 189,
'l g': 190,
'lid': 191,
'nsi': 192,
'ons': 193,
'rac': 194,
'rio': 195,
'str': 196,
'uer': 197,
'ust': 198,
' ha': 199,
' le': 200,
' mi': 201,
' mu': 202,
' ob': 203,
' pe': 204,
' pu': 205,
' so': 206,
'a i': 207,
'ale': 208,
'ca ': 209,
'cto': 210,
'e i': 211,
'e u': 212,
'eso': 213,
'fer': 214,
'fic': 215,
'gob': 216,
'jo ': 217,
'ma ': 218,
'mpl': 219,
'o p': 220,
'obi': 221,
's m': 222,
'sa ': 223,
'sep': 224,
'ste': 225,
'sti': 226,
'tad': 227,
'tod': 228,
'y s': 229,
' ci': 230,
'and': 231,
'ces': 232,
'': 233,
'dor': 234,
'e m': 235,
'eci': 236,
'eco': 237,
'esi': 238,
'int': 239,
'iza': 240,
'l e': 241,
'lar': 242,
'mie': 243,
'ner': 244,
'orc': 245,
'rci': 246,
'ria': 247,
'tic': 248,
'tor': 249,
' as': 250,
' si': 251,
'ce ': 252,
'den': 253,
'e r': 254,
'e t': 255,
'end': 256,
'eri': 257,
'esp': 258,
'ial': 259,
'ido': 260,
'ina': 261,
'inc': 262,
'mit': 263,
'o l': 264,
'ome': 265,
'pli': 266,
'ras': 267,
's t': 268,
'sid': 269,
'sup': 270,
'tab': 271,
'uen': 272,
'ues': 273,
'ura': 274,
'vo ': 275,
'vor': 276,
' sa': 277,
' ti': 278,
'abl': 279,
'ali': 280,
'aso': 281,
'ast': 282,
'cor': 283,
'cti': 284,
'cue': 285,
'div': 286,
'duc': 287,
'ens': 288,
'eti': 289,
'imi': 290,
'ini': 291,
'lec': 292,
'o q': 293,
'oce': 294,
'ort': 295,
'ral': 296,
'rma': 297,
'roc': 298,
'rod': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'st ': 0,
' ka': 1,
'on ': 2,
'ja ': 3,
' va': 4,
' on': 5,
' ja': 6,
' ko': 7,
'se ': 8,
'ast': 9,
'le ': 10,
'es ': 11,
'as ': 12,
'is ': 13,
'ud ': 14,
' sa': 15,
'da ': 16,
'ga ': 17,
' ta': 18,
'aja': 19,
'sta': 20,
' ku': 21,
' pe': 22,
'a k': 23,
'est': 24,
'ist': 25,
'ks ': 26,
'ta ': 27,
'al ': 28,
'ava': 29,
'id ': 30,
'saa': 31,
'mis': 32,
'te ': 33,
'val': 34,
' et': 35,
'nud': 36,
' te': 37,
'inn': 38,
' se': 39,
' tu': 40,
'a v': 41,
'alu': 42,
'e k': 43,
'ise': 44,
'lu ': 45,
'ma ': 46,
'mes': 47,
' mi': 48,
'et ': 49,
'iku': 50,
'lin': 51,
'ad ': 52,
'el ': 53,
'ime': 54,
'ne ': 55,
'nna': 56,
' ha': 57,
' in': 58,
' ke': 59,
'': 60,
'a s': 61,
'a t': 62,
'ab ': 63,
'e s': 64,
'esi': 65,
' la': 66,
' li': 67,
'e v': 68,
'eks': 69,
'ema': 70,
'las': 71,
'les': 72,
'rju': 73,
'tle': 74,
'tsi': 75,
'tus': 76,
'upa': 77,
'use': 78,
'ust': 79,
'var': 80,
'': 81,
'ali': 82,
'arj': 83,
'de ': 84,
'ete': 85,
'i t': 86,
'iga': 87,
'ilm': 88,
'kui': 89,
'li ': 90,
'tul': 91,
' ei': 92,
' me': 93,
'': 94,
'aal': 95,
'ata': 96,
'dus': 97,
'ei ': 98,
'nik': 99,
'pea': 100,
's k': 101,
's o': 102,
'sal': 103,
'sõn': 104,
'ter': 105,
'ul ': 106,
'või': 107,
' el': 108,
' ne': 109,
'a j': 110,
'ate': 111,
'end': 112,
'i k': 113,
'ita': 114,
'kar': 115,
'kor': 116,
'l o': 117,
'lt ': 118,
'maa': 119,
'oli': 120,
'sti': 121,
'vad': 122,
'ään': 123,
' ju': 124,
'': 125,
'': 126,
' ma': 127,
' po': 128,
' üt': 129,
'aas': 130,
'aks': 131,
'at ': 132,
'ed ': 133,
'eri': 134,
'hoi': 135,
'i s': 136,
'ka ': 137,
'la ': 138,
'nni': 139,
'oid': 140,
'pai': 141,
'rit': 142,
'us ': 143,
'ütl': 144,
' aa': 145,
' lo': 146,
' to': 147,
' ve': 148,
'a e': 149,
'ada': 150,
'aid': 151,
'ami': 152,
'and': 153,
'dla': 154,
'e j': 155,
'ega': 156,
'gi ': 157,
'gu ': 158,
'i p': 159,
'idl': 160,
'ik ': 161,
'ini': 162,
'jup': 163,
'kal': 164,
'kas': 165,
'kes': 166,
'koh': 167,
's e': 168,
's p': 169,
'sel': 170,
'sse': 171,
'ui ': 172,
' pi': 173,
' si': 174,
'aru': 175,
'eda': 176,
'eva': 177,
'fil': 178,
'i v': 179,
'ida': 180,
'ing': 181,
'lää': 182,
'me ': 183,
'na ': 184,
'nda': 185,
'nim': 186,
'ole': 187,
'ots': 188,
'ris': 189,
's l': 190,
'sia': 191,
't p': 192,
' en': 193,
' mu': 194,
' ol': 195,
'': 196,
' su': 197,
'': 198,
' üh': 199,
'a l': 200,
'a p': 201,
'aga': 202,
'ale': 203,
'aps': 204,
'arv': 205,
'e a': 206,
'ela': 207,
'ika': 208,
'lle': 209,
'loo': 210,
'mal': 211,
'pet': 212,
't k': 213,
'tee': 214,
'tis': 215,
'vat': 216,
'äne': 217,
'õnn': 218,
' es': 219,
' fi': 220,
' vi': 221,
'a i': 222,
'a o': 223,
'aab': 224,
'aap': 225,
'ala': 226,
'alt': 227,
'ama': 228,
'anu': 229,
'e p': 230,
'e t': 231,
'eal': 232,
'eli': 233,
'haa': 234,
'hin': 235,
'iva': 236,
'kon': 237,
'ku ': 238,
'lik': 239,
'lm ': 240,
'min': 241,
'n t': 242,
'odu': 243,
'oon': 244,
'psa': 245,
'ri ': 246,
'si ': 247,
'stu': 248,
't e': 249,
't s': 250,
'ti ': 251,
'ule': 252,
'uur': 253,
'vas': 254,
'vee': 255,
' ki': 256,
' ni': 257,
'': 258,
' ra': 259,
'aig': 260,
'aka': 261,
'all': 262,
'atu': 263,
'e e': 264,
'eis': 265,
'ers': 266,
'i e': 267,
'ii ': 268,
'iis': 269,
'il ': 270,
'ima': 271,
'its': 272,
'kka': 273,
'kuh': 274,
'l k': 275,
'lat': 276,
'maj': 277,
'ndu': 278,
'ni ': 279,
'nii': 280,
'oma': 281,
'ool': 282,
'rso': 283,
'ru ': 284,
'rva': 285,
's t': 286,
'sek': 287,
'son': 288,
'ste': 289,
't m': 290,
'taj': 291,
'tam': 292,
'ude': 293,
'uho': 294,
'vai': 295,
' ag': 296,
' os': 297,
' pa': 298,
' re': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'en ': 0,
'an ': 1,
'eta': 2,
'ta ': 3,
' et': 4,
'iza': 5,
'n e': 6,
'ko ': 7,
'ide': 8,
' ba': 9,
'a e': 10,
'giz': 11,
' es': 12,
' gi': 13,
'arr': 14,
'bid': 15,
'ren': 16,
'rri': 17,
'are': 18,
'la ': 19,
'sku': 20,
' be': 21,
'asu': 22,
'esk': 23,
'sun': 24,
'tas': 25,
' iz': 26,
'ean': 27,
'eko': 28,
'ela': 29,
'ik ': 30,
'kub': 31,
'n a': 32,
'n i': 33,
'tza': 34,
'ubi': 35,
'za ': 36,
'zan': 37,
' er': 38,
'a b': 39,
'ask': 40,
'era': 41,
'n b': 42,
'rre': 43,
'ten': 44,
'tze': 45,
' as': 46,
' ko': 47,
'a a': 48,
'a g': 49,
'ald': 50,
'ani': 51,
'de ': 52,
'dee': 53,
'ea ': 54,
'ek ': 55,
'kat': 56,
'kon': 57,
'n d': 58,
'ont': 59,
'uan': 60,
' du': 61,
' na': 62,
'ata': 63,
'egi': 64,
'est': 65,
'k e': 66,
'nik': 67,
'ntu': 68,
'ntz': 69,
'ska': 70,
'tua': 71,
' de': 72,
' di': 73,
' ez': 74,
' he': 75,
'a d': 76,
'a k': 77,
'ak ': 78,
'aki': 79,
'ako': 80,
'art': 81,
'atu': 82,
'azi': 83,
'bat': 84,
'ber': 85,
'itz': 86,
'kun': 87,
'n h': 88,
'o b': 89,
'ria': 90,
'rte': 91,
'tat': 92,
'une': 93,
'zar': 94,
' al': 95,
' ar': 96,
' ha': 97,
'aku': 98,
'atz': 99,
'bai': 100,
'dar': 101,
'dea': 102,
'del': 103,
'een': 104,
'ema': 105,
'err': 106,
'iak': 107,
'iar': 108,
'in ': 109,
'ina': 110,
'kia': 111,
'nar': 112,
'naz': 113,
'nea': 114,
'o e': 115,
'orr': 116,
'ra ': 117,
'ste': 118,
'tek': 119,
'zak': 120,
'zek': 121,
'zio': 122,
' da': 123,
' em': 124,
' hi': 125,
' ho': 126,
' ma': 127,
' oi': 128,
'agu': 129,
'ate': 130,
'aur': 131,
'bes': 132,
'din': 133,
'dir': 134,
'dut': 135,
'ert': 136,
'ez ': 137,
'ezi': 138,
'har': 139,
'her': 140,
'hit': 141,
'ia ': 142,
'ien': 143,
'ika': 144,
'io ': 145,
'ire': 146,
'ite': 147,
'k b': 148,
'k g': 149,
'kid': 150,
'kor': 151,
'lda': 152,
'n o': 153,
'nko': 154,
'o a': 155,
'oin': 156,
'ori': 157,
'rak': 158,
'rea': 159,
'rie': 160,
'rik': 161,
'rra': 162,
'tan': 163,
'tea': 164,
'tu ': 165,
'una': 166,
'und': 167,
'unt': 168,
'urr': 169,
'ute': 170,
'z e': 171,
'zko': 172,
' au': 173,
' eg': 174,
' gu': 175,
' ir': 176,
' ki': 177,
' or': 178,
'a h': 179,
'a j': 180,
'abe': 181,
'agi': 182,
'ai ': 183,
'ail': 184,
'ait': 185,
'ape': 186,
'ari': 187,
'dez': 188,
'e e': 189,
'ear': 190,
'eek': 191,
'erd': 192,
'ere': 193,
'eza': 194,
'ezk': 195,
'gir': 196,
'git': 197,
'hor': 198,
'i e': 199,
'ian': 200,
'iek': 201,
'ila': 202,
'ink': 203,
'int': 204,
'ira': 205,
'ita': 206,
'itu': 207,
'k n': 208,
'kap': 209,
'koa': 210,
'kum': 211,
'lan': 212,
'lde': 213,
'mai': 214,
'man': 215,
'men': 216,
'n g': 217,
'n u': 218,
'na ': 219,
'nta': 220,
'o h': 221,
'oa ': 222,
'oro': 223,
'pen': 224,
'rdi': 225,
'ri ': 226,
'rta': 227,
'sta': 228,
'tel': 229,
'tet': 230,
'tik': 231,
'tue': 232,
'tzi': 233,
'ume': 234,
'un ': 235,
'uzt': 236,
'zea': 237,
'zen': 238,
'zia': 239,
'zin': 240,
' az': 241,
' bi': 242,
' bu': 243,
' el': 244,
' ga': 245,
' jo': 246,
' mu': 247,
' ti': 248,
' un': 249,
' za': 250,
' zi': 251,
'a n': 252,
'a o': 253,
'a s': 254,
'a t': 255,
'a z': 256,
'aba': 257,
'adi': 258,
'ake': 259,
'ala': 260,
'and': 261,
'ar ': 262,
'aud': 263,
'bak': 264,
'bal': 265,
'beg': 266,
'beh': 267,
'bul': 268,
'dau': 269,
'den': 270,
'du ': 271,
'dui': 272,
'e b': 273,
'e d': 274,
'e h': 275,
'e o': 276,
'eak': 277,
'eet': 278,
'eha': 279,
'elk': 280,
'enb': 281,
'ete': 282,
'eti': 283,
'gab': 284,
'gin': 285,
'go ': 286,
'gus': 287,
'gut': 288,
'guz': 289,
'hau': 290,
'ibe': 291,
'inb': 292,
'ine': 293,
'ioa': 294,
'iru': 295,
'iur': 296,
'izi': 297,
'izk': 298,
'izo': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ان ': 0,
'ای ': 1,
'ه ا': 2,
' اي': 3,
' در': 4,
'به ': 5,
' بر': 6,
'در ': 7,
'ران': 8,
' به': 9,
'ی ا': 10,
'از ': 11,
'ين ': 12,
'می ': 13,
' از': 14,
'ده ': 15,
'ست ': 16,
'است': 17,
' اس': 18,
' که': 19,
'که ': 20,
'اير': 21,
'ند ': 22,
'اين': 23,
' ها': 24,
'يرا': 25,
'ود ': 26,
' را': 27,
'های': 28,
' خو': 29,
'ته ': 30,
'را ': 31,
'رای': 32,
'رد ': 33,
'ن ب': 34,
'کرد': 35,
' و ': 36,
' کر': 37,
'ات ': 38,
'برا': 39,
'د ک': 40,
'مان': 41,
'ی د': 42,
' ان': 43,
'خوا': 44,
'شور': 45,
' با': 46,
'ن ا': 47,
' سا': 48,
'تمی': 49,
'ری ': 50,
'اتم': 51,
'ا ا': 52,
'واه': 53,
' ات': 54,
' عر': 55,
'اق ': 56,
'ر م': 57,
'راق': 58,
'عرا': 59,
'ی ب': 60,
' تا': 61,
' تو': 62,
'ار ': 63,
'ر ا': 64,
'ن م': 65,
'ه ب': 66,
'ور ': 67,
'يد ': 68,
'ی ک': 69,
' ام': 70,
' دا': 71,
' کن': 72,
'اهد': 73,
'هد ': 74,
' آن': 75,
' می': 76,
' ني': 77,
' گف': 78,
'د ا': 79,
'گفت': 80,
' کش': 81,
'ا ب': 82,
'نی ': 83,
'ها ': 84,
'کشو': 85,
' رو': 86,
'ت ک': 87,
'نيو': 88,
'ه م': 89,
'وی ': 90,
'ی ت': 91,
' شو': 92,
'ال ': 93,
'دار': 94,
'مه ': 95,
'ن ک': 96,
'ه د': 97,
'يه ': 98,
' ما': 99,
'امه': 100,
'د ب': 101,
'زار': 102,
'ورا': 103,
'گزا': 104,
' پي': 105,
'آن ': 106,
'انت': 107,
'ت ا': 108,
'فت ': 109,
'ه ن': 110,
'ی خ': 111,
'اما': 112,
'بات': 113,
'ما ': 114,
'ملل': 115,
'نام': 116,
'ير ': 117,
'ی م': 118,
'ی ه': 119,
' آم': 120,
' ای': 121,
' من': 122,
'انس': 123,
'اني': 124,
'ت د': 125,
'رده': 126,
'ساز': 127,
'ن د': 128,
'نه ': 129,
'ورد': 130,
' او': 131,
' بي': 132,
' سو': 133,
' شد': 134,
'اده': 135,
'اند': 136,
'با ': 137,
'ت ب': 138,
'ر ب': 139,
'ز ا': 140,
'زما': 141,
'سته': 142,
'ن ر': 143,
'ه س': 144,
'وان': 145,
'وز ': 146,
'ی ر': 147,
'ی س': 148,
' هس': 149,
'ابا': 150,
'ام ': 151,
'اور': 152,
'تخا': 153,
'خاب': 154,
'خود': 155,
'د د': 156,
'دن ': 157,
'رها': 158,
'روز': 159,
'رگز': 160,
'نتخ': 161,
'ه ش': 162,
'ه ه': 163,
'هست': 164,
'يت ': 165,
'يم ': 166,
' دو': 167,
' دي': 168,
' مو': 169,
' نو': 170,
' هم': 171,
' کا': 172,
'اد ': 173,
'اری': 174,
'انی': 175,
'بر ': 176,
'بود': 177,
'ت ه': 178,
'ح ه': 179,
'حال': 180,
'رش ': 181,
'عه ': 182,
'لی ': 183,
'وم ': 184,
'ژان': 185,
' سل': 186,
'آمر': 187,
'اح ': 188,
'توس': 189,
'داد': 190,
'دام': 191,
'ر د': 192,
'ره ': 193,
'ريک': 194,
'زی ': 195,
'سلا': 196,
'شود': 197,
'لاح': 198,
'مري': 199,
'نند': 200,
'ه ع': 201,
'يما': 202,
'يکا': 203,
'پيم': 204,
'گر ': 205,
' آژ': 206,
' ال': 207,
' بو': 208,
' مق': 209,
' مل': 210,
' وی': 211,
'آژا': 212,
'ازم': 213,
'ازی': 214,
'بار': 215,
'برن': 216,
'ر آ': 217,
'ز س': 218,
'سعه': 219,
'شته': 220,
'مات': 221,
'ن آ': 222,
'ن پ': 223,
'نس ': 224,
'ه گ': 225,
'وسع': 226,
'يان': 227,
'يوم': 228,
'کا ': 229,
'کام': 230,
'کند': 231,
' خا': 232,
' سر': 233,
'آور': 234,
'ارد': 235,
'اقد': 236,
'ايم': 237,
'ايی': 238,
'برگ': 239,
'ت ع': 240,
'تن ': 241,
'خت ': 242,
'د و': 243,
'ر خ': 244,
'رک ': 245,
'زير': 246,
'فته': 247,
'قدا': 248,
'ل ت': 249,
'مين': 250,
'ن گ': 251,
'ه آ': 252,
'ه خ': 253,
'ه ک': 254,
'ورک': 255,
'ويو': 256,
'يور': 257,
'يوي': 258,
'يی ': 259,
'ک ت': 260,
'ی ش': 261,
' اق': 262,
' حا': 263,
' حق': 264,
' دس': 265,
' شک': 266,
' عم': 267,
' يک': 268,
'ا ت': 269,
'ا د': 270,
'ارج': 271,
'بين': 272,
'ت م': 273,
'ت و': 274,
'تاي': 275,
'دست': 276,
'ر ح': 277,
'ر س': 278,
'رنا': 279,
'ز ب': 280,
'شکا': 281,
'لل ': 282,
'م ک': 283,
'مز ': 284,
'ندا': 285,
'نوا': 286,
'و ا': 287,
'وره': 288,
'ون ': 289,
'وند': 290,
'يمز': 291,
' آو': 292,
' اع': 293,
' فر': 294,
' مت': 295,
' نه': 296,
' هر': 297,
' وز': 298,
' گز': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'en ': 0,
'in ': 1,
'an ': 2,
'on ': 3,
'ist': 4,
'ta ': 5,
'ja ': 6,
'n t': 7,
'sa ': 8,
'sta': 9,
'aan': 10,
'n p': 11,
' on': 12,
'ssa': 13,
'tta': 14,
'': 15,
' ka': 16,
' pa': 17,
'si ': 18,
' ja': 19,
'n k': 20,
'lla': 21,
'än ': 22,
'een': 23,
'n v': 24,
'ksi': 25,
'ett': 26,
'nen': 27,
'taa': 28,
'ttä': 29,
' va': 30,
'ill': 31,
'itt': 32,
' jo': 33,
' ko': 34,
'n s': 35,
' tu': 36,
'ia ': 37,
' su': 38,
'a p': 39,
'aa ': 40,
'la ': 41,
'lle': 42,
'n m': 43,
'le ': 44,
'tte': 45,
'na ': 46,
' ta': 47,
' ve': 48,
'at ': 49,
' vi': 50,
'utt': 51,
' sa': 52,
'ise': 53,
'sen': 54,
' ku': 55,
'': 56,
'': 57,
'ste': 58,
' ol': 59,
'a t': 60,
'ais': 61,
'maa': 62,
'ti ': 63,
'a o': 64,
'oit': 65,
'pää': 66,
' pi': 67,
'a v': 68,
'ala': 69,
'ine': 70,
'isi': 71,
'tel': 72,
'tti': 73,
' si': 74,
'a k': 75,
'all': 76,
'iin': 77,
'kin': 78,
'stä': 79,
'uom': 80,
'vii': 81,
' ma': 82,
' se': 83,
'enä': 84,
' mu': 85,
'a s': 86,
'est': 87,
'iss': 88,
'llä': 89,
'lok': 90,
'': 91,
'n j': 92,
'n o': 93,
'toi': 94,
'ven': 95,
'ytt': 96,
' li': 97,
'ain': 98,
'et ': 99,
'ina': 100,
'n a': 101,
'n n': 102,
'oll': 103,
'plo': 104,
'ten': 105,
'ust': 106,
'äll': 107,
'ään': 108,
' to': 109,
'den': 110,
'men': 111,
'oki': 112,
'suo': 113,
'': 114,
'tää': 115,
'uks': 116,
'vat': 117,
' al': 118,
' ke': 119,
' te': 120,
'a e': 121,
'lii': 122,
'tai': 123,
'tei': 124,
'äis': 125,
'ää ': 126,
' pl': 127,
'ell': 128,
'i t': 129,
'ide': 130,
'ikk': 131,
'ki ': 132,
'nta': 133,
'ova': 134,
'yst': 135,
'yt ': 136,
'ä p': 137,
'äyt': 138,
' ha': 139,
' pe': 140,
'': 141,
'a n': 142,
'aik': 143,
'i p': 144,
'i v': 145,
'nyt': 146,
'näy': 147,
'pal': 148,
'tee': 149,
'un ': 150,
' me': 151,
'a m': 152,
'ess': 153,
'kau': 154,
'pai': 155,
'stu': 156,
'ut ': 157,
'voi': 158,
' et': 159,
'a h': 160,
'eis': 161,
'hte': 162,
'i o': 163,
'iik': 164,
'ita': 165,
'jou': 166,
'mis': 167,
'nin': 168,
'nut': 169,
'sia': 170,
'ssä': 171,
'van': 172,
' ty': 173,
' yh': 174,
'aks': 175,
'ime': 176,
'loi': 177,
'me ': 178,
'n e': 179,
'n h': 180,
'n l': 181,
'oin': 182,
'ome': 183,
'ott': 184,
'ouk': 185,
'sit': 186,
'sti': 187,
'tet': 188,
'tie': 189,
'ukk': 190,
'ä k': 191,
' ra': 192,
' ti': 193,
'aja': 194,
'asi': 195,
'ent': 196,
'iga': 197,
'iig': 198,
'ite': 199,
'jan': 200,
'kaa': 201,
'kse': 202,
'laa': 203,
'lan': 204,
'li ': 205,
'näj': 206,
'ole': 207,
'tii': 208,
'usi': 209,
'äjä': 210,
' ov': 211,
'a a': 212,
'ant': 213,
'ava': 214,
'ei ': 215,
'eri': 216,
'kan': 217,
'kku': 218,
'lai': 219,
'lis': 220,
'läi': 221,
'mat': 222,
'ois': 223,
'pel': 224,
'sil': 225,
'sty': 226,
'taj': 227,
'tav': 228,
'ttu': 229,
'työ': 230,
'yös': 231,
'ä o': 232,
' ai': 233,
' pu': 234,
'a j': 235,
'a l': 236,
'aal': 237,
'arv': 238,
'ass': 239,
'ien': 240,
'imi': 241,
'imm': 242,
'itä': 243,
'ka ': 244,
'kes': 245,
'kue': 246,
'lee': 247,
'lin': 248,
'llo': 249,
'one': 250,
'ri ': 251,
't o': 252,
't p': 253,
'tu ': 254,
'val': 255,
'vuo': 256,
' ei': 257,
' he': 258,
' hy': 259,
' my': 260,
' vo': 261,
'ali': 262,
'alo': 263,
'ano': 264,
'ast': 265,
'att': 266,
'auk': 267,
'eli': 268,
'ely': 269,
'hti': 270,
'ika': 271,
'ken': 272,
'kki': 273,
'lys': 274,
'min': 275,
'myö': 276,
'oht': 277,
'oma': 278,
'tus': 279,
'umi': 280,
'yks': 281,
'ät ': 282,
'ääl': 283,
'ös ': 284,
' ar': 285,
' eu': 286,
' hu': 287,
' na': 288,
'aat': 289,
'alk': 290,
'alu': 291,
'ans': 292,
'arj': 293,
'enn': 294,
'han': 295,
'kuu': 296,
'n y': 297,
'set': 298,
'sim': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'es ': 0,
' de': 1,
'de ': 2,
' le': 3,
'ent': 4,
'le ': 5,
'nt ': 6,
'la ': 7,
's d': 8,
' la': 9,
'ion': 10,
'on ': 11,
're ': 12,
' pa': 13,
'e l': 14,
'e d': 15,
" l'": 16,
'e p': 17,
' co': 18,
' pr': 19,
'tio': 20,
'ns ': 21,
' en': 22,
'ne ': 23,
'que': 24,
'r l': 25,
'les': 26,
'ur ': 27,
'en ': 28,
'ati': 29,
'ue ': 30,
' po': 31,
" d'": 32,
'par': 33,
' a ': 34,
'et ': 35,
'it ': 36,
' qu': 37,
'men': 38,
'ons': 39,
'te ': 40,
' et': 41,
't d': 42,
' re': 43,
'des': 44,
' un': 45,
'ie ': 46,
's l': 47,
' su': 48,
'pou': 49,
' au': 50,
' à ': 51,
'con': 52,
'er ': 53,
' no': 54,
'ait': 55,
'e c': 56,
'se ': 57,
'': 58,
'du ': 59,
' du': 60,
'': 61,
'ce ': 62,
'e e': 63,
'is ': 64,
'n d': 65,
's a': 66,
' so': 67,
'e r': 68,
'e s': 69,
'our': 70,
'res': 71,
'ssi': 72,
'eur': 73,
' se': 74,
'eme': 75,
'est': 76,
'us ': 77,
'sur': 78,
'ant': 79,
'iqu': 80,
's p': 81,
'une': 82,
'uss': 83,
"l'a": 84,
'pro': 85,
'ter': 86,
'tre': 87,
'end': 88,
'rs ': 89,
' ce': 90,
'e a': 91,
't p': 92,
'un ': 93,
' ma': 94,
' ru': 95,
'': 96,
'ous': 97,
'ris': 98,
'rus': 99,
'sse': 100,
'ans': 101,
'ar ': 102,
'com': 103,
'e m': 104,
'ire': 105,
'nce': 106,
'nte': 107,
't l': 108,
' av': 109,
' mo': 110,
' te': 111,
'il ': 112,
'me ': 113,
'ont': 114,
'ten': 115,
'a p': 116,
'dan': 117,
'pas': 118,
'qui': 119,
's e': 120,
's s': 121,
' in': 122,
'ist': 123,
'lle': 124,
'nou': 125,
'pré': 126,
"'un": 127,
'air': 128,
"d'a": 129,
'ir ': 130,
'n e': 131,
'rop': 132,
'ts ': 133,
' da': 134,
'a s': 135,
'as ': 136,
'au ': 137,
'den': 138,
'mai': 139,
'mis': 140,
'ori': 141,
'out': 142,
'rme': 143,
'sio': 144,
'tte': 145,
'ux ': 146,
'a d': 147,
'ien': 148,
'n a': 149,
'ntr': 150,
'omm': 151,
'ort': 152,
'ouv': 153,
's c': 154,
'son': 155,
'tes': 156,
'ver': 157,
'ère': 158,
' il': 159,
' m ': 160,
' sa': 161,
' ve': 162,
'a r': 163,
'ais': 164,
'ava': 165,
'di ': 166,
'n p': 167,
'sti': 168,
'ven': 169,
' mi': 170,
'ain': 171,
'enc': 172,
'for': 173,
'ité': 174,
'lar': 175,
'oir': 176,
'rem': 177,
'ren': 178,
'rro': 179,
'rés': 180,
'sie': 181,
't a': 182,
'tur': 183,
' pe': 184,
' to': 185,
"d'u": 186,
'ell': 187,
'err': 188,
'ers': 189,
'ide': 190,
'ine': 191,
'iss': 192,
'mes': 193,
'por': 194,
'ran': 195,
'sit': 196,
'st ': 197,
't r': 198,
'uti': 199,
'vai': 200,
'é l': 201,
'ési': 202,
' di': 203,
" n'": 204,
' ét': 205,
'a c': 206,
'ass': 207,
'e t': 208,
'in ': 209,
'nde': 210,
'pre': 211,
'rat': 212,
's m': 213,
'ste': 214,
'tai': 215,
'tch': 216,
'ui ': 217,
'uro': 218,
'ès ': 219,
' es': 220,
' fo': 221,
' tr': 222,
"'ad": 223,
'app': 224,
'aux': 225,
'e à': 226,
'ett': 227,
'iti': 228,
'lit': 229,
'nal': 230,
'opé': 231,
'r d': 232,
'ra ': 233,
'rai': 234,
'ror': 235,
's r': 236,
'tat': 237,
'uté': 238,
'à l': 239,
' af': 240,
'anc': 241,
'ara': 242,
'art': 243,
'bre': 244,
'ché': 245,
'dre': 246,
'e f': 247,
'ens': 248,
'lem': 249,
'n r': 250,
'n t': 251,
'ndr': 252,
'nne': 253,
'onn': 254,
'pos': 255,
's t': 256,
'tiq': 257,
'ure': 258,
' tu': 259,
'ale': 260,
'and': 261,
'ave': 262,
'cla': 263,
'cou': 264,
'e n': 265,
'emb': 266,
'ins': 267,
'jou': 268,
'mme': 269,
'rie': 270,
'rès': 271,
'sem': 272,
'str': 273,
't i': 274,
'ues': 275,
'uni': 276,
'uve': 277,
'é d': 278,
'ée ': 279,
' ch': 280,
' do': 281,
' eu': 282,
' fa': 283,
' lo': 284,
' ne': 285,
' ra': 286,
'arl': 287,
'att': 288,
'ec ': 289,
'ica': 290,
'l a': 291,
"l'o": 292,
"l'é": 293,
'mmi': 294,
'nta': 295,
'orm': 296,
'ou ': 297,
'r u': 298,
'rle': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' da': 0,
'da ': 1,
'in ': 2,
'an ': 3,
'ya ': 4,
' wa': 5,
' ya': 6,
'na ': 7,
'ar ': 8,
'a d': 9,
' ma': 10,
'wa ': 11,
'a a': 12,
'a k': 13,
'a s': 14,
' ta': 15,
'wan': 16,
' a ': 17,
' ba': 18,
' ka': 19,
'ta ': 20,
'a y': 21,
'n d': 22,
' ha': 23,
' na': 24,
' su': 25,
' sa': 26,
'kin': 27,
'sa ': 28,
'ata': 29,
' ko': 30,
'a t': 31,
'su ': 32,
' ga': 33,
'ai ': 34,
' sh': 35,
'a m': 36,
'uwa': 37,
'iya': 38,
'ma ': 39,
'a w': 40,
'asa': 41,
'yan': 42,
'ka ': 43,
'ani': 44,
'shi': 45,
'a b': 46,
'a h': 47,
'a c': 48,
'ama': 49,
'ba ': 50,
'nan': 51,
'n a': 52,
' mu': 53,
'ana': 54,
' yi': 55,
'a g': 56,
' za': 57,
'i d': 58,
' ku': 59,
'aka': 60,
'yi ': 61,
'n k': 62,
'ann': 63,
'ke ': 64,
'tar': 65,
' ci': 66,
'iki': 67,
'n s': 68,
'ko ': 69,
' ra': 70,
'ki ': 71,
'ne ': 72,
'a z': 73,
'mat': 74,
'hak': 75,
'nin': 76,
'e d': 77,
'nna': 78,
'uma': 79,
'nda': 80,
'a n': 81,
'ada': 82,
'cik': 83,
'ni ': 84,
'rin': 85,
'una': 86,
'ara': 87,
'kum': 88,
'akk': 89,
' ce': 90,
' du': 91,
'man': 92,
'n y': 93,
'nci': 94,
'sar': 95,
'aki': 96,
'awa': 97,
'ci ': 98,
'kan': 99,
'kar': 100,
'ari': 101,
'n m': 102,
'and': 103,
'hi ': 104,
'n t': 105,
'ga ': 106,
'owa': 107,
'ash': 108,
'kam': 109,
'dan': 110,
'ewa': 111,
'nsa': 112,
'ali': 113,
'ami': 114,
' ab': 115,
' do': 116,
'anc': 117,
'n r': 118,
'aya': 119,
'i n': 120,
'sun': 121,
'uka': 122,
' al': 123,
' ne': 124,
"a'a": 125,
'cew': 126,
'cin': 127,
'mas': 128,
'tak': 129,
'un ': 130,
'aba': 131,
'kow': 132,
'a r': 133,
'ra ': 134,
' ja': 135,
' ƙa': 136,
'en ': 137,
'r d': 138,
'sam': 139,
'tsa': 140,
' ru': 141,
'ce ': 142,
'i a': 143,
'abi': 144,
'ida': 145,
'mut': 146,
'n g': 147,
'n j': 148,
'san': 149,
'a ƙ': 150,
'har': 151,
'on ': 152,
'i m': 153,
'suk': 154,
' ak': 155,
' ji': 156,
'yar': 157,
"'ya": 158,
'kwa': 159,
'min': 160,
" 'y": 161,
'ane': 162,
'ban': 163,
'ins': 164,
'ruw': 165,
'i k': 166,
'n h': 167,
' ad': 168,
'ake': 169,
'n w': 170,
'sha': 171,
'utu': 172,
' ƴa': 173,
'bay': 174,
'tan': 175,
'ƴan': 176,
'bin': 177,
'duk': 178,
'e m': 179,
'n n': 180,
'oka': 181,
'yin': 182,
'ɗan': 183,
' fa': 184,
'a i': 185,
'kki': 186,
're ': 187,
'za ': 188,
'ala': 189,
'asu': 190,
'han': 191,
'i y': 192,
'mar': 193,
'ran': 194,
'ƙas': 195,
'add': 196,
'ars': 197,
'gab': 198,
'ira': 199,
'mma': 200,
'u d': 201,
' ts': 202,
'abb': 203,
'abu': 204,
'aga': 205,
'gar': 206,
'n b': 207,
' ɗa': 208,
'aci': 209,
'aik': 210,
'am ': 211,
'dun': 212,
'e s': 213,
'i b': 214,
'i w': 215,
'kas': 216,
'kok': 217,
'wam': 218,
' am': 219,
'amf': 220,
'bba': 221,
'din': 222,
'fan': 223,
'gwa': 224,
'i s': 225,
'wat': 226,
'ano': 227,
'are': 228,
'dai': 229,
'iri': 230,
"ma'": 231,
' la': 232,
'all': 233,
'dam': 234,
'ika': 235,
'mi ': 236,
'she': 237,
'tum': 238,
'uni': 239,
' an': 240,
' ai': 241,
' ke': 242,
' ki': 243,
'dag': 244,
'mai': 245,
'mfa': 246,
'no ': 247,
'nsu': 248,
'o d': 249,
'sak': 250,
'um ': 251,
' bi': 252,
' gw': 253,
' kw': 254,
'jam': 255,
'yya': 256,
'a j': 257,
'fa ': 258,
'uta': 259,
' hu': 260,
"'a ": 261,
'ans': 262,
'aɗa': 263,
'dda': 264,
'hin': 265,
'niy': 266,
'r s': 267,
'bat': 268,
'dar': 269,
'gan': 270,
'i t': 271,
'nta': 272,
'oki': 273,
'omi': 274,
'sal': 275,
'a l': 276,
'kac': 277,
'lla': 278,
'wad': 279,
'war': 280,
'amm': 281,
'dom': 282,
'r m': 283,
'ras': 284,
'sai': 285,
' lo': 286,
'ats': 287,
'hal': 288,
'kat': 289,
'li ': 290,
'lok': 291,
'n c': 292,
'nar': 293,
'tin': 294,
'afa': 295,
'bub': 296,
'i g': 297,
'isa': 298,
'mak': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' ka': 0,
'na ': 1,
' o ': 2,
'ka ': 3,
' ma': 4,
' a ': 5,
' la': 6,
'a i': 7,
'a m': 8,
' i ': 9,
'la ': 10,
'ana': 11,
'ai ': 12,
'ia ': 13,
'a o': 14,
'a k': 15,
'a h': 16,
'o k': 17,
' ke': 18,
'a a': 19,
'i k': 20,
' ho': 21,
' ia': 22,
'ua ': 23,
' na': 24,
' me': 25,
'e k': 26,
'e a': 27,
'au ': 28,
'ke ': 29,
'ma ': 30,
'mai': 31,
'aku': 32,
' ak': 33,
'ahi': 34,
' ha': 35,
' ko': 36,
' e ': 37,
'a l': 38,
' no': 39,
'me ': 40,
'ku ': 41,
'aka': 42,
'kan': 43,
'no ': 44,
'i a': 45,
'ho ': 46,
'ou ': 47,
' ai': 48,
'i o': 49,
'a p': 50,
'o l': 51,
'o a': 52,
'ama': 53,
'a n': 54,
' an': 55,
'i m': 56,
'han': 57,
'i i': 58,
'iho': 59,
'kou': 60,
'ne ': 61,
' ih': 62,
'o i': 63,
'iki': 64,
'ona': 65,
'hoo': 66,
'le ': 67,
'e h': 68,
' he': 69,
'ina': 70,
' wa': 71,
'ea ': 72,
'ako': 73,
'u i': 74,
'kah': 75,
'oe ': 76,
'i l': 77,
'u a': 78,
' pa': 79,
'hoi': 80,
'e i': 81,
'era': 82,
'ko ': 83,
'u m': 84,
'kua': 85,
'mak': 86,
'oi ': 87,
'kai': 88,
'i n': 89,
'a e': 90,
'hin': 91,
'ane': 92,
' ol': 93,
'i h': 94,
'mea': 95,
'wah': 96,
'lak': 97,
'e m': 98,
'o n': 99,
'u l': 100,
'ika': 101,
'ki ': 102,
'a w': 103,
'mal': 104,
'hi ': 105,
'e n': 106,
'u o': 107,
'hik': 108,
' ku': 109,
'e l': 110,
'ele': 111,
'ra ': 112,
'ber': 113,
'ine': 114,
'abe': 115,
'ain': 116,
'ala': 117,
'lo ': 118,
' po': 119,
'kon': 120,
' ab': 121,
'ole': 122,
'he ': 123,
'pau': 124,
'mah': 125,
'va ': 126,
'ela': 127,
'kau': 128,
'nak': 129,
' oe': 130,
'kei': 131,
'oia': 132,
' ie': 133,
'ram': 134,
' oi': 135,
'oa ': 136,
'eho': 137,
'hov': 138,
'ieh': 139,
'ova': 140,
' ua': 141,
'una': 142,
'ara': 143,
'o s': 144,
'awa': 145,
'o o': 146,
'nau': 147,
'u n': 148,
'wa ': 149,
'wai': 150,
'hel': 151,
' ae': 152,
' al': 153,
'ae ': 154,
'ta ': 155,
'aik': 156,
' hi': 157,
'ale': 158,
'ila': 159,
'lel': 160,
'ali': 161,
'eik': 162,
'olo': 163,
'onu': 164,
' lo': 165,
'aua': 166,
'e o': 167,
'ola': 168,
'hon': 169,
'mam': 170,
'nan': 171,
' au': 172,
'aha': 173,
'lau': 174,
'nua': 175,
'oho': 176,
'oma': 177,
' ao': 178,
'ii ': 179,
'alu': 180,
'ima': 181,
'mau': 182,
'ike': 183,
'apa': 184,
'elo': 185,
'lii': 186,
'poe': 187,
'aia': 188,
'noa': 189,
' in': 190,
'o m': 191,
'oka': 192,
"'u ": 193,
'aho': 194,
'ei ': 195,
'eka': 196,
'ha ': 197,
'lu ': 198,
'nei': 199,
'hol': 200,
'ino': 201,
'o e': 202,
'ema': 203,
'iwa': 204,
'olu': 205,
'ada': 206,
'naa': 207,
'pa ': 208,
'u k': 209,
'ewa': 210,
'hua': 211,
'lam': 212,
'lua': 213,
'o h': 214,
'ook': 215,
'u h': 216,
' li': 217,
'ahu': 218,
'amu': 219,
'ui ': 220,
' il': 221,
' mo': 222,
' se': 223,
'eia': 224,
'law': 225,
' hu': 226,
' ik': 227,
'ail': 228,
'e p': 229,
'li ': 230,
'lun': 231,
'uli': 232,
'io ': 233,
'kik': 234,
'noh': 235,
'u e': 236,
' sa': 237,
'aaw': 238,
'awe': 239,
'ena': 240,
'hal': 241,
'kol': 242,
'lan': 243,
' le': 244,
' ne': 245,
"a'u": 246,
'ilo': 247,
'kap': 248,
'oko': 249,
'sa ': 250,
' pe': 251,
'hop': 252,
'loa': 253,
'ope': 254,
'pe ': 255,
' ad': 256,
' pu': 257,
'ahe': 258,
'aol': 259,
"ia'": 260,
'lai': 261,
'loh': 262,
"na'": 263,
'oom': 264,
'aau': 265,
'eri': 266,
'kul': 267,
'we ': 268,
'ake': 269,
'kek': 270,
'laa': 271,
'ri ': 272,
'iku': 273,
'kak': 274,
'lim': 275,
'nah': 276,
'ner': 277,
'nui': 278,
'ono': 279,
'a u': 280,
'dam': 281,
'kum': 282,
'lok': 283,
'mua': 284,
'uma': 285,
'wal': 286,
'wi ': 287,
"'i ": 288,
"a'i": 289,
'aan': 290,
'alo': 291,
'eta': 292,
'mu ': 293,
'ohe': 294,
'u p': 295,
'ula': 296,
'uwa': 297,
' nu': 298,
'amo': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ें ': 0,
' है': 1,
'में': 2,
' मे': 3,
'ने ': 4,
'की ': 5,
'के ': 6,
'है ': 7,
' के': 8,
' की': 9,
' को': 10,
'ों ': 11,
'को ': 12,
'ा ह': 13,
' का': 14,
'से ': 15,
'ा क': 16,
'े क': 17,
'ं क': 18,
'या ': 19,
' कि': 20,
' से': 21,
'का ': 22,
'ी क': 23,
' ने': 24,
' और': 25,
'और ': 26,
'ना ': 27,
'कि ': 28,
'भी ': 29,
'ी स': 30,
' जा': 31,
' पर': 32,
'ार ': 33,
' कर': 34,
'ी ह': 35,
' हो': 36,
'ही ': 37,
'िया': 38,
' इस': 39,
' रह': 40,
'र क': 41,
'ुना': 42,
'ता ': 43,
'ान ': 44,
'े स': 45,
' भी': 46,
' रा': 47,
'े ह': 48,
' चु': 49,
' पा': 50,
'पर ': 51,
'चुन': 52,
'नाव': 53,
' कह': 54,
'प्र': 55,
' भा': 56,
'राज': 57,
'हैं': 58,
'ा स': 59,
'ै क': 60,
'ैं ': 61,
'नी ': 62,
'ल क': 63,
'ीं ': 64,
'़ी ': 65,
'था ': 66,
'री ': 67,
'ाव ': 68,
'े ब': 69,
' प्': 70,
'क्ष': 71,
'पा ': 72,
'ले ': 73,
' दे': 74,
'ला ': 75,
'हा ': 76,
'ाजप': 77,
' था': 78,
' नह': 79,
'इस ': 80,
'कर ': 81,
'जपा': 82,
'नही': 83,
'भाज': 84,
'यों': 85,
'र स': 86,
'हीं': 87,
' अम': 88,
' बा': 89,
' मा': 90,
' वि': 91,
'रीक': 92,
'िए ': 93,
'े प': 94,
'्या': 95,
' ही': 96,
'ं म': 97,
'कार': 98,
'ा ज': 99,
'े ल': 100,
' ता': 101,
' दि': 102,
' सा': 103,
' हम': 104,
'ा न': 105,
'ा म': 106,
'ाक़': 107,
'्ता': 108,
' एक': 109,
' सं': 110,
' स्': 111,
'अमर': 112,
'क़ी': 113,
'ताज': 114,
'मरी': 115,
'स्थ': 116,
'ा थ': 117,
'ार्': 118,
' हु': 119,
'इरा': 120,
'एक ': 121,
'न क': 122,
'र म': 123,
'राक': 124,
'ी ज': 125,
'ी न': 126,
' इर': 127,
' उन': 128,
' पह': 129,
'कहा': 130,
'ते ': 131,
'े अ': 132,
' तो': 133,
' सु': 134,
'ति ': 135,
'ती ': 136,
'तो ': 137,
'मिल': 138,
'िक ': 139,
'ियो': 140,
'्रे': 141,
' अप': 142,
' फ़': 143,
' लि': 144,
' लो': 145,
' सम': 146,
'म क': 147,
'र्ट': 148,
'हो ': 149,
'ा च': 150,
'ाई ': 151,
'ाने': 152,
'िन ': 153,
'्य ': 154,
' उस': 155,
' क़': 156,
' सक': 157,
' सै': 158,
'ं प': 159,
'ं ह': 160,
'गी ': 161,
'त क': 162,
'मान': 163,
'र न': 164,
'ष्ट': 165,
'स क': 166,
'स्त': 167,
'ाँ ': 168,
'ी ब': 169,
'ी म': 170,
'्री': 171,
' दो': 172,
' मि': 173,
' मु': 174,
' ले': 175,
' शा': 176,
'ं स': 177,
'ज़ा': 178,
'त्र': 179,
'थी ': 180,
'लिए': 181,
'सी ': 182,
'़ा ': 183,
'़ार': 184,
'ांग': 185,
'े द': 186,
'े म': 187,
'्व ': 188,
' ना': 189,
' बन': 190,
'ंग्': 191,
'कां': 192,
'गा ': 193,
'ग्र': 194,
'जा ': 195,
'ज्य': 196,
'दी ': 197,
'न म': 198,
'पार': 199,
'भा ': 200,
'रही': 201,
'रे ': 202,
'रेस': 203,
'ली ': 204,
'सभा': 205,
'ा र': 206,
'ाल ': 207,
'ी अ': 208,
'ीकी': 209,
'े त': 210,
'ेश ': 211,
' अं': 212,
' तक': 213,
' या': 214,
'ई ह': 215,
'करन': 216,
'तक ': 217,
'देश': 218,
'वर्': 219,
'ाया': 220,
'ी भ': 221,
'ेस ': 222,
'्ष ': 223,
' गय': 224,
' जि': 225,
' थी': 226,
' बड': 227,
' यह': 228,
' वा': 229,
'ंतर': 230,
'अंत': 231,
'क़ ': 232,
'गया': 233,
'टी ': 234,
'निक': 235,
'न्ह': 236,
'पहल': 237,
'बड़': 238,
'मार': 239,
'र प': 240,
'रने': 241,
'ाज़': 242,
'ि इ': 243,
'ी र': 244,
'े ज': 245,
'े व': 246,
'्ट ': 247,
'्टी': 248,
' अब': 249,
' लग': 250,
' वर': 251,
' सी': 252,
'ं भ': 253,
'उन्': 254,
'क क': 255,
'किय': 256,
'देख': 257,
'पूर': 258,
'फ़्': 259,
'यह ': 260,
'यान': 261,
'रिक': 262,
'रिय': 263,
'र्ड': 264,
'लेक': 265,
'सकत': 266,
'हों': 267,
'होग': 268,
'ा अ': 269,
'ा द': 270,
'ा प': 271,
'ाद ': 272,
'ारा': 273,
'ित ': 274,
'ी त': 275,
'ी प': 276,
'ो क': 277,
'ो द': 278,
' ते': 279,
' नि': 280,
' सर': 281,
' हा': 282,
'ं द': 283,
'अपन': 284,
'जान': 285,
'त म': 286,
'थित': 287,
'पनी': 288,
'महल': 289,
'र ह': 290,
'लोग': 291,
'व क': 292,
'हना': 293,
'हल ': 294,
'हाँ': 295,
'ाज्': 296,
'ाना': 297,
'िक्': 298,
'िस्': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'je ': 0,
' na': 1,
' pr': 2,
' po': 3,
'na ': 4,
' je': 5,
' za': 6,
'ije': 7,
'ne ': 8,
' i ': 9,
'ti ': 10,
'da ': 11,
' ko': 12,
' ne': 13,
'li ': 14,
' bi': 15,
' da': 16,
' u ': 17,
'ma ': 18,
'mo ': 19,
'a n': 20,
'ih ': 21,
'za ': 22,
'a s': 23,
'ko ': 24,
'i s': 25,
'a p': 26,
'koj': 27,
'pro': 28,
'ju ': 29,
'se ': 30,
' go': 31,
'ost': 32,
'to ': 33,
'va ': 34,
' do': 35,
' to': 36,
'e n': 37,
'i p': 38,
' od': 39,
' ra': 40,
'no ': 41,
'ako': 42,
'ka ': 43,
'ni ': 44,
' ka': 45,
' se': 46,
' mo': 47,
' st': 48,
'i n': 49,
'ima': 50,
'ja ': 51,
'pri': 52,
'vat': 53,
'sta': 54,
' su': 55,
'ati': 56,
'e p': 57,
'ta ': 58,
'tsk': 59,
'e i': 60,
'nij': 61,
' tr': 62,
'cij': 63,
'jen': 64,
'nos': 65,
'o s': 66,
' iz': 67,
'om ': 68,
'tro': 69,
'ili': 70,
'iti': 71,
'pos': 72,
' al': 73,
'a i': 74,
'a o': 75,
'e s': 76,
'ija': 77,
'ini': 78,
'pre': 79,
'str': 80,
'la ': 81,
'og ': 82,
'ovo': 83,
' sv': 84,
'ekt': 85,
'nje': 86,
'o p': 87,
'odi': 88,
'rva': 89,
' ni': 90,
'ali': 91,
'min': 92,
'rij': 93,
'a t': 94,
'a z': 95,
'ats': 96,
'iva': 97,
'o t': 98,
'od ': 99,
'oje': 100,
'ra ': 101,
' hr': 102,
'a m': 103,
'a u': 104,
'hrv': 105,
'im ': 106,
'ke ': 107,
'o i': 108,
'ovi': 109,
'red': 110,
'riv': 111,
'te ': 112,
'bi ': 113,
'e o': 114,
'god': 115,
'i d': 116,
'lek': 117,
'umi': 118,
'zvo': 119,
'din': 120,
'e u': 121,
'ene': 122,
'jed': 123,
'ji ': 124,
'lje': 125,
'nog': 126,
'su ': 127,
' a ': 128,
' el': 129,
' mi': 130,
' o ': 131,
'a d': 132,
'alu': 133,
'ele': 134,
'i u': 135,
'izv': 136,
'ktr': 137,
'lum': 138,
'o d': 139,
'ori': 140,
'rad': 141,
'sto': 142,
'a k': 143,
'anj': 144,
'ava': 145,
'e k': 146,
'men': 147,
'nic': 148,
'o j': 149,
'oj ': 150,
'ove': 151,
'ski': 152,
'tvr': 153,
'una': 154,
'vor': 155,
' di': 156,
' no': 157,
' s ': 158,
' ta': 159,
' tv': 160,
'i i': 161,
'i o': 162,
'kak': 163,
'roš': 164,
'sko': 165,
'vod': 166,
' sa': 167,
' će': 168,
'a b': 169,
'adi': 170,
'amo': 171,
'eni': 172,
'gov': 173,
'iju': 174,
'ku ': 175,
'o n': 176,
'ora': 177,
'rav': 178,
'ruj': 179,
'smo': 180,
'tav': 181,
'tru': 182,
'u p': 183,
've ': 184,
' in': 185,
' pl': 186,
'aci': 187,
'bit': 188,
'de ': 189,
'diš': 190,
'ema': 191,
'i m': 192,
'ika': 193,
'išt': 194,
'jer': 195,
'ki ': 196,
'mog': 197,
'nik': 198,
'nov': 199,
'nu ': 200,
'oji': 201,
'oli': 202,
'pla': 203,
'pod': 204,
'st ': 205,
'sti': 206,
'tra': 207,
'tre': 208,
'vo ': 209,
' sm': 210,
' št': 211,
'dan': 212,
'e z': 213,
'i t': 214,
'io ': 215,
'ist': 216,
'kon': 217,
'lo ': 218,
'stv': 219,
'u s': 220,
'uje': 221,
'ust': 222,
'će ': 223,
'ći ': 224,
'što': 225,
' dr': 226,
' im': 227,
' li': 228,
'ada': 229,
'aft': 230,
'ani': 231,
'ao ': 232,
'ars': 233,
'ata': 234,
'e t': 235,
'emo': 236,
'i k': 237,
'ine': 238,
'jem': 239,
'kov': 240,
'lik': 241,
'lji': 242,
'mje': 243,
'naf': 244,
'ner': 245,
'nih': 246,
'nja': 247,
'ogo': 248,
'oiz': 249,
'ome': 250,
'pot': 251,
'ran': 252,
'ri ': 253,
'roi': 254,
'rtk': 255,
'ska': 256,
'ter': 257,
'u i': 258,
'u o': 259,
'vi ': 260,
'vrt': 261,
' me': 262,
' ug': 263,
'ak ': 264,
'ama': 265,
'drž': 266,
'e e': 267,
'e g': 268,
'e m': 269,
'em ': 270,
'eme': 271,
'enj': 272,
'ent': 273,
'er ': 274,
'ere': 275,
'erg': 276,
'eur': 277,
'go ': 278,
'i b': 279,
'i z': 280,
'jet': 281,
'ksi': 282,
'o u': 283,
'oda': 284,
'ona': 285,
'pra': 286,
'reb': 287,
'rem': 288,
'rop': 289,
'tri': 290,
'žav': 291,
' ci': 292,
' eu': 293,
' re': 294,
' te': 295,
' uv': 296,
' ve': 297,
'aju': 298,
'an ': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' a ': 0,
' az': 1,
' sz': 2,
'az ': 3,
' me': 4,
'en ': 5,
' el': 6,
' ho': 7,
'ek ': 8,
'gy ': 9,
'tt ': 10,
'ett': 11,
'sze': 12,
' fe': 13,
'és ': 14,
' ki': 15,
'tet': 16,
' be': 17,
'et ': 18,
'ter': 19,
'': 20,
' és': 21,
'hog': 22,
'meg': 23,
'ogy': 24,
'szt': 25,
'te ': 26,
't a': 27,
'zet': 28,
'a m': 29,
'nek': 30,
'nt ': 31,
'ség': 32,
'szá': 33,
'ak ': 34,
' va': 35,
'an ': 36,
'eze': 37,
'ra ': 38,
'ta ': 39,
' mi': 40,
'int': 41,
'köz': 42,
' is': 43,
'esz': 44,
'fel': 45,
'min': 46,
'nak': 47,
'ors': 48,
'zer': 49,
' te': 50,
'a a': 51,
'a k': 52,
'is ': 53,
' cs': 54,
'ele': 55,
'er ': 56,
'men': 57,
'si ': 58,
'tek': 59,
'ti ': 60,
' ne': 61,
'csa': 62,
'ent': 63,
'z e': 64,
'a t': 65,
'ala': 66,
'ere': 67,
'es ': 68,
'lom': 69,
'lte': 70,
'mon': 71,
'ond': 72,
'rsz': 73,
'sza': 74,
'tte': 75,
'zág': 76,
'ány': 77,
' fo': 78,
' ma': 79,
'ai ': 80,
'ben': 81,
'el ': 82,
'ene': 83,
'ik ': 84,
'jel': 85,
'tás': 86,
'áll': 87,
' ha': 88,
' le': 89,
' ál': 90,
'agy': 91,
'alá': 92,
'isz': 93,
'y a': 94,
'zte': 95,
'ás ': 96,
' al': 97,
'e a': 98,
'egy': 99,
'ely': 100,
'for': 101,
'lat': 102,
'lt ': 103,
'n a': 104,
'oga': 105,
'on ': 106,
're ': 107,
'st ': 108,
'ság': 109,
't m': 110,
'án ': 111,
'ét ': 112,
'ült': 113,
' je': 114,
'gi ': 115,
'k a': 116,
'kül': 117,
'lam': 118,
'len': 119,
'lás': 120,
'más': 121,
's k': 122,
'vez': 123,
'áso': 124,
'özö': 125,
' ta': 126,
'a s': 127,
'a v': 128,
'asz': 129,
'atá': 130,
'ető': 131,
'kez': 132,
'let': 133,
'mag': 134,
'nem': 135,
'szé': 136,
'z m': 137,
'át ': 138,
'éte': 139,
'ölt': 140,
' de': 141,
' gy': 142,
'': 143,
' mo': 144,
'': 145,
' ér': 146,
'a b': 147,
'a f': 148,
'ami': 149,
'at ': 150,
'ato': 151,
'att': 152,
'bef': 153,
'dta': 154,
'gya': 155,
'hat': 156,
'i s': 157,
'las': 158,
'ndt': 159,
'rt ': 160,
'szo': 161,
't k': 162,
'tár': 163,
'tés': 164,
'van': 165,
'ásá': 166,
'ól ': 167,
'': 168,
' eg': 169,
' or': 170,
'': 171,
'': 172,
' ve': 173,
'ban': 174,
'eke': 175,
'ekü': 176,
'elő': 177,
'erv': 178,
'ete': 179,
'fog': 180,
'i a': 181,
'kis': 182,
'lád': 183,
'nte': 184,
'nye': 185,
'nyi': 186,
'ok ': 187,
'omá': 188,
'os ': 189,
'rán': 190,
'rás': 191,
'sal': 192,
't e': 193,
'vál': 194,
'yar': 195,
'ágo': 196,
'ála': 197,
'ége': 198,
'ény': 199,
'ött': 200,
'': 201,
'adó': 202,
'elh': 203,
'fej': 204,
'het': 205,
'hoz': 206,
'ill': 207,
'jár': 208,
'kés': 209,
'llo': 210,
'mi ': 211,
'ny ': 212,
'ont': 213,
'ren': 214,
'res': 215,
'rin': 216,
's a': 217,
's e': 218,
'ssz': 219,
'zt ': 220,
' ez': 221,
' ka': 222,
' ke': 223,
' ko': 224,
' re': 225,
'a h': 226,
'a n': 227,
'den': 228,
'': 229,
'efo': 230,
'gad': 231,
'gat': 232,
'gye': 233,
'hel': 234,
'k e': 235,
'ket': 236,
'les': 237,
'mán': 238,
'nde': 239,
'nis': 240,
'ozz': 241,
't b': 242,
't i': 243,
't é': 244,
'tat': 245,
'tos': 246,
'val': 247,
'z o': 248,
'zak': 249,
'ád ': 250,
'ály': 251,
'ára': 252,
'ési': 253,
'ész': 254,
' ak': 255,
' am': 256,
' es': 257,
'': 258,
' ny': 259,
'': 260,
'aka': 261,
'art': 262,
'ató': 263,
'azt': 264,
'bbe': 265,
'ber': 266,
'ció': 267,
'cso': 268,
'em ': 269,
'eti': 270,
'eté': 271,
'gal': 272,
'i t': 273,
'ini': 274,
'ist': 275,
'ja ': 276,
'ker': 277,
'ki ': 278,
'kor': 279,
'koz': 280,
'l é': 281,
'ljá': 282,
'lye': 283,
'n v': 284,
'ni ': 285,
'pál': 286,
'ror': 287,
'ról': 288,
'rül': 289,
's c': 290,
's p': 291,
's s': 292,
's v': 293,
'sok': 294,
't j': 295,
't t': 296,
'tar': 297,
'tel': 298,
'vat': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'an ': 0,
' me': 1,
'kan': 2,
'ang': 3,
'ng ': 4,
' pe': 5,
'men': 6,
' di': 7,
' ke': 8,
' da': 9,
' se': 10,
'eng': 11,
' be': 12,
'nga': 13,
'nya': 14,
' te': 15,
'ah ': 16,
'ber': 17,
'aka': 18,
' ya': 19,
'dan': 20,
'di ': 21,
'yan': 22,
'n p': 23,
'per': 24,
'a m': 25,
'ita': 26,
' pa': 27,
'da ': 28,
'ata': 29,
'ada': 30,
'ya ': 31,
'ta ': 32,
' in': 33,
'ala': 34,
'eri': 35,
'ia ': 36,
'a d': 37,
'n k': 38,
'am ': 39,
'ga ': 40,
'at ': 41,
'era': 42,
'n d': 43,
'ter': 44,
' ka': 45,
'a p': 46,
'ari': 47,
'emb': 48,
'n m': 49,
'ri ': 50,
' ba': 51,
'aan': 52,
'ak ': 53,
'ra ': 54,
' it': 55,
'ara': 56,
'ela': 57,
'ni ': 58,
'ali': 59,
'ran': 60,
'ar ': 61,
'eru': 62,
'lah': 63,
'a b': 64,
'asi': 65,
'awa': 66,
'eba': 67,
'gan': 68,
'n b': 69,
' ha': 70,
'ini': 71,
'mer': 72,
' la': 73,
' mi': 74,
'and': 75,
'ena': 76,
'wan': 77,
' sa': 78,
'aha': 79,
'lam': 80,
'n i': 81,
'nda': 82,
' wa': 83,
'a i': 84,
'dua': 85,
'g m': 86,
'mi ': 87,
'n a': 88,
'rus': 89,
'tel': 90,
'yak': 91,
' an': 92,
'dal': 93,
'h d': 94,
'i s': 95,
'ing': 96,
'min': 97,
'ngg': 98,
'tak': 99,
'ami': 100,
'beb': 101,
'den': 102,
'gat': 103,
'ian': 104,
'ih ': 105,
'pad': 106,
'rga': 107,
'san': 108,
'ua ': 109,
' de': 110,
'a t': 111,
'arg': 112,
'dar': 113,
'elu': 114,
'har': 115,
'i k': 116,
'i m': 117,
'i p': 118,
'ika': 119,
'in ': 120,
'iny': 121,
'itu': 122,
'mba': 123,
'n t': 124,
'ntu': 125,
'pan': 126,
'pen': 127,
'sah': 128,
'tan': 129,
'tu ': 130,
'a k': 131,
'ban': 132,
'edu': 133,
'eka': 134,
'g d': 135,
'ka ': 136,
'ker': 137,
'nde': 138,
'nta': 139,
'ora': 140,
'usa': 141,
' du': 142,
' ma': 143,
'a s': 144,
'ai ': 145,
'ant': 146,
'bas': 147,
'end': 148,
'i d': 149,
'ira': 150,
'kam': 151,
'lan': 152,
'n s': 153,
'uli': 154,
'al ': 155,
'apa': 156,
'ere': 157,
'ert': 158,
'lia': 159,
'mem': 160,
'rka': 161,
'si ': 162,
'tal': 163,
'ung': 164,
' ak': 165,
'a a': 166,
'a w': 167,
'ani': 168,
'ask': 169,
'ent': 170,
'gar': 171,
'haa': 172,
'i i': 173,
'isa': 174,
'ked': 175,
'mbe': 176,
'ska': 177,
'tor': 178,
'uan': 179,
'uk ': 180,
'uka': 181,
' ad': 182,
' to': 183,
'asa': 184,
'aya': 185,
'bag': 186,
'dia': 187,
'dun': 188,
'erj': 189,
'mas': 190,
'na ': 191,
'rek': 192,
'rit': 193,
'sih': 194,
'us ': 195,
' bi': 196,
'a h': 197,
'ama': 198,
'dib': 199,
'ers': 200,
'g s': 201,
'han': 202,
'ik ': 203,
'kem': 204,
'ma ': 205,
'n l': 206,
'nit': 207,
'r b': 208,
'rja': 209,
'sa ': 210,
' ju': 211,
' or': 212,
' si': 213,
' ti': 214,
'a y': 215,
'aga': 216,
'any': 217,
'as ': 218,
'cul': 219,
'eme': 220,
'emu': 221,
'eny': 222,
'epa': 223,
'erb': 224,
'erl': 225,
'gi ': 226,
'h m': 227,
'i a': 228,
'kel': 229,
'li ': 230,
'mel': 231,
'nia': 232,
'opa': 233,
'rta': 234,
'sia': 235,
'tah': 236,
'ula': 237,
'un ': 238,
'unt': 239,
' at': 240,
' bu': 241,
' pu': 242,
' ta': 243,
'agi': 244,
'alu': 245,
'amb': 246,
'bah': 247,
'bis': 248,
'er ': 249,
'i t': 250,
'ibe': 251,
'ir ': 252,
'ja ': 253,
'k m': 254,
'kar': 255,
'lai': 256,
'lal': 257,
'lu ': 258,
'mpa': 259,
'ngk': 260,
'nja': 261,
'or ': 262,
'pa ': 263,
'pas': 264,
'pem': 265,
'rak': 266,
'rik': 267,
'seb': 268,
'tam': 269,
'tem': 270,
'top': 271,
'tuk': 272,
'uni': 273,
'war': 274,
' al': 275,
' ga': 276,
' ge': 277,
' ir': 278,
' ja': 279,
' mu': 280,
' na': 281,
' pr': 282,
' su': 283,
' un': 284,
'ad ': 285,
'adi': 286,
'akt': 287,
'ann': 288,
'apo': 289,
'bel': 290,
'bul': 291,
'der': 292,
'ega': 293,
'eke': 294,
'ema': 295,
'emp': 296,
'ene': 297,
'enj': 298,
'esa': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'': 0,
'um ': 1,
'': 2,
'ir ': 3,
'': 4,
'ur ': 5,
' ve': 6,
' í ': 7,
'na ': 8,
' á ': 9,
' se': 10,
' er': 11,
' og': 12,
'ar ': 13,
'og ': 14,
'ver': 15,
' mi': 16,
'inn': 17,
'nn ': 18,
' fy': 19,
'er ': 20,
'fyr': 21,
' ek': 22,
' en': 23,
' ha': 24,
' he': 25,
'ekk': 26,
' st': 27,
'ki ': 28,
'st ': 29,
'ði ': 30,
' ba': 31,
' me': 32,
' vi': 33,
'ig ': 34,
'rir': 35,
'yri': 36,
' um': 37,
'g f': 38,
'leg': 39,
'lei': 40,
'ns ': 41,
'ð s': 42,
' ei': 43,
' þa': 44,
'in ': 45,
'kki': 46,
'r h': 47,
'r s': 48,
'egi': 49,
'ein': 50,
'ga ': 51,
'ing': 52,
'ra ': 53,
'sta': 54,
' va': 55,
' þe': 56,
'ann': 57,
'en ': 58,
'mil': 59,
'sem': 60,
'tjó': 61,
'arð': 62,
'di ': 63,
'eit': 64,
'haf': 65,
'ill': 66,
'ins': 67,
'ist': 68,
'llj': 69,
'ndi': 70,
'r a': 71,
'r e': 72,
'seg': 73,
'un ': 74,
'var': 75,
' bi': 76,
' el': 77,
' fo': 78,
' ge': 79,
' yf': 80,
'and': 81,
'aug': 82,
'bau': 83,
'big': 84,
'ega': 85,
'eld': 86,
'erð': 87,
'fir': 88,
'foo': 89,
'gin': 90,
'itt': 91,
'n s': 92,
'ngi': 93,
'num': 94,
'od ': 95,
'ood': 96,
'sin': 97,
'ta ': 98,
'tt ': 99,
'við': 100,
'yfi': 101,
'ð e': 102,
'ð f': 103,
' hr': 104,
'': 105,
' þv': 106,
'a e': 107,
'a á': 108,
'em ': 109,
'gi ': 110,
'i f': 111,
'jar': 112,
'jór': 113,
'lja': 114,
'm e': 115,
'r á': 116,
'rei': 117,
'rst': 118,
'rða': 119,
'rði': 120,
'rðu': 121,
'stj': 122,
'und': 123,
'veg': 124,
'': 125,
'ð v': 126,
'það': 127,
'því': 128,
' fj': 129,
' ko': 130,
' sl': 131,
'eik': 132,
'end': 133,
'ert': 134,
'ess': 135,
'fjá': 136,
'fur': 137,
'gir': 138,
'hús': 139,
'jár': 140,
'n e': 141,
'ri ': 142,
'tar': 143,
'ð þ': 144,
'ðar': 145,
'ður': 146,
'þes': 147,
' br': 148,
'': 149,
' kr': 150,
' le': 151,
' up': 152,
'a s': 153,
'egg': 154,
'i s': 155,
'irt': 156,
'ja ': 157,
'kið': 158,
'len': 159,
'með': 160,
'mik': 161,
'n b': 162,
'nar': 163,
'nir': 164,
'nun': 165,
'r f': 166,
'r v': 167,
'rið': 168,
'rt ': 169,
'sti': 170,
't v': 171,
'ti ': 172,
'una': 173,
'upp': 174,
'ða ': 175,
'óna': 176,
' al': 177,
' fr': 178,
' gr': 179,
'a v': 180,
'all': 181,
'an ': 182,
'da ': 183,
'eið': 184,
'': 185,
'fa ': 186,
'fra': 187,
'g e': 188,
'ger': 189,
'gið': 190,
'gt ': 191,
'han': 192,
'hef': 193,
'hel': 194,
'her': 195,
'hra': 196,
'i a': 197,
'i e': 198,
'i v': 199,
'i þ': 200,
'iki': 201,
'jón': 202,
'jör': 203,
'ka ': 204,
'kró': 205,
'lík': 206,
'm h': 207,
'n a': 208,
'nga': 209,
'r l': 210,
'ram': 211,
'ru ': 212,
'ráð': 213,
'rón': 214,
'svo': 215,
'vin': 216,
'í b': 217,
'í h': 218,
'ð h': 219,
'ð k': 220,
'ð m': 221,
'örð': 222,
' af': 223,
' fa': 224,
'': 225,
'': 226,
' sk': 227,
' sv': 228,
' te': 229,
'a b': 230,
'a f': 231,
'a h': 232,
'a k': 233,
'a u': 234,
'afi': 235,
'agn': 236,
'arn': 237,
'ast': 238,
'ber': 239,
'efu': 240,
'enn': 241,
'erb': 242,
'erg': 243,
'fi ': 244,
'g a': 245,
'gar': 246,
'iðs': 247,
'ker': 248,
'kke': 249,
'lan': 250,
'ljó': 251,
'llt': 252,
'ma ': 253,
'mið': 254,
'n v': 255,
'n í': 256,
'nan': 257,
'nda': 258,
'ndu': 259,
'nið': 260,
'nna': 261,
'nnu': 262,
'nu ': 263,
'r o': 264,
'rbe': 265,
'rgi': 266,
'slö': 267,
'': 268,
't a': 269,
't h': 270,
'til': 271,
'tin': 272,
'ugu': 273,
'vil': 274,
'ygg': 275,
'á s': 276,
'ð a': 277,
'ð b': 278,
'órn': 279,
'ögn': 280,
'öku': 281,
' at': 282,
' fi': 283,
'': 284,
' ka': 285,
' ma': 286,
' no': 287,
' sa': 288,
' si': 289,
' ti': 290,
' ák': 291,
'a m': 292,
'a t': 293,
'a í': 294,
'a þ': 295,
'afa': 296,
'afs': 297,
'ald': 298,
'arf': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' di': 0,
'to ': 1,
'la ': 2,
' de': 3,
'di ': 4,
'no ': 5,
' co': 6,
're ': 7,
'ion': 8,
'e d': 9,
' e ': 10,
'le ': 11,
'del': 12,
'ne ': 13,
'ti ': 14,
'ell': 15,
' la': 16,
' un': 17,
'ni ': 18,
'i d': 19,
'per': 20,
' pe': 21,
'ent': 22,
' in': 23,
'one': 24,
'he ': 25,
'ta ': 26,
'zio': 27,
'che': 28,
'o d': 29,
'a d': 30,
'na ': 31,
'ato': 32,
'e s': 33,
' so': 34,
'i s': 35,
'lla': 36,
'a p': 37,
'li ': 38,
'te ': 39,
' al': 40,
' ch': 41,
'er ': 42,
' pa': 43,
' si': 44,
'con': 45,
'sta': 46,
' pr': 47,
'a c': 48,
' se': 49,
'el ': 50,
'ia ': 51,
'si ': 52,
'e p': 53,
' da': 54,
'e i': 55,
'i p': 56,
'ont': 57,
'ano': 58,
'i c': 59,
'all': 60,
'azi': 61,
'nte': 62,
'on ': 63,
'nti': 64,
'o s': 65,
' ri': 66,
'i a': 67,
'o a': 68,
'un ': 69,
' an': 70,
'are': 71,
'ari': 72,
'e a': 73,
'i e': 74,
'ita': 75,
'men': 76,
'ri ': 77,
' ca': 78,
' il': 79,
' no': 80,
' po': 81,
'a s': 82,
'ant': 83,
'il ': 84,
'in ': 85,
'a l': 86,
'ati': 87,
'cia': 88,
'e c': 89,
'ro ': 90,
'ann': 91,
'est': 92,
'gli': 93,
'': 94,
' qu': 95,
'e l': 96,
'nta': 97,
' a ': 98,
'com': 99,
'o c': 100,
'ra ': 101,
' le': 102,
' ne': 103,
'ali': 104,
'ere': 105,
'ist': 106,
' ma': 107,
' è ': 108,
'io ': 109,
'lle': 110,
'me ': 111,
'era': 112,
'ica': 113,
'ost': 114,
'pro': 115,
'tar': 116,
'una': 117,
' pi': 118,
'da ': 119,
'tat': 120,
' mi': 121,
'att': 122,
'ca ': 123,
'mo ': 124,
'non': 125,
'par': 126,
'sti': 127,
' fa': 128,
' i ': 129,
' re': 130,
' su': 131,
'ess': 132,
'ini': 133,
'nto': 134,
'o l': 135,
'ssi': 136,
'tto': 137,
'a e': 138,
'ame': 139,
'col': 140,
'ei ': 141,
'ma ': 142,
'o i': 143,
'za ': 144,
' st': 145,
'a a': 146,
'ale': 147,
'anc': 148,
'ani': 149,
'i m': 150,
'ian': 151,
'o p': 152,
'oni': 153,
'sio': 154,
'tan': 155,
'tti': 156,
' lo': 157,
'i r': 158,
'oci': 159,
'oli': 160,
'ona': 161,
'ono': 162,
'tra': 163,
' l ': 164,
'a r': 165,
'eri': 166,
'ett': 167,
'lo ': 168,
'nza': 169,
'que': 170,
'str': 171,
'ter': 172,
'tta': 173,
' ba': 174,
' li': 175,
' te': 176,
'ass': 177,
'e f': 178,
'enz': 179,
'for': 180,
'nno': 181,
'olo': 182,
'ori': 183,
'res': 184,
'tor': 185,
' ci': 186,
' vo': 187,
'a i': 188,
'al ': 189,
'chi': 190,
'e n': 191,
'lia': 192,
'pre': 193,
'ria': 194,
'uni': 195,
'ver': 196,
' sp': 197,
'imo': 198,
'l a': 199,
'l c': 200,
'ran': 201,
'sen': 202,
'soc': 203,
'tic': 204,
' fi': 205,
' mo': 206,
'a n': 207,
'ce ': 208,
'dei': 209,
'ggi': 210,
'gio': 211,
'iti': 212,
'l s': 213,
'lit': 214,
'll ': 215,
'mon': 216,
'ola': 217,
'pac': 218,
'sim': 219,
'tit': 220,
'utt': 221,
'vol': 222,
' ar': 223,
' fo': 224,
' ha': 225,
' sa': 226,
'acc': 227,
'e r': 228,
'ire': 229,
'man': 230,
'ntr': 231,
'rat': 232,
'sco': 233,
'tro': 234,
'tut': 235,
'va ': 236,
' do': 237,
' gi': 238,
' me': 239,
' sc': 240,
' tu': 241,
' ve': 242,
' vi': 243,
'a m': 244,
'ber': 245,
'can': 246,
'cit': 247,
'i l': 248,
'ier': 249,
'ità': 250,
'lli': 251,
'min': 252,
'n p': 253,
'nat': 254,
'nda': 255,
'o e': 256,
'o f': 257,
'o u': 258,
'ore': 259,
'oro': 260,
'ort': 261,
'sto': 262,
'ten': 263,
'tiv': 264,
'van': 265,
'art': 266,
'cco': 267,
'ci ': 268,
'cos': 269,
'dal': 270,
'e v': 271,
'i i': 272,
'ila': 273,
'ino': 274,
'l p': 275,
'n c': 276,
'nit': 277,
'ole': 278,
'ome': 279,
'po ': 280,
'rio': 281,
'sa ': 282,
' ce': 283,
' es': 284,
' tr': 285,
'a b': 286,
'and': 287,
'ata': 288,
'der': 289,
'ens': 290,
'ers': 291,
'gi ': 292,
'ial': 293,
'ina': 294,
'itt': 295,
'izi': 296,
'lan': 297,
'lor': 298,
'mil': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ан ': 0,
'ен ': 1,
'ың ': 2,
' қа': 3,
' ба': 4,
'ай ': 5,
'нда': 6,
'ын ': 7,
' са': 8,
' ал': 9,
'ді ': 10,
'ары': 11,
'ды ': 12,
'ып ': 13,
' мұ': 14,
' бі': 15,
'асы': 16,
'да ': 17,
'най': 18,
' жа': 19,
'мұн': 20,
'ста': 21,
'ған': 22,
'н б': 23,
'ұна': 24,
' бо': 25,
'ның': 26,
'ін ': 27,
'лар': 28,
'сын': 29,
' де': 30,
'аға': 31,
'тан': 32,
' кө': 33,
'бір': 34,
'ер ': 35,
'мен': 36,
'аза': 37,
'ынд': 38,
'ыны': 39,
' ме': 40,
'анд': 41,
'ері': 42,
'бол': 43,
'дың': 44,
'қаз': 45,
'аты': 46,
'сы ': 47,
'тын': 48,
'ғы ': 49,
' ке': 50,
'ар ': 51,
'зақ': 52,
'ық ': 53,
'ала': 54,
'алы': 55,
'аны': 56,
'ара': 57,
'ағы': 58,
'ген': 59,
'тар': 60,
'тер': 61,
'тыр': 62,
'айд': 63,
'ард': 64,
'де ': 65,
'ға ': 66,
' қо': 67,
'бар': 68,
'ің ': 69,
'қан': 70,
' бе': 71,
' қы': 72,
'ақс': 73,
'гер': 74,
'дан': 75,
'дар': 76,
'лық': 77,
'лға': 78,
'ына': 79,
'ір ': 80,
'ірі': 81,
'ғас': 82,
' та': 83,
'а б': 84,
'гі ': 85,
'еді': 86,
'еле': 87,
'йды': 88,
'н к': 89,
'н т': 90,
'ола': 91,
'рын': 92,
'іп ': 93,
'қст': 94,
'қта': 95,
'ң б': 96,
' ай': 97,
' ол': 98,
' со': 99,
'айт': 100,
'дағ': 101,
'иге': 102,
'лер': 103,
'лып': 104,
'н а': 105,
'ік ': 106,
'ақт': 107,
'бағ': 108,
'кен': 109,
'н қ': 110,
'ны ': 111,
'рге': 112,
'рға': 113,
'ыр ': 114,
' ар': 115,
'алғ': 116,
'аса': 117,
'бас': 118,
'бер': 119,
'ге ': 120,
'еті': 121,
'на ': 122,
'нде': 123,
'не ': 124,
'ниг': 125,
'рды': 126,
'ры ': 127,
'сай': 128,
' ау': 129,
' кү': 130,
' ни': 131,
' от': 132,
' өз': 133,
'ауд': 134,
'еп ': 135,
'иял': 136,
'лты': 137,
'н ж': 138,
'н о': 139,
'осы': 140,
'оты': 141,
'рып': 142,
'рі ': 143,
'тке': 144,
'ты ': 145,
'ы б': 146,
'ы ж': 147,
'ылы': 148,
'ысы': 149,
'і с': 150,
'қар': 151,
' бұ': 152,
' да': 153,
' же': 154,
' тұ': 155,
' құ': 156,
'ады': 157,
'айл': 158,
'ап ': 159,
'ата': 160,
'ені': 161,
'йла': 162,
'н м': 163,
'н с': 164,
'нды': 165,
'нді': 166,
'р м': 167,
'тай': 168,
'тін': 169,
'ы т': 170,
'ыс ': 171,
'інд': 172,
' би': 173,
'а ж': 174,
'ауы': 175,
'деп': 176,
'дің': 177,
'еке': 178,
'ери': 179,
'йын': 180,
'кел': 181,
'лды': 182,
'ма ': 183,
'нан': 184,
'оны': 185,
'п ж': 186,
'п о': 187,
'р б': 188,
'рия': 189,
'рла': 190,
'уда': 191,
'шыл': 192,
'ы а': 193,
'ықт': 194,
'і а': 195,
'і б': 196,
'із ': 197,
'ілі': 198,
'ң қ': 199,
' ас': 200,
' ек': 201,
' жо': 202,
' мә': 203,
' ос': 204,
' ре': 205,
' се': 206,
'алд': 207,
'дал': 208,
'дег': 209,
'дей': 210,
'е б': 211,
'ет ': 212,
'жас': 213,
'й б': 214,
'лау': 215,
'лда': 216,
'мет': 217,
'нын': 218,
'сар': 219,
'сі ': 220,
'ті ': 221,
'ыры': 222,
'ыта': 223,
'ісі': 224,
'ң а': 225,
'өте': 226,
' ат': 227,
' ел': 228,
' жү': 229,
' ма': 230,
' то': 231,
' шы': 232,
'а а': 233,
'алт': 234,
'ама': 235,
'арл': 236,
'аст': 237,
'бұл': 238,
'дай': 239,
'дық': 240,
'ек ': 241,
'ель': 242,
'есі': 243,
'зді': 244,
'көт': 245,
'лем': 246,
'ль ': 247,
'н е': 248,
'п а': 249,
'р а': 250,
'рес': 251,
'са ': 252,
'та ': 253,
'тте': 254,
'тұр': 255,
'шы ': 256,
'ы д': 257,
'ы қ': 258,
'ыз ': 259,
'қыт': 260,
' ко': 261,
' не': 262,
' ой': 263,
' ор': 264,
' сұ': 265,
' тү': 266,
'аль': 267,
'аре': 268,
'атт': 269,
'дір': 270,
'ев ': 271,
'егі': 272,
'еда': 273,
'екі': 274,
'елд': 275,
'ерг': 276,
'ерд': 277,
'ияд': 278,
'кер': 279,
'кет': 280,
'лыс': 281,
'ліс': 282,
'мед': 283,
'мпи': 284,
'н д': 285,
'ні ': 286,
'нін': 287,
'п т': 288,
'пек': 289,
'рел': 290,
'рта': 291,
'ріл': 292,
'рін': 293,
'сен': 294,
'тал': 295,
'шіл': 296,
'ы к': 297,
'ы м': 298,
'ыст': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ын ': 0,
'ан ': 1,
' жа': 2,
'ен ': 3,
'да ': 4,
' та': 5,
'ар ': 6,
'ин ': 7,
' ка': 8,
'ары': 9,
' ал': 10,
' ба': 11,
' би': 12,
'лар': 13,
' бо': 14,
' кы': 15,
'ала': 16,
'н к': 17,
' са': 18,
'нда': 19,
'ган': 20,
'тар': 21,
' де': 22,
'анд': 23,
'н б': 24,
' ке': 25,
'ард': 26,
'мен': 27,
'н т': 28,
'ара': 29,
'нын': 30,
' да': 31,
' ме': 32,
'кыр': 33,
' че': 34,
'н а': 35,
'ры ': 36,
' ко': 37,
'ген': 38,
'дар': 39,
'кен': 40,
'кта': 41,
'уу ': 42,
'ене': 43,
'ери': 44,
' ша': 45,
'алы': 46,
'ат ': 47,
'на ': 48,
' кө': 49,
' эм': 50,
'аты': 51,
'дан': 52,
'деп': 53,
'дын': 54,
'еп ': 55,
'нен': 56,
'рын': 57,
' бе': 58,
'кан': 59,
'луу': 60,
'ргы': 61,
'тан': 62,
'шай': 63,
'ырг': 64,
'үн ': 65,
' ар': 66,
' ма': 67,
'агы': 68,
'акт': 69,
'аны': 70,
'гы ': 71,
'гыз': 72,
'ды ': 73,
'рда': 74,
'ай ': 75,
'бир': 76,
'бол': 77,
'ер ': 78,
'н с': 79,
'нды': 80,
'ун ': 81,
'ча ': 82,
'ынд': 83,
'а к': 84,
'ага': 85,
'айл': 86,
'ана': 87,
'ап ': 88,
'га ': 89,
'лге': 90,
'нча': 91,
'п к': 92,
'рды': 93,
'туу': 94,
'ыны': 95,
' ан': 96,
' өз': 97,
'ама': 98,
'ата': 99,
'дин': 100,
'йт ': 101,
'лга': 102,
'лоо': 103,
'оо ': 104,
'ри ': 105,
'тин': 106,
'ыз ': 107,
'ып ': 108,
'өрү': 109,
' па': 110,
' эк': 111,
'а б': 112,
'алг': 113,
'асы': 114,
'ашт': 115,
'биз': 116,
'кел': 117,
'кте': 118,
'тал': 119,
' не': 120,
' су': 121,
'акы': 122,
'ент': 123,
'инд': 124,
'ир ': 125,
'кал': 126,
'н д': 127,
'нде': 128,
'ого': 129,
'онд': 130,
'оюн': 131,
'р б': 132,
'р м': 133,
'ран': 134,
'сал': 135,
'ста': 136,
'сы ': 137,
'ура': 138,
'ыгы': 139,
' аш': 140,
' ми': 141,
' сы': 142,
' ту': 143,
'ал ': 144,
'арт': 145,
'бор': 146,
'елг': 147,
'ени': 148,
'ет ': 149,
'жат': 150,
'йло': 151,
'кар': 152,
'н м': 153,
'огу': 154,
'п а': 155,
'п ж': 156,
'р э': 157,
'сын': 158,
'ык ': 159,
'юнч': 160,
' бу': 161,
' ур': 162,
'а а': 163,
'ак ': 164,
'алд': 165,
'алу': 166,
'бар': 167,
'бер': 168,
'бою': 169,
'ге ': 170,
'дон': 171,
'еги': 172,
'ект': 173,
'ефт': 174,
'из ': 175,
'кат': 176,
'лды': 177,
'н ч': 178,
'н э': 179,
'н ө': 180,
'ндо': 181,
'неф': 182,
'он ': 183,
'сат': 184,
'тор': 185,
'ты ': 186,
'уда': 187,
'ул ': 188,
'ула': 189,
'ууд': 190,
'ы б': 191,
'ы ж': 192,
'ы к': 193,
'ыл ': 194,
'ына': 195,
'эке': 196,
'ясы': 197,
' ат': 198,
' до': 199,
' жы': 200,
' со': 201,
' чы': 202,
'аас': 203,
'айт': 204,
'аст': 205,
'баа': 206,
'баш': 207,
'гар': 208,
'гын': 209,
'дө ': 210,
'е б': 211,
'ек ': 212,
'жыл': 213,
'и б': 214,
'ик ': 215,
'ияс': 216,
'кыз': 217,
'лда': 218,
'лык': 219,
'мда': 220,
'н ж': 221,
'нди': 222,
'ни ': 223,
'нин': 224,
'орд': 225,
'рдо': 226,
'сто': 227,
'та ': 228,
'тер': 229,
'тти': 230,
'тур': 231,
'тын': 232,
'уп ': 233,
'ушу': 234,
'фти': 235,
'ыкт': 236,
'үп ': 237,
'өн ': 238,
' ай': 239,
' бү': 240,
' ич': 241,
' иш': 242,
' мо': 243,
' пр': 244,
' ре': 245,
' өк': 246,
' өт': 247,
'а д': 248,
'а у': 249,
'а э': 250,
'айм': 251,
'амд': 252,
'атт': 253,
'бек': 254,
'бул': 255,
'гол': 256,
'дег': 257,
'еге': 258,
'ейт': 259,
'еле': 260,
'енд': 261,
'жак': 262,
'и к': 263,
'ини': 264,
'ири': 265,
'йма': 266,
'кто': 267,
'лик': 268,
'мак': 269,
'мес': 270,
'н у': 271,
'н ш': 272,
'нтт': 273,
'ол ': 274,
'оло': 275,
'пар': 276,
'рак': 277,
'рүү': 278,
'сыр': 279,
'ти ': 280,
'тик': 281,
'тта': 282,
'төр': 283,
'у ж': 284,
'у с': 285,
'шка': 286,
'ы м': 287,
'ызы': 288,
'ылд': 289,
'эме': 290,
'үрү': 291,
'өлү': 292,
'өтө': 293,
' же': 294,
' тү': 295,
' эл': 296,
' өн': 297,
'а ж': 298,
'ады': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'um ': 0,
'us ': 1,
'ut ': 2,
'et ': 3,
'is ': 4,
' et': 5,
' in': 6,
' qu': 7,
'tur': 8,
' pr': 9,
'est': 10,
'tio': 11,
' au': 12,
'am ': 13,
'em ': 14,
'aut': 15,
' di': 16,
'ent': 17,
'in ': 18,
'dic': 19,
't e': 20,
' es': 21,
'ur ': 22,
'ati': 23,
'ion': 24,
'st ': 25,
' ut': 26,
'ae ': 27,
'qua': 28,
' de': 29,
'nt ': 30,
' su': 31,
' si': 32,
'itu': 33,
'unt': 34,
'rum': 35,
'ia ': 36,
'es ': 37,
'ter': 38,
' re': 39,
'nti': 40,
'rae': 41,
's e': 42,
'qui': 43,
'io ': 44,
'pro': 45,
'it ': 46,
'per': 47,
'ita': 48,
'one': 49,
'ici': 50,
'ius': 51,
' co': 52,
't d': 53,
'bus': 54,
'pra': 55,
'm e': 56,
' no': 57,
'edi': 58,
'tia': 59,
'ue ': 60,
'ibu': 61,
' se': 62,
' ad': 63,
'er ': 64,
' fi': 65,
'ili': 66,
'que': 67,
't i': 68,
'de ': 69,
'oru': 70,
' te': 71,
'ali': 72,
' pe': 73,
'aed': 74,
'cit': 75,
'm d': 76,
't s': 77,
'tat': 78,
'tem': 79,
'tis': 80,
't p': 81,
'sti': 82,
'te ': 83,
'cum': 84,
'ere': 85,
'ium': 86,
' ex': 87,
'rat': 88,
'ta ': 89,
'con': 90,
'cti': 91,
'oni': 92,
'ra ': 93,
's i': 94,
' cu': 95,
' sa': 96,
'eni': 97,
'nis': 98,
'nte': 99,
'eri': 100,
'omi': 101,
're ': 102,
's a': 103,
'min': 104,
'os ': 105,
'ti ': 106,
'uer': 107,
' ma': 108,
' ue': 109,
'm s': 110,
'nem': 111,
't m': 112,
' mo': 113,
' po': 114,
' ui': 115,
'gen': 116,
'ict': 117,
'm i': 118,
'ris': 119,
's s': 120,
't a': 121,
'uae': 122,
' do': 123,
'm a': 124,
't c': 125,
' ge': 126,
'as ': 127,
'e i': 128,
'e p': 129,
'ne ': 130,
' ca': 131,
'ine': 132,
'quo': 133,
's p': 134,
' al': 135,
'e e': 136,
'ntu': 137,
'ro ': 138,
'tri': 139,
'tus': 140,
'uit': 141,
'atu': 142,
'ini': 143,
'iqu': 144,
'm p': 145,
'ost': 146,
'res': 147,
'ura': 148,
' ac': 149,
' fu': 150,
'a e': 151,
'ant': 152,
'nes': 153,
'nim': 154,
'sun': 155,
'tra': 156,
'e a': 157,
's d': 158,
' pa': 159,
' uo': 160,
'ecu': 161,
' om': 162,
' tu': 163,
'ad ': 164,
'cut': 165,
'omn': 166,
's q': 167,
' ei': 168,
'ex ': 169,
'icu': 170,
'tor': 171,
'uid': 172,
' ip': 173,
' me': 174,
'e s': 175,
'era': 176,
'eru': 177,
'iam': 178,
'ide': 179,
'ips': 180,
' iu': 181,
'a s': 182,
'do ': 183,
'e d': 184,
'eiu': 185,
'ica': 186,
'im ': 187,
'm c': 188,
'm u': 189,
'tiu': 190,
' ho': 191,
'cat': 192,
'ist': 193,
'nat': 194,
'on ': 195,
'pti': 196,
'reg': 197,
'rit': 198,
's t': 199,
'sic': 200,
'spe': 201,
' en': 202,
' sp': 203,
'dis': 204,
'eli': 205,
'liq': 206,
'lis': 207,
'men': 208,
'mus': 209,
'num': 210,
'pos': 211,
'sio': 212,
' an': 213,
' gr': 214,
'abi': 215,
'acc': 216,
'ect': 217,
'ri ': 218,
'uan': 219,
' le': 220,
'ecc': 221,
'ete': 222,
'gra': 223,
'non': 224,
'se ': 225,
'uen': 226,
'uis': 227,
' fa': 228,
' tr': 229,
'ate': 230,
'e c': 231,
'fil': 232,
'na ': 233,
'ni ': 234,
'pul': 235,
's f': 236,
'ui ': 237,
'at ': 238,
'cce': 239,
'dam': 240,
'i e': 241,
'ina': 242,
'leg': 243,
'nos': 244,
'ori': 245,
'pec': 246,
'rop': 247,
'sta': 248,
'uia': 249,
'ene': 250,
'iue': 251,
'iui': 252,
'siu': 253,
't t': 254,
't u': 255,
'tib': 256,
'tit': 257,
' da': 258,
' ne': 259,
'a d': 260,
'and': 261,
'ege': 262,
'equ': 263,
'hom': 264,
'imu': 265,
'lor': 266,
'm m': 267,
'mni': 268,
'ndo': 269,
'ner': 270,
'o e': 271,
'r e': 272,
'sit': 273,
'tum': 274,
'utu': 275,
'a p': 276,
'bis': 277,
'bit': 278,
'cer': 279,
'cta': 280,
'dom': 281,
'fut': 282,
'i s': 283,
'ign': 284,
'int': 285,
'mod': 286,
'ndu': 287,
'nit': 288,
'rib': 289,
'rti': 290,
'tas': 291,
'und': 292,
' ab': 293,
'err': 294,
'ers': 295,
'ite': 296,
'iti': 297,
'm t': 298,
'o p': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'as ': 0,
' pa': 1,
' ka': 2,
'ai ': 3,
'us ': 4,
'os ': 5,
'is ': 6,
' ne': 7,
' ir': 8,
'ir ': 9,
'ti ': 10,
' pr': 11,
'aus': 12,
'ini': 13,
's p': 14,
'pas': 15,
'': 16,
' ta': 17,
' vi': 18,
'iau': 19,
' ko': 20,
' su': 21,
'kai': 22,
'o p': 23,
'usi': 24,
' sa': 25,
'vo ': 26,
'tai': 27,
'ali': 28,
'': 29,
'io ': 30,
'jo ': 31,
's k': 32,
'sta': 33,
'iai': 34,
' bu': 35,
' nu': 36,
'ius': 37,
'mo ': 38,
' po': 39,
'ien': 40,
's s': 41,
'tas': 42,
' me': 43,
'uvo': 44,
'kad': 45,
'': 46,
' la': 47,
'to ': 48,
'ais': 49,
'ie ': 50,
'kur': 51,
'uri': 52,
' ku': 53,
'ijo': 54,
'čia': 55,
'au ': 56,
'met': 57,
'je ': 58,
' va': 59,
'ad ': 60,
' ap': 61,
'and': 62,
' gr': 63,
' ti': 64,
'kal': 65,
'asi': 66,
'i p': 67,
'iči': 68,
's i': 69,
's v': 70,
'ink': 71,
'o n': 72,
'ės ': 73,
'buv': 74,
's a': 75,
' ga': 76,
'aip': 77,
'avi': 78,
'mas': 79,
'pri': 80,
'tik': 81,
' re': 82,
'etu': 83,
'jos': 84,
' da': 85,
'ent': 86,
'oli': 87,
'par': 88,
'ant': 89,
'ara': 90,
'tar': 91,
'ama': 92,
'gal': 93,
'imo': 94,
'išk': 95,
'o s': 96,
' at': 97,
' be': 98,
' į ': 99,
'min': 100,
'tin': 101,
' tu': 102,
's n': 103,
' jo': 104,
'dar': 105,
'ip ': 106,
'rei': 107,
' te': 108,
'dži': 109,
'kas': 110,
'nin': 111,
'tei': 112,
'vie': 113,
' li': 114,
' se': 115,
'cij': 116,
'gar': 117,
'lai': 118,
'art': 119,
'lau': 120,
'ras': 121,
'no ': 122,
'o k': 123,
'': 124,
' ar': 125,
'ėjo': 126,
'vič': 127,
'iga': 128,
'pra': 129,
'vis': 130,
' na': 131,
'men': 132,
'oki': 133,
'raš': 134,
's t': 135,
'iet': 136,
'ika': 137,
'int': 138,
'kom': 139,
'tam': 140,
'aug': 141,
'avo': 142,
'rie': 143,
's b': 144,
' st': 145,
'eim': 146,
'ko ': 147,
'nus': 148,
'pol': 149,
'ria': 150,
'sau': 151,
'api': 152,
'me ': 153,
'ne ': 154,
'sik': 155,
' ši': 156,
'i n': 157,
'ia ': 158,
'ici': 159,
'oja': 160,
'sak': 161,
'sti': 162,
'ui ': 163,
'ame': 164,
'lie': 165,
'o t': 166,
'pie': 167,
'čiu': 168,
' di': 169,
' pe': 170,
'gri': 171,
'ios': 172,
'lia': 173,
'lin': 174,
's d': 175,
's g': 176,
'ta ': 177,
'uot': 178,
' ja': 179,
'': 180,
'aut': 181,
'i s': 182,
'ino': 183,
'': 184,
'oje': 185,
'rav': 186,
'dėl': 187,
'nti': 188,
'o a': 189,
'toj': 190,
'ėl ': 191,
' to': 192,
' vy': 193,
'ar ': 194,
'ina': 195,
'lic': 196,
'o v': 197,
'sei': 198,
'su ': 199,
' mi': 200,
' pi': 201,
'din': 202,
'': 203,
'lan': 204,
'si ': 205,
'tus': 206,
' ba': 207,
'asa': 208,
'ata': 209,
'kla': 210,
'omi': 211,
'tat': 212,
' an': 213,
' ji': 214,
'als': 215,
'ena': 216,
'': 217,
'nuo': 218,
'per': 219,
'rig': 220,
's m': 221,
'val': 222,
'yta': 223,
'čio': 224,
' ra': 225,
'i k': 226,
'lik': 227,
'net': 228,
'': 229,
'tis': 230,
'tuo': 231,
'yti': 232,
'ęs ': 233,
'ų s': 234,
'ada': 235,
'ari': 236,
'do ': 237,
'eik': 238,
'eis': 239,
'ist': 240,
'lst': 241,
'ma ': 242,
'nes': 243,
'sav': 244,
'sio': 245,
'tau': 246,
' ki': 247,
'aik': 248,
'aud': 249,
'ies': 250,
'ori': 251,
's r': 252,
'ska': 253,
' ge': 254,
'ast': 255,
'eig': 256,
'et ': 257,
'iam': 258,
'isa': 259,
'mis': 260,
'nam': 261,
'ome': 262,
'žia': 263,
'aba': 264,
'aul': 265,
'ikr': 266,
'': 267,
'nta': 268,
'ra ': 269,
'tur': 270,
' ma': 271,
'die': 272,
'ei ': 273,
'i t': 274,
'nas': 275,
'rin': 276,
'sto': 277,
'tie': 278,
'tuv': 279,
'vos': 280,
'ų p': 281,
'': 282,
'are': 283,
'ats': 284,
'enė': 285,
'ili': 286,
'ima': 287,
'kar': 288,
'ms ': 289,
'nia': 290,
'r p': 291,
'rod': 292,
's l': 293,
' o ': 294,
'e p': 295,
'es ': 296,
'ide': 297,
'ik ': 298,
'ja ': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'as ': 0,
' la': 1,
' pa': 2,
' ne': 3,
'es ': 4,
' un': 5,
'un ': 6,
' ka': 7,
' va': 8,
'ar ': 9,
's p': 10,
' ar': 11,
' vi': 12,
'is ': 13,
'ai ': 14,
' no': 15,
'ja ': 16,
'ija': 17,
'iem': 18,
'em ': 19,
'tu ': 20,
'tie': 21,
'vie': 22,
'lat': 23,
'aks': 24,
'ien': 25,
'kst': 26,
'ies': 27,
's a': 28,
'rak': 29,
'atv': 30,
'tvi': 31,
' ja': 32,
' pi': 33,
'ka ': 34,
' ir': 35,
'ir ': 36,
'ta ': 37,
' sa': 38,
'ts ': 39,
'': 40,
'ās ': 41,
' ti': 42,
'ot ': 43,
's n': 44,
' ie': 45,
' ta': 46,
'arī': 47,
'par': 48,
'pie': 49,
' pr': 50,
'': 51,
' at': 52,
' ra': 53,
'am ': 54,
'inā': 55,
'': 56,
' iz': 57,
'jas': 58,
'lai': 59,
' na': 60,
'aut': 61,
'ieš': 62,
's s': 63,
' ap': 64,
' ko': 65,
' st': 66,
'iek': 67,
'iet': 68,
'jau': 69,
'us ': 70,
'': 71,
'tik': 72,
'ība': 73,
'na ': 74,
' ga': 75,
'cij': 76,
's i': 77,
' uz': 78,
'jum': 79,
's v': 80,
'ms ': 81,
'var': 82,
' ku': 83,
' ma': 84,
'': 85,
'sta': 86,
's u': 87,
'': 88,
'die': 89,
'kai': 90,
'kas': 91,
'ska': 92,
' ci': 93,
' da': 94,
'kur': 95,
'lie': 96,
'tas': 97,
'a p': 98,
'est': 99,
'stā': 100,
'šan': 101,
'nes': 102,
'nie': 103,
's d': 104,
's m': 105,
'val': 106,
' di': 107,
' es': 108,
' re': 109,
'no ': 110,
'to ': 111,
'umu': 112,
'vai': 113,
'ši ': 114,
'': 115,
'kum': 116,
'nu ': 117,
'rie': 118,
's t': 119,
'ām ': 120,
'ad ': 121,
'et ': 122,
'mu ': 123,
's l': 124,
' be': 125,
'aud': 126,
'tur': 127,
'vij': 128,
'viņ': 129,
'āju': 130,
'bas': 131,
'gad': 132,
'i n': 133,
'ika': 134,
'os ': 135,
'a v': 136,
'not': 137,
'oti': 138,
'sts': 139,
'aik': 140,
'u a': 141,
'ā a': 142,
'āk ': 143,
' to': 144,
'ied': 145,
'stu': 146,
'ti ': 147,
'u p': 148,
'vēl': 149,
'āci': 150,
' šo': 151,
'gi ': 152,
'ko ': 153,
'pro': 154,
's r': 155,
'tāj': 156,
'u s': 157,
'u v': 158,
'vis': 159,
'aun': 160,
'ks ': 161,
'str': 162,
'zin': 163,
'a a': 164,
'adī': 165,
'da ': 166,
'dar': 167,
'ena': 168,
'ici': 169,
'kra': 170,
'nas': 171,
'stī': 172,
'šu ': 173,
'': 174,
'a n': 175,
'eci': 176,
'i s': 177,
'ie ': 178,
'iņa': 179,
'ju ': 180,
'las': 181,
'r t': 182,
'ums': 183,
'šie': 184,
'bu ': 185,
'cit': 186,
'i a': 187,
'ina': 188,
'ma ': 189,
'pus': 190,
'ra ': 191,
' au': 192,
' se': 193,
' sl': 194,
'a s': 195,
'ais': 196,
'eši': 197,
'iec': 198,
'iku': 199,
'pār': 200,
's b': 201,
's k': 202,
'sot': 203,
'ādā': 204,
' in': 205,
' li': 206,
' tr': 207,
'ana': 208,
'eso': 209,
'ikr': 210,
'man': 211,
'ne ': 212,
'u k': 213,
' tu': 214,
'an ': 215,
'av ': 216,
'bet': 217,
'būt': 218,
'im ': 219,
'isk': 220,
'līd': 221,
'nav': 222,
'ras': 223,
'ri ': 224,
's g': 225,
'sti': 226,
'īdz': 227,
' ai': 228,
'arb': 229,
'cin': 230,
'das': 231,
'ent': 232,
'gal': 233,
'i p': 234,
'lik': 235,
'': 236,
'nek': 237,
'pat': 238,
'rēt': 239,
'si ': 240,
'tra': 241,
'uši': 242,
'vei': 243,
' br': 244,
' pu': 245,
' sk': 246,
'als': 247,
'ama': 248,
'edz': 249,
'eka': 250,
'ešu': 251,
'ieg': 252,
'jis': 253,
'kam': 254,
'lst': 255,
'nāk': 256,
'oli': 257,
'pre': 258,
'pēc': 259,
'rot': 260,
'tās': 261,
'usi': 262,
'ēl ': 263,
'ēs ': 264,
' bi': 265,
' de': 266,
' me': 267,
'': 268,
'a i': 269,
'aid': 270,
'ajā': 271,
'ikt': 272,
'kat': 273,
'lic': 274,
'lod': 275,
'mi ': 276,
'ni ': 277,
'pri': 278,
'rād': 279,
'rīg': 280,
'sim': 281,
'trā': 282,
'u l': 283,
'uto': 284,
'uz ': 285,
'ēc ': 286,
'ītā': 287,
' ce': 288,
'': 289,
' sv': 290,
'a t': 291,
'aga': 292,
'aiz': 293,
'atu': 294,
'ba ': 295,
'cie': 296,
'du ': 297,
'dzi': 298,
'dzī': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'на ': 0,
' на': 1,
'та ': 2,
'ата': 3,
'ија': 4,
' пр': 5,
'то ': 6,
'ја ': 7,
' за': 8,
'а н': 9,
' и ': 10,
'а с': 11,
'те ': 12,
'ите': 13,
' ко': 14,
'от ': 15,
' де': 16,
' по': 17,
'а д': 18,
'во ': 19,
'за ': 20,
' во': 21,
' од': 22,
' се': 23,
' не': 24,
'се ': 25,
' до': 26,
'а в': 27,
'ка ': 28,
'ање': 29,
'а п': 30,
'о п': 31,
'ува': 32,
'циј': 33,
'а о': 34,
'ици': 35,
'ето': 36,
'о н': 37,
'ани': 38,
'ни ': 39,
' вл': 40,
'дек': 41,
'ека': 42,
'њет': 43,
'ќе ': 44,
' е ': 45,
'а з': 46,
'а и': 47,
'ат ': 48,
'вла': 49,
'го ': 50,
'е н': 51,
'од ': 52,
'пре': 53,
' го': 54,
' да': 55,
' ма': 56,
' ре': 57,
' ќе': 58,
'али': 59,
'и д': 60,
'и н': 61,
'иот': 62,
'нат': 63,
'ово': 64,
' па': 65,
' ра': 66,
' со': 67,
'ове': 68,
'пра': 69,
'што': 70,
'ње ': 71,
'а е': 72,
'да ': 73,
'дат': 74,
'дон': 75,
'е в': 76,
'е д': 77,
'е з': 78,
'е с': 79,
'кон': 80,
'нит': 81,
'но ': 82,
'они': 83,
'ото': 84,
'пар': 85,
'при': 86,
'ста': 87,
'т н': 88,
' шт': 89,
'а к': 90,
'аци': 91,
'ва ': 92,
'вањ': 93,
'е п': 94,
'ени': 95,
'ла ': 96,
'лад': 97,
'мак': 98,
'нес': 99,
'нос': 100,
'про': 101,
'рен': 102,
'јат': 103,
' ин': 104,
' ме': 105,
' то': 106,
'а г': 107,
'а м': 108,
'а р': 109,
'аке': 110,
'ако': 111,
'вор': 112,
'гов': 113,
'едо': 114,
'ена': 115,
'и и': 116,
'ира': 117,
'кед': 118,
'не ': 119,
'ниц': 120,
'ниј': 121,
'ост': 122,
'ра ': 123,
'рат': 124,
'ред': 125,
'ска': 126,
'тен': 127,
' ка': 128,
' сп': 129,
' ја': 130,
'а т': 131,
'аде': 132,
'арт': 133,
'е г': 134,
'е и': 135,
'кат': 136,
'лас': 137,
'нио': 138,
'о с': 139,
'ри ': 140,
' ба': 141,
' би': 142,
'ава': 143,
'ате': 144,
'вни': 145,
'д н': 146,
'ден': 147,
'дов': 148,
'држ': 149,
'дув': 150,
'е о': 151,
'ен ': 152,
'ере': 153,
'ери': 154,
'и п': 155,
'и с': 156,
'ина': 157,
'кој': 158,
'нци': 159,
'о м': 160,
'о о': 161,
'одн': 162,
'пор': 163,
'ски': 164,
'спо': 165,
'ств': 166,
'сти': 167,
'тво': 168,
'ти ': 169,
' об': 170,
' ов': 171,
'а б': 172,
'алн': 173,
'ара': 174,
'бар': 175,
'е к': 176,
'ед ': 177,
'ент': 178,
'еѓу': 179,
'и о': 180,
'ии ': 181,
'меѓ': 182,
'о д': 183,
'оја': 184,
'пот': 185,
'раз': 186,
'раш': 187,
'спр': 188,
'сто': 189,
'т д': 190,
'ци ': 191,
' бе': 192,
' гр': 193,
' др': 194,
' из': 195,
' ст': 196,
'аа ': 197,
'бид': 198,
'вед': 199,
'гла': 200,
'еко': 201,
'енд': 202,
'есе': 203,
'етс': 204,
'зац': 205,
'и т': 206,
'иза': 207,
'инс': 208,
'ист': 209,
'ки ': 210,
'ков': 211,
'кол': 212,
'ку ': 213,
'лиц': 214,
'о з': 215,
'о и': 216,
'ова': 217,
'олк': 218,
'оре': 219,
'ори': 220,
'под': 221,
'рањ': 222,
'реф': 223,
'ржа': 224,
'ров': 225,
'рти': 226,
'со ': 227,
'тор': 228,
'фер': 229,
'цен': 230,
'цит': 231,
' а ': 232,
' вр': 233,
' гл': 234,
' дп': 235,
' мо': 236,
' ни': 237,
' но': 238,
' оп': 239,
' от': 240,
'а ќ': 241,
'або': 242,
'ада': 243,
'аса': 244,
'аша': 245,
'ба ': 246,
'бот': 247,
'ваа': 248,
'ват': 249,
'вот': 250,
'ги ': 251,
'гра': 252,
'де ': 253,
'дин': 254,
'дум': 255,
'евр': 256,
'еду': 257,
'ено': 258,
'ера': 259,
'ес ': 260,
'ење': 261,
'же ': 262,
'зак': 263,
'и в': 264,
'ила': 265,
'иту': 266,
'коа': 267,
'кои': 268,
'лан': 269,
'лку': 270,
'лож': 271,
'мот': 272,
'нду': 273,
'нст': 274,
'о в': 275,
'оа ': 276,
'оал': 277,
'обр': 278,
'ов ': 279,
'ови': 280,
'овн': 281,
'ои ': 282,
'ор ': 283,
'орм': 284,
'ој ': 285,
'рет': 286,
'сед': 287,
'ст ': 288,
'тер': 289,
'тиј': 290,
'тоа': 291,
'фор': 292,
'ции': 293,
'ѓу ': 294,
' ал': 295,
' ве': 296,
' вм': 297,
' ги': 298,
' ду': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ын ': 0,
' ба': 1,
'йн ': 2,
'бай': 3,
'ийн': 4,
'уул': 5,
' ул': 6,
'улс': 7,
'ан ': 8,
' ха': 9,
'ний': 10,
'н х': 11,
'гаа': 12,
'сын': 13,
'ий ': 14,
'лсы': 15,
' бо': 16,
'й б': 17,
'эн ': 18,
'ах ': 19,
'бол': 20,
'ол ': 21,
'н б': 22,
'оло': 23,
' хэ': 24,
'онг': 25,
'гол': 26,
'гуу': 27,
'нго': 28,
'ыг ': 29,
'жил': 30,
' мо': 31,
'лаг': 32,
'лла': 33,
'мон': 34,
' тє': 35,
' ху': 36,
'айд': 37,
'ны ': 38,
'он ': 39,
'сан': 40,
'хий': 41,
' аж': 42,
' ор': 43,
'л у': 44,
'н т': 45,
'улг': 46,
'айг': 47,
'длы': 48,
'йг ': 49,
' за': 50,
'дэс': 51,
'н а': 52,
'ндэ': 53,
'ула': 54,
'ээ ': 55,
'ага': 56,
'ийг': 57,
'': 58,
'аа ': 59,
'й а': 60,
'лын': 61,
'н з': 62,
' аю': 63,
' зє': 64,
'аар': 65,
'ад ': 66,
'ар ': 67,
'г': 68,
'зєв': 69,
'ажи': 70,
'ал ': 71,
'аюу': 72,
'г х': 73,
'лгv': 74,
'лж ': 75,
'сни': 76,
'эсн': 77,
'юул': 78,
'йдл': 79,
'лыг': 80,
'нхи': 81,
'ууд': 82,
'хам': 83,
' нэ': 84,
' са': 85,
'гий': 86,
'лах': 87,
'лєл': 88,
'рєн': 89,
'єгч': 90,
' та': 91,
'илл': 92,
'лий': 93,
'лэх': 94,
'рий': 95,
'эх ': 96,
' ер': 97,
' эр': 98,
'влє': 99,
'ерє': 100,
'ийл': 101,
'лон': 102,
'лєг': 103,
'євл': 104,
'єнх': 105,
' хо': 106,
'ари': 107,
'их ': 108,
'хан': 109,
'эр ': 110,
'єн ': 111,
'vvл': 112,
'ж б': 113,
'тэй': 114,
'х х': 115,
'эрх': 116,
'': 117,
' нь': 118,
'vнд': 119,
'алт': 120,
'йлє': 121,
'нь ': 122,
'тєр': 123,
' га': 124,
' су': 125,
'аан': 126,
'даа': 127,
'илц': 128,
'йгу': 129,
'л а': 130,
'лаа': 131,
'н н': 132,
'руу': 133,
'эй ': 134,
' то': 135,
'н с': 136,
'рил': 137,
'єри': 138,
'ааг': 139,
'гч ': 140,
'лээ': 141,
'н о': 142,
'рэг': 143,
'суу': 144,
'эрэ': 145,
'їїл': 146,
'': 147,
' бу': 148,
' дэ': 149,
' ол': 150,
' ту': 151,
' ши': 152,
'yнд': 153,
'аши': 154,
'г т': 155,
'иг ': 156,
'йл ': 157,
'хар': 158,
'шин': 159,
'эг ': 160,
'єр ': 161,
' их': 162,
' хє': 163,
' хї': 164,
'ам ': 165,
'анг': 166,
'ин ': 167,
'йга': 168,
'лса': 169,
'н v': 170,
'н е': 171,
'нал': 172,
'нд ': 173,
'хуу': 174,
'цаа': 175,
'эд ': 176,
'ээр': 177,
'єл ': 178,
'vйл': 179,
'ада': 180,
'айн': 181,
'ала': 182,
'амт': 183,
'гах': 184,
'д х': 185,
'дал': 186,
'зар': 187,
'л б': 188,
'лан': 189,
'н д': 190,
'сэн': 191,
'улл': 192,
'х б': 193,
'хэр': 194,
' бv': 195,
' да': 196,
' зо': 197,
'vрэ': 198,
'аад': 199,
'гээ': 200,
'лэн': 201,
'н и': 202,
'н э': 203,
'нга': 204,
'нэ ': 205,
'тал': 206,
'тын': 207,
'хур': 208,
'эл ': 209,
' на': 210,
' ни': 211,
' он': 212,
'vлэ': 213,
'аг ': 214,
'аж ': 215,
'ай ': 216,
'ата': 217,
'бар': 218,
'г б': 219,
'гад': 220,
'гїй': 221,
'й х': 222,
'лт ': 223,
'н м': 224,
'на ': 225,
'оро': 226,
'уль': 227,
'чин': 228,
'эж ': 229,
'энэ': 230,
'ээд': 231,
'їй ': 232,
'їлэ': 233,
' би': 234,
' тэ': 235,
' эн': 236,
'аны': 237,
'дий': 238,
'дээ': 239,
'лал': 240,
'лга': 241,
'лд ': 242,
'лог': 243,
'ль ': 244,
'н у': 245,
'н ї': 246,
'р б': 247,
'рал': 248,
'сон': 249,
'тай': 250,
'удл': 251,
'элт': 252,
'эрг': 253,
'єлє': 254,
'': 255,
' в ': 256,
' гэ': 257,
' хv': 258,
'ара': 259,
'бvр': 260,
'д н': 261,
'д о': 262,
'л х': 263,
'лс ': 264,
'лты': 265,
'н г': 266,
'нэг': 267,
'огт': 268,
'олы': 269,
'оёр': 270,
'р т': 271,
'рээ': 272,
'тав': 273,
'тог': 274,
'уур': 275,
'хоё': 276,
'хэл': 277,
'хээ': 278,
'элэ': 279,
'ёр ': 280,
' ав': 281,
' ас': 282,
' аш': 283,
' ду': 284,
' со': 285,
' чи': 286,
' эв': 287,
' єр': 288,
'аал': 289,
'алд': 290,
'амж': 291,
'анд': 292,
'асу': 293,
'вэр': 294,
'г у': 295,
'двэ': 296,
'жvv': 297,
'лца': 298,
'лэл': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'er ': 0,
'en ': 1,
'et ': 2,
' de': 3,
'det': 4,
' i ': 5,
'for': 6,
'il ': 7,
' fo': 8,
' me': 9,
'ing': 10,
'om ': 11,
' ha': 12,
' og': 13,
'ter': 14,
' er': 15,
' ti': 16,
' st': 17,
'og ': 18,
'til': 19,
'ne ': 20,
' vi': 21,
're ': 22,
' en': 23,
' se': 24,
'te ': 25,
'or ': 26,
'de ': 27,
'kke': 28,
'ke ': 29,
'ar ': 30,
'ng ': 31,
'r s': 32,
'ene': 33,
' so': 34,
'e s': 35,
'der': 36,
'an ': 37,
'som': 38,
'ste': 39,
'at ': 40,
'ed ': 41,
'r i': 42,
' av': 43,
' in': 44,
'men': 45,
' at': 46,
' ko': 47,
'': 48,
'har': 49,
' si': 50,
'ere': 51,
'': 52,
'nde': 53,
'and': 54,
'els': 55,
'ett': 56,
'tte': 57,
'lig': 58,
't s': 59,
'den': 60,
't i': 61,
'ikk': 62,
'med': 63,
'n s': 64,
'rt ': 65,
'ser': 66,
'ska': 67,
't e': 68,
'ker': 69,
'sen': 70,
'av ': 71,
'ler': 72,
'r a': 73,
'ten': 74,
'e f': 75,
'r e': 76,
'r t': 77,
'ede': 78,
'ig ': 79,
' re': 80,
'han': 81,
'lle': 82,
'ner': 83,
' bl': 84,
' fr': 85,
'le ': 86,
' ve': 87,
'e t': 88,
'lan': 89,
'mme': 90,
'nge': 91,
' be': 92,
' ik': 93,
' om': 94,
' å ': 95,
'ell': 96,
'sel': 97,
'sta': 98,
'ver': 99,
' et': 100,
' sk': 101,
'nte': 102,
'one': 103,
'ore': 104,
'r d': 105,
'ske': 106,
' an': 107,
' la': 108,
'del': 109,
'gen': 110,
'nin': 111,
'r f': 112,
'r v': 113,
'se ': 114,
' po': 115,
'ir ': 116,
'jon': 117,
'mer': 118,
'nen': 119,
'omm': 120,
'sjo': 121,
' fl': 122,
' sa': 123,
'ern': 124,
'kom': 125,
'r m': 126,
'r o': 127,
'ren': 128,
'vil': 129,
'ale': 130,
'es ': 131,
'n a': 132,
't f': 133,
' le': 134,
'bli': 135,
'e e': 136,
'e i': 137,
'e v': 138,
'het': 139,
'ye ': 140,
' ir': 141,
'al ': 142,
'e o': 143,
'ide': 144,
'iti': 145,
'lit': 146,
'nne': 147,
'ran': 148,
't o': 149,
'tal': 150,
'tat': 151,
'tt ': 152,
' ka': 153,
'ans': 154,
'asj': 155,
'ge ': 156,
'inn': 157,
'kon': 158,
'lse': 159,
'pet': 160,
't d': 161,
'vi ': 162,
' ut': 163,
'ent': 164,
'eri': 165,
'oli': 166,
'r p': 167,
'ret': 168,
'ris': 169,
'sto': 170,
'str': 171,
't a': 172,
' ga': 173,
'all': 174,
'ape': 175,
'g s': 176,
'ill': 177,
'ira': 178,
'kap': 179,
'nn ': 180,
'opp': 181,
'r h': 182,
'rin': 183,
' br': 184,
' op': 185,
'e m': 186,
'ert': 187,
'ger': 188,
'ion': 189,
'kal': 190,
'lsk': 191,
'nes': 192,
' gj': 193,
' mi': 194,
' pr': 195,
'ang': 196,
'e h': 197,
'e r': 198,
'elt': 199,
'enn': 200,
'i s': 201,
'ist': 202,
'jen': 203,
'kan': 204,
'lt ': 205,
'nal': 206,
'res': 207,
'tor': 208,
'ass': 209,
'dre': 210,
'e b': 211,
'e p': 212,
'mel': 213,
'n t': 214,
'nse': 215,
'ort': 216,
'per': 217,
'reg': 218,
'sje': 219,
't p': 220,
't v': 221,
' hv': 222,
'': 223,
' va': 224,
'ann': 225,
'ato': 226,
'e a': 227,
'est': 228,
'ise': 229,
'isk': 230,
'oil': 231,
'ord': 232,
'pol': 233,
'ra ': 234,
'rak': 235,
'sse': 236,
'toi': 237,
' gr': 238,
'ak ': 239,
'eg ': 240,
'ele': 241,
'g a': 242,
'ige': 243,
'igh': 244,
'm e': 245,
'n f': 246,
'n v': 247,
'ndr': 248,
'nsk': 249,
'rer': 250,
't m': 251,
'und': 252,
'var': 253,
'år ': 254,
' he': 255,
' no': 256,
' ny': 257,
'end': 258,
'ete': 259,
'fly': 260,
'g i': 261,
'ghe': 262,
'ier': 263,
'ind': 264,
'int': 265,
'lin': 266,
'n d': 267,
'n p': 268,
'rne': 269,
'sak': 270,
'sie': 271,
't b': 272,
'tid': 273,
' al': 274,
' pa': 275,
' tr': 276,
'ag ': 277,
'dig': 278,
'e d': 279,
'e k': 280,
'ess': 281,
'hol': 282,
'i d': 283,
'lag': 284,
'led': 285,
'n e': 286,
'n i': 287,
'n o': 288,
'pri': 289,
'r b': 290,
'st ': 291,
' fe': 292,
' li': 293,
' ry': 294,
'air': 295,
'ake': 296,
'd s': 297,
'eas': 298,
'egi': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'को ': 0,
'का ': 1,
'मा ': 2,
'हरु': 3,
' ने': 4,
'नेप': 5,
'पाल': 6,
'ेपा': 7,
' सम': 8,
'ले ': 9,
' प्': 10,
'प्र': 11,
'कार': 12,
'ा स': 13,
'एको': 14,
' भए': 15,
'': 16,
' भा': 17,
'्रम': 18,
' गर': 19,
'रुक': 20,
'': 21,
'भार': 22,
'ारत': 23,
' का': 24,
' वि': 25,
'भएक': 26,
'ाली': 27,
'ली ': 28,
'ा प': 29,
'ीहर': 30,
'ार्': 31,
'ो छ': 32,
'ना ': 33,
'रु ': 34,
'ालक': 35,
'्या': 36,
' बा': 37,
'एका': 38,
'ने ': 39,
'न्त': 40,
'ा ब': 41,
'ाको': 42,
'ार ': 43,
'ा भ': 44,
'ाहर': 45,
'्रो': 46,
'क्ष': 47,
'न् ': 48,
'ारी': 49,
' नि': 50,
'ा न': 51,
'ी स': 52,
' डु': 53,
'क्र': 54,
'जना': 55,
'यो ': 56,
'ा छ': 57,
'ेवा': 58,
'्ता': 59,
' रा': 60,
'त्य': 61,
'न्द': 62,
'हुन': 63,
'ा क': 64,
'ामा': 65,
'ी न': 66,
'्दा': 67,
' से': 68,
'छन्': 69,
'म्ब': 70,
'रोत': 71,
'सेव': 72,
'स्त': 73,
'स्र': 74,
'ेका': 75,
'्त ': 76,
' बी': 77,
' हु': 78,
'क्त': 79,
'त्र': 80,
'रत ': 81,
'र्न': 82,
'र्य': 83,
'ा र': 84,
'ाका': 85,
'ुको': 86,
' एक': 87,
' सं': 88,
' सु': 89,
'बीब': 90,
'बीस': 91,
'लको': 92,
'स्य': 93,
'ीबी': 94,
'ीसी': 95,
'ेको': 96,
'ो स': 97,
'्यक': 98,
' छन': 99,
' जन': 100,
' बि': 101,
' मु': 102,
' स्': 103,
'गर्': 104,
'ताह': 105,
'न्ध': 106,
'बार': 107,
'मन्': 108,
'मस्': 109,
'रुल': 110,
'लाई': 111,
'ा व': 112,
'ाई ': 113,
'ाल ': 114,
'िका': 115,
' त्': 116,
' मा': 117,
' यस': 118,
' रु': 119,
'ताक': 120,
'बन्': 121,
'र ब': 122,
'रण ': 123,
'रुप': 124,
'रेक': 125,
'ष्ट': 126,
'सम्': 127,
'सी ': 128,
'ाएक': 129,
'ुका': 130,
'ुक्': 131,
' अध': 132,
' अन': 133,
' तथ': 134,
' थि': 135,
' दे': 136,
' पर': 137,
' बै': 138,
'तथा': 139,
'ता ': 140,
'दा ': 141,
'द्द': 142,
'नी ': 143,
'बाट': 144,
'यक्': 145,
'री ': 146,
'रीह': 147,
'र्म': 148,
'लका': 149,
'समस': 150,
'ा अ': 151,
'ा ए': 152,
'ाट ': 153,
'िय ': 154,
'ो प': 155,
'ो म': 156,
'्न ': 157,
'्ने': 158,
'्षा': 159,
' पा': 160,
' यो': 161,
' हा': 162,
'अधि': 163,
'डुव': 164,
'त भ': 165,
'त स': 166,
'था ': 167,
'धिक': 168,
'पमा': 169,
'बैठ': 170,
'मुद': 171,
'या ': 172,
'युक': 173,
'र न': 174,
'रति': 175,
'वान': 176,
'सार': 177,
'ा आ': 178,
'ा ज': 179,
'ा ह': 180,
'ुद्': 181,
'ुपम': 182,
'ुले': 183,
'ुवा': 184,
'ैठक': 185,
'ो ब': 186,
'्तर': 187,
'्य ': 188,
'्यस': 189,
' क्': 190,
' मन': 191,
' रह': 192,
'चार': 193,
'तिय': 194,
'दै ': 195,
'निर': 196,
'नु ': 197,
'पर्': 198,
'रक्': 199,
'र्द': 200,
'समा': 201,
'सुर': 202,
'ाउन': 203,
'ान ': 204,
'ानम': 205,
'ारण': 206,
'ाले': 207,
'ि ब': 208,
'ियो': 209,
'ुन्': 210,
'ुरक': 211,
'्त्': 212,
'्बन': 213,
'्रा': 214,
'्ष ': 215,
' आर': 216,
' जल': 217,
' बे': 218,
' या': 219,
' सा': 220,
'आएक': 221,
'एक ': 222,
'कर्': 223,
'जलस': 224,
'णका': 225,
'त र': 226,
'द्र': 227,
'धान': 228,
'धि ': 229,
'नका': 230,
'नमा': 231,
'नि ': 232,
'ममा': 233,
'रम ': 234,
'रहे': 235,
'राज': 236,
'लस्': 237,
'ला ': 238,
'वार': 239,
'सका': 240,
'हिल': 241,
'हेक': 242,
'ा त': 243,
'ारे': 244,
'िन्': 245,
'िस्': 246,
'े स': 247,
'ो न': 248,
'ो र': 249,
'ोत ': 250,
'्धि': 251,
'्मी': 252,
'्रस': 253,
' दु': 254,
' पन': 255,
' बत': 256,
' बन': 257,
' भन': 258,
'ंयु': 259,
'आरम': 260,
'खि ': 261,
'ण्ड': 262,
'तका': 263,
'ताल': 264,
'दी ': 265,
'देख': 266,
'निय': 267,
'पनि': 268,
'प्त': 269,
'बता': 270,
'मी ': 271,
'म्भ': 272,
'र स': 273,
'रम्': 274,
'लमा': 275,
'विश': 276,
'षाक': 277,
'संय': 278,
'ा ड': 279,
'ा म': 280,
'ानक': 281,
'ालम': 282,
'ि भ': 283,
'ित ': 284,
'ी प': 285,
'ी र': 286,
'ु भ': 287,
'ुने': 288,
'े ग': 289,
'ेखि': 290,
'ेर ': 291,
'ो भ': 292,
'ो व': 293,
'ो ह': 294,
'्भ ': 295,
'्र ': 296,
' ता': 297,
' नम': 298,
' ना': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'en ': 0,
'de ': 1,
' de': 2,
'et ': 3,
'an ': 4,
' he': 5,
'er ': 6,
' va': 7,
'n d': 8,
'van': 9,
'een': 10,
'het': 11,
' ge': 12,
'oor': 13,
' ee': 14,
'der': 15,
' en': 16,
'ij ': 17,
'aar': 18,
'gen': 19,
'te ': 20,
'ver': 21,
' in': 22,
' me': 23,
'aan': 24,
'den': 25,
' we': 26,
'at ': 27,
'in ': 28,
' da': 29,
' te': 30,
'eer': 31,
'nde': 32,
'ter': 33,
'ste': 34,
'n v': 35,
' vo': 36,
' zi': 37,
'ing': 38,
'n h': 39,
'voo': 40,
'is ': 41,
' op': 42,
'tie': 43,
' aa': 44,
'ede': 45,
'erd': 46,
'ers': 47,
' be': 48,
'eme': 49,
'ten': 50,
'ken': 51,
'n e': 52,
' ni': 53,
' ve': 54,
'ent': 55,
'ijn': 56,
'jn ': 57,
'mee': 58,
'iet': 59,
'n w': 60,
'ng ': 61,
'nie': 62,
' is': 63,
'cht': 64,
'dat': 65,
'ere': 66,
'ie ': 67,
'ijk': 68,
'n b': 69,
'rde': 70,
'ar ': 71,
'e b': 72,
'e a': 73,
'met': 74,
't d': 75,
'el ': 76,
'ond': 77,
't h': 78,
' al': 79,
'e w': 80,
'op ': 81,
'ren': 82,
' di': 83,
' on': 84,
'al ': 85,
'and': 86,
'bij': 87,
'zij': 88,
' bi': 89,
' hi': 90,
' wi': 91,
'or ': 92,
'r d': 93,
't v': 94,
' wa': 95,
'e h': 96,
'lle': 97,
'rt ': 98,
'ang': 99,
'hij': 100,
'men': 101,
'n a': 102,
'n z': 103,
'rs ': 104,
' om': 105,
'e o': 106,
'e v': 107,
'end': 108,
'est': 109,
'n t': 110,
'par': 111,
' pa': 112,
' pr': 113,
' ze': 114,
'e g': 115,
'e p': 116,
'n p': 117,
'ord': 118,
'oud': 119,
'raa': 120,
'sch': 121,
't e': 122,
'ege': 123,
'ich': 124,
'ien': 125,
'aat': 126,
'ek ': 127,
'len': 128,
'n m': 129,
'nge': 130,
'nt ': 131,
'ove': 132,
'rd ': 133,
'wer': 134,
' ma': 135,
' mi': 136,
'daa': 137,
'e k': 138,
'lij': 139,
'mer': 140,
'n g': 141,
'n o': 142,
'om ': 143,
'sen': 144,
't b': 145,
'wij': 146,
' ho': 147,
'e m': 148,
'ele': 149,
'gem': 150,
'heb': 151,
'pen': 152,
'ude': 153,
' bo': 154,
' ja': 155,
'die': 156,
'e e': 157,
'eli': 158,
'erk': 159,
'le ': 160,
'pro': 161,
'rij': 162,
' er': 163,
' za': 164,
'e d': 165,
'ens': 166,
'ind': 167,
'ke ': 168,
'n k': 169,
'nd ': 170,
'nen': 171,
'nte': 172,
'r h': 173,
's d': 174,
's e': 175,
't z': 176,
' b ': 177,
' co': 178,
' ik': 179,
' ko': 180,
' ov': 181,
'eke': 182,
'hou': 183,
'ik ': 184,
'iti': 185,
'lan': 186,
'ns ': 187,
't g': 188,
't m': 189,
' do': 190,
' le': 191,
' zo': 192,
'ams': 193,
'e z': 194,
'g v': 195,
'it ': 196,
'je ': 197,
'ls ': 198,
'maa': 199,
'n i': 200,
'nke': 201,
'rke': 202,
'uit': 203,
' ha': 204,
' ka': 205,
' mo': 206,
' re': 207,
' st': 208,
' to': 209,
'age': 210,
'als': 211,
'ark': 212,
'art': 213,
'ben': 214,
'e r': 215,
'e s': 216,
'ert': 217,
'eze': 218,
'ht ': 219,
'ijd': 220,
'lem': 221,
'r v': 222,
'rte': 223,
't p': 224,
'zeg': 225,
'zic': 226,
'aak': 227,
'aal': 228,
'ag ': 229,
'ale': 230,
'bbe': 231,
'ch ': 232,
'e t': 233,
'ebb': 234,
'erz': 235,
'ft ': 236,
'ge ': 237,
'led': 238,
'mst': 239,
'n n': 240,
'oek': 241,
'r i': 242,
't o': 243,
't w': 244,
'tel': 245,
'tte': 246,
'uur': 247,
'we ': 248,
'zit': 249,
' af': 250,
' li': 251,
' ui': 252,
'ak ': 253,
'all': 254,
'aut': 255,
'doo': 256,
'e i': 257,
'ene': 258,
'erg': 259,
'ete': 260,
'ges': 261,
'hee': 262,
'jaa': 263,
'jke': 264,
'kee': 265,
'kel': 266,
'kom': 267,
'lee': 268,
'moe': 269,
'n s': 270,
'ort': 271,
'rec': 272,
's o': 273,
's v': 274,
'teg': 275,
'tij': 276,
'ven': 277,
'waa': 278,
'wel': 279,
' an': 280,
' au': 281,
' bu': 282,
' gr': 283,
' pl': 284,
' ti': 285,
"'' ": 286,
'ade': 287,
'dag': 288,
'e l': 289,
'ech': 290,
'eel': 291,
'eft': 292,
'ger': 293,
'gt ': 294,
'ig ': 295,
'itt': 296,
'j d': 297,
'ppe': 298,
'rda': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'oku': 0,
'la ': 1,
'nga': 2,
'a n': 3,
' ng': 4,
'na ': 5,
'ama': 6,
'a i': 7,
'ko ': 8,
' uk': 9,
'ele': 10,
'lo ': 11,
'ela': 12,
'ang': 13,
'a u': 14,
'a k': 15,
'uku': 16,
'aba': 17,
' ku': 18,
'wa ': 19,
'enz': 20,
'lel': 21,
'ho ': 22,
'ni ': 23,
'ngo': 24,
'ath': 25,
'pha': 26,
'eth': 27,
'kha': 28,
'ana': 29,
'isa': 30,
'nge': 31,
' na': 32,
'o n': 33,
'tho': 34,
'e n': 35,
'the': 36,
'ha ': 37,
'esi': 38,
'nye': 39,
'kwe': 40,
'tjh': 41,
' kw': 42,
'ise': 43,
' um': 44,
'a a': 45,
' ne': 46,
'le ': 47,
'hla': 48,
'a e': 49,
'lan': 50,
'ben': 51,
'ndl': 52,
' no': 53,
'imi': 54,
'und': 55,
'ung': 56,
'thi': 57,
'nzi': 58,
'ye ': 59,
'isi': 60,
'uth': 61,
'o e': 62,
'ebe': 63,
'het': 64,
'kut': 65,
'and': 66,
'sa ': 67,
'elo': 68,
'fun': 69,
'eko': 70,
'seb': 71,
'ban': 72,
'ulu': 73,
'aka': 74,
'eli': 75,
'wen': 76,
'e i': 77,
' am': 78,
'eni': 79,
'ba ': 80,
'we ': 81,
'nel': 82,
' we': 83,
'kuf': 84,
'lwa': 85,
'i n': 86,
' is': 87,
'zi ': 88,
' lo': 89,
'kwa': 90,
'lok': 91,
'elw': 92,
'gok': 93,
'ona': 94,
'lek': 95,
'hi ': 96,
'li ': 97,
'gan': 98,
'bon': 99,
' ii': 100,
'ing': 101,
'ka ': 102,
'o i': 103,
'akh': 104,
'ane': 105,
'thu': 106,
'ula': 107,
'kel': 108,
'mth': 109,
' im': 110,
'ga ': 111,
' le': 112,
'nda': 113,
'fan': 114,
'nok': 115,
'i k': 116,
'end': 117,
'si ': 118,
'o w': 119,
'aph': 120,
'hat': 121,
'e u': 122,
'ala': 123,
'kub': 124,
'lun': 125,
'ikh': 126,
'o l': 127,
'ezi': 128,
'a l': 129,
'o u': 130,
'sis': 131,
'nam': 132,
'emi': 133,
' ab': 134,
'hul': 135,
'kus': 136,
' wo': 137,
'sek': 138,
'azi': 139,
'kho': 140,
'iin': 141,
'i u': 142,
'asi': 143,
'lol': 144,
'ini': 145,
'uph': 146,
'uhl': 147,
'khu': 148,
'no ': 149,
'o y': 150,
'ako': 151,
'a b': 152,
'i e': 153,
'o k': 154,
'i l': 155,
' be': 156,
'mal': 157,
' ye': 158,
'i i': 159,
'nde': 160,
'iph': 161,
'mel': 162,
'eke': 163,
'tha': 164,
'kun': 165,
'ngi': 166,
'e k': 167,
'eng': 168,
'o s': 169,
' yo': 170,
'so ': 171,
'ma ': 172,
'mkh': 173,
'jha': 174,
'isw': 175,
'lwe': 176,
' ez': 177,
'di ': 178,
'a w': 179,
'e a': 180,
'kul': 181,
'uny': 182,
'ume': 183,
'za ': 184,
'any': 185,
'ahl': 186,
'kuh': 187,
'een': 188,
' si': 189,
'ili': 190,
'itj': 191,
'zok': 192,
'ihl': 193,
' es': 194,
'ke ': 195,
'hlo': 196,
'hak': 197,
'phe': 198,
'lul': 199,
'dle': 200,
'luk': 201,
'da ': 202,
'eka': 203,
'amb': 204,
' se': 205,
'zis': 206,
'mbi': 207,
'hon': 208,
'dla': 209,
'aku': 210,
'jen': 211,
'zin': 212,
' ba': 213,
'ham': 214,
'i a': 215,
' bo': 216,
'o a': 217,
'ali': 218,
'use': 219,
'ile': 220,
'sik': 221,
'han': 222,
'wok': 223,
'okh': 224,
'hlu': 225,
'nya': 226,
'sit': 227,
'ani': 228,
'kuz': 229,
'o o': 230,
'ufa': 231,
'swa': 232,
'ind': 233,
'zak': 234,
'nis': 235,
'lis': 236,
'gab': 237,
'mi ': 238,
' em': 239,
' ko': 240,
'ano': 241,
' el': 242,
'hwa': 243,
'ufu': 244,
'a y': 245,
'wo ': 246,
' in': 247,
'lim': 248,
'tlo': 249,
'kat': 250,
'wak': 251,
'kan': 252,
'thw': 253,
'o z': 254,
'ith': 255,
'ndi': 256,
'yok': 257,
'yo ': 258,
'mit': 259,
'mis': 260,
'abo': 261,
'eku': 262,
'hab': 263,
'iny': 264,
'nan': 265,
'eze': 266,
'khe': 267,
'alo': 268,
'lu ': 269,
'man': 270,
'he ': 271,
'ezo': 272,
'kup': 273,
'ubu': 274,
' zo': 275,
'gam': 276,
'hel': 277,
'wan': 278,
'omb': 279,
'amk': 280,
'nza': 281,
'ola': 282,
'hum': 283,
'kuk': 284,
'du ': 285,
' la': 286,
'kom': 287,
'i y': 288,
'obu': 289,
'i b': 290,
'odu': 291,
'okw': 292,
'gap': 293,
' ka': 294,
'be ': 295,
' il': 296,
'alu': 297,
'atj': 298,
'e b': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'go ': 0,
' go': 1,
' le': 2,
' a ': 3,
'le ': 4,
' di': 5,
'a g': 6,
'ya ': 7,
'lo ': 8,
' ya': 9,
'a m': 10,
'ka ': 11,
' ka': 12,
'la ': 13,
' t ': 14,
'o y': 15,
'a t': 16,
'a k': 17,
'ba ': 18,
'et ': 19,
'wa ': 20,
' mo': 21,
' e ': 22,
'a b': 23,
' se': 24,
' ba': 25,
' ma': 26,
' bo': 27,
'e g': 28,
't a': 29,
' o ': 30,
'a l': 31,
'o t': 32,
'na ': 33,
'o l': 34,
'a d': 35,
'elo': 36,
'di ': 37,
'a s': 38,
'o g': 39,
'o k': 40,
'ele': 41,
'o a': 42,
'ng ': 43,
't e': 44,
'o b': 45,
'mo ': 46,
'e t': 47,
'e m': 48,
'ego': 49,
'eo ': 50,
'e l': 51,
'ngw': 52,
'se ': 53,
'e b': 54,
'kgo': 55,
'ela': 56,
' wa': 57,
' ga': 58,
'e k': 59,
'ago': 60,
'o m': 61,
' kg': 62,
'ga ': 63,
'dit': 64,
'olo': 65,
't h': 66,
'e d': 67,
'o d': 68,
' ye': 69,
'ane': 70,
'lel': 71,
'we ': 72,
' tl': 73,
'thu': 74,
'ona': 75,
' th': 76,
't w': 77,
'hut': 78,
'ana': 79,
'tla': 80,
'wan': 81,
'aba': 82,
'ola': 83,
' me': 84,
'gwa': 85,
're ': 86,
'ong': 87,
't o': 88,
'lao': 89,
'e s': 90,
'o s': 91,
'a y': 92,
'alo': 93,
'set': 94,
'a p': 95,
'i a': 96,
'eng': 97,
'a a': 98,
'o e': 99,
'tho': 100,
' ke': 101,
'gwe': 102,
' ha': 103,
'hlo': 104,
'edi': 105,
' la': 106,
'ao ': 107,
' ts': 108,
'aka': 109,
'hla': 110,
'ala': 111,
'swa': 112,
' we': 113,
' bj': 114,
'o o': 115,
'gor': 116,
'aga': 117,
'hab': 118,
'gob': 119,
'let': 120,
'ke ': 121,
'dik': 122,
'sa ': 123,
' i ': 124,
'oba': 125,
' hl': 126,
'the': 127,
'dir': 128,
'a n': 129,
'ith': 130,
'bja': 131,
'ye ': 132,
'no ': 133,
' sa': 134,
'mol': 135,
'lwa': 136,
'ti ': 137,
'man': 138,
'ole': 139,
'e e': 140,
'tse': 141,
'o w': 142,
'ore': 143,
'to ': 144,
'at ': 145,
'eth': 146,
'e y': 147,
'kan': 148,
'tsh': 149,
'gon': 150,
'net': 151,
'ano': 152,
'kar': 153,
'ge ': 154,
'ho ': 155,
'lok': 156,
' sw': 157,
' na': 158,
'i b': 159,
'dip': 160,
'i o': 161,
'oka': 162,
' ge': 163,
' om': 164,
'ko ': 165,
'emo': 166,
'pel': 167,
'nt ': 168,
'e a': 169,
'mel': 170,
'leg': 171,
'tlh': 172,
'me ': 173,
'ete': 174,
'phe': 175,
'a e': 176,
'o n': 177,
'o i': 178,
'wal': 179,
'oko': 180,
'nya': 181,
'bol': 182,
'odi': 183,
'weg': 184,
'te ': 185,
'e n': 186,
'ta ': 187,
'any': 188,
'yeo': 189,
'kga': 190,
'pol': 191,
'ang': 192,
'ri ': 193,
'it ': 194,
'uto': 195,
' mm': 196,
'iti': 197,
'are': 198,
'o f': 199,
'ha ': 200,
'gat': 201,
'oth': 202,
'ika': 203,
'o h': 204,
' it': 205,
'she': 206,
'ath': 207,
'ale': 208,
'iri': 209,
'pha': 210,
'ahl': 211,
' te': 212,
'ohl': 213,
'tha': 214,
' re': 215,
'bon': 216,
'lha': 217,
' ph': 218,
'din': 219,
' pe': 220,
'ro ': 221,
'mi ': 222,
'omi': 223,
'i t': 224,
' fa': 225,
'aro': 226,
'ase': 227,
'i l': 228,
'ne ': 229,
'lal': 230,
'ogo': 231,
'kol': 232,
' wo': 233,
't i': 234,
'omo': 235,
' be': 236,
'mog': 237,
'mok': 238,
'len': 239,
'ile': 240,
'lwe': 241,
'ma ': 242,
'uta': 243,
'nse': 244,
'amo': 245,
'a o': 246,
' fe': 247,
'okg': 248,
'ja ': 249,
'pan': 250,
'nag': 251,
'ekg': 252,
'i i': 253,
'apa': 254,
'get': 255,
'lon': 256,
'ra ': 257,
'aem': 258,
' yo': 259,
'atl': 260,
'tlo': 261,
'kel': 262,
'tel': 263,
' kh': 264,
' po': 265,
'e o': 266,
'a w': 267,
'ent': 268,
'i e': 269,
'bo ': 270,
'gan': 271,
'het': 272,
'mal': 273,
'a f': 274,
'otl': 275,
'uti': 276,
'oga': 277,
'sen': 278,
'kwa': 279,
'mae': 280,
'eka': 281,
'mme': 282,
'kge': 283,
'jal': 284,
'a r': 285,
'ing': 286,
'lek': 287,
'sep': 288,
'lag': 289,
'ofe': 290,
'wag': 291,
'g y': 292,
'rol': 293,
'epe': 294,
'eko': 295,
'bok': 296,
'o p': 297,
'adi': 298,
'log': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ie ': 0,
'nie': 1,
'em ': 2,
' ni': 3,
' po': 4,
' pr': 5,
'dzi': 6,
' na': 7,
'że ': 8,
'rze': 9,
'na ': 10,
'łem': 11,
'wie': 12,
' w ': 13,
' że': 14,
'go ': 15,
' by': 16,
'prz': 17,
'owa': 18,
'': 19,
' do': 20,
' si': 21,
'owi': 22,
' pa': 23,
' za': 24,
'ch ': 25,
'ego': 26,
'': 27,
'się': 28,
'ej ': 29,
'wał': 30,
'ym ': 31,
'ani': 32,
'ałe': 33,
'to ': 34,
' i ': 35,
' to': 36,
' te': 37,
'e p': 38,
' je': 39,
' z ': 40,
'czy': 41,
'był': 42,
'pan': 43,
'sta': 44,
'kie': 45,
' ja': 46,
'do ': 47,
' ch': 48,
' cz': 49,
' wi': 50,
'iał': 51,
'a p': 52,
'pow': 53,
' mi': 54,
'li ': 55,
'eni': 56,
'zie': 57,
' ta': 58,
' wa': 59,
'ło ': 60,
'': 61,
'dy ': 62,
'ak ': 63,
'e w': 64,
' a ': 65,
' od': 66,
' st': 67,
'nia': 68,
'rzy': 69,
'ied': 70,
' kt': 71,
'odz': 72,
'cie': 73,
'cze': 74,
'ia ': 75,
'iel': 76,
'któ': 77,
'o p': 78,
'tór': 79,
'ści': 80,
' sp': 81,
' wy': 82,
'jak': 83,
'tak': 84,
'zy ': 85,
' mo': 86,
'ałę': 87,
'pro': 88,
'ski': 89,
'tem': 90,
'łęs': 91,
' tr': 92,
'e m': 93,
'jes': 94,
'my ': 95,
' ro': 96,
'edz': 97,
'eli': 98,
'iej': 99,
' rz': 100,
'a n': 101,
'ale': 102,
'an ': 103,
'e s': 104,
'est': 105,
'le ': 106,
'o s': 107,
'i p': 108,
'ki ': 109,
' co': 110,
'ada': 111,
'czn': 112,
'e t': 113,
'e z': 114,
'ent': 115,
'ny ': 116,
'pre': 117,
'rzą': 118,
'y s': 119,
' ko': 120,
' o ': 121,
'ach': 122,
'am ': 123,
'e n': 124,
'o t': 125,
'oli': 126,
'pod': 127,
'zia': 128,
' go': 129,
' ka': 130,
'by ': 131,
'ieg': 132,
'ier': 133,
'noś': 134,
'roz': 135,
'spo': 136,
'ych': 137,
'ząd': 138,
' mn': 139,
'acz': 140,
'adz': 141,
'bie': 142,
'cho': 143,
'mni': 144,
'o n': 145,
'ost': 146,
'pra': 147,
'ze ': 148,
'ła ': 149,
' so': 150,
'a m': 151,
'cza': 152,
'iem': 153,
'': 154,
'obi': 155,
'': 156,
'yło': 157,
' mu': 158,
'': 159,
'a t': 160,
'acj': 161,
'ci ': 162,
'e b': 163,
'ich': 164,
'kan': 165,
'mi ': 166,
'mie': 167,
'ośc': 168,
'row': 169,
'zen': 170,
'zyd': 171,
' al': 172,
' re': 173,
'a w': 174,
'den': 175,
'edy': 176,
'': 177,
'ko ': 178,
'o w': 179,
'rac': 180,
'śmy': 181,
' ma': 182,
' ra': 183,
' sz': 184,
' ty': 185,
'e j': 186,
'isk': 187,
'ji ': 188,
'ka ': 189,
'm s': 190,
'no ': 191,
'o z': 192,
'rez': 193,
'wa ': 194,
'ów ': 195,
'łow': 196,
'ść ': 197,
' ob': 198,
'ech': 199,
'ecz': 200,
'ezy': 201,
'i w': 202,
'ja ': 203,
'kon': 204,
'mów': 205,
'ne ': 206,
'ni ': 207,
'now': 208,
'nym': 209,
'pol': 210,
'pot': 211,
'yde': 212,
' dl': 213,
' sy': 214,
'a s': 215,
'aki': 216,
'ali': 217,
'dla': 218,
'icz': 219,
'ku ': 220,
'ocz': 221,
'st ': 222,
'str': 223,
'szy': 224,
'trz': 225,
'wia': 226,
'y p': 227,
'za ': 228,
' wt': 229,
'chc': 230,
'esz': 231,
'iec': 232,
'im ': 233,
'la ': 234,
'o m': 235,
'sa ': 236,
'wać': 237,
'y n': 238,
'zac': 239,
'zec': 240,
' gd': 241,
'a z': 242,
'ard': 243,
'co ': 244,
'dar': 245,
'e r': 246,
'ien': 247,
'm n': 248,
'm w': 249,
'mia': 250,
'moż': 251,
'raw': 252,
'rdz': 253,
'tan': 254,
'ted': 255,
'teg': 256,
'wił': 257,
'wte': 258,
'y z': 259,
'zna': 260,
'zło': 261,
'a r': 262,
'awi': 263,
'bar': 264,
'cji': 265,
'czą': 266,
'dow': 267,
'': 268,
'gdy': 269,
'iek': 270,
'je ': 271,
'o d': 272,
'tał': 273,
'wal': 274,
'wsz': 275,
'zed': 276,
'ówi': 277,
'ęsa': 278,
' ba': 279,
' lu': 280,
' wo': 281,
'aln': 282,
'arn': 283,
'ba ': 284,
'dzo': 285,
'e c': 286,
'hod': 287,
'igi': 288,
'lig': 289,
'm p': 290,
'myś': 291,
'o c': 292,
'oni': 293,
'rel': 294,
'sku': 295,
'ste': 296,
'y w': 297,
'yst': 298,
'z w': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' د ': 0,
'اؤ ': 1,
' اؤ': 2,
'نو ': 3,
'ې د': 4,
'ره ': 5,
' په': 6,
'نه ': 7,
'چې ': 8,
' چې': 9,
'په ': 10,
'ه د': 11,
'ته ': 12,
'و ا': 13,
'ونو': 14,
'و د': 15,
' او': 16,
'انو': 17,
'ونه': 18,
'ه ک': 19,
' دا': 20,
'ه ا': 21,
'دې ': 22,
'ښې ': 23,
' کې': 24,
'ان ': 25,
'لو ': 26,
'هم ': 27,
'و م': 28,
'کښې': 29,
'ه م': 30,
'ى ا': 31,
' نو': 32,
' ته': 33,
' کښ': 34,
'رون': 35,
'کې ': 36,
'ده ': 37,
'له ': 38,
'به ': 39,
'رو ': 40,
' هم': 41,
'ه و': 42,
'وى ': 43,
'او ': 44,
'تون': 45,
'دا ': 46,
' کو': 47,
' کړ': 48,
'قام': 49,
' تر': 50,
'ران': 51,
'ه پ': 52,
'ې و': 53,
'ې پ': 54,
' به': 55,
' خو': 56,
'تو ': 57,
'د د': 58,
'د ا': 59,
'ه ت': 60,
'و پ': 61,
'يا ': 62,
' خپ': 63,
' دو': 64,
' را': 65,
' مش': 66,
' پر': 67,
'ارو': 68,
'رې ': 69,
'م د': 70,
'مشر': 71,
' شو': 72,
' ور': 73,
'ار ': 74,
'دى ': 75,
' اد': 76,
' دى': 77,
' مو': 78,
'د پ': 79,
'لي ': 80,
'و ک': 81,
' مق': 82,
' يو': 83,
'ؤ د': 84,
'خپل': 85,
'سره': 86,
'ه چ': 87,
'ور ': 88,
' تا': 89,
' دې': 90,
' رو': 91,
' سر': 92,
' مل': 93,
' کا': 94,
'ؤ ا': 95,
'اره': 96,
'برو': 97,
'مه ': 98,
'ه ب': 99,
'و ت': 100,
'پښت': 101,
' با': 102,
' دغ': 103,
' قب': 104,
' له': 105,
' وا': 106,
' پا': 107,
' پښ': 108,
'د م': 109,
'د ه': 110,
'لې ': 111,
'مات': 112,
'مو ': 113,
'ه ه': 114,
'وي ': 115,
'ې ب': 116,
'ې ک': 117,
' ده': 118,
' قا': 119,
'ال ': 120,
'اما': 121,
'د ن': 122,
'قبر': 123,
'ه ن': 124,
'پار': 125,
' اث': 126,
' بي': 127,
' لا': 128,
' لر': 129,
'اثا': 130,
'د خ': 131,
'دار': 132,
'ريخ': 133,
'شرا': 134,
'مقا': 135,
'نۍ ': 136,
'ه ر': 137,
'ه ل': 138,
'ولو': 139,
'يو ': 140,
'کوم': 141,
' دد': 142,
' لو': 143,
' مح': 144,
' مر': 145,
' وو': 146,
'اتو': 147,
'اري': 148,
'الو': 149,
'اند': 150,
'خان': 151,
'د ت': 152,
'سې ': 153,
'لى ': 154,
'نور': 155,
'و ل': 156,
'ي چ': 157,
'ړي ': 158,
'ښتو': 159,
'ې ل': 160,
' جو': 161,
' سي': 162,
'ام ': 163,
'بان': 164,
'تار': 165,
'تر ': 166,
'ثار': 167,
'خو ': 168,
'دو ': 169,
'ر ک': 170,
'ل د': 171,
'مون': 172,
'ندې': 173,
'و ن': 174,
'ول ': 175,
'وه ': 176,
'ى و': 177,
'ي د': 178,
'ې ا': 179,
'ې ت': 180,
'ې ي': 181,
' حک': 182,
' خب': 183,
' نه': 184,
' پو': 185,
'ا د': 186,
'تې ': 187,
'جوړ': 188,
'حکم': 189,
'حکو': 190,
'خبر': 191,
'دان': 192,
'ر د': 193,
'غه ': 194,
'قاف': 195,
'محک': 196,
'وال': 197,
'ومت': 198,
'ويل': 199,
'ى د': 200,
'ى م': 201,
'يره': 202,
'پر ': 203,
'کول': 204,
'ې ه': 205,
' تي': 206,
' خا': 207,
' وک': 208,
' يا': 209,
' ځا': 210,
'ؤ ق': 211,
'انۍ': 212,
'بى ': 213,
'غو ': 214,
'ه خ': 215,
'و ب': 216,
'ودا': 217,
'يدو': 218,
'ړې ': 219,
'کال': 220,
' بر': 221,
' قد': 222,
' مي': 223,
' وي': 224,
' کر': 225,
'ؤ م': 226,
'ات ': 227,
'ايي': 228,
'تى ': 229,
'تيا': 230,
'تير': 231,
'خوا': 232,
'دغو': 233,
'دم ': 234,
'ديم': 235,
'ر و': 236,
'قدي': 237,
'م خ': 238,
'مان': 239,
'مې ': 240,
'نيو': 241,
'نږ ': 242,
'ه ي': 243,
'و س': 244,
'و چ': 245,
'وان': 246,
'ورو': 247,
'ونږ': 248,
'پور': 249,
'ړه ': 250,
'ړو ': 251,
'ۍ د': 252,
'ې ن': 253,
' اه': 254,
' زي': 255,
' سو': 256,
' شي': 257,
' هر': 258,
' هغ': 259,
' ښا': 260,
'اتل': 261,
'اق ': 262,
'اني': 263,
'بري': 264,
'بې ': 265,
'ت ا': 266,
'د ب': 267,
'د س': 268,
'ر م': 269,
'رى ': 270,
'عرا': 271,
'لان': 272,
'مى ': 273,
'نى ': 274,
'و خ': 275,
'وئ ': 276,
'ورک': 277,
'ورې': 278,
'ون ': 279,
'وکړ': 280,
'ى چ': 281,
'يمه': 282,
'يې ': 283,
'ښتن': 284,
'که ': 285,
'کړي': 286,
'ې خ': 287,
'ے ش': 288,
' تح': 289,
' تو': 290,
' در': 291,
' دپ': 292,
' صو': 293,
' عر': 294,
' ول': 295,
' يؤ': 296,
' پۀ': 297,
' څو': 298,
'ا ا': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'de ': 0,
' de': 1,
'os ': 2,
'as ': 3,
'que': 4,
' co': 5,
'ão ': 6,
'o d': 7,
' qu': 8,
'ue ': 9,
' a ': 10,
'do ': 11,
'ent': 12,
' se': 13,
'a d': 14,
's d': 15,
'e a': 16,
'es ': 17,
' pr': 18,
'ra ': 19,
'da ': 20,
' es': 21,
' pa': 22,
'to ': 23,
' o ': 24,
'em ': 25,
'con': 26,
'o p': 27,
' do': 28,
'est': 29,
'nte': 30,
'ção': 31,
' da': 32,
' re': 33,
'ma ': 34,
'par': 35,
' te': 36,
'ara': 37,
'ida': 38,
' e ': 39,
'ade': 40,
'is ': 41,
' um': 42,
' po': 43,
'a a': 44,
'a p': 45,
'dad': 46,
'no ': 47,
'te ': 48,
' no': 49,
'açã': 50,
'pro': 51,
'al ': 52,
'com': 53,
'e d': 54,
's a': 55,
' as': 56,
'a c': 57,
'er ': 58,
'men': 59,
's e': 60,
'ais': 61,
'nto': 62,
'res': 63,
'a s': 64,
'ado': 65,
'ist': 66,
's p': 67,
'tem': 68,
'e c': 69,
'e s': 70,
'ia ': 71,
'o s': 72,
'o a': 73,
'o c': 74,
'e p': 75,
'sta': 76,
'ta ': 77,
'tra': 78,
'ura': 79,
' di': 80,
' pe': 81,
'ar ': 82,
'e e': 83,
'ser': 84,
'uma': 85,
'mos': 86,
'se ': 87,
' ca': 88,
'o e': 89,
' na': 90,
'a e': 91,
'des': 92,
'ont': 93,
'por': 94,
' in': 95,
' ma': 96,
'ect': 97,
'o q': 98,
'ria': 99,
's c': 100,
'ste': 101,
'ver': 102,
'cia': 103,
'dos': 104,
'ica': 105,
'str': 106,
' ao': 107,
' em': 108,
'das': 109,
'e t': 110,
'ito': 111,
'iza': 112,
'pre': 113,
'tos': 114,
'': 115,
'ada': 116,
'não': 117,
'ess': 118,
'eve': 119,
'or ': 120,
'ran': 121,
's n': 122,
's t': 123,
'tur': 124,
' ac': 125,
' fa': 126,
'a r': 127,
'ens': 128,
'eri': 129,
'na ': 130,
'sso': 131,
' si': 132,
' é ': 133,
'bra': 134,
'esp': 135,
'mo ': 136,
'nos': 137,
'ro ': 138,
'um ': 139,
'a n': 140,
'ao ': 141,
'ico': 142,
'liz': 143,
'min': 144,
'o n': 145,
'ons': 146,
'pri': 147,
'ten': 148,
'tic': 149,
'ões': 150,
' tr': 151,
'a m': 152,
'aga': 153,
'e n': 154,
'ili': 155,
'ime': 156,
'm a': 157,
'nci': 158,
'nha': 159,
'nta': 160,
'spe': 161,
'tiv': 162,
'am ': 163,
'ano': 164,
'arc': 165,
'ass': 166,
'cer': 167,
'e o': 168,
'ece': 169,
'emo': 170,
'ga ': 171,
'o m': 172,
'rag': 173,
'so ': 174,
'são': 175,
' au': 176,
' os': 177,
' sa': 178,
'ali': 179,
'ca ': 180,
'ema': 181,
'emp': 182,
'ici': 183,
'ido': 184,
'inh': 185,
'iss': 186,
'l d': 187,
'la ': 188,
'lic': 189,
'm c': 190,
'mai': 191,
'onc': 192,
'pec': 193,
'ram': 194,
's q': 195,
' ci': 196,
' en': 197,
' fo': 198,
'a o': 199,
'ame': 200,
'car': 201,
'co ': 202,
'der': 203,
'eir': 204,
'ho ': 205,
'io ': 206,
'om ': 207,
'ora': 208,
'r a': 209,
'sen': 210,
'ter': 211,
' br': 212,
' ex': 213,
'a u': 214,
'cul': 215,
'dev': 216,
'e u': 217,
'ha ': 218,
'mpr': 219,
'nce': 220,
'oca': 221,
'ove': 222,
'rio': 223,
's o': 224,
'sa ': 225,
'sem': 226,
'tes': 227,
'uni': 228,
'ven': 229,
'zaç': 230,
'çõe': 231,
' ad': 232,
' al': 233,
' an': 234,
' mi': 235,
' mo': 236,
' ve': 237,
' à ': 238,
'a i': 239,
'a q': 240,
'ala': 241,
'amo': 242,
'bli': 243,
'cen': 244,
'col': 245,
'cos': 246,
'cto': 247,
'e m': 248,
'e v': 249,
'ede': 250,
'gás': 251,
'ias': 252,
'ita': 253,
'iva': 254,
'ndo': 255,
'o t': 256,
'ore': 257,
'r d': 258,
'ral': 259,
'rea': 260,
's f': 261,
'sid': 262,
'tro': 263,
'vel': 264,
'vid': 265,
'ás ': 266,
' ap': 267,
' ar': 268,
' ce': 269,
' ou': 270,
'': 271,
' so': 272,
' vi': 273,
'a f': 274,
'act': 275,
'arr': 276,
'bil': 277,
'cam': 278,
'e f': 279,
'e i': 280,
'el ': 281,
'for': 282,
'lem': 283,
'lid': 284,
'lo ': 285,
'm d': 286,
'mar': 287,
'nde': 288,
'o o': 289,
'omo': 290,
'ort': 291,
'per': 292,
'púb': 293,
'r u': 294,
'rei': 295,
'rem': 296,
'ros': 297,
'rre': 298,
'ssi': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'eq ': 0,
'ent': 1,
' en': 2,
'q e': 3,
'q i': 4,
'g e': 5,
'g i': 6,
'ng ': 7,
' id': 8,
'ida': 9,
'nte': 10,
'te ': 11,
' es': 12,
' in': 13,
'ade': 14,
'ag ': 15,
'dad': 16,
'de ': 17,
'ia ': 18,
'ing': 19,
' br': 20,
' sa': 21,
'est': 22,
'inq': 23,
'lin': 24,
'mo ': 25,
'nq ': 26,
'o a': 27,
'seq': 28,
' co': 29,
' li': 30,
' ni': 31,
' o ': 32,
'a a': 33,
'a c': 34,
'ado': 35,
'asi': 36,
'bra': 37,
'dor': 38,
'iq ': 39,
'nta': 40,
'o b': 41,
'or ': 42,
'q n': 43,
'ras': 44,
'sil': 45,
'str': 46,
'ta ': 47,
'tre': 48,
'us ': 49,
' a ': 50,
' ag': 51,
' an': 52,
' ca': 53,
' e ': 54,
' eq': 55,
' g ': 56,
' i ': 57,
' ir': 58,
' nc': 59,
' q ': 60,
' se': 61,
' ve': 62,
'ant': 63,
'ar ': 64,
'cia': 65,
'con': 66,
'e a': 67,
'eir': 68,
'el ': 69,
'ig ': 70,
'ili': 71,
'imo': 72,
'io ': 73,
'ir ': 74,
'nci': 75,
'o t': 76,
'ro ': 77,
'vel': 78,
' ap': 79,
' bo': 80,
' de': 81,
' fr': 82,
' tr': 83,
'a b': 84,
'a e': 85,
'a g': 86,
'a v': 87,
'apo': 88,
'as ': 89,
'bus': 90,
'ca ': 91,
'cet': 92,
'cin': 93,
'des': 94,
'e b': 95,
'e s': 96,
'eta': 97,
'fre': 98,
'i a': 99,
'ibu': 100,
'il ': 101,
'iro': 102,
'la ': 103,
'liq': 104,
'nib': 105,
'nti': 106,
'o c': 107,
'o q': 108,
'os ': 109,
'ra ': 110,
're ': 111,
'req': 112,
's a': 113,
's s': 114,
'san': 115,
'sim': 116,
'tar': 117,
'to ': 118,
'ult': 119,
' ba': 120,
' ci': 121,
' el': 122,
' em': 123,
' fi': 124,
' gr': 125,
' gu': 126,
' ia': 127,
' mu': 128,
' pe': 129,
' po': 130,
' re': 131,
' ri': 132,
' si': 133,
' su': 134,
' te': 135,
' vi': 136,
'a o': 137,
'a s': 138,
'abe': 139,
'alc': 140,
'and': 141,
'ara': 142,
'arg': 143,
'ari': 144,
'ben': 145,
'boc': 146,
'car': 147,
'co ': 148,
'do ': 149,
'e f': 150,
'e g': 151,
'e l': 152,
'e o': 153,
'em ': 154,
'emo': 155,
'en ': 156,
'es ': 157,
'esp': 158,
'exe': 159,
'fic': 160,
'g n': 161,
'g s': 162,
'gra': 163,
'gua': 164,
'ias': 165,
'ica': 166,
'idi': 167,
'ila': 168,
'ile': 169,
'inh': 170,
'l b': 171,
'l e': 172,
'lei': 173,
'loq': 174,
'mos': 175,
'mul': 176,
'nad': 177,
'nio': 178,
'nt ': 179,
'nto': 180,
'o g': 181,
'o r': 182,
'oce': 183,
'ont': 184,
'oq ': 185,
'pos': 186,
'q v': 187,
'r b': 188,
'r e': 189,
'r i': 190,
'r s': 191,
'rad': 192,
'ran': 193,
'rem': 194,
'rg ': 195,
'ria': 196,
'rio': 197,
's e': 198,
's p': 199,
'sta': 200,
'sti': 201,
'tig': 202,
'til': 203,
'tra': 204,
'ua ': 205,
'ue ': 206,
'va ': 207,
'xeq': 208,
" ' ": 209,
' ab': 210,
' ad': 211,
' ae': 212,
' al': 213,
' am': 214,
' aq': 215,
' ar': 216,
' b ': 217,
' bi': 218,
' bl': 219,
' bu': 220,
' cc': 221,
' ch': 222,
' di': 223,
' et': 224,
' ex': 225,
' fa': 226,
' ic': 227,
' il': 228,
' im': 229,
' is': 230,
' it': 231,
' ll': 232,
' m ': 233,
' me': 234,
' na': 235,
' ne': 236,
' ng': 237,
' nu': 238,
' ob': 239,
' ou': 240,
' pi': 241,
' qu': 242,
' ss': 243,
' st': 244,
' ti': 245,
' ub': 246,
' un': 247,
' v ': 248,
' x ': 249,
"' c": 250,
'a d': 251,
'a f': 252,
'a i': 253,
'a n': 254,
'a p': 255,
'a t': 256,
'abr': 257,
'aci': 258,
'ad ': 259,
'ada': 260,
'adr': 261,
'aer': 262,
'afe': 263,
'alv': 264,
'amb': 265,
'amp': 266,
'an ': 267,
'ana': 268,
'ang': 269,
'anh': 270,
'ani': 271,
'ano': 272,
'anq': 273,
'apa': 274,
'aq ': 275,
'ati': 276,
'ato': 277,
'azi': 278,
'b n': 279,
'ban': 280,
'bar': 281,
'big': 282,
'bil': 283,
'biq': 284,
'bli': 285,
'blu': 286,
'bon': 287,
'bre': 288,
'bri': 289,
'bse': 290,
'buc': 291,
'c f': 292,
'c i': 293,
'cad': 294,
'caf': 295,
'cag': 296,
'cal': 297,
'can': 298,
'cc ': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'equ': 0,
'ent': 1,
'que': 2,
'qui': 3,
'gui': 4,
'uen': 5,
' li': 6,
'ngu': 7,
'qu ': 8,
'uid': 9,
' co': 10,
' ve': 11,
'de ': 12,
'gue': 13,
'ida': 14,
'nte': 15,
'o a': 16,
'a a': 17,
'ade': 18,
'dad': 19,
'el ': 20,
'ing': 21,
'mo ': 22,
'nqu': 23,
'nta': 24,
'seq': 25,
'u n': 26,
'vel': 27,
' de': 28,
' o ': 29,
' se': 30,
'a c': 31,
'ado': 32,
'ar ': 33,
'est': 34,
'ia ': 35,
'inq': 36,
'io ': 37,
'iqu': 38,
'lin': 39,
'o c': 40,
'o p': 41,
'ort': 42,
'por': 43,
'ta ': 44,
'te ': 45,
' ag': 46,
' eq': 47,
' nc': 48,
' pi': 49,
' po': 50,
' sa': 51,
'a d': 52,
'a e': 53,
'ant': 54,
'as ': 55,
'ca ': 56,
'cia': 57,
'des': 58,
'do ': 59,
'gu ': 60,
'imo': 61,
'l p': 62,
'nci': 63,
'ro ': 64,
'rtu': 65,
'str': 66,
'tug': 67,
'u s': 68,
'ues': 69,
'ui ': 70,
' a ': 71,
' an': 72,
' ap': 73,
' ba': 74,
' bi': 75,
' ca': 76,
' fr': 77,
' gu': 78,
' in': 79,
' pe': 80,
' qu': 81,
'agu': 82,
'apa': 83,
'con': 84,
'dor': 85,
'e f': 86,
'e g': 87,
'eir': 88,
'fre': 89,
'ho ': 90,
'i a': 91,
'ica': 92,
'igu': 93,
'iro': 94,
'liq': 95,
'nti': 96,
'o b': 97,
'o l': 98,
'o s': 99,
'or ': 100,
'r o': 101,
'ra ': 102,
'req': 103,
's c': 104,
'sim': 105,
'tar': 106,
'to ': 107,
'ue ': 108,
'uin': 109,
'ult': 110,
' ci': 111,
' en': 112,
' ho': 113,
' mu': 114,
' ni': 115,
' re': 116,
' s ': 117,
' si': 118,
' su': 119,
'a s': 120,
'a v': 121,
'abe': 122,
'ag ': 123,
'al ': 124,
'and': 125,
'anh': 126,
'apo': 127,
'ata': 128,
'ban': 129,
'ben': 130,
'bic': 131,
'boi': 132,
'cap': 133,
'car': 134,
'cin': 135,
'co ': 136,
'com': 137,
'cto': 138,
'dei': 139,
'e b': 140,
'e o': 141,
'e s': 142,
'eca': 143,
'en ': 144,
'er ': 145,
'es ': 146,
'exe': 147,
'fic': 148,
'for': 149,
'gal': 150,
'gra': 151,
'ias': 152,
'ich': 153,
'ico': 154,
'idi': 155,
'ili': 156,
'ir ': 157,
'ira': 158,
'isb': 159,
'la ': 160,
'lis': 161,
'mbo': 162,
'mul': 163,
'na ': 164,
'nho': 165,
'nio': 166,
'nt ': 167,
'o q': 168,
'o r': 169,
'o t': 170,
'oc ': 171,
'oio': 172,
'omb': 173,
'oo ': 174,
'os ': 175,
'par': 176,
'pe ': 177,
'r b': 178,
'r e': 179,
'r s': 180,
'ran': 181,
're ': 182,
'rec': 183,
's a': 184,
's s': 185,
'san': 186,
'sbo': 187,
'so ': 188,
'sta': 189,
'tan': 190,
'tra': 191,
'tre': 192,
'u v': 193,
'uga': 194,
'ugu': 195,
'xeq': 196,
' ab': 197,
' ad': 198,
' al': 199,
' am': 200,
' aq': 201,
' ar': 202,
' au': 203,
' b ': 204,
' bo': 205,
' c ': 206,
' ch': 207,
' ct': 208,
' cu': 209,
' el': 210,
' es': 211,
' ex': 212,
' fa': 213,
' fi': 214,
' ga': 215,
' gr': 216,
' id': 217,
' ir': 218,
' ne': 219,
' ng': 220,
' nu': 221,
' ob': 222,
' oo': 223,
' pa': 224,
' ps': 225,
' pt': 226,
' r ': 227,
' ra': 228,
' ri': 229,
' ss': 230,
' st': 231,
' ta': 232,
' te': 233,
' tr': 234,
' ub': 235,
' un': 236,
' vi': 237,
' vo': 238,
'a f': 239,
'a i': 240,
'a l': 241,
'a m': 242,
'a o': 243,
'a r': 244,
'ach': 245,
'aci': 246,
'act': 247,
'ad ': 248,
'afa': 249,
'age': 250,
'agr': 251,
'alf': 252,
'alh': 253,
'am ': 254,
'amb': 255,
'ami': 256,
'ana': 257,
'ang': 258,
'anq': 259,
'aqu': 260,
'ara': 261,
'arb': 262,
'arc': 263,
'arg': 264,
'ari': 265,
'arr': 266,
'asa': 267,
'ati': 268,
'aut': 269,
'azi': 270,
'b n': 271,
'bar': 272,
'bat': 273,
'ber': 274,
'big': 275,
'bil': 276,
'biq': 277,
'bli': 278,
'boa': 279,
'boe': 280,
'bor': 281,
'bse': 282,
'c i': 283,
'c l': 284,
'c p': 285,
'cad': 286,
'cam': 287,
'cas': 288,
'ch ': 289,
'cha': 290,
'che': 291,
'chi': 292,
'cio': 293,
'coc': 294,
'coi': 295,
'cou': 296,
'ctr': 297,
'cue': 298,
'cul': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' de': 0,
' în': 1,
'de ': 2,
' a ': 3,
'ul ': 4,
' co': 5,
'în ': 6,
're ': 7,
'e d': 8,
'ea ': 9,
' di': 10,
' pr': 11,
'le ': 12,
'şi ': 13,
'are': 14,
'at ': 15,
'con': 16,
'ui ': 17,
' şi': 18,
'i d': 19,
'ii ': 20,
' cu': 21,
'e a': 22,
'lui': 23,
'ern': 24,
'te ': 25,
'cu ': 26,
' la': 27,
'a c': 28,
'': 29,
'din': 30,
'e c': 31,
'or ': 32,
'ulu': 33,
'ne ': 34,
'ter': 35,
'la ': 36,
'': 37,
'tat': 38,
'tre': 39,
' ac': 40,
'': 41,
'est': 42,
'st ': 43,
'': 44,
' ca': 45,
' ma': 46,
' pe': 47,
'cur': 48,
'ist': 49,
'mân': 50,
'a d': 51,
'i c': 52,
'nat': 53,
' ce': 54,
'i a': 55,
'ia ': 56,
'in ': 57,
'scu': 58,
' mi': 59,
'ato': 60,
'aţi': 61,
'ie ': 62,
' re': 63,
' se': 64,
'a a': 65,
'int': 66,
'ntr': 67,
'tru': 68,
'uri': 69,
'ă a': 70,
' fo': 71,
' pa': 72,
'ate': 73,
'ini': 74,
'tul': 75,
'ent': 76,
'min': 77,
'pre': 78,
'pro': 79,
'a p': 80,
'e p': 81,
'e s': 82,
'ei ': 83,
'': 84,
'par': 85,
'rna': 86,
'rul': 87,
'tor': 88,
' in': 89,
' ro': 90,
' tr': 91,
' un': 92,
'al ': 93,
'ale': 94,
'art': 95,
'ce ': 96,
'e e': 97,
'e î': 98,
'fos': 99,
'ita': 100,
'nte': 101,
'omâ': 102,
'ost': 103,
'rom': 104,
'ru ': 105,
'str': 106,
'ver': 107,
' ex': 108,
' na': 109,
'a f': 110,
'lor': 111,
'nis': 112,
'rea': 113,
'rit': 114,
' al': 115,
' eu': 116,
' no': 117,
'ace': 118,
'cer': 119,
'ile': 120,
'nal': 121,
'pri': 122,
'ri ': 123,
'sta': 124,
'ste': 125,
'ţie': 126,
' au': 127,
' da': 128,
' ju': 129,
' po': 130,
'ar ': 131,
'au ': 132,
'ele': 133,
'ere': 134,
'eri': 135,
'ina': 136,
'n a': 137,
'n c': 138,
'res': 139,
'se ': 140,
't a': 141,
'tea': 142,
'': 143,
' do': 144,
' fi': 145,
'a s': 146,
'ată': 147,
'com': 148,
'e ş': 149,
'eur': 150,
'guv': 151,
'i s': 152,
'ice': 153,
'ili': 154,
'na ': 155,
'rec': 156,
'rep': 157,
'ril': 158,
'rne': 159,
'rti': 160,
'uro': 161,
'uve': 162,
'ă p': 163,
' ar': 164,
' o ': 165,
' su': 166,
' vi': 167,
'dec': 168,
'dre': 169,
'oar': 170,
'ons': 171,
'pe ': 172,
'rii': 173,
' ad': 174,
' ge': 175,
'a m': 176,
'a r': 177,
'ain': 178,
'ali': 179,
'car': 180,
'cat': 181,
'ecu': 182,
'ene': 183,
'ept': 184,
'ext': 185,
'ilo': 186,
'iu ': 187,
'n p': 188,
'ori': 189,
'sec': 190,
'u p': 191,
'une': 192,
'ă c': 193,
'şti': 194,
'ţia': 195,
' ch': 196,
' gu': 197,
'ai ': 198,
'ani': 199,
'cea': 200,
'e f': 201,
'isc': 202,
'l a': 203,
'lic': 204,
'liu': 205,
'mar': 206,
'nic': 207,
'nt ': 208,
'nul': 209,
'ris': 210,
't c': 211,
't p': 212,
'tic': 213,
'tid': 214,
'u a': 215,
'ucr': 216,
' as': 217,
' dr': 218,
' fa': 219,
' nu': 220,
' pu': 221,
' to': 222,
'cra': 223,
'dis': 224,
'enţ': 225,
'esc': 226,
'gen': 227,
'it ': 228,
'ivi': 229,
'l d': 230,
'n d': 231,
'nd ': 232,
'nu ': 233,
'ond': 234,
'pen': 235,
'ral': 236,
'riv': 237,
'rte': 238,
'sti': 239,
't d': 240,
'ta ': 241,
'to ': 242,
'uni': 243,
'xte': 244,
'ând': 245,
'îns': 246,
'ă s': 247,
' bl': 248,
' st': 249,
' uc': 250,
'a b': 251,
'a i': 252,
'a l': 253,
'air': 254,
'ast': 255,
'bla': 256,
'bri': 257,
'che': 258,
'duc': 259,
'dul': 260,
'e m': 261,
'eas': 262,
'edi': 263,
'esp': 264,
'i l': 265,
'i p': 266,
'ica': 267,
'ică': 268,
'ir ': 269,
'iun': 270,
'jud': 271,
'lai': 272,
'lul': 273,
'mai': 274,
'men': 275,
'ni ': 276,
'pus': 277,
'put': 278,
'ra ': 279,
'rai': 280,
'rop': 281,
'sil': 282,
'ti ': 283,
'tra': 284,
'u s': 285,
'ua ': 286,
'ude': 287,
'urs': 288,
'ân ': 289,
'înt': 290,
'ţă ': 291,
' lu': 292,
' mo': 293,
' s ': 294,
' sa': 295,
' sc': 296,
'a u': 297,
'an ': 298,
'atu': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' на': 0,
' пр': 1,
'то ': 2,
' не': 3,
'ли ': 4,
' по': 5,
'но ': 6,
' в ': 7,
'на ': 8,
'ть ': 9,
'не ': 10,
' и ': 11,
' ко': 12,
'ом ': 13,
'про': 14,
' то': 15,
'их ': 16,
' ка': 17,
'ать': 18,
'ото': 19,
' за': 20,
'ие ': 21,
'ова': 22,
'тел': 23,
'тор': 24,
' де': 25,
'ой ': 26,
'сти': 27,
' от': 28,
'ах ': 29,
'ми ': 30,
'стр': 31,
' бе': 32,
' во': 33,
' ра': 34,
'ая ': 35,
'ват': 36,
'ей ': 37,
'ет ': 38,
'же ': 39,
'иче': 40,
'ия ': 41,
'ов ': 42,
'сто': 43,
' об': 44,
'вер': 45,
'го ': 46,
'и в': 47,
'и п': 48,
'и с': 49,
'ии ': 50,
'ист': 51,
'о в': 52,
'ост': 53,
'тра': 54,
' те': 55,
'ели': 56,
'ере': 57,
'кот': 58,
'льн': 59,
'ник': 60,
'нти': 61,
'о с': 62,
'рор': 63,
'ств': 64,
'чес': 65,
' бо': 66,
' ве': 67,
' да': 68,
' ин': 69,
' но': 70,
' с ': 71,
' со': 72,
' сп': 73,
' ст': 74,
' чт': 75,
'али': 76,
'ами': 77,
'вид': 78,
'дет': 79,
'е н': 80,
'ель': 81,
'еск': 82,
'ест': 83,
'зал': 84,
'и н': 85,
'ива': 86,
'кон': 87,
'ого': 88,
'одн': 89,
'ожн': 90,
'оль': 91,
'ори': 92,
'ров': 93,
'ско': 94,
'ся ': 95,
'тер': 96,
'что': 97,
' мо': 98,
' са': 99,
' эт': 100,
'ант': 101,
'все': 102,
'ерр': 103,
'есл': 104,
'иде': 105,
'ина': 106,
'ино': 107,
'иро': 108,
'ите': 109,
'ка ': 110,
'ко ': 111,
'кол': 112,
'ком': 113,
'ла ': 114,
'ния': 115,
'о т': 116,
'оло': 117,
'ран': 118,
'ред': 119,
'сь ': 120,
'тив': 121,
'тич': 122,
'ых ': 123,
' ви': 124,
' вс': 125,
' го': 126,
' ма': 127,
' сл': 128,
'ако': 129,
'ани': 130,
'аст': 131,
'без': 132,
'дел': 133,
'е д': 134,
'е п': 135,
'ем ': 136,
'жно': 137,
'и д': 138,
'ика': 139,
'каз': 140,
'как': 141,
'ки ': 142,
'нос': 143,
'о н': 144,
'опа': 145,
'при': 146,
'рро': 147,
'ски': 148,
'ти ': 149,
'тов': 150,
'ые ': 151,
' вы': 152,
' до': 153,
' ме': 154,
' ни': 155,
' од': 156,
' ро': 157,
' св': 158,
' чи': 159,
'а н': 160,
'ает': 161,
'аза': 162,
'ате': 163,
'бес': 164,
'в п': 165,
'ва ': 166,
'е в': 167,
'е м': 168,
'е с': 169,
'ез ': 170,
'ени': 171,
'за ': 172,
'зна': 173,
'ини': 174,
'кам': 175,
'ках': 176,
'кто': 177,
'лов': 178,
'мер': 179,
'мож': 180,
'нал': 181,
'ниц': 182,
'ны ': 183,
'ным': 184,
'ора': 185,
'оро': 186,
'от ': 187,
'пор': 188,
'рав': 189,
'рес': 190,
'рис': 191,
'рос': 192,
'ска': 193,
'т н': 194,
'том': 195,
'чит': 196,
'шко': 197,
' бы': 198,
' о ': 199,
' тр': 200,
' уж': 201,
' чу': 202,
' шк': 203,
'а б': 204,
'а в': 205,
'а р': 206,
'аби': 207,
'ала': 208,
'ало': 209,
'аль': 210,
'анн': 211,
'ати': 212,
'бин': 213,
'вес': 214,
'вно': 215,
'во ': 216,
'вши': 217,
'дал': 218,
'дат': 219,
'дно': 220,
'е з': 221,
'его': 222,
'еле': 223,
'енн': 224,
'ент': 225,
'ете': 226,
'и о': 227,
'или': 228,
'ись': 229,
'ит ': 230,
'ици': 231,
'ков': 232,
'лен': 233,
'льк': 234,
'мен': 235,
'мы ': 236,
'нет': 237,
'ни ': 238,
'нны': 239,
'ног': 240,
'ной': 241,
'ном': 242,
'о п': 243,
'обн': 244,
'ове': 245,
'овн': 246,
'оры': 247,
'пер': 248,
'по ': 249,
'пра': 250,
'пре': 251,
'раз': 252,
'роп': 253,
'ры ': 254,
'се ': 255,
'сли': 256,
'сов': 257,
'тре': 258,
'тся': 259,
'уро': 260,
'цел': 261,
'чно': 262,
'ь в': 263,
'ько': 264,
'ьно': 265,
'это': 266,
'ют ': 267,
'я н': 268,
' ан': 269,
' ес': 270,
' же': 271,
' из': 272,
' кт': 273,
' ми': 274,
' мы': 275,
' пе': 276,
' се': 277,
' це': 278,
'а м': 279,
'а п': 280,
'а т': 281,
'авш': 282,
'аже': 283,
'ак ': 284,
'ал ': 285,
'але': 286,
'ане': 287,
'ачи': 288,
'ают': 289,
'бна': 290,
'бол': 291,
'бы ': 292,
'в и': 293,
'в с': 294,
'ван': 295,
'гра': 296,
'даж': 297,
'ден': 298,
'е к': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' pr': 0,
' po': 1,
' ne': 2,
' a ': 3,
'ch ': 4,
' na': 5,
' je': 6,
'': 7,
'je ': 8,
' do': 9,
'na ': 10,
'ova': 11,
' v ': 12,
'to ': 13,
'ho ': 14,
'ou ': 15,
' to': 16,
'ick': 17,
'ter': 18,
'že ': 19,
' st': 20,
' za': 21,
'ost': 22,
'ých': 23,
' se': 24,
'pro': 25,
' te': 26,
'e s': 27,
' že': 28,
'a p': 29,
' kt': 30,
'pre': 31,
' by': 32,
' o ': 33,
'se ': 34,
'kon': 35,
'': 36,
'a s': 37,
'': 38,
'': 39,
'sti': 40,
'ako': 41,
'ist': 42,
'mu ': 43,
'ame': 44,
'ent': 45,
'ky ': 46,
'la ': 47,
'pod': 48,
' ve': 49,
' ob': 50,
'om ': 51,
'vat': 52,
' ko': 53,
'sta': 54,
'em ': 55,
'le ': 56,
'a v': 57,
'by ': 58,
'e p': 59,
'ko ': 60,
'eri': 61,
'kte': 62,
'sa ': 63,
'ého': 64,
'e v': 65,
'mer': 66,
'tel': 67,
' ak': 68,
' sv': 69,
'': 70,
'hla': 71,
'las': 72,
'lo ': 73,
' ta': 74,
'a n': 75,
'ej ': 76,
'li ': 77,
'ne ': 78,
' sa': 79,
'ak ': 80,
'ani': 81,
'ate': 82,
'ia ': 83,
'sou': 84,
' so': 85,
'ení': 86,
'ie ': 87,
' re': 88,
'ce ': 89,
'e n': 90,
'ori': 91,
'tic': 92,
' vy': 93,
'a t': 94,
'': 95,
'nos': 96,
'o s': 97,
'str': 98,
'ti ': 99,
'uje': 100,
' sp': 101,
'lov': 102,
'o p': 103,
'oli': 104,
'ová': 105,
'': 106,
'ale': 107,
'den': 108,
'e o': 109,
'ku ': 110,
'val': 111,
' am': 112,
' ro': 113,
' si': 114,
'nie': 115,
'pol': 116,
'tra': 117,
' al': 118,
'ali': 119,
'o v': 120,
'tor': 121,
' mo': 122,
' ni': 123,
'ci ': 124,
'o n': 125,
'ím ': 126,
' le': 127,
' pa': 128,
' s ': 129,
'al ': 130,
'ati': 131,
'ero': 132,
'ove': 133,
'rov': 134,
'ván': 135,
'ích': 136,
' ja': 137,
' z ': 138,
'cké': 139,
'e z': 140,
' od': 141,
'byl': 142,
'de ': 143,
'dob': 144,
'nep': 145,
'pra': 146,
'ric': 147,
'spo': 148,
'tak': 149,
'': 150,
'a a': 151,
'e t': 152,
'lit': 153,
'me ': 154,
'nej': 155,
'no ': 156,
'nýc': 157,
'o t': 158,
'a j': 159,
'e a': 160,
'en ': 161,
'est': 162,
'': 163,
'mi ': 164,
'slo': 165,
'stá': 166,
'u v': 167,
'for': 168,
'nou': 169,
'pos': 170,
'pře': 171,
'si ': 172,
'tom': 173,
' vl': 174,
'a z': 175,
'ly ': 176,
'orm': 177,
'ris': 178,
'za ': 179,
'zák': 180,
' k ': 181,
'at ': 182,
'cký': 183,
'dno': 184,
'dos': 185,
'dy ': 186,
'jak': 187,
'kov': 188,
'ny ': 189,
'res': 190,
'ror': 191,
'sto': 192,
'van': 193,
' op': 194,
'da ': 195,
'do ': 196,
'e j': 197,
'hod': 198,
'len': 199,
'': 200,
'o z': 201,
'poz': 202,
'pri': 203,
'ran': 204,
'u s': 205,
' ab': 206,
'aj ': 207,
'ast': 208,
'it ': 209,
'kto': 210,
'o o': 211,
'oby': 212,
'odo': 213,
'u p': 214,
'va ': 215,
'ání': 216,
'í p': 217,
'ým ': 218,
' in': 219,
' mi': 220,
'': 221,
'dov': 222,
'ka ': 223,
'nsk': 224,
'áln': 225,
' an': 226,
' bu': 227,
' sl': 228,
' tr': 229,
'e m': 230,
'ech': 231,
'edn': 232,
'i n': 233,
'kýc': 234,
'níc': 235,
'ov ': 236,
'pří': 237,
'í a': 238,
' aj': 239,
' bo': 240,
'a d': 241,
'ide': 242,
'o a': 243,
'o d': 244,
'och': 245,
'pov': 246,
'svo': 247,
'é s': 248,
' kd': 249,
' vo': 250,
'': 251,
'bud': 252,
'ich': 253,
'il ': 254,
'ili': 255,
'ni ': 256,
'ním': 257,
'od ': 258,
'osl': 259,
'ouh': 260,
'rav': 261,
'roz': 262,
'st ': 263,
'stv': 264,
'tu ': 265,
'u a': 266,
'vál': 267,
'y s': 268,
'í s': 269,
'í v': 270,
' hl': 271,
' li': 272,
' me': 273,
'a m': 274,
'e b': 275,
'h s': 276,
'i p': 277,
'i s': 278,
'iti': 279,
'lád': 280,
'nem': 281,
'nov': 282,
'opo': 283,
'uhl': 284,
'eno': 285,
'ens': 286,
'men': 287,
'nes': 288,
'obo': 289,
'te ': 290,
'ved': 291,
'vlá': 292,
'y n': 293,
' ma': 294,
' mu': 295,
'': 296,
'bez': 297,
'byv': 298,
'cho': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'je ': 0,
' pr': 1,
' po': 2,
' je': 3,
' v ': 4,
' za': 5,
' na': 6,
'pre': 7,
'da ': 8,
' da': 9,
'ki ': 10,
'ti ': 11,
'ja ': 12,
'ne ': 13,
' in': 14,
'in ': 15,
'li ': 16,
'no ': 17,
'na ': 18,
'ni ': 19,
' bi': 20,
'jo ': 21,
' ne': 22,
'nje': 23,
'e p': 24,
'i p': 25,
'pri': 26,
'o p': 27,
'red': 28,
' do': 29,
'anj': 30,
'em ': 31,
'ih ': 32,
' bo': 33,
' ki': 34,
' iz': 35,
' se': 36,
' so': 37,
'al ': 38,
' de': 39,
'e v': 40,
'i s': 41,
'ko ': 42,
'bil': 43,
'ira': 44,
'ove': 45,
' br': 46,
' ob': 47,
'e b': 48,
'i n': 49,
'ova': 50,
'se ': 51,
'za ': 52,
'la ': 53,
' ja': 54,
'ati': 55,
'so ': 56,
'ter': 57,
' ta': 58,
'a s': 59,
'del': 60,
'e d': 61,
' dr': 62,
' od': 63,
'a n': 64,
'ar ': 65,
'jal': 66,
'ji ': 67,
'rit': 68,
' ka': 69,
' ko': 70,
' pa': 71,
'a b': 72,
'ani': 73,
'e s': 74,
'er ': 75,
'ili': 76,
'lov': 77,
'o v': 78,
'tov': 79,
' ir': 80,
' ni': 81,
' vo': 82,
'a j': 83,
'bi ': 84,
'bri': 85,
'iti': 86,
'let': 87,
'o n': 88,
'tan': 89,
'še ': 90,
' le': 91,
' te': 92,
'eni': 93,
'eri': 94,
'ita': 95,
'kat': 96,
'por': 97,
'pro': 98,
'ali': 99,
'ke ': 100,
'oli': 101,
'ov ': 102,
'pra': 103,
'ri ': 104,
'uar': 105,
've ': 106,
' to': 107,
'a i': 108,
'a v': 109,
'ako': 110,
'arj': 111,
'ate': 112,
'di ': 113,
'do ': 114,
'ga ': 115,
'le ': 116,
'lo ': 117,
'mer': 118,
'o s': 119,
'oda': 120,
'oro': 121,
'pod': 122,
' ma': 123,
' mo': 124,
' si': 125,
'a p': 126,
'bod': 127,
'e n': 128,
'ega': 129,
'ju ': 130,
'ka ': 131,
'lje': 132,
'rav': 133,
'ta ': 134,
'a o': 135,
'e t': 136,
'e z': 137,
'i d': 138,
'i v': 139,
'ila': 140,
'lit': 141,
'nih': 142,
'odo': 143,
'sti': 144,
'to ': 145,
'var': 146,
'ved': 147,
'vol': 148,
' la': 149,
' no': 150,
' vs': 151,
'a d': 152,
'agu': 153,
'aja': 154,
'dej': 155,
'dnj': 156,
'eda': 157,
'gov': 158,
'gua': 159,
'jag': 160,
'jem': 161,
'kon': 162,
'ku ': 163,
'nij': 164,
'omo': 165,
'oči': 166,
'pov': 167,
'rak': 168,
'rja': 169,
'sta': 170,
'tev': 171,
'a t': 172,
'aj ': 173,
'ed ': 174,
'eja': 175,
'ent': 176,
'ev ': 177,
'i i': 178,
'i o': 179,
'ijo': 180,
'ist': 181,
'ost': 182,
'ske': 183,
'str': 184,
' ra': 185,
' s ': 186,
' tr': 187,
' še': 188,
'arn': 189,
'bo ': 190,
'drž': 191,
'i j': 192,
'ilo': 193,
'izv': 194,
'jen': 195,
'lja': 196,
'nsk': 197,
'o d': 198,
'o i': 199,
'om ': 200,
'ora': 201,
'ovo': 202,
'raz': 203,
'rža': 204,
'tak': 205,
'va ': 206,
'ven': 207,
'žav': 208,
' me': 209,
' če': 210,
'ame': 211,
'avi': 212,
'e i': 213,
'e o': 214,
'eka': 215,
'gre': 216,
'i t': 217,
'ija': 218,
'il ': 219,
'ite': 220,
'kra': 221,
'lju': 222,
'mor': 223,
'nik': 224,
'o t': 225,
'obi': 226,
'odn': 227,
'ran': 228,
're ': 229,
'sto': 230,
'stv': 231,
'udi': 232,
'v i': 233,
'van': 234,
' am': 235,
' sp': 236,
' st': 237,
' tu': 238,
' ve': 239,
' že': 240,
'ajo': 241,
'ale': 242,
'apo': 243,
'dal': 244,
'dru': 245,
'e j': 246,
'edn': 247,
'ejo': 248,
'elo': 249,
'est': 250,
'etj': 251,
'eva': 252,
'iji': 253,
'ik ': 254,
'im ': 255,
'itv': 256,
'mob': 257,
'nap': 258,
'nek': 259,
'pol': 260,
'pos': 261,
'rat': 262,
'ski': 263,
'tič': 264,
'tom': 265,
'ton': 266,
'tra': 267,
'tud': 268,
'tve': 269,
'v b': 270,
'vil': 271,
'vse': 272,
'čit': 273,
' av': 274,
' gr': 275,
'a z': 276,
'ans': 277,
'ast': 278,
'avt': 279,
'dan': 280,
'e m': 281,
'eds': 282,
'for': 283,
'i z': 284,
'kot': 285,
'mi ': 286,
'nim': 287,
'o b': 288,
'o o': 289,
'od ': 290,
'odl': 291,
'oiz': 292,
'ot ': 293,
'par': 294,
'pot': 295,
'rje': 296,
'roi': 297,
'tem': 298,
'val': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ka ': 0,
'ay ': 1,
'da ': 2,
' ay': 3,
'aal': 4,
'oo ': 5,
'aan': 6,
' ka': 7,
'an ': 8,
'in ': 9,
' in': 10,
'ada': 11,
'maa': 12,
'aba': 13,
' so': 14,
'ali': 15,
'bad': 16,
'add': 17,
'soo': 18,
' na': 19,
'aha': 20,
'ku ': 21,
'ta ': 22,
' wa': 23,
'yo ': 24,
'a s': 25,
'oma': 26,
'yaa': 27,
' ba': 28,
' ku': 29,
' la': 30,
' oo': 31,
'iya': 32,
'sha': 33,
'a a': 34,
'dda': 35,
'nab': 36,
'nta': 37,
' da': 38,
' ma': 39,
'nka': 40,
'uu ': 41,
'y i': 42,
'aya': 43,
'ha ': 44,
'raa': 45,
' dh': 46,
' qa': 47,
'a k': 48,
'ala': 49,
'baa': 50,
'doo': 51,
'had': 52,
'liy': 53,
'oom': 54,
' ha': 55,
' sh': 56,
'a d': 57,
'a i': 58,
'a n': 59,
'aar': 60,
'ee ': 61,
'ey ': 62,
'y k': 63,
'ya ': 64,
' ee': 65,
' iy': 66,
'aa ': 67,
'aaq': 68,
'gaa': 69,
'lam': 70,
' bu': 71,
'a b': 72,
'a m': 73,
'ad ': 74,
'aga': 75,
'ama': 76,
'iyo': 77,
'la ': 78,
'a c': 79,
'a l': 80,
'een': 81,
'int': 82,
'she': 83,
'wax': 84,
'yee': 85,
' si': 86,
' uu': 87,
'a h': 88,
'aas': 89,
'alk': 90,
'dha': 91,
'gu ': 92,
'hee': 93,
'ii ': 94,
'ira': 95,
'mad': 96,
'o a': 97,
'o k': 98,
'qay': 99,
' ah': 100,
' ca': 101,
' wu': 102,
'ank': 103,
'ash': 104,
'axa': 105,
'eed': 106,
'en ': 107,
'ga ': 108,
'haa': 109,
'n a': 110,
'n s': 111,
'naa': 112,
'nay': 113,
'o d': 114,
'taa': 115,
'u b': 116,
'uxu': 117,
'wux': 118,
'xuu': 119,
' ci': 120,
' do': 121,
' ho': 122,
' ta': 123,
'a g': 124,
'a u': 125,
'ana': 126,
'ayo': 127,
'dhi': 128,
'iin': 129,
'lag': 130,
'lin': 131,
'lka': 132,
'o i': 133,
'san': 134,
'u s': 135,
'una': 136,
'uun': 137,
' ga': 138,
' xa': 139,
' xu': 140,
'aab': 141,
'abt': 142,
'aq ': 143,
'aqa': 144,
'ara': 145,
'arl': 146,
'caa': 147,
'cir': 148,
'eeg': 149,
'eel': 150,
'isa': 151,
'kal': 152,
'lah': 153,
'ney': 154,
'qaa': 155,
'rla': 156,
'sad': 157,
'sii': 158,
'u d': 159,
'wad': 160,
' ad': 161,
' ar': 162,
' di': 163,
' jo': 164,
' ra': 165,
' sa': 166,
' u ': 167,
' yi': 168,
'a j': 169,
'a q': 170,
'aad': 171,
'aat': 172,
'aay': 173,
'ah ': 174,
'ale': 175,
'amk': 176,
'ari': 177,
'as ': 178,
'aye': 179,
'bus': 180,
'dal': 181,
'ddu': 182,
'dii': 183,
'du ': 184,
'duu': 185,
'ed ': 186,
'ege': 187,
'gey': 188,
'hay': 189,
'hii': 190,
'ida': 191,
'ine': 192,
'joo': 193,
'laa': 194,
'lay': 195,
'mar': 196,
'mee': 197,
'n b': 198,
'n d': 199,
'n m': 200,
'no ': 201,
'o b': 202,
'o l': 203,
'oog': 204,
'oon': 205,
'rga': 206,
'sh ': 207,
'sid': 208,
'u q': 209,
'unk': 210,
'ush': 211,
'xa ': 212,
'y d': 213,
' bi': 214,
' gu': 215,
' is': 216,
' ke': 217,
' lo': 218,
' me': 219,
' mu': 220,
' qo': 221,
' ug': 222,
'a e': 223,
'a o': 224,
'a w': 225,
'adi': 226,
'ado': 227,
'agu': 228,
'al ': 229,
'ant': 230,
'ark': 231,
'asa': 232,
'awi': 233,
'bta': 234,
'bul': 235,
'd a': 236,
'dag': 237,
'dan': 238,
'do ': 239,
'e s': 240,
'gal': 241,
'gay': 242,
'guu': 243,
'h e': 244,
'hal': 245,
'iga': 246,
'ihi': 247,
'iri': 248,
'iye': 249,
'ken': 250,
'lad': 251,
'lid': 252,
'lsh': 253,
'mag': 254,
'mun': 255,
'n h': 256,
'n i': 257,
'na ': 258,
'o n': 259,
'o w': 260,
'ood': 261,
'oor': 262,
'ora': 263,
'qab': 264,
'qor': 265,
'rab': 266,
'rit': 267,
'rta': 268,
's o': 269,
'sab': 270,
'ska': 271,
'to ': 272,
'u a': 273,
'u h': 274,
'u u': 275,
'ud ': 276,
'ugu': 277,
'uls': 278,
'uud': 279,
'waa': 280,
'xus': 281,
'y b': 282,
'y q': 283,
'y s': 284,
'yad': 285,
'yay': 286,
'yih': 287,
' aa': 288,
' bo': 289,
' br': 290,
' go': 291,
' ji': 292,
' mi': 293,
' of': 294,
' ti': 295,
' um': 296,
' wi': 297,
' xo': 298,
'a x': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'': 0,
'': 1,
'': 2,
'për': 3,
'': 4,
' e ': 5,
'sht': 6,
'': 7,
' sh': 8,
'se ': 9,
'et ': 10,
'ë s': 11,
'ë t': 12,
' se': 13,
'he ': 14,
'': 15,
'ër ': 16,
'dhe': 17,
' pa': 18,
'ë n': 19,
'ë p': 20,
'': 21,
' dh': 22,
'një': 23,
'ë m': 24,
' nj': 25,
'ësh': 26,
'in ': 27,
' me': 28,
'': 29,
' po': 30,
'e n': 31,
'e t': 32,
'ish': 33,
'': 34,
'': 35,
'me ': 36,
'htë': 37,
' ka': 38,
' si': 39,
'e k': 40,
'e p': 41,
' i ': 42,
'anë': 43,
'ar ': 44,
' nu': 45,
'und': 46,
've ': 47,
' ës': 48,
'e s': 49,
'': 50,
'nuk': 51,
'par': 52,
'uar': 53,
'uk ': 54,
'jo ': 55,
'': 56,
'ta ': 57,
'ë f': 58,
'en ': 59,
'it ': 60,
'min': 61,
'het': 62,
'n e': 63,
'ri ': 64,
'shq': 65,
'ë d': 66,
' do': 67,
' nd': 68,
'sh ': 69,
'ën ': 70,
'atë': 71,
'hqi': 72,
'ist': 73,
'ë q': 74,
' gj': 75,
' ng': 76,
' th': 77,
'a n': 78,
'do ': 79,
'end': 80,
'imi': 81,
'ndi': 82,
'r t': 83,
'rat': 84,
'ë b': 85,
'ëri': 86,
' mu': 87,
'art': 88,
'ash': 89,
'qip': 90,
' ko': 91,
'e m': 92,
'edh': 93,
'eri': 94,
'je ': 95,
'ka ': 96,
'nga': 97,
'si ': 98,
'te ': 99,
'ë k': 100,
'ësi': 101,
' ma': 102,
' ti': 103,
'eve': 104,
'hje': 105,
'ira': 106,
'mun': 107,
'on ': 108,
'po ': 109,
're ': 110,
' pr': 111,
'im ': 112,
'lit': 113,
'o t': 114,
'ur ': 115,
'ë e': 116,
'ë v': 117,
'ët ': 118,
' ku': 119,
'': 120,
'e d': 121,
'es ': 122,
'ga ': 123,
'iti': 124,
'jet': 125,
'ndë': 126,
'oli': 127,
'shi': 128,
'tje': 129,
'': 130,
' z ': 131,
'gje': 132,
'kan': 133,
'shk': 134,
'ënd': 135,
'ës ': 136,
' de': 137,
' kj': 138,
' ru': 139,
' vi': 140,
'ara': 141,
'gov': 142,
'kjo': 143,
'or ': 144,
'r p': 145,
'rto': 146,
'rug': 147,
'tet': 148,
'ugo': 149,
'ali': 150,
'arr': 151,
'at ': 152,
'd t': 153,
'ht ': 154,
'i p': 155,
'ipë': 156,
'izi': 157,
'jnë': 158,
'n n': 159,
'ohe': 160,
'shu': 161,
'shë': 162,
't e': 163,
'tik': 164,
'a e': 165,
'arë': 166,
'etë': 167,
'hum': 168,
'nd ': 169,
'ndr': 170,
'osh': 171,
'ova': 172,
'rim': 173,
'tos': 174,
'va ': 175,
' fa': 176,
' fi': 177,
'a s': 178,
'hen': 179,
'i n': 180,
'mar': 181,
'ndo': 182,
'por': 183,
'ris': 184,
'sa ': 185,
'sis': 186,
'tës': 187,
'umë': 188,
'viz': 189,
'zit': 190,
' di': 191,
' mb': 192,
'aj ': 193,
'ana': 194,
'ata': 195,
'dër': 196,
'e a': 197,
'esh': 198,
'ime': 199,
'jes': 200,
'lar': 201,
'n s': 202,
'nte': 203,
'pol': 204,
'r n': 205,
'ran': 206,
'res': 207,
'rrë': 208,
'tar': 209,
'ë a': 210,
'ë i': 211,
' at': 212,
' jo': 213,
'': 214,
' re': 215,
'a k': 216,
'ai ': 217,
'akt': 218,
'': 219,
'hën': 220,
'i i': 221,
'i m': 222,
'ia ': 223,
'men': 224,
'nis': 225,
'shm': 226,
'str': 227,
't k': 228,
't n': 229,
't s': 230,
'ë g': 231,
'ërk': 232,
'ëve': 233,
' ai': 234,
' ci': 235,
' ed': 236,
' ja': 237,
' kr': 238,
' qe': 239,
' ta': 240,
' ve': 241,
'a p': 242,
'cil': 243,
'el ': 244,
'erë': 245,
'gji': 246,
'hte': 247,
'i t': 248,
'jen': 249,
'jit': 250,
'k d': 251,
'mën': 252,
'n t': 253,
'nyr': 254,
'ori': 255,
'pas': 256,
'ra ': 257,
'rie': 258,
'rës': 259,
'tor': 260,
'uaj': 261,
'yre': 262,
'ëm ': 263,
'ëny': 264,
' ar': 265,
' du': 266,
' ga': 267,
' je': 268,
'dës': 269,
'e e': 270,
'e z': 271,
'ha ': 272,
'hme': 273,
'ika': 274,
'ini': 275,
'ite': 276,
'ith': 277,
'koh': 278,
'kra': 279,
'ku ': 280,
'lim': 281,
'lis': 282,
'qën': 283,
'rën': 284,
's s': 285,
't d': 286,
't t': 287,
'tir': 288,
'tën': 289,
'ver': 290,
'ë j': 291,
' ba': 292,
' in': 293,
' tr': 294,
' zg': 295,
'a a': 296,
'a m': 297,
'a t': 298,
'abr': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' на': 0,
' је': 1,
' по': 2,
'је ': 3,
' и ': 4,
' не': 5,
' пр': 6,
'га ': 7,
' св': 8,
'ог ': 9,
'а с': 10,
'их ': 11,
'на ': 12,
'кој': 13,
'ога': 14,
' у ': 15,
'а п': 16,
'не ': 17,
'ни ': 18,
'ти ': 19,
' да': 20,
'ом ': 21,
' ве': 22,
' ср': 23,
'и с': 24,
'ско': 25,
' об': 26,
'а н': 27,
'да ': 28,
'е н': 29,
'но ': 30,
'ног': 31,
'о ј': 32,
'ој ': 33,
' за': 34,
'ва ': 35,
'е с': 36,
'и п': 37,
'ма ': 38,
'ник': 39,
'обр': 40,
'ова': 41,
' ко': 42,
'а и': 43,
'диј': 44,
'е п': 45,
'ка ': 46,
'ко ': 47,
'ког': 48,
'ост': 49,
'све': 50,
'ств': 51,
'сти': 52,
'тра': 53,
'еди': 54,
'има': 55,
'пок': 56,
'пра': 57,
'раз': 58,
'те ': 59,
' бо': 60,
' ви': 61,
' са': 62,
'аво': 63,
'бра': 64,
'гос': 65,
'е и': 66,
'ели': 67,
'ени': 68,
'за ': 69,
'ики': 70,
'ио ': 71,
'пре': 72,
'рав': 73,
'рад': 74,
'у с': 75,
'ју ': 76,
'ња ': 77,
' би': 78,
' до': 79,
' ст': 80,
'аст': 81,
'бој': 82,
'ебо': 83,
'и н': 84,
'им ': 85,
'ку ': 86,
'лан': 87,
'неб': 88,
'ово': 89,
'ого': 90,
'осл': 91,
'ојш': 92,
'пед': 93,
'стр': 94,
'час': 95,
' го': 96,
' кр': 97,
' мо': 98,
' чл': 99,
'а м': 100,
'а о': 101,
'ако': 102,
'ача': 103,
'вел': 104,
'вет': 105,
'вог': 106,
'еда': 107,
'ист': 108,
'ити': 109,
'ије': 110,
'око': 111,
'сло': 112,
'срб': 113,
'чла': 114,
' бе': 115,
' ос': 116,
' от': 117,
' ре': 118,
' се': 119,
'а в': 120,
'ан ': 121,
'бог': 122,
'бро': 123,
'вен': 124,
'гра': 125,
'е о': 126,
'ика': 127,
'ија': 128,
'ких': 129,
'ком': 130,
'ли ': 131,
'ну ': 132,
'ота': 133,
'ојн': 134,
'под': 135,
'рбс': 136,
'ред': 137,
'рој': 138,
'са ': 139,
'сни': 140,
'тач': 141,
'тва': 142,
'ја ': 143,
'ји ': 144,
' ка': 145,
' ов': 146,
' тр': 147,
'а ј': 148,
'ави': 149,
'аз ': 150,
'ано': 151,
'био': 152,
'вик': 153,
'во ': 154,
'гов': 155,
'дни': 156,
'е ч': 157,
'его': 158,
'и о': 159,
'ива': 160,
'иво': 161,
'ик ': 162,
'ине': 163,
'ини': 164,
'ипе': 165,
'кип': 166,
'лик': 167,
'ло ': 168,
'наш': 169,
'нос': 170,
'о т': 171,
'од ': 172,
'оди': 173,
'она': 174,
'оји': 175,
'поч': 176,
'про': 177,
'ра ': 178,
'рис': 179,
'род': 180,
'рст': 181,
'се ': 182,
'спо': 183,
'ста': 184,
'тић': 185,
'у д': 186,
'у н': 187,
'у о': 188,
'чин': 189,
'ша ': 190,
'јед': 191,
'јни': 192,
'ће ': 193,
' м ': 194,
' ме': 195,
' ни': 196,
' он': 197,
' па': 198,
' сл': 199,
' те': 200,
'а у': 201,
'ава': 202,
'аве': 203,
'авн': 204,
'ана': 205,
'ао ': 206,
'ати': 207,
'аци': 208,
'ају': 209,
'ања': 210,
'бск': 211,
'вор': 212,
'вос': 213,
'вск': 214,
'дин': 215,
'е у': 216,
'едн': 217,
'ези': 218,
'ека': 219,
'ено': 220,
'ето': 221,
'ења': 222,
'жив': 223,
'и г': 224,
'и и': 225,
'и к': 226,
'и т': 227,
'ику': 228,
'ичк': 229,
'ки ': 230,
'крс': 231,
'ла ': 232,
'лав': 233,
'лит': 234,
'ме ': 235,
'мен': 236,
'нац': 237,
'о н': 238,
'о п': 239,
'о у': 240,
'одн': 241,
'оли': 242,
'орн': 243,
'осн': 244,
'осп': 245,
'оче': 246,
'пск': 247,
'реч': 248,
'рпс': 249,
'сво': 250,
'ски': 251,
'сла': 252,
'срп': 253,
'су ': 254,
'та ': 255,
'тав': 256,
'тве': 257,
'у б': 258,
'јез': 259,
'ћи ': 260,
' ен': 261,
' жи': 262,
' им': 263,
' му': 264,
' од': 265,
' су': 266,
' та': 267,
' хр': 268,
' ча': 269,
' шт': 270,
' ње': 271,
'а д': 272,
'а з': 273,
'а к': 274,
'а т': 275,
'аду': 276,
'ало': 277,
'ани': 278,
'асо': 279,
'ван': 280,
'вач': 281,
'вањ': 282,
'вед': 283,
'ви ': 284,
'вно': 285,
'вот': 286,
'вој': 287,
'ву ': 288,
'доб': 289,
'дру': 290,
'дсе': 291,
'ду ': 292,
'е б': 293,
'е д': 294,
'е м': 295,
'ем ': 296,
'ема': 297,
'ент': 298,
'енц': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' ku': 0,
' le': 1,
'la ': 2,
'eku': 3,
'a k': 4,
'nga': 5,
' ng': 6,
'a n': 7,
'nge': 8,
'a l': 9,
'lo ': 10,
' ne': 11,
'eti': 12,
'kwe': 13,
'ndz': 14,
'e n': 15,
'o l': 16,
' lo': 17,
'ela': 18,
'ema': 19,
'ent': 20,
'si ': 21,
' kw': 22,
'tsi': 23,
'i l': 24,
'wa ': 25,
'lel': 26,
'kut': 27,
'e k': 28,
'und': 29,
'ni ': 30,
'elo': 31,
'fun': 32,
'esi': 33,
' si': 34,
'ele': 35,
'tin': 36,
'tfo': 37,
' ti': 38,
'le ': 39,
'kha': 40,
'tse': 41,
'e l': 42,
'pha': 43,
'ung': 44,
'i k': 45,
' em': 46,
'ti ': 47,
'sa ': 48,
' um': 49,
'isa': 50,
'eli': 51,
'ndl': 52,
'ing': 53,
'set': 54,
'we ': 55,
'ise': 56,
'na ': 57,
'ang': 58,
'etf': 59,
'khe': 60,
'and': 61,
'o n': 62,
' we': 63,
'nti': 64,
'nye': 65,
'tfu': 66,
'ben': 67,
'a e': 68,
'uts': 69,
'let': 70,
'dza': 71,
'imi': 72,
'sek': 73,
'ko ': 74,
'lok': 75,
'eni': 76,
'ye ': 77,
'ba ': 78,
'nkh': 79,
'ebe': 80,
'alo': 81,
'o k': 82,
'lan': 83,
'ga ': 84,
'aba': 85,
'seb': 86,
' ye': 87,
'he ': 88,
'lwa': 89,
'kel': 90,
' te': 91,
' la': 92,
'kus': 93,
'wem': 94,
'ati': 95,
'ikh': 96,
'nek': 97,
'ala': 98,
'kuf': 99,
'i n': 100,
'oku': 101,
'ats': 102,
'mts': 103,
'hla': 104,
'wen': 105,
'a t': 106,
' na': 107,
'gek': 108,
'uhl': 109,
'kub': 110,
'ngu': 111,
'ka ': 112,
'aka': 113,
'fut': 114,
'kan': 115,
'kwa': 116,
' li': 117,
'kuc': 118,
'onk': 119,
'ban': 120,
'ana': 121,
'ulu': 122,
' se': 123,
' im': 124,
'akh': 125,
'ume': 126,
'a i': 127,
'les': 128,
'tim': 129,
'ula': 130,
'ini': 131,
'lwe': 132,
'za ': 133,
'fo ': 134,
'hul': 135,
' no': 136,
'han': 137,
'li ': 138,
'iph': 139,
'a s': 140,
'tis': 141,
'khu': 142,
'ta ': 143,
'dzi': 144,
'be ': 145,
'emi': 146,
'ma ': 147,
'end': 148,
'o t': 149,
'eke': 150,
'a u': 151,
' ka': 152,
'ane': 153,
'lek': 154,
'mel': 155,
'elw': 156,
'kun': 157,
'sis': 158,
'lon': 159,
'utf': 160,
'any': 161,
'kho': 162,
'kul': 163,
'hlo': 164,
' ba': 165,
'ufu': 166,
'aph': 167,
'lun': 168,
'e s': 169,
'hal': 170,
'ind': 171,
'isw': 172,
'o s': 173,
'use': 174,
'ekw': 175,
'me ': 176,
'ndv': 177,
'eng': 178,
'uph': 179,
'hat': 180,
'ne ': 181,
'so ': 182,
'lul': 183,
'nom': 184,
'te ': 185,
'lol': 186,
'awu': 187,
'nel': 188,
'lu ': 189,
'ha ': 190,
'wat': 191,
'men': 192,
'ete': 193,
' lw': 194,
'nem': 195,
'ako': 196,
'zin': 197,
'kuh': 198,
'sha': 199,
'bha': 200,
'gab': 201,
' in': 202,
'ale': 203,
'mis': 204,
'tem': 205,
'e e': 206,
'o e': 207,
'e t': 208,
'wek': 209,
'dze': 210,
'ome': 211,
'wel': 212,
' lu': 213,
'emb': 214,
'nis': 215,
' ek': 216,
'tsa': 217,
'u l': 218,
'o y': 219,
'dle': 220,
'ute': 221,
'len': 222,
'swa': 223,
'phe': 224,
'mkh': 225,
'ntf': 226,
'uke': 227,
'sit': 228,
'iny': 229,
'e i': 230,
'wo ': 231,
'ani': 232,
'phi': 233,
'wet': 234,
'sin': 235,
'nhl': 236,
'mal': 237,
'mba': 238,
'mfu': 239,
'fu ': 240,
'lab': 241,
'sik': 242,
'taw': 243,
'no ': 244,
'hle': 245,
'e u': 246,
'eki': 247,
'ase': 248,
'ali': 249,
'ulw': 250,
've ': 251,
'eka': 252,
'zel': 253,
'nta': 254,
'bon': 255,
'tek': 256,
'bo ': 257,
'sig': 258,
'ama': 259,
'ile': 260,
'ule': 261,
'tfw': 262,
'mph': 263,
'uma': 264,
'kup': 265,
'emt': 266,
'asi': 267,
'dlu': 268,
'ish': 269,
'umt': 270,
'gen': 271,
'o w': 272,
'ike': 273,
'iga': 274,
'hak': 275,
'abe': 276,
'net': 277,
'gan': 278,
'kis': 279,
'nde': 280,
'ngi': 281,
'ukh': 282,
'bek': 283,
'mo ': 284,
'phu': 285,
'sel': 286,
'elu': 287,
'i t': 288,
'ant': 289,
'dvo': 290,
'a y': 291,
'vo ': 292,
'hum': 293,
'lis': 294,
'dla': 295,
'gam': 296,
'ive': 297,
'jen': 298,
'ket': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ng ': 0,
'ho ': 1,
' le': 2,
'le ': 3,
' ho': 4,
' ts': 5,
'a m': 6,
'sa ': 7,
'la ': 8,
' ka': 9,
'a h': 10,
' di': 11,
'ya ': 12,
'ka ': 13,
' ya': 14,
'a t': 15,
'eng': 16,
'ets': 17,
' ba': 18,
' mo': 19,
'a l': 20,
' se': 21,
'lo ': 22,
' bo': 23,
'wa ': 24,
'tsa': 25,
'a b': 26,
'na ': 27,
'ba ': 28,
' e ': 29,
' a ': 30,
'a k': 31,
' ma': 32,
'ang': 33,
'tse': 34,
'se ': 35,
'o t': 36,
'a d': 37,
'a s': 38,
'ha ': 39,
'so ': 40,
'o l': 41,
'e h': 42,
'o y': 43,
'e t': 44,
'tla': 45,
'tsh': 46,
'olo': 47,
'e l': 48,
'e m': 49,
'o b': 50,
'o e': 51,
'seb': 52,
'ebe': 53,
'ela': 54,
'thu': 55,
'ele': 56,
'e k': 57,
'ana': 58,
'e b': 59,
' th': 60,
' ha': 61,
'tso': 62,
'o a': 63,
'o k': 64,
' wa': 65,
'kgo': 66,
'tsw': 67,
'tho': 68,
'o h': 69,
'ong': 70,
' la': 71,
'hut': 72,
'dit': 73,
'ane': 74,
' me': 75,
'a e': 76,
' tl': 77,
'ola': 78,
'edi': 79,
'elo': 80,
'di ': 81,
'ona': 82,
' ke': 83,
'wan': 84,
' o ': 85,
'a p': 86,
'apa': 87,
'tjh': 88,
'hlo': 89,
' sa': 90,
'she': 91,
'let': 92,
'aba': 93,
'lok': 94,
'lao': 95,
'eo ': 96,
'a a': 97,
'o s': 98,
'man': 99,
'to ': 100,
' hl': 101,
'a n': 102,
'isa': 103,
'e d': 104,
'swe': 105,
'set': 106,
'pa ': 107,
' na': 108,
'o m': 109,
'g l': 110,
'het': 111,
' kg': 112,
'got': 113,
'aha': 114,
'eth': 115,
're ': 116,
'e e': 117,
'jha': 118,
'phe': 119,
'lan': 120,
'otl': 121,
'g k': 122,
'lek': 123,
'its': 124,
'ekg': 125,
'sen': 126,
'ao ': 127,
'dis': 128,
'g m': 129,
'oth': 130,
'e a': 131,
'ith': 132,
'hla': 133,
'e s': 134,
'ke ': 135,
'mol': 136,
'pel': 137,
'g h': 138,
'hab': 139,
'bet': 140,
'san': 141,
'ats': 142,
'mo ': 143,
'lwa': 144,
'we ': 145,
'ala': 146,
'len': 147,
'nts': 148,
'dip': 149,
'kap': 150,
'iso': 151,
' mm': 152,
'uto': 153,
'alo': 154,
'e n': 155,
'si ': 156,
'ta ': 157,
'o w': 158,
'emo': 159,
'swa': 160,
'tsi': 161,
'oke': 162,
'bed': 163,
'the': 164,
' ph': 165,
'a y': 166,
'wen': 167,
'ken': 168,
'ena': 169,
'hwa': 170,
'ne ': 171,
'ore': 172,
'atl': 173,
'ano': 174,
'hel': 175,
'mot': 176,
'bo ': 177,
'g t': 178,
'i b': 179,
'kga': 180,
'hor': 181,
'ngo': 182,
'nan': 183,
'no ': 184,
'o n': 185,
'tlh': 186,
'shw': 187,
'kel': 188,
'pha': 189,
'etj': 190,
'bon': 191,
'ell': 192,
'g s': 193,
'gol': 194,
'tha': 195,
'ale': 196,
'dik': 197,
'kol': 198,
'bak': 199,
' nt': 200,
'ika': 201,
'o d': 202,
' te': 203,
'ohl': 204,
'g y': 205,
' lo': 206,
'ti ': 207,
'his': 208,
'ile': 209,
'g b': 210,
'oko': 211,
' et': 212,
'han': 213,
'a o': 214,
'mat': 215,
'oho': 216,
'odi': 217,
'lel': 218,
'mel': 219,
'din': 220,
'kar': 221,
'o o': 222,
'uo ': 223,
'mon': 224,
'hah': 225,
'te ': 226,
'me ': 227,
' it': 228,
'o f': 229,
'nen': 230,
'heb': 231,
'ing': 232,
'bol': 233,
'bel': 234,
'hle': 235,
'puo': 236,
'lal': 237,
'tlo': 238,
'hal': 239,
'oph': 240,
'eba': 241,
'hat': 242,
'heo': 243,
'aro': 244,
'bat': 245,
'ko ': 246,
'ban': 247,
'leh': 248,
'o i': 249,
'ole': 250,
'tle': 251,
' fe': 252,
'kge': 253,
'pan': 254,
'ake': 255,
'g e': 256,
'aka': 257,
'eko': 258,
' pe': 259,
'rik': 260,
'e y': 261,
'mme': 262,
'ama': 263,
'lha': 264,
'eha': 265,
' fa': 266,
'ebo': 267,
'moh': 268,
'mae': 269,
'ete': 270,
'aem': 271,
'ots': 272,
'ahi': 273,
'o p': 274,
'uta': 275,
'okg': 276,
'ntl': 277,
'pal': 278,
'get': 279,
'i l': 280,
'e f': 281,
'oka': 282,
'sep': 283,
'lat': 284,
'ahl': 285,
'bot': 286,
'ese': 287,
'lah': 288,
'lon': 289,
'akg': 290,
'a f': 291,
' pu': 292,
'ase': 293,
'g a': 294,
'mor': 295,
'kan': 296,
'nah': 297,
'boh': 298,
'e p': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'en ': 0,
' de': 1,
'et ': 2,
'er ': 3,
'tt ': 4,
'om ': 5,
'för': 6,
'ar ': 7,
'de ': 8,
'att': 9,
'': 10,
'ing': 11,
' in': 12,
' at': 13,
' i ': 14,
'det': 15,
'ch ': 16,
'an ': 17,
'gen': 18,
' an': 19,
't s': 20,
'som': 21,
'te ': 22,
' oc': 23,
'ter': 24,
' ha': 25,
'lle': 26,
'och': 27,
' sk': 28,
' so': 29,
'ra ': 30,
'r a': 31,
' me': 32,
'var': 33,
'nde': 34,
'är ': 35,
' ko': 36,
'on ': 37,
'ans': 38,
'int': 39,
'n s': 40,
'na ': 41,
' en': 42,
' fr': 43,
'': 44,
' st': 45,
' va': 46,
'and': 47,
'nte': 48,
'': 49,
'ska': 50,
'ta ': 51,
' vi': 52,
'der': 53,
'äll': 54,
'örs': 55,
' om': 56,
'da ': 57,
'kri': 58,
'ka ': 59,
'nst': 60,
' ho': 61,
'as ': 62,
'stä': 63,
'r d': 64,
't f': 65,
'upp': 66,
' be': 67,
'nge': 68,
'r s': 69,
'tal': 70,
'täl': 71,
'ör ': 72,
' av': 73,
'ger': 74,
'ill': 75,
'ng ': 76,
'e s': 77,
'ekt': 78,
'ade': 79,
'era': 80,
'ers': 81,
'har': 82,
'll ': 83,
'lld': 84,
'rin': 85,
'rna': 86,
'säk': 87,
'und': 88,
'inn': 89,
'lig': 90,
'ns ': 91,
' ma': 92,
' pr': 93,
' up': 94,
'age': 95,
'av ': 96,
'iva': 97,
'kti': 98,
'lda': 99,
'orn': 100,
'son': 101,
'ts ': 102,
'tta': 103,
'äkr': 104,
' sj': 105,
' ti': 106,
'avt': 107,
'ber': 108,
'els': 109,
'eta': 110,
'kol': 111,
'men': 112,
'n d': 113,
't k': 114,
'vta': 115,
'år ': 116,
'juk': 117,
'man': 118,
'n f': 119,
'nin': 120,
'r i': 121,
'rsä': 122,
'sju': 123,
'sso': 124,
' är': 125,
'a s': 126,
'ach': 127,
'ag ': 128,
'bac': 129,
'den': 130,
'ett': 131,
'fte': 132,
'hor': 133,
'nba': 134,
'oll': 135,
'rnb': 136,
'ste': 137,
'til': 138,
' ef': 139,
' si': 140,
'a a': 141,
'e h': 142,
'ed ': 143,
'eft': 144,
'ga ': 145,
'ig ': 146,
'it ': 147,
'ler': 148,
'med': 149,
'n i': 150,
'nd ': 151,
'': 152,
'tiv': 153,
' bl': 154,
' et': 155,
' fi': 156,
'': 157,
'at ': 158,
'des': 159,
'e a': 160,
'gar': 161,
'get': 162,
'lan': 163,
'lss': 164,
'ost': 165,
'r b': 166,
'r e': 167,
're ': 168,
'ret': 169,
'sta': 170,
't i': 171,
' ge': 172,
' he': 173,
' re': 174,
'a f': 175,
'all': 176,
'bos': 177,
'ets': 178,
'lek': 179,
'let': 180,
'ner': 181,
'nna': 182,
'nne': 183,
'r f': 184,
'rit': 185,
's s': 186,
'sen': 187,
'sto': 188,
'tor': 189,
'vav': 190,
'ygg': 191,
' ka': 192,
'': 193,
' tr': 194,
' ut': 195,
'ad ': 196,
'al ': 197,
'are': 198,
'e o': 199,
'gon': 200,
'kom': 201,
'n a': 202,
'n h': 203,
'nga': 204,
'r h': 205,
'ren': 206,
't d': 207,
'tag': 208,
'tar': 209,
'tre': 210,
'ätt': 211,
'': 212,
'': 213,
' se': 214,
'a d': 215,
'a i': 216,
'a p': 217,
'ale': 218,
'ann': 219,
'ara': 220,
'byg': 221,
'gt ': 222,
'han': 223,
'igt': 224,
'kan': 225,
'la ': 226,
'n o': 227,
'nom': 228,
'nsk': 229,
'omm': 230,
'r k': 231,
'r p': 232,
'r v': 233,
's f': 234,
's k': 235,
't a': 236,
't p': 237,
'ver': 238,
' bo': 239,
' br': 240,
' ku': 241,
'': 242,
'a b': 243,
'a e': 244,
'del': 245,
'ens': 246,
'es ': 247,
'fin': 248,
'ige': 249,
'm s': 250,
'n p': 251,
'någ': 252,
'or ': 253,
'r o': 254,
'rbe': 255,
'rs ': 256,
'rt ': 257,
's a': 258,
's n': 259,
'skr': 260,
't o': 261,
'ten': 262,
'tio': 263,
'ven': 264,
' al': 265,
' ja': 266,
' p ': 267,
' r ': 268,
' sa': 269,
'a h': 270,
'bet': 271,
'cke': 272,
'dra': 273,
'e f': 274,
'e i': 275,
'eda': 276,
'eno': 277,
'erä': 278,
'ess': 279,
'ion': 280,
'jag': 281,
'm f': 282,
'ne ': 283,
'nns': 284,
'pro': 285,
'r t': 286,
'rar': 287,
'riv': 288,
'rät': 289,
't e': 290,
't t': 291,
'ust': 292,
'vad': 293,
'öre': 294,
' ar': 295,
' by': 296,
' kr': 297,
' mi': 298,
'arb': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' wa': 0,
'wa ': 1,
'a k': 2,
'a m': 3,
' ku': 4,
' ya': 5,
'a w': 6,
'ya ': 7,
'ni ': 8,
' ma': 9,
'ka ': 10,
'a u': 11,
'na ': 12,
'za ': 13,
'ia ': 14,
' na': 15,
'ika': 16,
'ma ': 17,
'ali': 18,
'a n': 19,
' am': 20,
'ili': 21,
'kwa': 22,
' kw': 23,
'ini': 24,
' ha': 25,
'ame': 26,
'ana': 27,
'i n': 28,
' za': 29,
'a h': 30,
'ema': 31,
'i m': 32,
'i y': 33,
'kuw': 34,
'la ': 35,
'o w': 36,
'a y': 37,
'ata': 38,
'sem': 39,
' la': 40,
'ati': 41,
'chi': 42,
'i w': 43,
'uwa': 44,
'aki': 45,
'li ': 46,
'eka': 47,
'ira': 48,
' nc': 49,
'a s': 50,
'iki': 51,
'kat': 52,
'nch': 53,
' ka': 54,
' ki': 55,
'a b': 56,
'aji': 57,
'amb': 58,
'ra ': 59,
'ri ': 60,
'rik': 61,
'ada': 62,
'mat': 63,
'mba': 64,
'mes': 65,
'yo ': 66,
'zi ': 67,
'da ': 68,
'hi ': 69,
'i k': 70,
'ja ': 71,
'kut': 72,
'tek': 73,
'wan': 74,
' bi': 75,
'a a': 76,
'aka': 77,
'ao ': 78,
'asi': 79,
'cha': 80,
'ese': 81,
'eza': 82,
'ke ': 83,
'moj': 84,
'oja': 85,
' hi': 86,
'a z': 87,
'end': 88,
'ha ': 89,
'ji ': 90,
'mu ': 91,
'shi': 92,
'wat': 93,
' bw': 94,
'ake': 95,
'ara': 96,
'bw ': 97,
'i h': 98,
'imb': 99,
'tik': 100,
'wak': 101,
'wal': 102,
' hu': 103,
' mi': 104,
' mk': 105,
' ni': 106,
' ra': 107,
' um': 108,
'a l': 109,
'ate': 110,
'esh': 111,
'ina': 112,
'ish': 113,
'kim': 114,
'o k': 115,
' ir': 116,
'a i': 117,
'ala': 118,
'ani': 119,
'aq ': 120,
'azi': 121,
'hin': 122,
'i a': 123,
'idi': 124,
'ima': 125,
'ita': 126,
'rai': 127,
'raq': 128,
'sha': 129,
' ms': 130,
' se': 131,
'afr': 132,
'ama': 133,
'ano': 134,
'ea ': 135,
'ele': 136,
'fri': 137,
'go ': 138,
'i i': 139,
'ifa': 140,
'iwa': 141,
'iyo': 142,
'kus': 143,
'lia': 144,
'lio': 145,
'maj': 146,
'mku': 147,
'no ': 148,
'tan': 149,
'uli': 150,
'uta': 151,
'wen': 152,
' al': 153,
'a j': 154,
'aad': 155,
'aid': 156,
'ari': 157,
'awa': 158,
'ba ': 159,
'fa ': 160,
'nde': 161,
'nge': 162,
'nya': 163,
'o y': 164,
'u w': 165,
'ua ': 166,
'umo': 167,
'waz': 168,
'ye ': 169,
' ut': 170,
' vi': 171,
'a d': 172,
'a t': 173,
'aif': 174,
'di ': 175,
'ere': 176,
'ing': 177,
'kin': 178,
'nda': 179,
'o n': 180,
'oa ': 181,
'tai': 182,
'toa': 183,
'usa': 184,
'uto': 185,
'was': 186,
'yak': 187,
'zo ': 188,
' ji': 189,
' mw': 190,
'a p': 191,
'aia': 192,
'amu': 193,
'ang': 194,
'bik': 195,
'bo ': 196,
'del': 197,
'e w': 198,
'ene': 199,
'eng': 200,
'ich': 201,
'iri': 202,
'iti': 203,
'ito': 204,
'ki ': 205,
'kir': 206,
'ko ': 207,
'kuu': 208,
'mar': 209,
'mbo': 210,
'mil': 211,
'ngi': 212,
'ngo': 213,
'o l': 214,
'ong': 215,
'si ': 216,
'ta ': 217,
'tak': 218,
'u y': 219,
'umu': 220,
'usi': 221,
'uu ': 222,
'wam': 223,
' af': 224,
' ba': 225,
' li': 226,
' si': 227,
' zi': 228,
'a v': 229,
'ami': 230,
'atu': 231,
'awi': 232,
'eri': 233,
'fan': 234,
'fur': 235,
'ger': 236,
'i z': 237,
'isi': 238,
'izo': 239,
'lea': 240,
'mbi': 241,
'mwa': 242,
'nye': 243,
'o h': 244,
'o m': 245,
'oni': 246,
'rez': 247,
'saa': 248,
'ser': 249,
'sin': 250,
'tat': 251,
'tis': 252,
'tu ': 253,
'uin': 254,
'uki': 255,
'ur ': 256,
'wi ': 257,
'yar': 258,
' da': 259,
' en': 260,
' mp': 261,
' ny': 262,
' ta': 263,
' ul': 264,
' we': 265,
'a c': 266,
'a f': 267,
'ais': 268,
'apo': 269,
'ayo': 270,
'bar': 271,
'dhi': 272,
'e a': 273,
'eke': 274,
'eny': 275,
'eon': 276,
'hai': 277,
'han': 278,
'hiy': 279,
'hur': 280,
'i s': 281,
'imw': 282,
'kal': 283,
'kwe': 284,
'lak': 285,
'lam': 286,
'mak': 287,
'msa': 288,
'ne ': 289,
'ngu': 290,
'ru ': 291,
'sal': 292,
'swa': 293,
'te ': 294,
'ti ': 295,
'uku': 296,
'uma': 297,
'una': 298,
'uru': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ng ': 0,
'ang': 1,
' na': 2,
' sa': 3,
'an ': 4,
'nan': 5,
'sa ': 6,
'na ': 7,
' ma': 8,
' ca': 9,
'ay ': 10,
'n g': 11,
' an': 12,
'ong': 13,
' ga': 14,
'at ': 15,
' pa': 16,
'ala': 17,
' si': 18,
'a n': 19,
'ga ': 20,
'g n': 21,
'g m': 22,
'ito': 23,
'g c': 24,
'man': 25,
'san': 26,
'g s': 27,
'ing': 28,
'to ': 29,
'ila': 30,
'ina': 31,
' di': 32,
' ta': 33,
'aga': 34,
'iya': 35,
'aca': 36,
'g t': 37,
' at': 38,
'aya': 39,
'ama': 40,
'lan': 41,
'a a': 42,
'qui': 43,
'a c': 44,
'a s': 45,
'nag': 46,
' ba': 47,
'g i': 48,
'tan': 49,
"'t ": 50,
' cu': 51,
'aua': 52,
'g p': 53,
' ni': 54,
'os ': 55,
"'y ": 56,
'a m': 57,
' n ': 58,
'la ': 59,
' la': 60,
'o n': 61,
'yan': 62,
' ay': 63,
'usa': 64,
'cay': 65,
'on ': 66,
'ya ': 67,
' it': 68,
'al ': 69,
'apa': 70,
'ata': 71,
't n': 72,
'uan': 73,
'aha': 74,
'asa': 75,
'pag': 76,
' gu': 77,
'g l': 78,
'di ': 79,
'mag': 80,
'aba': 81,
'g a': 82,
'ara': 83,
'a p': 84,
'in ': 85,
'ana': 86,
'it ': 87,
'si ': 88,
'cus': 89,
'g b': 90,
'uin': 91,
'a t': 92,
'as ': 93,
'n n': 94,
'hin': 95,
' hi': 96,
"a't": 97,
'ali': 98,
' bu': 99,
'gan': 100,
'uma': 101,
'a d': 102,
'agc': 103,
'aqu': 104,
'g d': 105,
' tu': 106,
'aon': 107,
'ari': 108,
'cas': 109,
'i n': 110,
'niy': 111,
'pin': 112,
'a i': 113,
'gca': 114,
'siy': 115,
"a'y": 116,
'yao': 117,
'ag ': 118,
'ca ': 119,
'han': 120,
'ili': 121,
'pan': 122,
'sin': 123,
'ual': 124,
'n s': 125,
'nam': 126,
' lu': 127,
'can': 128,
'dit': 129,
'gui': 130,
'y n': 131,
'gal': 132,
'hat': 133,
'nal': 134,
' is': 135,
'bag': 136,
'fra': 137,
' fr': 138,
' su': 139,
'a l': 140,
' co': 141,
'ani': 142,
' bi': 143,
' da': 144,
'alo': 145,
'isa': 146,
'ita': 147,
'may': 148,
'o s': 149,
'sil': 150,
'una': 151,
' in': 152,
' pi': 153,
'l n': 154,
'nil': 155,
'o a': 156,
'pat': 157,
'sac': 158,
't s': 159,
' ua': 160,
'agu': 161,
'ail': 162,
'bin': 163,
'dal': 164,
'g h': 165,
'ndi': 166,
'oon': 167,
'ua ': 168,
' ha': 169,
'ind': 170,
'ran': 171,
's n': 172,
'tin': 173,
'ulo': 174,
'eng': 175,
'g f': 176,
'ini': 177,
'lah': 178,
'lo ': 179,
'rai': 180,
'rin': 181,
'ton': 182,
'g u': 183,
'inu': 184,
'lon': 185,
"o'y": 186,
't a': 187,
' ar': 188,
'a b': 189,
'ad ': 190,
'bay': 191,
'cal': 192,
'gya': 193,
'ile': 194,
'mat': 195,
'n a': 196,
'pau': 197,
'ra ': 198,
'tay': 199,
'y m': 200,
'ant': 201,
'ban': 202,
'i m': 203,
'nas': 204,
'nay': 205,
'no ': 206,
'sti': 207,
' ti': 208,
'ags': 209,
'g g': 210,
'ta ': 211,
'uit': 212,
'uno': 213,
' ib': 214,
' ya': 215,
'a u': 216,
'abi': 217,
'ati': 218,
'cap': 219,
'ig ': 220,
'is ': 221,
"la'": 222,
' do': 223,
' pu': 224,
'api': 225,
'ayo': 226,
'gos': 227,
'gul': 228,
'lal': 229,
'tag': 230,
'til': 231,
'tun': 232,
'y c': 233,
'y s': 234,
'yon': 235,
'ano': 236,
'bur': 237,
'iba': 238,
'isi': 239,
'lam': 240,
'nac': 241,
'nat': 242,
'ni ': 243,
'nto': 244,
'od ': 245,
'pa ': 246,
'rgo': 247,
'urg': 248,
' m ': 249,
'adr': 250,
'ast': 251,
'cag': 252,
'gay': 253,
'gsi': 254,
'i p': 255,
'ino': 256,
'len': 257,
'lin': 258,
'm g': 259,
'mar': 260,
'nah': 261,
"to'": 262,
' de': 263,
'a h': 264,
'cat': 265,
'cau': 266,
'con': 267,
'iqu': 268,
'lac': 269,
'mab': 270,
'min': 271,
'og ': 272,
'par': 273,
'sal': 274,
' za': 275,
'ao ': 276,
'doo': 277,
'ipi': 278,
'nod': 279,
'nte': 280,
'uha': 281,
'ula': 282,
' re': 283,
'ill': 284,
'lit': 285,
'mac': 286,
'nit': 287,
"o't": 288,
'or ': 289,
'ora': 290,
'sum': 291,
'y p': 292,
' al': 293,
' mi': 294,
' um': 295,
'aco': 296,
'ada': 297,
'agd': 298,
'cab': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'tlh': 0,
"e' ": 1,
'gh ': 2,
"i' ": 3,
" 'e": 4,
"u' ": 5,
' vi': 6,
'atl': 7,
"a' ": 8,
' gh': 9,
'ej ': 10,
' ho': 11,
' ch': 12,
' mu': 13,
' tl': 14,
'nga': 15,
'mey': 16,
"wi'": 17,
"be'": 18,
'an ': 19,
'ch ': 20,
'gan': 21,
'chu': 22,
'lh ': 23,
'ing': 24,
"'e'": 25,
'hin': 26,
'jat': 27,
'lhi': 28,
' da': 29,
' ja': 30,
"o' ": 31,
'ugh': 32,
'aq ': 33,
'cha': 34,
' po': 35,
'ey ': 36,
" 'a": 37,
' je': 38,
"'ej": 39,
' pa': 40,
'ng ': 41,
'ad ': 42,
' qa': 43,
'oh ': 44,
'eh ': 45,
'ah ': 46,
'gha': 47,
'je ': 48,
' lu': 49,
'hol': 50,
"aw'": 51,
' ji': 52,
'ong': 53,
"pu'": 54,
'aj ': 55,
'vad': 56,
"w' ": 57,
"' j": 58,
"ha'": 59,
'is ': 60,
'tah': 61,
"' '": 62,
'ang': 63,
"h '": 64,
'pon': 65,
'am ': 66,
'law': 67,
"mo'": 68,
"qu'": 69,
'hbe': 70,
'ol ': 71,
'vam': 72,
'agh': 73,
"mu'": 74,
'ahv': 75,
'bej': 76,
'ogh': 77,
'uch': 78,
"' v": 79,
'ach': 80,
'hug': 81,
' lo': 82,
' qu': 83,
'cho': 84,
'hva': 85,
'ij ': 86,
' la': 87,
"lu'": 88,
'vis': 89,
' ne': 90,
' pu': 91,
' so': 92,
' ta': 93,
' va': 94,
"'ac": 95,
"di'": 96,
"hu'": 97,
'lah': 98,
'moh': 99,
" 'o": 100,
"' m": 101,
'daq': 102,
'hah': 103,
'n h': 104,
'neh': 105,
"u'm": 106,
"ay'": 107,
'gho': 108,
'h v': 109,
'meh': 110,
'oy ': 111,
' ma': 112,
' nu': 113,
"'me": 114,
'el ': 115,
' ba': 116,
' be': 117,
' de': 118,
' ng': 119,
"' t": 120,
'h d': 121,
'hvi': 122,
'oq ': 123,
' wa': 124,
"' l": 125,
"'wi": 126,
'hme': 127,
"li'": 128,
'uq ': 129,
' bo': 130,
'bog': 131,
'del': 132,
'h p': 133,
'h t': 134,
'ich': 135,
'vil': 136,
' qe': 137,
' wi': 138,
'ahb': 139,
'ban': 140,
'eng': 141,
'haq': 142,
'hoh': 143,
'ov ': 144,
'viq': 145,
' ha': 146,
' ti': 147,
"' n": 148,
"' p": 149,
"'a'": 150,
'hwi': 151,
'igh': 152,
"lo'": 153,
"y' ": 154,
' du': 155,
' no': 156,
' yu': 157,
"'mo": 158,
"'va": 159,
'daj': 160,
'das': 161,
'egh': 162,
'hom': 163,
'muc': 164,
'om ': 165,
'otl': 166,
'us ': 167,
' bi': 168,
' tu': 169,
"' h": 170,
'chm': 171,
'h q': 172,
'hov': 173,
'nis': 174,
'qar': 175,
'uj ': 176,
"' q": 177,
"'ch": 178,
'h m': 179,
'hmo': 180,
'jih': 181,
'par': 182,
'wij': 183,
' hu': 184,
"' d": 185,
"'a ": 186,
'etl': 187,
'h g': 188,
'h j': 189,
'h l': 190,
'lod': 191,
'maq': 192,
'och': 193,
"wa'": 194,
'yuq': 195,
' di': 196,
' le': 197,
' pe': 198,
' ya': 199,
"'di": 200,
'che': 201,
'ech': 202,
'ih ': 203,
'ija': 204,
'in ': 205,
"j '": 206,
'j m': 207,
'lhw': 208,
"pa'": 209,
" 'i": 210,
' mi': 211,
' qi': 212,
' ro': 213,
' ru': 214,
"'be": 215,
'anp': 216,
'ghi': 217,
'ghu': 218,
'h b': 219,
'hay': 220,
'hch': 221,
'iq ': 222,
'npu': 223,
'od ': 224,
'paq': 225,
'qay': 226,
'rda': 227,
'soh': 228,
' do': 229,
' me': 230,
' qo': 231,
' sa': 232,
"' c": 233,
"' g": 234,
"' s": 235,
"'lu": 236,
'aml': 237,
'ard': 238,
'as ': 239,
'd p': 240,
'gme': 241,
'h n': 242,
'hta': 243,
"i'v": 244,
'j j': 245,
'jij': 246,
'len': 247,
'ngm': 248,
'qan': 249,
'qme': 250,
'vaj': 251,
'wiv': 252,
' mo': 253,
' ni': 254,
"'la": 255,
"'pu": 256,
"'qu": 257,
'ar ': 258,
'arm': 259,
'dwi': 260,
'g p': 261,
'ghd': 262,
'h c': 263,
'ham': 264,
'hla': 265,
'hqu': 266,
'ilo': 267,
'iqa': 268,
'iqi': 269,
'j p': 270,
'j t': 271,
'j v': 272,
'lad': 273,
'lho': 274,
'mar': 275,
'mug': 276,
'pus': 277,
'q s': 278,
'q t': 279,
'rgh': 280,
'rma': 281,
'sov': 282,
"ta'": 283,
'tin': 284,
"tu'": 285,
"u'd": 286,
'vet': 287,
'yli': 288,
"yu'": 289,
' to': 290,
"'oh": 291,
'aqq': 292,
'art': 293,
'at ': 294,
'ayl': 295,
'ayt': 296,
'et ': 297,
'haj': 298,
'har': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' di': 0,
' le': 1,
'go ': 2,
'le ': 3,
' go': 4,
'ng ': 5,
' ts': 6,
'ya ': 7,
' ya': 8,
'sa ': 9,
'tlh': 10,
' mo': 11,
' bo': 12,
'a m': 13,
'lo ': 14,
'tsa': 15,
' e ': 16,
'o t': 17,
'a b': 18,
'wa ': 19,
' ka': 20,
'a k': 21,
'a t': 22,
'ka ': 23,
'a g': 24,
'eng': 25,
'olo': 26,
'o y': 27,
'la ': 28,
' a ': 29,
'a d': 30,
'ets': 31,
'mo ': 32,
'se ': 33,
' tl': 34,
' ba': 35,
'tsh': 36,
' ma': 37,
'ba ': 38,
'a l': 39,
'tse': 40,
'so ': 41,
'na ': 42,
'elo': 43,
' se': 44,
'ele': 45,
'e d': 46,
'o l': 47,
'lho': 48,
'e t': 49,
'di ': 50,
'e g': 51,
' kg': 52,
'dit': 53,
'kgo': 54,
'o k': 55,
'ang': 56,
'lha': 57,
'e m': 58,
'e e': 59,
'we ': 60,
'ane': 61,
'o m': 62,
'e k': 63,
'e l': 64,
'ong': 65,
'set': 66,
'wan': 67,
'ela': 68,
'tso': 69,
'tla': 70,
'o d': 71,
'e b': 72,
'ola': 73,
'ngw': 74,
'gwe': 75,
'o b': 76,
'aba': 77,
'atl': 78,
'a p': 79,
' o ': 80,
'a a': 81,
'o a': 82,
'otl': 83,
'a s': 84,
'o e': 85,
'dir': 86,
'thu': 87,
'ga ': 88,
' ga': 89,
'shw': 90,
'ots': 91,
'aka': 92,
'hab': 93,
'hwa': 94,
'aga': 95,
'o g': 96,
'gan': 97,
'tsw': 98,
'ana': 99,
'mol': 100,
' ke': 101,
'hut': 102,
' me': 103,
'ona': 104,
'lel': 105,
'its': 106,
'lao': 107,
'kga': 108,
'dik': 109,
'got': 110,
' fa': 111,
'let': 112,
' wa': 113,
'ose': 114,
'no ': 115,
't h': 116,
'swe': 117,
'edi': 118,
'ats': 119,
'a n': 120,
'e s': 121,
'oko': 122,
'oth': 123,
'kwa': 124,
'kar': 125,
' th': 126,
'a e': 127,
'ala': 128,
'tir': 129,
'o n': 130,
'dip': 131,
'isa': 132,
'gat': 133,
'ti ': 134,
'ano': 135,
'bot': 136,
' nn': 137,
' ha': 138,
'len': 139,
'alo': 140,
'any': 141,
'aro': 142,
'iti': 143,
'iri': 144,
'o s': 145,
'sen': 146,
'net': 147,
'ke ': 148,
'ho ': 149,
'mai': 150,
'ika': 151,
'eka': 152,
'to ': 153,
'ith': 154,
're ': 155,
'g m': 156,
'hat': 157,
'bo ': 158,
'g l': 159,
'et ': 160,
'emo': 161,
'ama': 162,
'iso': 163,
'rol': 164,
'fa ': 165,
'iwa': 166,
'kan': 167,
'she': 168,
'si ': 169,
'ao ': 170,
'g k': 171,
'wen': 172,
'lol': 173,
'o o': 174,
'bos': 175,
'itl': 176,
'a y': 177,
'the': 178,
'lwa': 179,
'e n': 180,
' la': 181,
'ore': 182,
' mm': 183,
'ko ': 184,
'tha': 185,
'e a': 186,
'eo ': 187,
'lhe': 188,
'bol': 189,
'ha ': 190,
' po': 191,
'isi': 192,
'i b': 193,
'lan': 194,
' na': 195,
'i t': 196,
'ale': 197,
'ne ': 198,
'gon': 199,
'ris': 200,
'ira': 201,
'bon': 202,
' sa': 203,
'g y': 204,
'g g': 205,
'pha': 206,
'oga': 207,
'mel': 208,
'ro ': 209,
'gol': 210,
'o w': 211,
' kw': 212,
'i l': 213,
' ti': 214,
'tlo': 215,
'log': 216,
'por': 217,
' ja': 218,
'a f': 219,
' ne': 220,
'hok': 221,
'lot': 222,
' pu': 223,
'e y': 224,
'uto': 225,
'g t': 226,
'hom': 227,
'okg': 228,
' ko': 229,
'o f': 230,
'ame': 231,
'gor': 232,
'ta ': 233,
' pe': 234,
'nts': 235,
' kh': 236,
'tho': 237,
'gel': 238,
'adi': 239,
'are': 240,
'ete': 241,
'ase': 242,
'mon': 243,
'heo': 244,
'oro': 245,
'omo': 246,
'nen': 247,
'nel': 248,
'ile': 249,
'nng': 250,
'ntl': 251,
'abo': 252,
'ogo': 253,
'ara': 254,
'nse': 255,
'ego': 256,
'hel': 257,
'uo ': 258,
'mog': 259,
'san': 260,
'ula': 261,
'rag': 262,
'kol': 263,
'te ': 264,
'etl': 265,
'bat': 266,
' te': 267,
'puo': 268,
'amo': 269,
'ofe': 270,
'lat': 271,
'ati': 272,
'ole': 273,
'rab': 274,
'tsi': 275,
'iro': 276,
'man': 277,
'ael': 278,
'ega': 279,
'lwe': 280,
'ra ': 281,
'din': 282,
'tle': 283,
'sek': 284,
'ing': 285,
'yo ': 286,
'a o': 287,
' re': 288,
'aot': 289,
'uso': 290,
'o r': 291,
'ere': 292,
'jwa': 293,
'aem': 294,
'lam': 295,
'lek': 296,
' jw': 297,
'gwa': 298,
'mok': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'lar': 0,
'en ': 1,
'ler': 2,
'an ': 3,
'in ': 4,
' bi': 5,
' ya': 6,
'eri': 7,
'de ': 8,
' ka': 9,
'ir ': 10,
'arı': 11,
' ba': 12,
' de': 13,
' ha': 14,
'ın ': 15,
'ara': 16,
'bir': 17,
' ve': 18,
' sa': 19,
'ile': 20,
'le ': 21,
'nde': 22,
'da ': 23,
' bu': 24,
'ana': 25,
'ini': 26,
'ını': 27,
'er ': 28,
've ': 29,
' yı': 30,
'lma': 31,
'yıl': 32,
' ol': 33,
'ar ': 34,
'n b': 35,
'nda': 36,
'aya': 37,
'li ': 38,
'ası': 39,
' ge': 40,
'ind': 41,
'n k': 42,
'esi': 43,
'lan': 44,
'nla': 45,
'ak ': 46,
'anı': 47,
'eni': 48,
'ni ': 49,
'nı ': 50,
'rın': 51,
'san': 52,
' ko': 53,
' ye': 54,
'maz': 55,
'baş': 56,
'ili': 57,
'rin': 58,
'alı': 59,
'az ': 60,
'hal': 61,
'ınd': 62,
' da': 63,
'': 64,
'ele': 65,
'ılm': 66,
'ığı': 67,
'eki': 68,
'gün': 69,
'i b': 70,
'içi': 71,
'den': 72,
'kar': 73,
'si ': 74,
' il': 75,
'e y': 76,
'na ': 77,
'yor': 78,
'ek ': 79,
'n s': 80,
'': 81,
'bu ': 82,
'e b': 83,
'im ': 84,
'ki ': 85,
'len': 86,
'ri ': 87,
'sın': 88,
' so': 89,
'ün ': 90,
' ta': 91,
'nin': 92,
'iği': 93,
'tan': 94,
'yan': 95,
' si': 96,
'nat': 97,
'nın': 98,
'kan': 99,
'rı ': 100,
'çin': 101,
'ğı ': 102,
'eli': 103,
'n a': 104,
'ır ': 105,
' an': 106,
'ine': 107,
'n y': 108,
'ola': 109,
' ar': 110,
'al ': 111,
'e s': 112,
'lik': 113,
'n d': 114,
'sin': 115,
' al': 116,
'': 117,
'anl': 118,
'ne ': 119,
'ya ': 120,
'ım ': 121,
'ına': 122,
' be': 123,
'ada': 124,
'ala': 125,
'ama': 126,
'ilm': 127,
'or ': 128,
'sı ': 129,
'yen': 130,
' me': 131,
'atı': 132,
'di ': 133,
'eti': 134,
'ken': 135,
'la ': 136,
'lı ': 137,
'oru': 138,
'': 139,
' in': 140,
'and': 141,
'e d': 142,
'men': 143,
'un ': 144,
'öne': 145,
'a d': 146,
'at ': 147,
'e a': 148,
'e g': 149,
'yar': 150,
' ku': 151,
'ayı': 152,
'dan': 153,
'edi': 154,
'iri': 155,
'ünü': 156,
'ği ': 157,
'ılı': 158,
'eme': 159,
'eği': 160,
'i k': 161,
'i y': 162,
'ıla': 163,
' ça': 164,
'a y': 165,
'alk': 166,
'dı ': 167,
'ede': 168,
'el ': 169,
'ndı': 170,
'ra ': 171,
'üne': 172,
'': 173,
'dır': 174,
'e k': 175,
'ere': 176,
'ik ': 177,
'imi': 178,
'işi': 179,
'mas': 180,
'n h': 181,
'sür': 182,
'yle': 183,
' ad': 184,
' fi': 185,
' gi': 186,
' se': 187,
'a k': 188,
'arl': 189,
'ı': 190,
'iyo': 191,
'kla': 192,
'lığ': 193,
'nem': 194,
'ney': 195,
'rme': 196,
'ste': 197,
'tı ': 198,
'unl': 199,
'ver': 200,
' sı': 201,
' te': 202,
' to': 203,
'a s': 204,
'aşk': 205,
'ekl': 206,
'end': 207,
'kal': 208,
'liğ': 209,
'min': 210,
'tır': 211,
'ulu': 212,
'unu': 213,
'yap': 214,
'ye ': 215,
'ı i': 216,
'şka': 217,
'ştı': 218,
'': 219,
' ke': 220,
' ki': 221,
'ard': 222,
'art': 223,
'aşa': 224,
'n i': 225,
'ndi': 226,
'ti ': 227,
'top': 228,
'ı b': 229,
' va': 230,
' ön': 231,
'aki': 232,
'cak': 233,
'ey ': 234,
'fil': 235,
'isi': 236,
'kle': 237,
'kur': 238,
'man': 239,
'nce': 240,
'nle': 241,
'nun': 242,
'rak': 243,
'ık ': 244,
' en': 245,
' yo': 246,
'a g': 247,
'lis': 248,
'mak': 249,
'n g': 250,
'tir': 251,
'yas': 252,
'': 253,
'': 254,
'ale': 255,
'bil': 256,
'bul': 257,
'et ': 258,
'i d': 259,
'iye': 260,
'kil': 261,
'ma ': 262,
'n e': 263,
'n t': 264,
'nu ': 265,
'olu': 266,
'rla': 267,
'te ': 268,
'yön': 269,
'çık': 270,
' ay': 271,
'': 272,
' ço': 273,
' çı': 274,
'a a': 275,
'a b': 276,
'ata': 277,
'der': 278,
'gel': 279,
'i g': 280,
'i i': 281,
'ill': 282,
'ist': 283,
'ldı': 284,
'lu ': 285,
'mek': 286,
'mle': 287,
'n ç': 288,
'onu': 289,
'opl': 290,
'ran': 291,
'rat': 292,
'rdı': 293,
'rke': 294,
'siy': 295,
'son': 296,
'ta ': 297,
'ı': 298,
'tın': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' ku': 0,
'ku ': 1,
'na ': 2,
'ka ': 3,
'wa ': 4,
'a n': 5,
' sw': 6,
'a m': 7,
'ya ': 8,
'a k': 9,
' ti': 10,
'swi': 11,
'hi ': 12,
'la ': 13,
' ya': 14,
' le': 15,
' hi': 16,
'a t': 17,
'a v': 18,
' va': 19,
'ni ': 20,
' na': 21,
'ndz': 22,
' ma': 23,
'a h': 24,
' xi': 25,
'a s': 26,
'i n': 27,
'ele': 28,
'i k': 29,
'ana': 30,
'a l': 31,
'nga': 32,
'lo ': 33,
'va ': 34,
'le ': 35,
'aka': 36,
'ela': 37,
'irh': 38,
'eka': 39,
' vu': 40,
'iwa': 41,
'a x': 42,
' ka': 43,
'yi ': 44,
' wa': 45,
'isa': 46,
'sa ': 47,
'ko ': 48,
'ta ': 49,
'ga ': 50,
'wu ': 51,
'wi ': 52,
'tir': 53,
' ek': 54,
' mi': 55,
' ni': 56,
'o y': 57,
'elo': 58,
'awu': 59,
'isi': 60,
'swa': 61,
'i t': 62,
'hla': 63,
'a e': 64,
' ta': 65,
' ng': 66,
' la': 67,
'a y': 68,
'ri ': 69,
'eri': 70,
' ri': 71,
'rhi': 72,
'eke': 73,
'umb': 74,
'u t': 75,
'ndl': 76,
' yi': 77,
'lan': 78,
'i v': 79,
'esw': 80,
'mbe': 81,
'i l': 82,
'a r': 83,
'e k': 84,
'ang': 85,
'les': 86,
'ula': 87,
'ti ': 88,
'yon': 89,
'o w': 90,
'ona': 91,
'law': 92,
'xa ': 93,
'nel': 94,
'yo ': 95,
'lel': 96,
'iko': 97,
' lo': 98,
'amb': 99,
' a ': 100,
'i y': 101,
' xa': 102,
'ane': 103,
'wan': 104,
'i s': 105,
'ond': 106,
'fan': 107,
'end': 108,
'i h': 109,
'o l': 110,
'u k': 111,
'mbi': 112,
"n'w": 113,
'ke ': 114,
'dyo': 115,
' fa': 116,
'lam': 117,
'nhl': 118,
'o s': 119,
'ong': 120,
'no ': 121,
' ko': 122,
'u n': 123,
' ha': 124,
'ho ': 125,
'oko': 126,
'u h': 127,
'i m': 128,
'o n': 129,
' yo': 130,
'ngu': 131,
'o k': 132,
'u y': 133,
'ati': 134,
'u l': 135,
'van': 136,
'ulu': 137,
'and': 138,
'mba': 139,
'kum': 140,
'u v': 141,
'wo ': 142,
'be ': 143,
'ha ': 144,
'riw': 145,
'dza': 146,
'si ': 147,
' en': 148,
'o h': 149,
' hl': 150,
'o t': 151,
'eyi': 152,
' nt': 153,
'ila': 154,
'lok': 155,
'dzi': 156,
'nge': 157,
' mu': 158,
'ala': 159,
'to ': 160,
'a w': 161,
' by': 162,
'arh': 163,
'aku': 164,
'tsa': 165,
'wak': 166,
'rho': 167,
"'wa": 168,
' nd': 169,
'min': 170,
'lav': 171,
'tim': 172,
'ley': 173,
'tik': 174,
'dle': 175,
'tin': 176,
'mat': 177,
'ler': 178,
'let': 179,
'sel': 180,
'his': 181,
'mel': 182,
'lu ': 183,
'ika': 184,
'a a': 185,
'ngo': 186,
'eng': 187,
'o x': 188,
' nk': 189,
'amu': 190,
'siw': 191,
'ani': 192,
'eni': 193,
'ma ': 194,
' nh': 195,
'mi ': 196,
'swo': 197,
'eti': 198,
'tan': 199,
'mo ': 200,
'ham': 201,
'iwe': 202,
' kh': 203,
'han': 204,
'lek': 205,
'nti': 206,
'ung': 207,
'hak': 208,
'dzo': 209,
'ete': 210,
' ts': 211,
'ava': 212,
'hu ': 213,
'fum': 214,
'kar': 215,
'vul': 216,
' wu': 217,
'kul': 218,
'und': 219,
'i x': 220,
'nhu': 221,
'yis': 222,
'xik': 223,
'bis': 224,
'xi ': 225,
'e y': 226,
'ra ': 227,
'hle': 228,
' hu': 229,
'wek': 230,
'ano': 231,
'yen': 232,
'a d': 233,
'sis': 234,
'olo': 235,
'pfu': 236,
'i w': 237,
'nyi': 238,
'e n': 239,
'so ': 240,
'ki ': 241,
'fun': 242,
'iso': 243,
'tsh': 244,
'kon': 245,
'nku': 246,
'hel': 247,
'i b': 248,
'e h': 249,
'ari': 250,
'imi': 251,
'i e': 252,
'ind': 253,
'vum': 254,
'nts': 255,
'ime': 256,
'kom': 257,
'mfu': 258,
'ise': 259,
' mf': 260,
'hin': 261,
'dla': 262,
'vut': 263,
'gan': 264,
'i r': 265,
'ban': 266,
'bya': 267,
'mil': 268,
'int': 269,
'ats': 270,
' dy': 271,
'u s': 272,
'e x': 273,
'ile': 274,
'kel': 275,
'kwa': 276,
' no': 277,
'i f': 278,
'asi': 279,
'za ': 280,
'uri': 281,
'o m': 282,
'rha': 283,
'e l': 284,
"in'": 285,
'eta': 286,
'von': 287,
'i a': 288,
'kho': 289,
' wo': 290,
'iki': 291,
' ra': 292,
'u e': 293,
'o e': 294,
'zo ': 295,
'yin': 296,
'ink': 297,
'any': 298,
'ket': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
' на': 0,
' за': 1,
'ння': 2,
'ня ': 3,
'на ': 4,
' пр': 5,
'ого': 6,
'го ': 7,
'ськ': 8,
' по': 9,
' у ': 10,
'від': 11,
'ере': 12,
' мі': 13,
' не': 14,
'их ': 15,
'ть ': 16,
'пер': 17,
' ві': 18,
'ів ': 19,
' пе': 20,
' що': 21,
'льн': 22,
'ми ': 23,
'ні ': 24,
'не ': 25,
'ти ': 26,
'ати': 27,
'енн': 28,
'міс': 29,
'пра': 30,
'ува': 31,
'ник': 32,
'про': 33,
'рав': 34,
'івн': 35,
' та': 36,
'буд': 37,
'влі': 38,
'рів': 39,
' ко': 40,
' рі': 41,
'аль': 42,
'но ': 43,
'ому': 44,
'що ': 45,
' ви': 46,
'му ': 47,
'рев': 48,
'ся ': 49,
'інн': 50,
' до': 51,
' уп': 52,
'авл': 53,
'анн': 54,
'ком': 55,
'ли ': 56,
'лін': 57,
'ног': 58,
'упр': 59,
' бу': 60,
' з ': 61,
' ро': 62,
'за ': 63,
'и н': 64,
'нов': 65,
'оро': 66,
'ост': 67,
'ста': 68,
'ті ': 69,
'ють': 70,
' мо': 71,
' ні': 72,
' як': 73,
'бор': 74,
'ва ': 75,
'ван': 76,
'ень': 77,
'и п': 78,
'нь ': 79,
'ові': 80,
'рон': 81,
'сті': 82,
'та ': 83,
'у в': 84,
'ько': 85,
'іст': 86,
' в ': 87,
' ре': 88,
'до ': 89,
'е п': 90,
'заб': 91,
'ий ': 92,
'нсь': 93,
'о в': 94,
'о п': 95,
'при': 96,
'і п': 97,
' ку': 98,
' пі': 99,
' сп': 100,
'а п': 101,
'або': 102,
'анс': 103,
'аці': 104,
'ват': 105,
'вни': 106,
'и в': 107,
'ими': 108,
'ка ': 109,
'нен': 110,
'ніч': 111,
'она': 112,
'ої ': 113,
'пов': 114,
'ьки': 115,
'ьно': 116,
'ізн': 117,
'ічн': 118,
' ав': 119,
' ма': 120,
' ор': 121,
' су': 122,
' чи': 123,
' ін': 124,
'а з': 125,
'ам ': 126,
'ає ': 127,
'вне': 128,
'вто': 129,
'дом': 130,
'ент': 131,
'жит': 132,
'зни': 133,
'им ': 134,
'итл': 135,
'ла ': 136,
'них': 137,
'ниц': 138,
'ова': 139,
'ови': 140,
'ом ': 141,
'пор': 142,
'тьс': 143,
'у р': 144,
'ься': 145,
'ідо': 146,
'іль': 147,
'ісь': 148,
' ва': 149,
' ді': 150,
' жи': 151,
' че': 152,
' і ': 153,
'а в': 154,
'а н': 155,
'али': 156,
'вез': 157,
'вно': 158,
'еве': 159,
'езе': 160,
'зен': 161,
'ицт': 162,
'ки ': 163,
'ких': 164,
'кон': 165,
'ку ': 166,
'лас': 167,
'ля ': 168,
'мож': 169,
'нач': 170,
'ним': 171,
'ної': 172,
'о б': 173,
'ову': 174,
'оди': 175,
'ою ': 176,
'ро ': 177,
'рок': 178,
'сно': 179,
'спо': 180,
'так': 181,
'тва': 182,
'ту ': 183,
'у п': 184,
'цтв': 185,
'ьни': 186,
'я з': 187,
'і м': 188,
'ії ': 189,
' вс': 190,
' гр': 191,
' де': 192,
' но': 193,
' па': 194,
' се': 195,
' ук': 196,
' їх': 197,
'а о': 198,
'авт': 199,
'аст': 200,
'ают': 201,
'вар': 202,
'ден': 203,
'ди ': 204,
'ду ': 205,
'зна': 206,
'и з': 207,
'ико': 208,
'ися': 209,
'ити': 210,
'ког': 211,
'мен': 212,
'ном': 213,
'ну ': 214,
'о н': 215,
'о с': 216,
'обу': 217,
'ово': 218,
'пла': 219,
'ран': 220,
'рив': 221,
'роб': 222,
'ска': 223,
'тан': 224,
'тим': 225,
'тис': 226,
'то ': 227,
'тра': 228,
'удо': 229,
'чин': 230,
'чни': 231,
'і в': 232,
'ію ': 233,
' а ': 234,
' во': 235,
' да': 236,
' кв': 237,
' ме': 238,
' об': 239,
' ск': 240,
' ти': 241,
' фі': 242,
' є ': 243,
'а р': 244,
'а с': 245,
'а у': 246,
'ак ': 247,
'ані': 248,
'арт': 249,
'асн': 250,
'в у': 251,
'вик': 252,
'віз': 253,
'дов': 254,
'дпо': 255,
'дів': 256,
'еві': 257,
'енс': 258,
'же ': 259,
'и м': 260,
'и с': 261,
'ика': 262,
'ичн': 263,
'кі ': 264,
'ків': 265,
'між': 266,
'нан': 267,
'нос': 268,
'о у': 269,
'обл': 270,
'одн': 271,
'ок ': 272,
'оло': 273,
'отр': 274,
'рен': 275,
'рим': 276,
'роз': 277,
'сь ': 278,
'сі ': 279,
'тла': 280,
'тів': 281,
'у з': 282,
'уго': 283,
'уді': 284,
'чи ': 285,
'ше ': 286,
'я н': 287,
'я у': 288,
'ідп': 289,
'ій ': 290,
'іна': 291,
'ія ': 292,
' ка': 293,
' ни': 294,
' ос': 295,
' си': 296,
' то': 297,
' тр': 298,
' уг': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'یں ': 0,
' کی': 1,
'کے ': 2,
' کے': 3,
'نے ': 4,
' کہ': 5,
'ے ک': 6,
'کی ': 7,
'میں': 8,
' می': 9,
'ہے ': 10,
'وں ': 11,
'کہ ': 12,
' ہے': 13,
'ان ': 14,
'ہیں': 15,
'ور ': 16,
' کو': 17,
'یا ': 18,
' ان': 19,
' نے': 20,
'سے ': 21,
' سے': 22,
' کر': 23,
'ستا': 24,
' او': 25,
'اور': 26,
'تان': 27,
'ر ک': 28,
'ی ک': 29,
' اس': 30,
'ے ا': 31,
' پا': 32,
' ہو': 33,
' پر': 34,
'رف ': 35,
' کا': 36,
'ا ک': 37,
'ی ا': 38,
' ہی': 39,
'در ': 40,
'کو ': 41,
' ای': 42,
'ں ک': 43,
' مش': 44,
' مل': 45,
'ات ': 46,
'صدر': 47,
'اکس': 48,
'شرف': 49,
'مشر': 50,
'پاک': 51,
'کست': 52,
'ی م': 53,
' دی': 54,
' صد': 55,
' یہ': 56,
'ا ہ': 57,
'ن ک': 58,
'وال': 59,
'یہ ': 60,
'ے و': 61,
' بھ': 62,
' دو': 63,
'اس ': 64,
'ر ا': 65,
'نہی': 66,
'کا ': 67,
'ے س': 68,
'ئی ': 69,
'ہ ا': 70,
'یت ': 71,
'ے ہ': 72,
'ت ک': 73,
' سا': 74,
'لے ': 75,
'ہا ': 76,
'ے ب': 77,
' وا': 78,
'ار ': 79,
'نی ': 80,
'کہا': 81,
'ی ہ': 82,
'ے م': 83,
' سی': 84,
' لی': 85,
'انہ': 86,
'انی': 87,
'ر م': 88,
'ر پ': 89,
'ریت': 90,
'ن م': 91,
'ھا ': 92,
'یر ': 93,
' جا': 94,
' جن': 95,
'ئے ': 96,
'پر ': 97,
'ں ن': 98,
'ہ ک': 99,
'ی و': 100,
'ے د': 101,
' تو': 102,
' تھ': 103,
' گی': 104,
'ایک': 105,
'ل ک': 106,
'نا ': 107,
'کر ': 108,
'ں م': 109,
'یک ': 110,
' با': 111,
'ا ت': 112,
'دی ': 113,
'ن س': 114,
'کیا': 115,
'یوں': 116,
'ے ج': 117,
'ال ': 118,
'تو ': 119,
'ں ا': 120,
'ے پ': 121,
' چا': 122,
'ام ': 123,
'بھی': 124,
'تی ': 125,
'تے ': 126,
'دوس': 127,
'س ک': 128,
'ملک': 129,
'ن ا': 130,
'ہور': 131,
'یے ': 132,
' مو': 133,
' وک': 134,
'ائی': 135,
'ارت': 136,
'الے': 137,
'بھا': 138,
'ردی': 139,
'ری ': 140,
'وہ ': 141,
'ویز': 142,
'ں د': 143,
'ھی ': 144,
'ی س': 145,
' رہ': 146,
' من': 147,
' نہ': 148,
' ور': 149,
' وہ': 150,
' ہن': 151,
'ا ا': 152,
'است': 153,
'ت ا': 154,
'ت پ': 155,
'د ک': 156,
'ز م': 157,
'ند ': 158,
'ورد': 159,
'وکل': 160,
'گی ': 161,
'گیا': 162,
'ہ پ': 163,
'یز ': 164,
'ے ت': 165,
' اع': 166,
' اپ': 167,
' جس': 168,
' جم': 169,
' جو': 170,
' سر': 171,
'اپن': 172,
'اکث': 173,
'تھا': 174,
'ثری': 175,
'دیا': 176,
'ر د': 177,
'رت ': 178,
'روی': 179,
'سی ': 180,
'ملا': 181,
'ندو': 182,
'وست': 183,
'پرو': 184,
'چاہ': 185,
'کثر': 186,
'کلا': 187,
'ہ ہ': 188,
'ہند': 189,
'ہو ': 190,
'ے ل': 191,
' اک': 192,
' دا': 193,
' سن': 194,
' وز': 195,
' پی': 196,
'ا چ': 197,
'اء ': 198,
'اتھ': 199,
'اقا': 200,
'اہ ': 201,
'تھ ': 202,
'دو ': 203,
'ر ب': 204,
'روا': 205,
'رے ': 206,
'سات': 207,
'ف ک': 208,
'قات': 209,
'لا ': 210,
'لاء': 211,
'م م': 212,
'م ک': 213,
'من ': 214,
'نوں': 215,
'و ا': 216,
'کرن': 217,
'ں ہ': 218,
'ھار': 219,
'ہوئ': 220,
'ہی ': 221,
'یش ': 222,
' ام': 223,
' لا': 224,
' مس': 225,
' پو': 226,
' پہ': 227,
'انے': 228,
'ت م': 229,
'ت ہ': 230,
'ج ک': 231,
'دون': 232,
'زیر': 233,
'س س': 234,
'ش ک': 235,
'ف ن': 236,
'ل ہ': 237,
'لاق': 238,
'لی ': 239,
'وری': 240,
'وزی': 241,
'ونو': 242,
'کھن': 243,
'گا ': 244,
'ں س': 245,
'ں گ': 246,
'ھنے': 247,
'ھے ': 248,
'ہ ب': 249,
'ہ ج': 250,
'ہر ': 251,
'ی آ': 252,
'ی پ': 253,
' حا': 254,
' وف': 255,
' گا': 256,
'ا ج': 257,
'ا گ': 258,
'اد ': 259,
'ادی': 260,
'اعظ': 261,
'اہت': 262,
'جس ': 263,
'جمہ': 264,
'جو ': 265,
'ر س': 266,
'ر ہ': 267,
'رنے': 268,
'س م': 269,
'سا ': 270,
'سند': 271,
'سنگ': 272,
'ظم ': 273,
'عظم': 274,
'ل م': 275,
'لیے': 276,
'مل ': 277,
'موہ': 278,
'مہو': 279,
'نگھ': 280,
'و ص': 281,
'ورٹ': 282,
'وہن': 283,
'کن ': 284,
'گھ ': 285,
'گے ': 286,
'ں ج': 287,
'ں و': 288,
'ں ی': 289,
'ہ د': 290,
'ہن ': 291,
'ہوں': 292,
'ے ح': 293,
'ے گ': 294,
'ے ی': 295,
' اگ': 296,
' بع': 297,
' رو': 298,
' شا': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ан ': 0,
'ган': 1,
'лар': 2,
'га ': 3,
'нг ': 4,
'инг': 5,
'нин': 6,
'да ': 7,
'ни ': 8,
'ида': 9,
'ари': 10,
'ига': 11,
'ини': 12,
'ар ': 13,
'ди ': 14,
' би': 15,
'ани': 16,
' бо': 17,
'дан': 18,
'лга': 19,
' ҳа': 20,
' ва': 21,
' са': 22,
'ги ': 23,
'ила': 24,
'н б': 25,
'и б': 26,
' кў': 27,
' та': 28,
'ир ': 29,
' ма': 30,
'ага': 31,
'ала': 32,
'бир': 33,
'ри ': 34,
'тга': 35,
'лан': 36,
'лик': 37,
'а к': 38,
'аги': 39,
'ати': 40,
'та ': 41,
'ади': 42,
'даг': 43,
'рга': 44,
' йи': 45,
' ми': 46,
' па': 47,
' бў': 48,
' қа': 49,
' қи': 50,
'а б': 51,
'илл': 52,
'ли ': 53,
'аси': 54,
'и т': 55,
'ик ': 56,
'или': 57,
'лла': 58,
'ард': 59,
'вчи': 60,
'ва ': 61,
'иб ': 62,
'ири': 63,
'лиг': 64,
'нга': 65,
'ран': 66,
' ке': 67,
' ўз': 68,
'а с': 69,
'ахт': 70,
'бўл': 71,
'иги': 72,
'кўр': 73,
'рда': 74,
'рни': 75,
'са ': 76,
' бе': 77,
' бу': 78,
' да': 79,
' жа': 80,
'а т': 81,
'ази': 82,
'ери': 83,
'и а': 84,
'илг': 85,
'йил': 86,
'ман': 87,
'пах': 88,
'рид': 89,
'ти ': 90,
'увч': 91,
'хта': 92,
' не': 93,
' со': 94,
' уч': 95,
'айт': 96,
'лли': 97,
'тла': 98,
' ай': 99,
' фр': 100,
' эт': 101,
' ҳо': 102,
'а қ': 103,
'али': 104,
'аро': 105,
'бер': 106,
'бил': 107,
'бор': 108,
'ими': 109,
'ист': 110,
'он ': 111,
'рин': 112,
'тер': 113,
'тил': 114,
'ун ': 115,
'фра': 116,
'қил': 117,
' ба': 118,
' ол': 119,
'анс': 120,
'ефт': 121,
'зир': 122,
'кат': 123,
'мил': 124,
'неф': 125,
'саг': 126,
'чи ': 127,
'ўра': 128,
' на': 129,
' те': 130,
' эн': 131,
'а э': 132,
'ам ': 133,
'арн': 134,
'ат ': 135,
'иш ': 136,
'ма ': 137,
'нла': 138,
'рли': 139,
'чил': 140,
'шга': 141,
' иш': 142,
' му': 143,
' ўқ': 144,
'ара': 145,
'ваз': 146,
'и у': 147,
'иқ ': 148,
'моқ': 149,
'рим': 150,
'учу': 151,
'чун': 152,
'ши ': 153,
'энг': 154,
'қув': 155,
'ҳам': 156,
' сў': 157,
' ши': 158,
'бар': 159,
'бек': 160,
'дам': 161,
'и ҳ': 162,
'иши': 163,
'лад': 164,
'оли': 165,
'олл': 166,
'ори': 167,
'оқд': 168,
'р б': 169,
'ра ': 170,
'рла': 171,
'уни': 172,
'фт ': 173,
'ўлг': 174,
'ўқу': 175,
' де': 176,
' ка': 177,
' қў': 178,
'а ў': 179,
'аба': 180,
'амм': 181,
'атл': 182,
'б к': 183,
'бош': 184,
'збе': 185,
'и в': 186,
'им ': 187,
'ин ': 188,
'ишл': 189,
'лаб': 190,
'лей': 191,
'мин': 192,
'н д': 193,
'нда': 194,
'оқ ': 195,
'р м': 196,
'рил': 197,
'сид': 198,
'тал': 199,
'тан': 200,
'тид': 201,
'тон': 202,
'ўзб': 203,
' ам': 204,
' ки': 205,
'а ҳ': 206,
'анг': 207,
'анд': 208,
'арт': 209,
'аёт': 210,
'дир': 211,
'ент': 212,
'и д': 213,
'и м': 214,
'и о': 215,
'и э': 216,
'иро': 217,
'йти': 218,
'нсу': 219,
'оди': 220,
'ор ': 221,
'си ': 222,
'тиш': 223,
'тоб': 224,
'эти': 225,
'қар': 226,
'қда': 227,
' бл': 228,
' ге': 229,
' до': 230,
' ду': 231,
' но': 232,
' пр': 233,
' ра': 234,
' фо': 235,
' қо': 236,
'а м': 237,
'а о': 238,
'айд': 239,
'ало': 240,
'ама': 241,
'бле': 242,
'г н': 243,
'дол': 244,
'ейр': 245,
'ек ': 246,
'ерг': 247,
'жар': 248,
'зид': 249,
'и к': 250,
'и ф': 251,
'ий ': 252,
'ило': 253,
'лди': 254,
'либ': 255,
'лин': 256,
'ми ': 257,
'мма': 258,
'н в': 259,
'н к': 260,
'н ў': 261,
'н ҳ': 262,
'ози': 263,
'ора': 264,
'оси': 265,
'рас': 266,
'риш': 267,
'рка': 268,
'роқ': 269,
'сто': 270,
'тин': 271,
'хат': 272,
'шир': 273,
' ав': 274,
' рў': 275,
' ту': 276,
' ўт': 277,
'а п': 278,
'авт': 279,
'ада': 280,
'аза': 281,
'анл': 282,
'б б': 283,
'бой': 284,
'бу ': 285,
'вто': 286,
'г э': 287,
'гин': 288,
'дар': 289,
'ден': 290,
'дун': 291,
'иде': 292,
'ион': 293,
'ирл': 294,
'ишг': 295,
'йха': 296,
'кел': 297,
'кўп': 298,
'лио': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ha ': 0,
' vh': 1,
'a m': 2,
'na ': 3,
' u ': 4,
'a n': 5,
'tsh': 6,
'wa ': 7,
'a u': 8,
' na': 9,
'nga': 10,
'vha': 11,
' ts': 12,
' dz': 13,
' kh': 14,
'dza': 15,
'a v': 16,
'ya ': 17,
' ya': 18,
'a t': 19,
'ho ': 20,
'la ': 21,
' zw': 22,
' mu': 23,
'edz': 24,
'vhu': 25,
'ga ': 26,
'shi': 27,
'za ': 28,
'a k': 29,
' ng': 30,
'kha': 31,
' ma': 32,
'hum': 33,
'ne ': 34,
' nd': 35,
'o n': 36,
'lo ': 37,
'dzi': 38,
'shu': 39,
' ha': 40,
'a d': 41,
'o y': 42,
'nda': 43,
'ele': 44,
'zwi': 45,
'aho': 46,
'ang': 47,
'no ': 48,
' a ': 49,
'ela': 50,
'a z': 51,
'hu ': 52,
'sha': 53,
'i n': 54,
' wa': 55,
'ana': 56,
'hi ': 57,
'kan': 58,
'o d': 59,
'ano': 60,
'a h': 61,
'zwa': 62,
' th': 63,
' mi': 64,
'gan': 65,
'a l': 66,
'sa ': 67,
'han': 68,
'di ': 69,
'u t': 70,
'and': 71,
'ndi': 72,
'yo ': 73,
'the': 74,
'do ': 75,
'ri ': 76,
'vho': 77,
'ni ': 78,
'ka ': 79,
'uri': 80,
'si ': 81,
'o t': 82,
'mbe': 83,
'o w': 84,
'ane': 85,
'we ': 86,
'zo ': 87,
'i t': 88,
'e n': 89,
'i h': 90,
'she': 91,
'ush': 92,
'o k': 93,
'zi ': 94,
'da ': 95,
'a a': 96,
'thu': 97,
' la': 98,
'a p': 99,
'zan': 100,
' i ': 101,
'a s': 102,
'lwa': 103,
'ula': 104,
'i d': 105,
'aka': 106,
' do': 107,
'mis': 108,
'hed': 109,
'ita': 110,
'li ': 111,
' hu': 112,
'iwa': 113,
' lu': 114,
'i v': 115,
'he ': 116,
' ka': 117,
'elo': 118,
'so ': 119,
'amb': 120,
'avh': 121,
' sh': 122,
'o v': 123,
'i k': 124,
'lel': 125,
'u v': 126,
'dzo': 127,
'u s': 128,
' fh': 129,
'mo ': 130,
'nwe': 131,
'o l': 132,
'umi': 133,
'wah': 134,
'isi': 135,
'hel': 136,
'a i': 137,
'vel': 138,
'adz': 139,
'tan': 140,
'i m': 141,
'ath': 142,
'thi': 143,
'wi ': 144,
' ur': 145,
'hat': 146,
'ine': 147,
'le ': 148,
'vhe': 149,
'any': 150,
'a y': 151,
'hon': 152,
'isa': 153,
'ala': 154,
'o a': 155,
'alu': 156,
'udi': 157,
'umb': 158,
' bv': 159,
'ash': 160,
' te': 161,
' li': 162,
'lus': 163,
'nya': 164,
'has': 165,
'led': 166,
'swa': 167,
'hus': 168,
'o i': 169,
'umo': 170,
'one': 171,
'nde': 172,
'tha': 173,
' it': 174,
'kho': 175,
'ngo': 176,
'mus': 177,
'hak': 178,
'e y': 179,
'ea ': 180,
'ivh': 181,
'o m': 182,
'u n': 183,
'hin': 184,
'tho': 185,
'mut': 186,
'ayo': 187,
'fhi': 188,
' sa': 189,
'tel': 190,
'hul': 191,
'hun': 192,
'ulo': 193,
'ith': 194,
'ma ': 195,
' yo': 196,
'lan': 197,
'e v': 198,
' ph': 199,
'go ': 200,
'i a': 201,
'o u': 202,
'hud': 203,
' pf': 204,
'uka': 205,
'zhi': 206,
'uvh': 207,
'dzw': 208,
'ing': 209,
'elw': 210,
'ila': 211,
'wo ': 212,
'mbo': 213,
'u d': 214,
'ite': 215,
'isw': 216,
'asi': 217,
'e k': 218,
'ndu': 219,
'fhe': 220,
'o h': 221,
'mel': 222,
'u b': 223,
'ika': 224,
'bo ': 225,
'gud': 226,
'dzh': 227,
'kon': 228,
'ifh': 229,
' ta': 230,
'e d': 231,
'uth': 232,
' ho': 233,
'i z': 234,
'wan': 235,
'ulu': 236,
'mad': 237,
'inw': 238,
'oth': 239,
'ani': 240,
'dis': 241,
'wit': 242,
'ou ': 243,
'bve': 244,
'ets': 245,
'u i': 246,
'adi': 247,
'e m': 248,
'fha': 249,
'nah': 250,
'dal': 251,
'win': 252,
' si': 253,
'sho': 254,
' in': 255,
'yam': 256,
'lay': 257,
'eka': 258,
'a f': 259,
'i u': 260,
'end': 261,
'i y': 262,
'alo': 263,
'i l': 264,
'uso': 265,
'mul': 266,
'ta ': 267,
'del': 268,
'u k': 269,
' mb': 270,
'pha': 271,
' di': 272,
'dad': 273,
'ali': 274,
'o s': 275,
'pfu': 276,
'khw': 277,
'e a': 278,
' ko': 279,
' ne': 280,
'hen': 281,
'mas': 282,
'ume': 283,
'ini': 284,
'ish': 285,
'udz': 286,
'ira': 287,
'oni': 288,
'luk': 289,
'nel': 290,
'iso': 291,
'mba': 292,
'dzu': 293,
'hom': 294,
'i s': 295,
'zwo': 296,
'ngu': 297,
'ara': 298,
'unz': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'ng ': 0,
' th': 1,
' ch': 2,
'g t': 3,
' nh': 4,
'ông': 5,
' kh': 6,
' tr': 7,
'nh ': 8,
'': 9,
'côn': 10,
' ty': 11,
'ty ': 12,
'i t': 13,
'n t': 14,
' ng': 15,
'ại ': 16,
' ti': 17,
'ch ': 18,
'y l': 19,
'ền ': 20,
' đư': 21,
'hi ': 22,
' gở': 23,
'gởi': 24,
'iền': 25,
'tiề': 26,
'ởi ': 27,
' gi': 28,
' le': 29,
' vi': 30,
'cho': 31,
'ho ': 32,
'khá': 33,
'': 34,
'hác': 35,
' ph': 36,
'am ': 37,
'hàn': 38,
'ách': 39,
'ôi ': 40,
'i n': 41,
'ược': 42,
'ợc ': 43,
'': 44,
'chú': 45,
'iệt': 46,
'tôi': 47,
'ên ': 48,
'úng': 49,
'ệt ': 50,
'': 51,
'c t': 52,
'': 53,
'hún': 54,
'việ': 55,
'đượ': 56,
' na': 57,
'g c': 58,
'i c': 59,
'n c': 60,
'n n': 61,
't n': 62,
'': 63,
'n l': 64,
'n đ': 65,
'àng': 66,
'ác ': 67,
'ất ': 68,
'h l': 69,
'nam': 70,
'ân ': 71,
'ăm ': 72,
'': 73,
'': 74,
'': 75,
' qu': 76,
' tạ': 77,
'g m': 78,
'năm': 79,
'tại': 80,
'ới ': 81,
' lẹ': 82,
'ay ': 83,
'e g': 84,
'h h': 85,
'i v': 86,
'i đ': 87,
'le ': 88,
'lẹ ': 89,
'ều ': 90,
'ời ': 91,
'hân': 92,
'nhi': 93,
't t': 94,
' củ': 95,
' mộ': 96,
' về': 97,
' đi': 98,
'an ': 99,
'của': 100,
'': 101,
'một': 102,
'về ': 103,
'ành': 104,
'ết ': 105,
'ột ': 106,
'ủa ': 107,
' bi': 108,
'': 109,
'a c': 110,
'anh': 111,
'các': 112,
'h c': 113,
'iều': 114,
'm t': 115,
'ện ': 116,
' ho': 117,
"'s ": 118,
'ave': 119,
"e's": 120,
'el ': 121,
'g n': 122,
"le'": 123,
'n v': 124,
'o c': 125,
'rav': 126,
's t': 127,
'thi': 128,
'tra': 129,
'vel': 130,
'ận ': 131,
'ến ': 132,
' ba': 133,
' cu': 134,
' sa': 135,
' đó': 136,
' đế': 137,
'c c': 138,
'chu': 139,
'hiề': 140,
'huy': 141,
'khi': 142,
'nhâ': 143,
'như': 144,
'ong': 145,
'ron': 146,
'thu': 147,
'thư': 148,
'tro': 149,
'y c': 150,
'ày ': 151,
'đến': 152,
'ười': 153,
'ườn': 154,
'ề v': 155,
'ờng': 156,
' vớ': 157,
'cuộ': 158,
'g đ': 159,
'iết': 160,
'iện': 161,
'ngà': 162,
'o t': 163,
'u c': 164,
'uộc': 165,
'với': 166,
'à c': 167,
'ài ': 168,
'ơng': 169,
'ươn': 170,
'ải ': 171,
'ộc ': 172,
'ức ': 173,
' an': 174,
' lậ': 175,
' ra': 176,
' sẽ': 177,
' số': 178,
' tổ': 179,
'a k': 180,
'biế': 181,
'c n': 182,
'c đ': 183,
'chứ': 184,
'g v': 185,
'gia': 186,
'gày': 187,
'hán': 188,
'hôn': 189,
'': 190,
'hức': 191,
'i g': 192,
'i h': 193,
'i k': 194,
'i p': 195,
'iên': 196,
'khô': 197,
'lập': 198,
'n k': 199,
'ra ': 200,
'rên': 201,
'sẽ ': 202,
't c': 203,
'thà': 204,
'trê': 205,
'tổ ': 206,
'u n': 207,
'y t': 208,
'ình': 209,
'ấy ': 210,
'ập ': 211,
'ổ c': 212,
'': 213,
' để': 214,
'ai ': 215,
'c s': 216,
'gườ': 217,
'h v': 218,
'hoa': 219,
'hoạ': 220,
'inh': 221,
'm n': 222,
'máy': 223,
'n g': 224,
'ngư': 225,
'nhậ': 226,
'o n': 227,
'oa ': 228,
'oàn': 229,
'p c': 230,
'số ': 231,
't đ': 232,
'y v': 233,
'ào ': 234,
'áy ': 235,
'ăn ': 236,
'đó ': 237,
'để ': 238,
'ước': 239,
'ần ': 240,
'ển ': 241,
'ớc ': 242,
'': 243,
'': 244,
' cả': 245,
' cầ': 246,
' họ': 247,
' kỳ': 248,
' li': 249,
' mạ': 250,
' sở': 251,
' tặ': 252,
'': 253,
' vụ': 254,
' đạ': 255,
'a đ': 256,
'bay': 257,
'': 258,
'g s': 259,
'han': 260,
'hươ': 261,
'i s': 262,
'kỳ ': 263,
'm c': 264,
'n m': 265,
'n p': 266,
'o b': 267,
'oại': 268,
'qua': 269,
'sở ': 270,
'tha': 271,
'thá': 272,
'tặn': 273,
'vào': 274,
'': 275,
'vụ ': 276,
'y b': 277,
'àn ': 278,
'áng': 279,
'ơ s': 280,
'ầu ': 281,
'ật ': 282,
'ặng': 283,
'ọc ': 284,
'ở t': 285,
'ững': 286,
' du': 287,
' lu': 288,
' ta': 289,
' to': 290,
' từ': 291,
'': 292,
'a v': 293,
'ao ': 294,
'c v': 295,
'cả ': 296,
'du ': 297,
'g l': 298,
'giả': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'la ': 0,
' ku': 1,
'lo ': 2,
'nga': 3,
'a k': 4,
' ng': 5,
'oku': 6,
' kw': 7,
' uk': 8,
'a n': 9,
'uku': 10,
'ye ': 11,
'a i': 12,
'yo ': 13,
'ela': 14,
'ele': 15,
'a u': 16,
'nye': 17,
'we ': 18,
'wa ': 19,
'ama': 20,
'e n': 21,
'ise': 22,
'aba': 23,
'ba ': 24,
'ho ': 25,
'enz': 26,
'o n': 27,
'ngo': 28,
'kub': 29,
'nge': 30,
'ath': 31,
'fun': 32,
'o e': 33,
'lel': 34,
'ung': 35,
'uba': 36,
'ko ': 37,
'elo': 38,
'ezi': 39,
'o k': 40,
'the': 41,
'kwa': 42,
'na ': 43,
'kwe': 44,
'ang': 45,
'e i': 46,
'le ': 47,
'ka ': 48,
'esi': 49,
'o y': 50,
' na': 51,
'e k': 52,
'eth': 53,
'pha': 54,
' in': 55,
'kun': 56,
'nzi': 57,
'and': 58,
'ni ': 59,
'ban': 60,
' ye': 61,
' no': 62,
'lwa': 63,
'lun': 64,
' ok': 65,
'any': 66,
'zi ': 67,
'li ': 68,
' ne': 69,
'ulu': 70,
'a e': 71,
'eli': 72,
'gok': 73,
'o l': 74,
'ebe': 75,
'und': 76,
'isa': 77,
'seb': 78,
'ndo': 79,
' ez': 80,
'tho': 81,
'o i': 82,
'do ': 83,
'ben': 84,
'ing': 85,
'kwi': 86,
'ndl': 87,
'uny': 88,
'ala': 89,
'a a': 90,
'eyo': 91,
'e u': 92,
'kan': 93,
' ab': 94,
'thi': 95,
'i k': 96,
'i n': 97,
'o u': 98,
'o z': 99,
'elw': 100,
'sa ': 101,
'sek': 102,
'ayo': 103,
'het': 104,
'o o': 105,
'eka': 106,
' um': 107,
'hi ': 108,
'bo ': 109,
'so ': 110,
'isi': 111,
'wen': 112,
'lwe': 113,
'aph': 114,
'a l': 115,
'ya ': 116,
'eko': 117,
'ana': 118,
' yo': 119,
'kuf': 120,
'ini': 121,
'imi': 122,
'ali': 123,
'ha ': 124,
'awu': 125,
'wan': 126,
'ent': 127,
'uth': 128,
'tha': 129,
'za ': 130,
'ula': 131,
'kho': 132,
' ii': 133,
'ane': 134,
'e a': 135,
'iso': 136,
'uph': 137,
' le': 138,
'ile': 139,
'zin': 140,
'nts': 141,
' si': 142,
'eng': 143,
'nok': 144,
'ong': 145,
'hla': 146,
'zwe': 147,
' el': 148,
'oka': 149,
'eki': 150,
'lis': 151,
'azi': 152,
' lo': 153,
'tsh': 154,
' am': 155,
'ufu': 156,
'ant': 157,
'isw': 158,
'o a': 159,
'ngu': 160,
'o s': 161,
' ba': 162,
'int': 163,
'eni': 164,
'une': 165,
'wul': 166,
'hul': 167,
'sel': 168,
'i e': 169,
'use': 170,
'lan': 171,
'ke ': 172,
'nis': 173,
'emi': 174,
' li': 175,
' is': 176,
'iph': 177,
' im': 178,
'a o': 179,
'aka': 180,
'mfu': 181,
' zi': 182,
'ink': 183,
'mal': 184,
'ley': 185,
'man': 186,
'nya': 187,
'nek': 188,
'akh': 189,
'ume': 190,
' ko': 191,
'alo': 192,
'tu ': 193,
'i u': 194,
'ntu': 195,
'izw': 196,
'kel': 197,
'izi': 198,
'i i': 199,
'si ': 200,
'gan': 201,
'ase': 202,
'ind': 203,
'i a': 204,
'ndi': 205,
'nel': 206,
'alu': 207,
'sis': 208,
'ubo': 209,
'kut': 210,
'mth': 211,
'kus': 212,
'lek': 213,
'mis': 214,
'nde': 215,
' zo': 216,
' we': 217,
'ani': 218,
'ga ': 219,
'iko': 220,
'siz': 221,
'no ': 222,
'phu': 223,
'e e': 224,
'hon': 225,
'ond': 226,
'ne ': 227,
'ith': 228,
'kul': 229,
'gam': 230,
'gen': 231,
'pho': 232,
' iz': 233,
'phe': 234,
'hat': 235,
'khu': 236,
'iin': 237,
'han': 238,
'zo ': 239,
'lu ': 240,
'ulo': 241,
'nda': 242,
'qo ': 243,
'zik': 244,
'hel': 245,
'o m': 246,
' lw': 247,
'zis': 248,
'dle': 249,
'uhl': 250,
'men': 251,
'olo': 252,
'mel': 253,
'del': 254,
'nza': 255,
'oko': 256,
'okw': 257,
'olu': 258,
'kuk': 259,
'nte': 260,
'swa': 261,
'law': 262,
'enk': 263,
' ya': 264,
'i y': 265,
'gaq': 266,
'sha': 267,
'aqo': 268,
'e l': 269,
'ikh': 270,
'nkq': 271,
'ule': 272,
' ka': 273,
'onk': 274,
'thu': 275,
'wo ': 276,
'bon': 277,
'kup': 278,
'qub': 279,
'a y': 280,
'kqu': 281,
'dla': 282,
' es': 283,
'he ': 284,
'ano': 285,
'lum': 286,
'be ': 287,
'iga': 288,
' ze': 289,
'o w': 290,
'aku': 291,
'mga': 292,
'nke': 293,
'te ': 294,
' ol': 295,
'ze ': 296,
'kum': 297,
'emf': 298,
'esh': 299,
}

View file

@ -0,0 +1,303 @@
# -*- coding: utf-8 -*-
model = {
'oku': 0,
'la ': 1,
'nga': 2,
' ng': 3,
'a n': 4,
' ku': 5,
'a k': 6,
'thi': 7,
' uk': 8,
'ezi': 9,
'e n': 10,
'uku': 11,
'le ': 12,
'lo ': 13,
'hi ': 14,
'wa ': 15,
' no': 16,
'a u': 17,
'ela': 18,
'we ': 19,
'a i': 20,
'ni ': 21,
'ele': 22,
'zin': 23,
'uth': 24,
'ama': 25,
'elo': 26,
'pha': 27,
'ing': 28,
'aba': 29,
'ath': 30,
'and': 31,
'enz': 32,
'eth': 33,
'esi': 34,
'ma ': 35,
'lel': 36,
' um': 37,
' ka': 38,
'the': 39,
'ung': 40,
'nge': 41,
'ngo': 42,
'tho': 43,
'nye': 44,
'kwe': 45,
'eni': 46,
'izi': 47,
'ye ': 48,
' kw': 49,
'ndl': 50,
'ho ': 51,
'a e': 52,
'na ': 53,
'zi ': 54,
'het': 55,
'kan': 56,
'e u': 57,
'e i': 58,
'und': 59,
'ise': 60,
'isi': 61,
'nda': 62,
'kha': 63,
'ba ': 64,
'i k': 65,
'nom': 66,
'fun': 67,
' ez': 68,
' iz': 69,
'ke ': 70,
'ben': 71,
'o e': 72,
'isa': 73,
'zwe': 74,
'kel': 75,
'ka ': 76,
'aka': 77,
'nzi': 78,
'o n': 79,
'e k': 80,
'oma': 81,
'kwa': 82,
' ne': 83,
'any': 84,
'ang': 85,
'hla': 86,
'i u': 87,
'mth': 88,
'kub': 89,
'o k': 90,
'ana': 91,
'ane': 92,
'ikh': 93,
'ebe': 94,
'kut': 95,
'ha ': 96,
' is': 97,
'azi': 98,
'ulu': 99,
'seb': 100,
'ala': 101,
'onk': 102,
'ban': 103,
'i e': 104,
'azw': 105,
'wen': 106,
' ab': 107,
'han': 108,
'a a': 109,
'i n': 110,
'imi': 111,
'lan': 112,
'hat': 113,
'lwa': 114,
' na': 115,
'ini': 116,
'akh': 117,
'li ': 118,
'ngu': 119,
'nke': 120,
'nok': 121,
'ume': 122,
'eke': 123,
'elw': 124,
'yo ': 125,
'aph': 126,
'kus': 127,
' es': 128,
' ok': 129,
'iph': 130,
' im': 131,
'mel': 132,
'i i': 133,
' lo': 134,
' in': 135,
' am': 136,
'kho': 137,
'za ': 138,
'gok': 139,
'sek': 140,
'lun': 141,
'kun': 142,
'lwe': 143,
'sha': 144,
'sik': 145,
'kuf': 146,
'hak': 147,
'a y': 148,
'thu': 149,
'sa ': 150,
'o u': 151,
'khu': 152,
'ayo': 153,
'hul': 154,
'e a': 155,
'ali': 156,
'eng': 157,
'lu ': 158,
'ne ': 159,
' ko': 160,
'eli': 161,
'uba': 162,
'dle': 163,
'e e': 164,
'ith': 165,
' yo': 166,
'a l': 167,
'nel': 168,
'mis': 169,
' si': 170,
'kul': 171,
'a o': 172,
'sis': 173,
'lok': 174,
'gen': 175,
'o z': 176,
'i a': 177,
'emi': 178,
'uma': 179,
'eka': 180,
'alo': 181,
'man': 182,
'isw': 183,
'tha': 184,
'o i': 185,
'lon': 186,
'so ': 187,
'uph': 188,
'uhl': 189,
'ntu': 190,
'zim': 191,
'mal': 192,
'ind': 193,
'wez': 194,
' ba': 195,
'o o': 196,
' yi': 197,
' we': 198,
'ula': 199,
'phe': 200,
'o y': 201,
'ile': 202,
'o l': 203,
'wo ': 204,
'wel': 205,
'ga ': 206,
'tu ': 207,
'hle': 208,
'okw': 209,
'fan': 210,
' le': 211,
'kaz': 212,
'ase': 213,
'ani': 214,
'nde': 215,
'bo ': 216,
'ngi': 217,
'ule': 218,
' em': 219,
'men': 220,
'iny': 221,
'amb': 222,
'mbi': 223,
'gan': 224,
'ifu': 225,
'o s': 226,
'ant': 227,
'hel': 228,
'ika': 229,
'ona': 230,
'i l': 231,
'fut': 232,
' fu': 233,
'ze ': 234,
'u a': 235,
'nhl': 236,
'nin': 237,
' zo': 238,
'end': 239,
'sig': 240,
'u k': 241,
'gab': 242,
'ufa': 243,
'ish': 244,
'ush': 245,
'kuz': 246,
'no ': 247,
'gam': 248,
'kuh': 249,
' ye': 250,
'nya': 251,
'nez': 252,
'zis': 253,
'dlu': 254,
'kat': 255,
'dla': 256,
'tsh': 257,
' se': 258,
'ike': 259,
'kuq': 260,
'gu ': 261,
'osi': 262,
'swa': 263,
'lul': 264,
' zi': 265,
'ima': 266,
'e l': 267,
'kup': 268,
'mo ': 269,
'nza': 270,
'asi': 271,
'ko ': 272,
'kum': 273,
'lek': 274,
'she': 275,
'umt': 276,
'uny': 277,
'yok': 278,
'wan': 279,
'wam': 280,
'ame': 281,
'ong': 282,
'lis': 283,
'mkh': 284,
'ahl': 285,
'ale': 286,
'use': 287,
'o a': 288,
'alu': 289,
'gap': 290,
'si ': 291,
'hlo': 292,
'nje': 293,
'omt': 294,
'o w': 295,
'okh': 296,
'he ': 297,
'kom': 298,
'i s': 299,
}

View file

@ -1 +0,0 @@
from .detector_factory import DetectorFactory, PROFILES_DIRECTORY, detect, detect_langs

View file

@ -1,249 +0,0 @@
import random
import re
import six
from six.moves import zip, xrange
from .lang_detect_exception import ErrorCode, LangDetectException
from .language import Language
from .utils.ngram import NGram
from .utils.unicode_block import unicode_block
class Detector(object):
'''
Detector class is to detect language from specified text.
Its instance is able to be constructed via the factory class DetectorFactory.
After appending a target text to the Detector instance with .append(string),
the detector provides the language detection results for target text via .detect() or .get_probabilities().
.detect() method returns a single language name which has the highest probability.
.get_probabilities() methods returns a list of multiple languages and their probabilities.
The detector has some parameters for language detection.
See set_alpha(double), .set_max_text_length(int) .set_prior_map(dict).
Example:
from langdetect.detector_factory import DetectorFactory
factory = DetectorFactory()
factory.load_profile('/path/to/profile/directory')
def detect(text):
detector = factory.create()
detector.append(text)
return detector.detect()
def detect_langs(text):
detector = factory.create()
detector.append(text)
return detector.get_probabilities()
'''
ALPHA_DEFAULT = 0.5
ALPHA_WIDTH = 0.05
ITERATION_LIMIT = 1000
PROB_THRESHOLD = 0.1
CONV_THRESHOLD = 0.99999
BASE_FREQ = 10000
UNKNOWN_LANG = 'unknown'
URL_RE = re.compile(r'https?://[-_.?&~;+=/#0-9A-Za-z]{1,2076}')
MAIL_RE = re.compile(r'[-_.0-9A-Za-z]{1,64}@[-_0-9A-Za-z]{1,255}[-_.0-9A-Za-z]{1,255}')
def __init__(self, factory):
self.word_lang_prob_map = factory.word_lang_prob_map
self.langlist = factory.langlist
self.seed = factory.seed
self.random = random.Random()
self.text = ''
self.langprob = None
self.alpha = self.ALPHA_DEFAULT
self.n_trial = 7
self.max_text_length = 10000
self.prior_map = None
self.verbose = False
def set_verbose(self):
self.verbose = True
def set_alpha(self, alpha):
self.alpha = alpha
def set_prior_map(self, prior_map):
'''Set prior information about language probabilities.'''
self.prior_map = [0.0] * len(self.langlist)
sump = 0.0
for i in xrange(len(self.prior_map)):
lang = self.langlist[i]
if lang in prior_map:
p = prior_map[lang]
if p < 0:
raise LangDetectException(ErrorCode.InitParamError, 'Prior probability must be non-negative.')
self.prior_map[i] = p
sump += p
if sump <= 0.0:
raise LangDetectException(ErrorCode.InitParamError, 'More one of prior probability must be non-zero.')
for i in xrange(len(self.prior_map)):
self.prior_map[i] /= sump
def set_max_text_length(self, max_text_length):
'''Specify max size of target text to use for language detection.
The default value is 10000(10KB).
'''
self.max_text_length = max_text_length
def append(self, text):
'''Append the target text for language detection.
If the total size of target text exceeds the limit size specified by
Detector.set_max_text_length(int), the rest is cut down.
'''
text = self.URL_RE.sub(' ', text)
text = self.MAIL_RE.sub(' ', text)
text = NGram.normalize_vi(text)
pre = 0
for i in xrange(min(len(text), self.max_text_length)):
ch = text[i]
if ch != ' ' or pre != ' ':
self.text += ch
pre = ch
def cleaning_text(self):
'''Cleaning text to detect
(eliminate URL, e-mail address and Latin sentence if it is not written in Latin alphabet).
'''
latin_count, non_latin_count = 0, 0
for ch in self.text:
if 'A' <= ch <= 'z':
latin_count += 1
elif ch >= six.u('\u0300') and unicode_block(ch) != 'Latin Extended Additional':
non_latin_count += 1
if latin_count * 2 < non_latin_count:
text_without_latin = ''
for ch in self.text:
if ch < 'A' or 'z' < ch:
text_without_latin += ch
self.text = text_without_latin
def detect(self):
'''Detect language of the target text and return the language name
which has the highest probability.
'''
probabilities = self.get_probabilities()
if probabilities:
return probabilities[0].lang
return self.UNKNOWN_LANG
def get_probabilities(self):
if self.langprob is None:
self._detect_block()
return self._sort_probability(self.langprob)
def _detect_block(self):
self.cleaning_text()
ngrams = self._extract_ngrams()
if not ngrams:
raise LangDetectException(ErrorCode.CantDetectError, 'No features in text.')
self.langprob = [0.0] * len(self.langlist)
self.random.seed(self.seed)
for t in xrange(self.n_trial):
prob = self._init_probability()
alpha = self.alpha + self.random.gauss(0.0, 1.0) * self.ALPHA_WIDTH
i = 0
while True:
self._update_lang_prob(prob, self.random.choice(ngrams), alpha)
if i % 5 == 0:
if self._normalize_prob(prob) > self.CONV_THRESHOLD or i >= self.ITERATION_LIMIT:
break
if self.verbose:
six.print_('>', self._sort_probability(prob))
i += 1
for j in xrange(len(self.langprob)):
self.langprob[j] += prob[j] / self.n_trial
if self.verbose:
six.print_('==>', self._sort_probability(prob))
def _init_probability(self):
'''Initialize the map of language probabilities.
If there is the specified prior map, use it as initial map.
'''
if self.prior_map is not None:
return list(self.prior_map)
else:
return [1.0 / len(self.langlist)] * len(self.langlist)
def _extract_ngrams(self):
'''Extract n-grams from target text.'''
RANGE = list(xrange(1, NGram.N_GRAM + 1))
result = []
ngram = NGram()
for ch in self.text:
ngram.add_char(ch)
if ngram.capitalword:
continue
for n in RANGE:
# optimized w = ngram.get(n)
if len(ngram.grams) < n:
break
w = ngram.grams[-n:]
if w and w != ' ' and w in self.word_lang_prob_map:
result.append(w)
return result
def _update_lang_prob(self, prob, word, alpha):
'''Update language probabilities with N-gram string(N=1,2,3).'''
if word is None or word not in self.word_lang_prob_map:
return False
lang_prob_map = self.word_lang_prob_map[word]
if self.verbose:
six.print_('%s(%s): %s' % (word, self._unicode_encode(word), self._word_prob_to_string(lang_prob_map)))
weight = alpha / self.BASE_FREQ
for i in xrange(len(prob)):
prob[i] *= weight + lang_prob_map[i]
return True
def _word_prob_to_string(self, prob):
result = ''
for j in xrange(len(prob)):
p = prob[j]
if p >= 0.00001:
result += ' %s:%.5f' % (self.langlist[j], p)
return result
def _normalize_prob(self, prob):
'''Normalize probabilities and check convergence by the maximun probability.
'''
maxp, sump = 0.0, sum(prob)
for i in xrange(len(prob)):
p = prob[i] / sump
if maxp < p:
maxp = p
prob[i] = p
return maxp
def _sort_probability(self, prob):
result = [Language(lang, p) for (lang, p) in zip(self.langlist, prob) if p > self.PROB_THRESHOLD]
result.sort(reverse=True)
return result
def _unicode_encode(self, word):
buf = ''
for ch in word:
if ch >= six.u('\u0080'):
st = hex(0x10000 + ord(ch))[2:]
while len(st) < 4:
st = '0' + st
buf += r'\u' + st[1:5]
else:
buf += ch
return buf

View file

@ -1,137 +0,0 @@
import os
from os import path
import sys
try:
import simplejson as json
except ImportError:
import json
from .detector import Detector
from .lang_detect_exception import ErrorCode, LangDetectException
from .utils.lang_profile import LangProfile
class DetectorFactory(object):
'''
Language Detector Factory Class.
This class manages an initialization and constructions of Detector.
Before using language detection library,
load profiles with DetectorFactory.load_profile(str)
and set initialization parameters.
When the language detection,
construct Detector instance via DetectorFactory.create().
See also Detector's sample code.
'''
seed = None
def __init__(self):
self.word_lang_prob_map = {}
self.langlist = []
def load_profile(self, profile_directory):
list_files = os.listdir(profile_directory)
if not list_files:
raise LangDetectException(ErrorCode.NeedLoadProfileError, 'Not found profile: ' + profile_directory)
langsize, index = len(list_files), 0
for filename in list_files:
if filename.startswith('.'):
continue
filename = path.join(profile_directory, filename)
if not path.isfile(filename):
continue
f = None
try:
if sys.version_info[0] < 3:
f = open(filename, 'r')
else:
f = open(filename, 'r', encoding='utf-8')
json_data = json.load(f)
profile = LangProfile(**json_data)
self.add_profile(profile, index, langsize)
index += 1
except IOError:
raise LangDetectException(ErrorCode.FileLoadError, 'Cannot open "%s"' % filename)
except:
raise LangDetectException(ErrorCode.FormatError, 'Profile format error in "%s"' % filename)
finally:
if f:
f.close()
def load_json_profile(self, json_profiles):
langsize, index = len(json_profiles), 0
if langsize < 2:
raise LangDetectException(ErrorCode.NeedLoadProfileError, 'Need more than 2 profiles.')
for json_profile in json_profiles:
try:
json_data = json.loads(json_profile)
profile = LangProfile(**json_data)
self.add_profile(profile, index, langsize)
index += 1
except:
raise LangDetectException(ErrorCode.FormatError, 'Profile format error.')
def add_profile(self, profile, index, langsize):
lang = profile.name
if lang in self.langlist:
raise LangDetectException(ErrorCode.DuplicateLangError, 'Duplicate the same language profile.')
self.langlist.append(lang)
for word in profile.freq:
if word not in self.word_lang_prob_map:
self.word_lang_prob_map[word] = [0.0] * langsize
length = len(word)
if 1 <= length <= 3:
prob = 1.0 * profile.freq.get(word) / profile.n_words[length - 1]
self.word_lang_prob_map[word][index] = prob
def clear(self):
self.langlist = []
self.word_lang_prob_map = {}
def create(self, alpha=None):
'''Construct Detector instance with smoothing parameter.'''
detector = self._create_detector()
if alpha is not None:
detector.set_alpha(alpha)
return detector
def _create_detector(self):
if not self.langlist:
raise LangDetectException(ErrorCode.NeedLoadProfileError, 'Need to load profiles.')
return Detector(self)
def set_seed(self, seed):
self.seed = seed
def get_lang_list(self):
return list(self.langlist)
PROFILES_DIRECTORY = path.join(path.dirname(__file__), 'profiles')
_factory = None
def init_factory():
global _factory
if _factory is None:
_factory = DetectorFactory()
_factory.load_profile(PROFILES_DIRECTORY)
def detect(text):
init_factory()
detector = _factory.create()
detector.append(text)
return detector.detect()
def detect_langs(text):
init_factory()
detector = _factory.create()
detector.append(text)
return detector.get_probabilities()

View file

@ -1,22 +0,0 @@
_error_codes = {
'NoTextError': 0,
'FormatError': 1,
'FileLoadError': 2,
'DuplicateLangError': 3,
'NeedLoadProfileError': 4,
'CantDetectError': 5,
'CantOpenTrainData': 6,
'TrainDataFormatError': 7,
'InitParamError': 8,
}
ErrorCode = type('ErrorCode', (), _error_codes)
class LangDetectException(Exception):
def __init__(self, code, message):
super(LangDetectException, self).__init__(message)
self.code = code
def get_code(self):
return self.code

View file

@ -1,17 +0,0 @@
class Language(object):
'''
Language is to store the detected language.
Detector.get_probabilities() returns a list of Languages.
'''
def __init__(self, lang, prob):
self.lang = lang
self.prob = prob
def __repr__(self):
if self.lang is None:
return ''
return '%s:%s' % (self.lang, self.prob)
def __lt__(self, other):
return self.prob < other.prob

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

Some files were not shown because too many files have changed in this diff Show more