Буква "й" автоматически заменяется на "и" в токенайзере ruBert-base
При использовании токенайзера ruBert-base буква "й" заменяется на "и", пример приведён ниже. Мне бы хотелось узнать, на каком именно этапе это происходит, если это сделано специально - то для чего, и можно ли переопределить это поведение при использовании модели?
input: 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.'
output: [CLS] из - за повреждении теплосети произошло скопление пара, которое затруднило движение автомобилеи и пешеходов из - за плохои видимости и опасности горячего теплоносителя на проезжеи части. [SEP]
Минимальный код для воспроизведения описанного поведения:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('ai-forever/ruBert-base')
text = 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.'
tokenized = tokenizer(text, return_length=True)
decoded = tokenizer.decode(tokenized['input_ids'])
print(decoded)