Буква "й" автоматически заменяется на "и" в токенайзере ruBert-base

Question

При использовании токенайзера ruBert-base буква "й" заменяется на "и", пример приведён ниже. Мне бы хотелось узнать, на каком именно этапе это происходит, если это сделано специально - то для чего, и можно ли переопределить это поведение при использовании модели?

input: 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.' 

output: [CLS] из - за повреждении теплосети произошло скопление пара, которое затруднило движение автомобилеи и пешеходов из - за плохои видимости и опасности горячего теплоносителя на проезжеи части. [SEP]

Минимальный код для воспроизведения описанного поведения:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('ai-forever/ruBert-base')
text = 'Из-за повреждений теплосети произошло скопление пара, которое затруднило движение автомобилей и пешеходов из-за плохой видимости и опасности горячего теплоносителя на проезжей части.'
tokenized = tokenizer(text, return_length=True)

decoded = tokenizer.decode(tokenized['input_ids'])
print(decoded)

БЛОГ НА HUSL

Буква "й" автоматически заменяется на "и" в токенайзере ruBert-base

Ответы (0 шт):