Функция tokenize работает неправильно

Question

Код:

from razdel import tokenize

[_.text for _ in tokenize("стяжкa нейлоновая под винт")]

Вывод

['стяжк', 'a', 'нейлоновая', 'под', 'винт']

Возможно ли исправить эту проблему?

Да, я могу добавить это слово в исключения, но если таких слов будет много, что можно придумать?

Этот метод токенизации мне нравится, так как он может отделять токены так:

[_.text for _ in tokenize("привет100")]

Вывод:

['привет', '100']

Answer 1

Буква а набрана в английской раскладке на клавиатуре, замените на а в русской раскладке и все заработает нормально.

Answer 2

Хотел ещё вчера дать ответ, но вопрос был удалён. Как понять, что с вашим текстом что-то не так - проверить коды символов. Видно, что в первом слове последняя буква английская, а не русская:

for x in "стяжкa нейлоновая под винт":
    print(f'{ord(x):>4}', x, '!!!' if ord(' ') < ord(x) < ord('А') else '')

Вывод:

БЛОГ НА HUSL

Функция tokenize работает неправильно

Ответы (2 шт):