Не получается добиться точности от нейросети-классификатора текстов

У меня есть нейросеть, которая классифицирует тексты по 14 темам. Данные имеют вид [Текст,Тема], обрабатываются в файле prepare_data.py. Далее я их векторизую в файле main.py и передаю на обучение нейросети (main.py). Здесь и возникает проблема, над которой я уже всю голову себе сломала: (прикрепленное фото) введите сюда описание изображения

Здесь находятся все файлы: https://disk.yandex.ru/d/4cVTrUqg1qqSpA

ChatGPT посоветовал использовать Dropout слои, регуляризаторы - их я использовала, с Dropout уменьшилось accuracy, val_accuracy не изменилось; с регуляризаторами мало что изменилось. Еще ChatGPT посоветовал увеличить объем исходных данных, но у меня их достаточно (я их прикреплять не стала, но файл csv после обработки занимает 52 МБ, а там только текст). Непонятно в чем проблема, просьба помочь, благодарна буду любой помощи


Ответы (1 шт):

Автор решения: Трипольский Пётр

Это академическая задача? Можно же просто взять ChromaDB

Пример использования chromadb с базой товаров из json документа можно посмотреть по ссылке

results = collection.query(
    query_texts=["relationship between man and dog"],
    n_results= 5
)
display (results['metadatas'])
display (results['documents'])

введите сюда описание изображения

→ Ссылка