Он берет массив текстов и строит матрицу вероятности связей слов в одном тексте. Например на русском нет текстов в котором вместе встрачаются слова навоз, селитра, календарь и т.д. Но есть связь со словом strawbery - а у того уже сильные контекстуальные связи с удобрениями и он ведет расчет цепочки через другие понятия.. но так как вероятностно в одном тексте русские и английские слова не встрачаются то просчет пути возвращает его в русский контекст.engineer писал(а): Токен - это просто набор символов без смысла. Оставим в стороне Фуко, потому что это имя собственное, а предположим мы обсуждаем график внесения удобрений в грядки с клубникой.
Как я понимаю, для того чтобы ИИ начал шарить англоязычные источники по теме, где-то в его недрах должны быть контекстуальные цепочки, в которых англоязычные термины strawberry, fertilizer и русскоязычные клубника и удобрения должны присутствовать в одном контексте, статьи, монографии, сборника и тд.
Не так?
Что такое языки, удобрения и проч. он не знает. У него есть только описание связности одного токена с другими в виде матриц