I tried Vibe Physics. This is what I learned

Все об ИИ и языковых моделях
Ответить
Аватара пользователя
OtherSide
Уже с Приветом
Сообщения: 13212
Зарегистрирован: Ср окт 12, 2022 2:18 pm

I tried Vibe Physics. This is what I learned

Сообщение OtherSide »

Транскрипт и ссылка на видео тут

https://youscriptor.com/recognized/i-tr ... i-learned-

Мой опыт тоже говорит, что не смотря на хайп GPT пока что безусловный лидер. Подписка на грок - выброшенные деньги

Видео Сабины Хossenfelder называется «I tried Vibe Physics. This is what I learned» и оно посвящено проверке того, как современные большие языковые модели справляются с задачей — придумывать новые идеи в физике.
Вот пересказ по шагам:
  1. Контекст:
    Сабина говорит, что сейчас люди начали использовать ИИ, чтобы генерировать новые физические теории. В принципе это хорошо — физике нужны новые идеи. Но на практике выходит много мусора: иногда новое, иногда правильное, но очень редко и то, и другое вместе.
  2. Пример задачи:
    Она берёт одну из знаменитых нерешённых проблем — существует ли «blowup» в уравнениях Навье–Стокса (описывают жидкости и газы, используются в климатических и погодных моделях).
    Её собственная идея: связать это с общей теорией относительности (ОТО). Возможно, найдётся решение уравнений поля Эйнштейна, в котором в определённой системе координат часть уравнений будет совпадать с Навье–Стокс. Тогда через теоремы Пенроуза о сингулярностях можно было бы показать, что blowup неизбежен.
  3. Что она ждала от ИИ:
    Умный студент, рассуждая, должен был бы:
    • формализовать задачу,
    • сопоставить уравнения Навье–Стокса и известные решения в ОТО,
    • проверить, есть ли пересечения,
    • либо доказать невозможность, либо предложить путь исследования.
  4. Тест моделей:
    • GPT-5: поняло идею лучше всех, предложило разумные шаги.
    • Grock 4: тоже что-то ухватило, даже предложило псевдокод, но практической пользы мало.
    • Gemini 2.5: сначала назвал идею блестящей, но потом запутался и решил, что задача невыполнима.
    • Gemini DeepThink (дорогая подписка): переписывает её слова, долго думает, а потом отказывается «генерировать концептуальные прорывы».
    • Claude Opus 4.1: быстрый, но выдаёт «словесный салат», путается даже в базовых вещах.
    Вердикт:
    1 место — GPT-5 (с большим отрывом),
    затем Grock,
    дальше Gemini 2.5,
    потом Gemini DeepThink,
    в самом конце — Claude.
  5. Общие выводы:
    • Модели хороши для поиска литературы и объяснения идей.
    • Но часто путают близкие, но разные физические понятия (энергия ≠ свободная энергия, обратимость ≠ инвариантность и т. д.).
    • Могут внезапно менять обозначения или тему.
    • Не создают реально новых идей — выдают лишь правдоподобный текст.
    • По уровню они пока хуже хорошего студента, так что рабочие места физиков в безопасности.
Ответить