
Группа медицинских исследователей из Медицинской школы Икан на горе Синай недавно провела исследование чат-ботов с искусственным интеллектом (ИИ), в ходе которого они определили, что «генеративные модели большого языка являются автономными практиками доказательной медицины».
Содержание
- Эксперимент
- Автономная медицина
- Текущие ограничения
Содержание:
Эксперимент
Согласно предварительному исследованию, опубликованному на arXiv, команда Mount Sinai протестировала различные готовые модели больших языков (LLM), ориентированные на потребителя, включая ChatGPT 3.5 и 4 и Gemini Pro, а также модели с открытым исходным кодом LLaMA.v2 и Mixtral-8x7B.
Модельям давались подсказки с такой информацией, как «вы профессор медицины», а затем их просили следовать научно обоснованным медицинским протоколам, чтобы предложить правильный курс лечения для серии тестовых случаев.
После рассмотрения случая моделям было поручено предложить следующее действие — например, заказать анализы или начать протокол лечения. Затем им были предоставлены результаты действия и предложено интегрировать эту новую информацию, предложить следующее действие и так далее.
По мнению команды, ChatGPT 4 оказался наиболее успешным, достигнув точности 74 % во всех случаях и превзойдя следующую лучшую модель (ChatGPT 3.5) примерно на 10 %.
Это выступление привело команду к выводу, что подобные модели могут использоваться в медицине. Согласно их статье:
«Могут стать независимыми практикующими врачами доказательной медицины. Их способность использовать инструменты можно использовать для взаимодействия с инфраструктурой реальной системы здравоохранения и выполнения задач по ведению пациентов в соответствии с рекомендациями».
Автономная медицина
Доказательная медицина (ДМ) использует уроки, извлеченные из предыдущих случаев, чтобы определить траекторию лечения подобных случаев.
Хотя EBM в этом смысле работает как блок-схема, количество сложностей, перестановок и общих решений может сделать процесс громоздким.
Как говорят исследователи:
«Клиницисты часто сталкиваются с проблемой информационной перегрузки, поскольку огромное количество возможных взаимодействий и путей лечения превышает то, что они могут реально контролировать или отслеживать».
В документе команды указывается, что LLM могут смягчить эту перегрузку, выполняя задачи, обычно выполняемые медицинскими экспертами, такие как «заказ и интерпретация исследований или подача сигналов тревоги», в то время как люди сосредотачиваются на физическом уходе.
«LLM — это универсальные инструменты, способные понимать клинический контекст и генерировать возможные последующие действия», — пишут исследователи.
Текущие ограничения
Выводы исследователей могут быть несколько искажены их заявленным восприятием возможностей современных программ LLM.
В какой-то момент команда пишет: «LLM — это глубокие инструменты, которые приближают нас к обещанию общего искусственного интеллекта». Они также дважды делают в документе следующее заявление: «Мы демонстрируем, что способность студентов-магистров рассуждать — это глубокая способность, которая может иметь последствия, выходящие далеко за рамки рассмотрения таких моделей как баз данных, к которым можно запрашивать с использованием естественного языка».
Однако среди ученых-компьютерщиков нет единого мнения о том, что LLM, включая основополагающие модели, лежащие в основе ChatGPT, обладают какой-либо способностью рассуждать.
Более того, среди учёных и экспертов по искусственному интеллекту ещё меньше консенсуса относительно того, возможен ли или достижим общий искусственный интеллект в значимые сроки.
В статье не дается определение общего искусственного интеллекта и не расширяется заявление авторов о том, что студенты-магистры могут рассуждать. В нем также не упоминаются этические соображения, связанные с внедрением непредсказуемой автоматизированной системы в существующие клинические рабочие процессы.
LLM, такие как ChatGPT, генерируют новый текст каждый раз при запросе. LLM может работать так, как ожидалось, во время итераций тестирования, но в клинических условиях не существует метода, с помощью которого можно было бы удержать его от случайного выдумывания чепухи — явления, называемого «галлюцинациями».
Связанный: OpenAI сталкивается с новым иском о нарушении авторских прав через неделю после иска NYT
Исследователи утверждают, что во время испытаний галлюцинации были минимальными, однако о масштабных методах их смягчения не упоминается.
Несмотря на оценки исследователей, остается неясным, какие преимущества общий чат-бот, такой как ChatGPT, будет иметь в клинической среде доказательной медицины по сравнению со статус-кво или специализированным медицинским LLM, обученным на корпусе тщательно подобранных релевантных данных.
Источник: cryptohamster.org