Оценка чат-ботов на основе ИИ в информации об увеличении полового члена

Оценка чат-ботов на основе ИИ в информации об увеличении полового члена

средние баллы EQIP для ChatGPT, Gemini и Llama составили 68,7, 54,2 и 73,8 соответственно

Llama 3.1 от META

Целью данного исследования является оценка и сравнение производительности чат-ботов на основе искусственного интеллекта путем оценки надежности и качества предоставляемой ими информации относительно увеличения пениса (PE). Тенденции поиска ключевых слов, связанных с PE, определялись с помощью Google Trends (https://trends.google.com) и Semrush (https://www.semrush.com). Данные, охватывающие десятилетний период, анализировались с учетом региональных тенденций и изменений в объеме поиска. На основе этих тенденций было отобрано 25 вопросов, которые были разделены на три группы: общая информация (GI), хирургическое лечение (ST) и мифы/заблуждения (MM). Эти вопросы были заданы трем продвинутым чат-ботам: ChatGPT-4, Gemini Pro и Llama 3.1.

Мехмет Вехби Кайра (Mehmet Vehbi Kayra)

Ответы по каждой модели анализировались на предмет читабельности с использованием шкалы оценки Флеша-Кинкейда (FKGL) и индекса легкости чтения Флеша (FRES), а качество ответов оценивалось с использованием инструмента обеспечения качества информации для пациентов (EQIP) и модифицированной шкалы DISCERN.

Хакан Анил (Hakan Anil)

Данное исследование представляет собой первую комплексную оценку ответов, генерируемых чат-ботами, специально в контексте увеличения пениса, что вносит значительный вклад в быстрорастущую область медицинской информации, основанной на ИИ. Сравнительный анализ трёх моделей чат-ботов выявил значительные различия в качестве ответов: Llama продемонстрировала превосходные результаты по качеству контента по сравнению с ChatGPT и Gemini, что ещё раз подчеркивает её потенциал в предоставлении более надёжных и информативных ответов. В частности, Llama получила значительно более высокие баллы по модифицированным шкалам оценки DISCERN и EQIP и показала ещё лучшие результаты при сравнении подгрупп вопросов, связанных с увеличением пениса (общая информация, хирургическое лечение и мифы), продемонстрировав способность чат-бота стабильно предоставлять более точный и качественный контент.

Сердар Токсоз (Serdar Toksoz)

Эти результаты подчеркивают выдающуюся способность Llama последовательно предоставлять более подробную, точную и надёжную информацию, позиционируя её как более надёжный и заслуживающий доверия ресурс для решения сложных и деликатных вопросов, связанных с увеличением пениса, особенно в случаях, когда точный, высококачественный контент имеет решающее значение для принятия обоснованных решений и консультирования пациентов.

Сообщается, что ответы, генерируемые ChatGPT, Perplexity, Chat Sonic и Microsoft Bing AI по вопросам урологических онкологических заболеваний, не содержат практических рекомендаций для пользователей, что вызывает опасения относительно их практической применимости. Другое исследование, оценивающее точность ChatGPT по вопросам, основанным на урологических рекомендациях, показало, что только 60% ответов были уместными, а в 25% наблюдались противоречия. Низкие результаты исследования Brief DISCERN (среднее значение 16,8; 54% достигли порога качества) в значительной степени обусловлены неспособностью ChatGPT предоставлять или точно цитировать источники (уровень ошибок 92,3%). Это вызывает сомнения в его надежности как информационного ресурса по урологии.

В другом исследовании сравнивались ответы 32 экспертов, 18 ординаторов и 3 чат-ботов (ChatGPT v3.5, v4 и Bard) на 25 андрологических случаев с использованием шкалы Лайкерта (0 = неверный/нет ответа, 1 = частично верный, 2 = верный). Анализ средних баллов показал, что эксперты достигли наивысшей производительности (11), за ними следуют ChatGPT v4 (10,7), резиденты (9,4), ChatGPT v3.5 (9,5) и Bard (7,2). Статистически значимая разница в производительности наблюдалась между резидентами и Bard (p = 0,0053) [23]. Эти различия в производительности между моделями чат-ботов и специалистами здравоохранения вызывают опасения относительно надежности чат-ботов для клинического применения.

Модифицированная оценка DISCERN в нашем исследовании дала медианные баллы 3 (межквартильный размах 0) для ChatGPT, 3 (межквартильный размах 2) для Gemini и 4 (межквартильный размах 1) для Llama. Эта разница в баллах предполагает, что способность Llama цитировать источники является фактором, способствующим его более высокой производительности.

Для оценки качества медицинской информации, предоставляемой чат-ботами на базе ИИ, применялись различные системы оценки, такие как Инструмент оценки образовательных материалов для пациентов (EQIP), глобальный показатель качества (GQS), шкалы Лайкерта и EQIP. EQIP - это система оценки, используемая медицинскими работниками для оценки письменной медицинской информации, демонстрирующая установленную валидность, надежность и полезность. Она часто использовалась в недавних статьях, посвященных оценке чат-ботов на базе ИИ.

В исследовании, посвященном ответам ChatGPT о заболеваниях гепатобилиарной системы, баллы EQIP рассчитывались как для всего текста, так и для трех его подразделов: содержание, идентификация и структура. Средний балл по всем 36 пунктам составил 16 (межквартильный размах 14,5–18), в то время как при разделении на подразделы средние баллы составили 10 (межквартильный размах 9,5–12,5), 1 (межквартильный размах 1–1) и 4 (межквартильный размах 4–5) соответственно. Сообщалось, что в этом исследовании сравнение распределения полученных баллов показывает, что баллы ChatGPT выше в области содержания, но ниже в областях идентификации и структуры. В исследованиях, где ответы ChatGPT на эректильную дисфункцию и преждевременную эякуляцию оценивались с использованием инструмента EQIP, средние баллы текстов были определены как 40,0 и 45,93 соответственно, что указывает на то, что, хотя качество предоставленной информации варьировалось, в целом баллы были относительно низкими. Эти результаты подчеркивают необходимость дальнейшей оценки контента, генерируемого ИИ, для обеспечения его точности и надежности в медицинском контексте.

В нашем исследовании средние баллы EQIP для ChatGPT, Gemini и Llama составили 68,7, 54,2 и 73,8 соответственно. В частности, мы полагаем, что более высокий балл EQIP для ChatGPT по сравнению с другими исследованиями в литературе может быть обусловлен различиями в критериях оценки, сложностью рассматриваемых медицинских тем или прогрессом в процессах обучения и настройки модели с течением времени.

В текстах с медицинской информацией в интернете читаемость и понятность имеют решающее значение для здоровья человека, поскольку это гарантирует, что пациенты будут правильно проинструктированы. Несмотря на их выдающиеся возможности, сообщается, что чат-боты имеют значительные ограничения с точки зрения читаемости и понятности при использовании в качестве источников медицинской информации, и что необходимо внести улучшения, прежде чем они будут приняты для такого использования. FKGL - это тест на читаемость, который определяет уровень школьного образования США, необходимый для понимания текста, при этом более высокие баллы предполагают более сложный язык. FRES измеряет легкость чтения текста, где более высокие баллы соответствуют более легкой читаемости. Эти тесты обычно используются для оценки доступности письменного контента для различных аудиторий.

Анализ ответов ChatGPT об имплантации протеза пениса показал, что баллы FKGL находятся в диапазоне от 14,04 до 17,41, а FRES от 9,8 до 28,39, что указывает на уровень читаемости, подходящий для студенческой аудитории. В исследовании, изучающем ответы пяти различных чат-ботов (ChatGPT, Bard, Bing, Ernie, Copilot) по эректильной дисфункции, было обнаружено, что ChatGPT имел статистически самый высокий средний балл FKGL (14,3), что сделало его понимание самым сложным. С точки зрения читаемости Bard вышел на позитивный уровень с самым высоким средним баллом FRES (53,9); однако, как сообщалось, его понимание было сложным, хотя и не таким, как у ChatGPT. Эти результаты подчеркивают необходимость улучшения выходных данных чат-бота, чтобы гарантировать их понятность и удобство для пользователя, особенно в медицинском контексте.

В нашем исследовании не было обнаружено статистически значимой разницы между средними баллами FKGL и FRES для ChatGPT, Gemini и Llama. Поскольку баллы FKGL превышали 16, было установлено, что тексты предназначены для аудитории уровня «выпускников колледжей/академиков». При интерпретации FRES было выявлено, что тексты соответствуют 4-й стадии, что указывает на «трудность чтения».

Мехмет Вехби Кайра (Mehmet Vehbi Kayra), Сухаил Мохамед Амин Барадия (Suhail Mohamed Amin Baradia), Университет Баскент, Хакан Анил (Hakan Anil), Городская больница Аданы, Ильтурк Оздоган (Ilturk Ozdogan), Сердар Токсоз (Serdar Toksoz), Учебно-исследовательская больница Синджан, Турция, "Оценка чат-ботов на основе искусственного интеллекта в информации об увеличении полового члена: сравнительный анализ читаемости, надежности и качества", "Международный журнал исследований импотенции" (International Journal of Impotence Research), 03 июня 2025.

15.07.2025