Исследовательская группа из Университета Лугано и Женевского университета разработала инновационный метод обнаружения скрытой дискриминации в алгоритмах ранжирования поисковых систем. Используя большие языковые модели (LLM), в частности GPT-4o, учёные создали детектор несправедливости, способный выявлять гендерные перекосы, которые традиционные методы не фиксируют. Это решение приобретает особую значимость в сферах, где алгоритмы влияют на социально важные решения — при подборе персонала, медицинской информации или образовательных рекомендациях.
Ключевым элементом методики стала новая метрика CWEx (Class-wise Weighted Exposure), которая учитывает не только количество документов, относящихся к разным гендерным группам, но и их позицию в выдаче. В отличие от прежних подходов, которые ограничивались подсчётом ключевых слов, CWEx анализирует семантику контекста, используя возможности языковых моделей понимать тональность и общий смысл текста. Это позволяет выявлять скрытые проявления предвзятости, не выраженные явно словами.
Для оценки точности языковых моделей исследователи сравнили несколько систем, включая LLaMA, Qwen, Mixtral и GPT-4o. Наиболее успешной оказалась GPT-4o в режиме пошагового объяснения (Chain-of-Thought), правильно классифицируя свыше 90% текстов. Анализ показал, что модели несколько чаще выявляют предвзятость против женщин, чем против мужчин.
Тестирование проводилось на двух специализированных наборах данных: Grep-BiasIR, содержащем 117 гендерно чувствительных поисковых запросов и около 700 документов, а также MSMGenderBias — тщательно аннотированном корпусе текстов, разделённых на нейтральные, с предвзятостью в пользу женщин и мужчин. Для проверки точности классификации привлекались 180 человек, чьи оценки оказались наиболее близки к результатам GPT-4o.
Методика CWEx позволяет более тонко оценить справедливость выдачи с учётом видимости материалов, а не только их количества. Это особенно важно для рекомендательных систем, платформ для найма и образовательных сервисов, где скрытая предвзятость может формировать общественное мнение и влиять на индивидуальные решения. Исследователи отмечают, что предложенный инструмент может быть адаптирован для выявления дискриминации по другим признакам — возрасту, этнической принадлежности и другим — при условии соответствующей настройки.
Исследование подчёркивает важность прозрачности и ответственности при использовании ИИ-алгоритмов. Несмотря на «математическую» природу систем, они способны отражать и усиливать социальные и культурные предубеждения. Применение языковых моделей в роли инструмента аудита даёт новый уровень понимания и контроля, позволяя вовремя обнаружить и устранить несправедливость, прежде чем она станет частью автоматизированных решений.