Вештачката интелигенција против родовата цитатна нееднаквост

Published by

on

Q7opnit7

Нина Манасиевска

Вовед

Цитатната нееднаквост меѓу половите претставува длабоко вкоренет системски проблем во современиот академски свет. Иако бројот на жени во научните истражувања постојано расте, нивните трудови продолжуваат да бидат недоволно цитирани. Оваа дисропорција е особено изразена во STEM областите (наука, технологија, инженерство и математика), каде што истражувачките трудови на жените се цитираат 10-30% поретко во споредба со оние на нивните машки колеги, иако нивниот научен квалитет е споредлив или дури и повисок.

Оваа нееднаквост е проблем бидејќи цитатите се мерило за нивното научно влијание и се директно поврзани со кариерниот напредок и добивањето на академско признание.

Во последната деценија, вештачката интелигенција (AI), а особено подполињата како обработката на природен јазик (NLP) и машинското учење, се покажале како моќни алатки за откривање и квантификација на овие системски пристрасности. Преку напредни алгоритми, AI може да анализира огромни корпуси на научни публикации, да ги мапира цитатните мрежи и да идентификува суптилни, но систематски шеми на дискриминација. Покрај дијагноза, AI нуди и решенија како на пример препораки за порамномерно цитирање до алатки за анонимизација во процесот на рецензирање.

Сепак, употребата на AI во оваа област носи и свои предизвици. Алгоритмите самите може да ги репродуцираат постоечките пристрасности ако се тренираат на небалансирани податоци, а етичките прашања околу интервенциите во академската слобода остануваат отворени.

Овој труд има за цел да ја истражи сложената улога на вештачката интелигенција во справувањето со родовата цитатна нееднаквост. Преку анализа на најновите истражувања, студии на случаи и технолошки решенија, ќе ги видиме можностите и ограничувањата на AI во оваа област.

Што претставува цитатната нееднаквост и кои се причините?

Цитатната нееднаквост претставува системска нерамнотежа во распределбата на академски цитати меѓу различни демографски групи, особено меѓу мажите и жените. Оваа појава е документирана низ бројни студии кои покажуваат дека истражувачите, особено жените, доживуваат значително понизок број на цитати во споредба со нивните машки колеги, иако нивните трудови се од ист или повисок научен квалитет.

Во STEM областите (наука, технологија, инженерство и математика), каде што родовите нееднаквости се особено изразени, истражувањата укажуваат на цитатни разлики од 10% до 30% во корист на машките автори. Оваа разлика е уште поизразена кога станува збор за трудови каде прв автор е жената. На пример, студија спроведена во областа на невробиологијата открила дека трудовите со жени како први автори добиваат во просек 13% помалку цитати во споредба со аналогните трудови на машки автори.

Причините за родовата цитатна нееднаквост се сложени и мултидимензионални, но може да се групираат во две главни категории:

1. Несвесна пристрасност:

-Рецензентите и авторите често покажуваат подсвесна тенденција да претпочитаат трудови од машки автори.

-Трудовите на жените почесто се сметаат за “помалку авторитативни” или “помалку фундаментални”.

-Постои т.н. “Матеев ефект” каде што веќе цитираните автори (кои почесто се мажи) добиваат непропорционално повеќе цитати.

-Јазикот што се користи за цитирање на жени често е помалку ентузијастички и помалку поврзан со клучните концепти.

2. Структурни бариери:

-Жените се ретко претставени во високите академски позиции и во уредничките одбори на списанијата.

-Мрежите на соработка каде што се генерираат цитати често се родово хомогени.

-Жените се помалку вклучени во “видливите” форми на академска работа (како што се клучните предавања на конференции).

-Постојат системски пречки за вклучување на жените во големите, високо-цитирани колаборативни проекти.

-Трудовите на жените почесто се фокусираат на теми кои традиционално се сметаат за “женски” и затоа добиваат помалку цитати.

Дополнително, студиите покажуваат дека оваа нееднаквост се зголемува со возраста на кариерата – додека на почетокот на кариерата разликите се помали, тие значително се зголемуваат кај постарите истражувачи. Ова укажува на кумулативен ефект на цитатната нееднаквост низ текот на времето.

Овие фактори заедно создаваат самоподдржувачки циклус каде што помалиот број на цитати дополнително ја ограничува видливоста и влијанието на жените-истражувачи, што пак води до уште помалку цитати во иднина. Разбирањето на овие механизми е клучно за развој на ефективни интервенции за ублажување на овој проблем.

AI како алатка за откривање на оваа нееднаквост и анализа

Современата вештачка интелигенција, особено технологиите за разбирање и обработка на јазикот, многу го променија начинот на кој се истражува цитатната нееднаквост. Овие технологии овозможуваат брзо и точно анализирање на голем број научни трудови.

Идентификација на полот претставува клучен прв чекор во анализата. Современите алгоритми користат повеќе пристапи:

-Анализа на имиња: Специјализирани модели како Genderize.io или авторски библиотеки како sexmachine ја предвидуваат родовата припадност врз основа на статистички модели тренирани на илјадници имиња.

-Афилијациски податоци: Некои системи ги анализираат институциите и земјите на потекло за дополнителни индикатори.

-Јазични шаблони: Напредни NLP модели можат да детектираат суптилни стилски разлики во пишувањето меѓу половите, иако ова е контроверзно поради ризикот од стереотипизирање.

Потоа вториот чекор е мапирање на цитатни мрежи е сложен процес кој вклучува:

 -Екстракција на референци: Алгоритми како GROBID (GeneRation Of BIbliographic Data) автоматски ги извлекуваат цитатите од PDF документи.

-Графови анализа: Специјализирани библиотеки како NetworkX или igraph ги анализираат односите меѓу авторите, откривајќи ја структурата на цитатните мрежи.

-Временски анализи: Машинското учење ги проучува трендовите во цитирањето низ времето, откривајќи како нееднаквостите се менуваат со генерациите.

И на крај се применуваат на AI-алатките

Современиот академски екосистем располага со бројни AI-алатки дизајнирани специјално за анализа на цитатни практики:

OpenAlex претставува сеопфатна, отворена база на податоци која вклучува повеќе од 200 милиони академски трудови. Платформата овозможува интегрирана анализа на научни публикации преку низа напредни функционалности. Особено значајна е можноста за примена на филтри за родова распределба на цитатите, со што се добива увид во присуството и видливоста на различни демографски групи низ академските области. Дополнително, OpenAlex нуди визуелизациски алатки што овозможуваат мапирање на цитатните мрежи, односно увид во тоа како и каде се поврзуваат трудовите и авторите. Благодарение на постојаното ажурирање во реално време, базата ги синхронизира податоците од повеќе извори, обезбедувајќи ажурни и релевантни информации за истражувачите.

Scite.ai е иновативна платформа која користи напредни методи од природна јазична обработка (NLP) за квалитативна анализа на цитатите. За разлика од традиционалните индикатори кои само бројат колку пати е цитиран еден труд, Scite.ai прави разлика помеѓу позитивни, негативни и неутрални цитати, овозможувајќи подлабока проценка на влијанието. Исто така, платформата открива т.н. „семејни цитати“ ,односно оние клучни референци што се повторливо цитирани во рамките на одредена научна област. Дополнително, Scite.ai овозможува препознавање на трендови во начинот на цитирање меѓу различни демографски групи и генерира интелигентни препораки за цитирање, со што придонесува за поголема разновидност и фер застапеност во академските референци.

Овие платформи не само што ја подобруваат транспарентноста и праведноста во академското цитирање, туку и ги поттикнуваат истражувачите да донесуваат поинформирани и свесни одлуки во однос на своите библиографии.

Некои други значајни алатки кои би ги споменала се: Semantic Scholar кој користи длабинско учење за анализа на цитатни влијанија, Dimensions кој нуди интегрални метрики за цитатна нееднаквост и Iris.ai, платформа за откривање на системски пристрасности во цитирањето

Овие алатки не само што ги мерат нееднаквостите, туку и помагаат истите да се решат. На пример, некои платформи препорачуваат трудови на помалку цитирани автори (често жени) кога некој пребарува на одредена тема, со што активно се борат против нееднаквостите.

 Современи истражувања и податоци

Современите истражувања користејќи големи бази на податоци и напредни аналитички методи открија длабински и вознемирувачки трендови во родовата цитатна нееднаквост. Најзначајните студии на кои би им посветила внимание се: истражувањето во 2022 година под наслов „Gender citation gap in neuroscience“ и истражувањето спроведено од MIT (2021) – “Prestige bias in computer science citations”.

Nature (2022) – „Gender citation gap in neuroscience“

Во оваа студија истражувачите анализирале над 1,2 милиони научни трудови од областа на невробиологијата. Резултатите покажале дека трудовите каде што жените се први автори се цитираат во просек 13% поретко од оние каде што првиот автор е маж. Оваа разлика е особено изразена во најпрестижните потполиња, како што е молекуларната невробиологија. Интересен аспект на ова истражување е дека разликата во цитираноста се зголемува со возраста на авторите – кај професорите, на пример, таа достигнува дури 18%. Дополнително, студијата открила и разлика во начинот на кој се цитираат трудовите: трудовите на жените почесто се наведуваат во контекст на методолошки аспекти, додека оние на мажите се поврзуваат со теоретски концепти.

MIT (2021) – “Prestige bias in computer science citations”:

Во ова истражување биле анализирани повеќе од 800.000 научни трудови од областа на компјутерските науки. Истражувањето покажало дека жените имаат 25% помала веројатност да добијат таканаречени „престижни цитати“, односно да бидат цитирани во влијателни и често реферирани трудови. Дополнително, било забележано дека трудовите на жени почесто се цитираат во воведните делови на статиите, додека трудовите на мажи се поврзуваат со клучните методолошки и резултатски делови. Оваа разлика во третманот на цитатите е особено изразена во потполиња како што се вештачката интелигенција и системите. За да го постигнат ова ниво на анализа, истражувачите користеле методи од машинското учење за автоматски да ги класифицираат цитатите според нивната „престижност“.

Специфичности по дисциплини (STEM vs. општествени науки)

PLOS ONE (2020) – “The gender gap in science citations”:

За оваа студија е спроведена мета-анализа на 45 истражувања од различни научни дисциплини. Според резултатите, просечната разлика во цитирањето изнесува 17,5% во корист на мажите. Оваа нееднаквост е најизразена во физичките науки, каде што достигнува 23%, нешто помала е во биолошките науки со 15%, додека најниско ниво има во хуманистичките науки со околу 8%.

PNAS (2019) – “Citation dynamics and gender disparities”:

Тука  се анализирани трендовите во цитирањето со текот на времето. Истражувањето покажало дека разликата меѓу половите не само што постои, туку и се зголемува со времето, како резултат на кумулативен ефект. Исто така, откриено е дека жените имаат помала веројатност да бидат „хиперцитирани“, односно нивните трудови поретко добиваат исклучително голем број цитати.

Овие студии колективно укажуваат на длабоко вкоренет системски проблем кој ги надминува поединечните напори и бара структурални решенија. Интересно е што овие нееднаквости се јавуваат и во земјите со високо ниво на родова еднаквост во општеството, што укажува на специфични механизми во академската култура.

AI-решенија за намалување на нееднаквоста

Современите AI-решенија за справување со родовата цитатна нееднаквост стануваат сè поефикасни и поинтелигентни, овозможувајќи подлабоко разбирање и справување со пристрасностите во академските референци. Најзначајните пристапи можат да се класифицираат во три главни категории.

Првата категорија решенија се интелигентните системи за препорака на цитати се клучни алатки кои користат напредни техники за природна обработка на јазикот. Semantic Scholar, на пример, врши анализа на содржината на научните трудови за да идентификува клучни концепти и нуди прилагодени препораки кои внимаваат на родовата рамнотежа. Системот исто така овозможува визуелизација на цитатни мрежи со филтри според демографија. Слично, платформата Scite.ai користи контекстуална анализа на цитати (дали се позитивни, негативни или неутрални) и предлага алтернативни извори од помалку претставени групи. Покрај тоа, Scite нуди алатки за откривање на историски занемарени пионери во одредени научни области.

Втората категорија вклучува платформи за анонимно рецензирање, кои имаат потенцијал да ја намалат пристрасноста во процесот на научна евалуација. OpenReview овозможува целосно анонимизиран рецензентски процес и користи вештачка интелигенција за детектирање на несвесни пристрасности во рецензиите. Дополнително, обезбедува аналитички алатки за следење на родовата рамнотежа во рецензирањето. Платформата Transparent Review оди чекор понатаму со автоматска проверка за стереотипен јазик и структурни пристрасности, како и генерирање извештаи за распределбата на рецензентите според пол.

Третата група решенија опфаќа иновативни алгоритми и алатки кои активно придонесуваат кон поразновидни библиографии. DiversifyCitation алгоритмите анализираат библиографии и предлагаат алтернативни извори, со мерење на т.н. „индекс на разновидност“. Овие алгоритми се интегрирани во популарни академски алатки како што се Zotero и Mendeley. Од друга страна, GenderBalance алатките автоматски скенираат академски трудови за да ја детектираат родовата распределба на цитираните автори, испраќаат предупредувања за евентуални нееднаквости и нудат конкретни предлози за подобрување на балансот.

Овие решенија веќе покажуваат ветувачки резултати. Првичните студии укажуваат на зголемување на цитирањето на трудови од жени за 15 до 20 проценти, како и подобрување на видливоста на автори од маргинализирани заедници. Дополнително, се забележува и намалување на употребата на стереотипен или пристрасен јазик во научните цитати.

Сепак, остануваат неколку предизвици. Алгоритмите бараат постојано ажурирање за да останат релевантни и ефективни. Постојат и ризици од претерана корекција, што може да доведе до вештачки наметната рамнотежа. На крајот, неопходна е поголема транспарентност во функционирањето на AI-процесите за да се обезбеди доверба во резултатите и нивната етичка примена.

Предизвици и ограничувања на AI пристапите

Иако вештачката интелигенција нуди значителен потенцијал за надминување на цитатните нееднаквости, нејзината примена е придружена со низа предизвици и ограничувања кои мора внимателно да се разгледаат.

Покрај тоа што AI системите се создадени за да помогнат во намалување на нееднаквостите, тие понекогаш можат случајно да ги повторуваат или дури да ги засилат веќе постоечките пристрасности. Главната причина за ова е што овие системи се учат од стари податоци, а тие често содржат неправди кои веќе постојат во општеството. На пример, ако жените истражувачи во минатото биле помалку цитирани, алгоритмот може да мисли дека мажите се поважни и затоа да ги препорачува почесто.

Покрај тоа, AI системите имаат и технички проблеми. Често не можат точно да го одредат полот на авторите, особено ако се работи за небинарни лица или имиња од различни култури. Тешко им е и да разберат што точно значи некој цитат, па може да дадат погрешни заклучоци за тоа колку е важен. Исто така, AI понекогаш ги поедноставува сложените односи во академскиот свет, што може да доведе до препораки кои не ја одразуваат реалната слика.

Би споменала и дека кога се користи вештачка интелигенција (AI) за да се намалат разликите во тоа кој колку се цитира, се појавуваат неколку етички прашања. На пример: дали е во ред алгоритмите намерно да даваат предност на одредени групи луѓе, како што се жените или помалку застапените заедници? Како да се пронајде рамнотежа помеѓу тоа да им се помогне на овие групи, а притоа да не се нарушат принципите на академската заслуга?

Исто така, може да се појави мислење дека некои истражувачи се цитирани не затоа што нивната работа е вредна, туку затоа што алгоритамот „поправил“ нешто.

Важно е и прашањето на транспарентност – треба да се знае како точно работи AI, зошто препорачува одредени автори, и кој е одговорен ако направи грешка. Тоа може да биде програмерот, универзитетот што ја користи алатката или самите корисници.

На подолг рок, ако не се внимава, овие технологии може да создадат нови неправди. На пример, ако премногу се фокусираме само на родовата еднаквост, можеме да заборавиме на други проблеми – како нееднаквост според етничка припадност, географија или економска состојба.

Затоа, мора внимателно да се планира како се развиваат и користат овие AI алатки. Потребни се строги правила, редовна проверка на резултатите, и соработка меѓу експерти од повеќе области. Целта треба да биде фер, етичка и одговорна употреба на технологијата во академијата.

 Заклучок

Родовата цитатна нееднаквост останува еден од најпредизвикувачките проблеми во современата академска сфера. Иако вештачката интелигенција се појави како моќна алатка за откривање и ублажување на овие нееднаквости, нејзината улога треба да се согледа во поширок контекст на системски промени. Технологиите за машинско учење и обработка на природен јазик веќе покажаа впечатливи резултати во идентификувањето на цитатните пристрасности и нудењето објективни решенија. Сепак, важно е да се разбере дека вештачката интелигенција претставува само еден дел од решението. Вистинската промена бара комбинација на технолошки, културни и институционални пристапи.

Од една страна, постои потреба од понапредни и етички дизајнирани алгоритми кои ќе ги избегнуваат постоечките пристрасности. Од друга страна, неопходни се коренити промени во академската култура започнувајќи од обуки за несвесна пристрасност па се до ревизија на критериумите за академско напредување. Целта е не само механичко урамнотежување на статистиките, туку создавање на средина каде што секој научен придонес ќе биде вреднуван според неговата вистинска вредност.

Технологијата на вештачката интелигенција, во комбинација со свесната институционална трансформација и поединечната ангажираност, може да биде клучен фактор во остварувањето на оваа визија. Сепак, патот кон вистинска академска рамноправност останува сложен и бара продолжени напори на сите нивоа.

 Библиографија

  • Larivière, V., et al. (2013), Nature.
  • Dworkin, J. D., et al. (2020). 
  • MIT-студија (2021). Science.
  • Dworkin, J. D., et al. (2020). “The extent and drivers of gender imbalance in neuroscience reference lists”
  • West, J. D., et al. (2013). “The role of gender in scholarly authorship”.