Милко Димоски
Апстракт
Дали алгоритмите се сексистички настроени? Ова прашање често се поставува, но дебатата ретко е заснована на научна анализа. Овој труд има за цел да одговори на ова прашање преку комбинирање и на социјална и на техничка перспектива. Најпрво, дадена е техничка дефиниција на концептот алгоритам, заедно со социјално-ориентирана интерпретација. Понатаму, се споменати релевантни трудови за да се разјасни моменталната состојба и да се истакнат различните перспективи под кои оваа тема е анализирана. Крајно, наведени се препораки со цел минимизирање на родовата пристрасност при дизајнирање и користење на алгоритми.
Вовед
Како што посочуваат некои пионери на машинско учење, еден од главните проблеми на логиката на компјутерските системи е нивната неспособност да направат разлика од информацијата што ја обработуваат, со целосниот контекст[1]. Ова создава потреба за надминување на дихотомијата помеѓу социјалната и техничката перспектива, што го отежнува откривањето на социјалните проблеми, како што е постоењето на пристрасност во развојот на алгоритмите.
Пристрасноста поврзана со алгоритмите се однесува на систематски и повторливи грешки во математичките или компјутерските системи кои резултираат со „неправедни“ излези, кои ставаат привилегија, односно назначување на една или повеќе групи во однос на други. Родовата пристрасност е специфичен вид на пристрасност каде што еден од половите е дискриминиран. Некои автори ја поврзуваат појавата на родова пристрасност со недоволната застапеност на жените во дизајнот и производството на производи и услуги од вештачка интелигенција. Во последните децении, значително се зголемува бројот на апликации базирани на вештачка интелигенција, кои опфаќаат широк спектар на полиња – од генерација на природен јазик до препознавање лица, што дополнително ја засилува загриженоста за постоењето на пристрасност.
На пример, широко распространетата употреба на популарни алгоритми за претставување на зборови (word embedding algorithms), што покажуваат стереотипни пристрасности, вклучувајќи ја и родовата пристрасност, во системите на машинско учење може да ги засили стереотипите во различни контексти. Поради ова, развиени се некои методи за намалување на овој проблем. Примери за методи за евалуација на пристрасноста во текстот се тестот за асоцијација на претставување на зборови (WEAT) и тестот за фактичка асоцијација на претставување на зборови (WEFAT). Овие методи се користат не само за вештачката интелигенција/машинско учење, туку и за други области како психологија, социологија и човекова етика, бидејќи тие ја покажуваат веројатноста дека самото изложување кон секојдневениот јазик, може потоа да биде причина за пристрасностите кои се реплицирани од техниките на машинско учење [2]. Ова ја зајакнува важноста за развој на интердисциплинарна анализа за присуството на пристрасности во алгоритмите што работат со податоци и како тие пристрасности можат да влијаат на донесување на крајни одлуки што не ја претставуваат разновидноста и сложеноста на модерните општества. Исто така, современите технолошки напредоци и обемната употреба на алгоритми отвораат етички прашања, особено оние што произлегуваат од алгоритамско донесување одлуки [3]. Потенцијалните пристрасности во алгоритамските одлуки поттикнале голем број истражувања за ефектите на вештачката интелигенција врз развојот на различните одржливи цели на УНЕСКО. Автори како Цамадос (Tsamados) , Тадео(Taddeo) и Флориди(Floridi)[4] формулираат тврдења како: „алгоритмите не се етички неутрални“.”
Слика 1. Статии индексирани во Scopus за различни термини поврзани со родот.
Овој труд анализира дали алгоритмите, како процеси работат сексистички, преку обезбедување дефиниции за концептот на алгоритам од социјална и техничка перспектива и воведување на концептот на пристрасност во алгоритамски процеси. Дополнително, разгледани се примери на родова пристрасност во апликации кои користат вештачка интелигенција, како процесирање на природен јазик, детекција на говор, детекција на лица, како и методи за откривање и ублажување на истата. Трудот исто така дава предлог за конкретни препораки за минимизирање на родовата пристрасност при дизајнирање и користење на алгоритми.
Останатиот дел од работата е структуриран на следниов начин, секција 2 го дефинира концептот за алгоритми од технички и од социјален аспект преку разгледување на класификација на алгоритми според функцијата, имплементацијата и дизајнот. Секција 3 разгледува различни дефиниции и класификации на пристрасност направена од алгоритми. Секција 4 ги опишува примерите на родова пристрасност во податоците и алгоритмите во поголем спектар на области. Во Секција 5 се опишуваат неколку популарни, различни и целосно достапни бази на податоци кои покажуваат родова пристрасност. Секција 6 прикажува приватни иницијативи и препораки од меѓународни организации за справување со родова пристрасност. Секција 7 нуди илустративен пример на дискриминација предизвикана од пристрасност во податоците и предлага методологија за справување со истата. Крајно, секција 8 прикажува препораки за спречување, идентификување и намалување на родовата пристрасност, додека пак Секција 9 е целосно сумиран заклучок.
Концептот на алгоритам
Оваа секција го обработува концептот на алгоритам, разгледуван и од техничка и од социјална перспектива.
Концепт на алгоритам во науката и инженерството
Алгоритамот е поим со повеќе дефиниции кои варираат според контекстот. Според речникот на Оксфорд , алгоритамот е „множество од правила што треба да се следат при решавање на одреден проблем“. Според речникот на Кембриџ, алгоритмот е ,,множество математички инструкции кои мораат да бидат следени по точен редослед, што потоа, особено ако истите бидат зададени на компјутер, ќе му помогнат да пресмета/открие одговор за даден математички проблем.”
Во моментов, алгоритам е поим кој привлече огромно внимание од техничките специјалисти, општествените научници и пошироката јавност благодарение на унапредувањето на компјутерот во последните децении. Според технички аспект, алгоритмот е систем кој се состои од две компоненти: логичка компонента, која го пропишува знаењето потребно за решавање на проблемот, и контролна компонента, која го дефинира начинот на имплементација на тоа знаење. Покрај тоа, алгоритмите обично се поврзани со влез и излез, кои се однесуваат на податоците на кои се извршува логиката на алгоритамот и резултатите од извршувањето, соодветно прикажано во табелата.
Слика 2. Структура на алгоритам која ги прикажува влезните податоци, логичките и контролните компоненти, и излезот во форма на податоци и модели.
Според [5], дефиницијата за алгоритам е проширена дури и на апстрактни машини и компјутерски модели во областа на компјутерски науки, што отежнува другите области да го разберат вистинското значење на концептот на алгоритам. Технички, неговата логика може да биде интерпретирана различно според контекстот, системот, дизајнот и сè што влијае на него, директно или индиректно. Оваа разновидност во интердисциплинарната примена на алгоритмите го отежнува наоѓањето на стандардна класификација на алгоритми во литературата. Сепак, тие биле главно класифицирани по функција [6], имплементација или дизајн парадигми [7,8].
Многу концепти поврзани со алгоритми се широко користени денес. Меѓу најчестите, се моделите за машинско учење, вештачка интелигенција, длабоко учење и моделите на црна кутија [9]. Вештачката интелигенција е концепт општо разбран како „активноста е насочена кон тоа да ги направи машините интелигентни, а интелигенцијата е тој квалитет што му овозможува на еден ентитет да функционира правилно и да ја предвидува неговата околина“ [10]. Овие алгоритми се широко користени во автоматизираните процеси на одлучување базирани на големи податоци. Во некои случаи, не е јасно зошто одредена одлука е донесена со недостаток на транспарентност и со висок ризик од предрасуди при процесот на алгоритамот, само поради човечките предрасуди и артефакти на податоците кои се скриени за време на процесот на тренинг на податоци. Ова може да доведе кон погрешни и неправедни одлуки [11]. Оваа недоследност во моделите, доведе до развој на под-поле на машинско учење, познато како „праведност“, кое се однесува на проучување на процесите и техниките со цел да се осигура дека предрасудите во податоците и моделите не генерираат неповолни исходи на општествено ниво, т.е. дискриминација врз основа на раса, пол, попреченост, сексуална ориентација, религиозни убедувања или политички убедувања [12].
Концепт на алгоритам во општествените науки
Математиката и инженерството не се единствените области, кои биле заинтересирани за алгоритмите. Еден од трендовите што ги карактеризира сегашните западни општества е зголемената улога на математиката и компјутерските науки како влијателни механизми кои го обликуваат и водат нашето однесување и управувањето со општеството. Ова експертите, вклучувајќи го и Данахер [13], го нарекоа „алгократија“ или управување со алгоритмите. Така, алгоритмите веќе не се автономни математички формули, туку стануваат конципирани и во контекст на нивното општествено влијание.
Од социјална перспектива, алгоритмите се замислени, од нивното значење и моќ, како одредена форма на рационалност, поврзана со општ начин на општествено уредување [14], или директно како култура [15]. Надвор од нивната различност, сите овие пристапи имаат заедничка идеја дека зборувањето за алгоритми не е само да се зборува за технички материјали. Исто така, се јавува потребата за нови дополнителни значења на концептот на алгоритам, врз основа на нивната примена во секојдневието. Алгоритмите не се создадени само во социјален контекст и од одредени општествени групи, кои одговараат на одредени интереси, туку тие често постојат и дејствуваат и во општествената реалност, во контекст на процеси на обиди и грешки, интеракции, соработка, дискусија и преговарање. Сите овие акции покажуваат заедничка социјална и културна позадина. Оттука, ако ги сметаме како израз на чист ментален напор (т.е. како процес на апстракција), тоа може да значи претерано поедноставување на реалноста.
Додека општествениот научник обично не може целосно да ги разбере математичките детали во алгоритамот, компјутерскиот научник можеби не е секогаш целосно свесен за општествениот и културниот контекст во кој ќе се имплементира алгоритамот. Овие разлики создаваат бариери во начинот на кој двете заедници комуницираат една со друга. Со цел да се воспостави заедничка основа помеѓу овие заедници, овој труд ја збогатува техничката дефиниција на алгоритам со социјална. Притоа, овој труд нуди широк поглед на концептот на алгоритам кој оди подалеку од идејата за автономен математички ентитет за да се смета за сложен социо-технички систем. Во рамките на оваа заедничка перспектива, концептот на „алгоритамска култура“ се раѓа како концепт кој ги опфаќа алгоритмите истовремено и како компјутерска технологија и како формативни алатки за општествениот домен. За да се разбере како алгоритмите, општеството и културата се испреплетени, Draude et al. [1] идентификуваат две преклопувачки, но различни нивоа на заплеткување. Прво, нивото на социјални нееднаквости кои се репродуцираат со комбинирање на практична цел и автоматско одлучување. Второ, нивото на културна работа на алгоритмите во сортирањето и рангирањето. Слика 3 претставува посоцијален поглед кон концептот на алгоритам, кој ја нагласува важноста на техничките и социјалните аспекти во нивниот спој, претпоставувајќи дека двата аспекта се артикулирани на ко-конститутивен начин.
Општествените науки ги разгледуваат алгоритмите не само како математички формули, туку и како механизми што влијаат врз однесувањето и управувањето со општеството. Оваа перспектива подразбира дека алгоритмите често ја рефлектираат културната и социјалната позадина на нивните дизајнери, што може да доведе до репродукција на социјалните нееднаквости.
Слика 3. Социо-техничка дефиниција на концептот на алгоритам.
Општествените науки се насочија кон алгоритмите поради големата грижа дека алгоритмите веројатно ќе произведат и репродуцираат социјални нееднаквости. Социо-техничката перспектива е јасна во овој поглед: алгоритмите и нивните ефекти се контекстуализирани во човечкиот свет [1]. Врз основа на ова, алгоритмите треба да се поделат не според тоа што „се“, туку според она што „прават“. Така, ако ги гледаме алгоритмите како социо-технички системи, тоа подразбира и постоење на пристрасност во информациските системи, особено во податоците што се искористени за тренинг на алгоритмите. Оваа социјална перспектива има за цел да го анализира можното постоење на фактори на дискриминација во податочно-алгоритамскиот процес. Како што е наведено од Wellner и Rothman [16], алгоритам за вештачка интелигенција веројатно ќе се смета за неутрален, а можните пристрасности обично се поврзани со базата на податоци користена при делот на тренирање на моделот. Понатаму, во зависност од механизмот кој се користи за повратни информации, пристрасните резултати може да се користат како нови влезови, со што се продлабочува пристрасноста. Социјалната перспектива повикува на технолошка револуција, во која машинското учење не само што ќе го „учи“ алгоритамот да идентификува објект и да го класифицира, туку и ќе го „едуцира“ да рефлектира на одредени општествени вредности [17]. Како што наведуваат и Велнер и Ротман [26], предизвикот за „едуцирање“ еден алгоритам да идентификува родова пристрасност е аналоген на оној при тренингот алгоритамот да биде етички или праведен. Улогата и важноста на корисниците се зголемува кога ќе се разбере дека правичноста не е лесно дефиниран параметар за воведување во даден систем. Таа е комплексна процес и се менува со текот на времето и местото, но корисниците на системот понекогаш можат да ја откријат поефикасно од програмерите. Затоа, програмерите мора да дизајнираат системи каде одредена пристрасност може лесно да биде пријавена од страна на корисниците.
Податочно-алгоритамска пристрасност: дефиниции и класификации
Пристрасноста е концепт кој се користи во статистиката и машинското учење за да се наведат претпоставките направени од специфичен модел [18]. Гледањето на алгоритмите како социо-технички системи, сепак, подразбира пошироко разбирање на пристрасноста во информациските системи. Според Фридман и Нисенбаум [19], системот е пристрасен, ако неправедно дискриминира или негира можност или доделува непожелен исход на поединец. Во истата насока, Нтуци и сор. [20] ја дефинираат пристрасноста како склоност или предрасуда на одлука донесена од систем на вештачка интелигенција која е во корист или против, поединец или група, особено на начин кој се смета за нефер. Наоѓаме општа согласност во научната литература кога станува збор за дефинирање на компјутерските предрасуди врз основа на неправдите што тие веројатно ќе ги генерираат. И покрај ова, ниту неправедната дискриминација сама по себе не предизвикува пристрасност освен ако не се појави систематски, ниту систематската дискриминација генерира пристрасност освен ако не е придружена со неправеден исход [19]. Бидејќи вештачката интелигенција во голема мера се потпира на податоци генерирани од луѓе или собрани преку системи создадени од човекот, воопшто не е чудно што било каква пристрасност што постои кај луѓето се рефлектира и во нашите системи. Бидејќи алгоритмите се дел од постојните пристрасни институции и структури, тие се подложни на создавање и засилување на овие предрасуди преку фаворизирање на оние феномени и аспекти на човековото однесување кои се лесно мерливи во однос на оние што е тешко или дури и невозможно да се измерат [20].
Фридман и Нисенбаум [19] беа меѓу првите кои направија класификација на видовите на предрасуди поврзани со алгоритмите од социо-техничка перспектива. Нивната анализа беше заснована на анализа на седумнаесет компјутерски системи од различни области, вклучувајќи банкарство, трговија, компјутерски науки, образование, медицина и право. Овие автори категоризираат три типа на предрасуди во нивната работа. Првата е веќе постоечката пристрасност, т.е., кога компјутерските системи вклучуваат предрасуди кои постојат независно од создавањето на системот. Вториот тип на пристрасност е техничката пристрасност. За разлика од претходно постоечката пристрасност, техничката пристрасност произлегува од решавањето проблеми во техничкиот дизајн. Техничката пристрасност може да се идентификува во компјутерските алатки, во деконтекстуализацијата на алгоритмите, во генерирањето на псевдо-случајни броеви или во формализирањето на човечките конструкции. Крајно, третиот тип на пристрасност е појавната пристрасност, која се јавува само во контекст на употреба, обично некое време по завршувањето на дизајнот, како резултат на промените во општественото знаење, населението или културните вредности. Појавата на пристрасност може да биде предизвикана од ново знаење во општеството кое не може да се вклучи во дизајнот на системот. Исто така, може да биде пристрасност што се јавува кога популацијата што го користи системот се разликува по некоја значајна димензија од популацијата што се претпоставувала како пример за корисници во фазата на дизајнирање.
Мехраби и неговите соработници [21] претставуваат класификација која значително ги проширува границите на овие типови на пристрасност. Овој труд нуди особено комплетна и ажурирана дефиниција за пристрасноста што влијае на апликациите кои користат вештачка интелигенција. Сепак, главниот придонес е класификација на предрасудите надвор од различните фази на алгоритамскиот процес во кој тие спаѓаат, т.е во податоците, во креирањето на алгоритмите или во интеракцијата со корисниците. Овие автори ги анализираат предрасудите во машинското учење од феноменот на јамката за повратни информации. Оваа повратна јамка претставува ситуација во која веќе тренираниот машински модел донесува одлуки кои даваат резултати, а истите тие резултати влијаат на идните податоци што треба да се собираат за следните рунди или модели за тренинг. Агрегациската пристрасност се јавува кога се донесуваат лажни заклучоци за една подгрупа врз основа на набљудување на друга или, генерално гледано, кога лажните претпоставки за популацијата влијаат на целосниот исход и дефиниција на моделот. Временската пристрасност произлегува од разликите помеѓу популациите и однесувањата со текот на времето [22]. Слично на тоа, социјалната пристрасност се јавува кога туѓите дејствија или содржината што доаѓа од нив влијае на нашата одлука[23]. Од алгоритми до интеракција со корисниците, Мехраби и сор. [21] лоцираат четири други предрасуди: (i) пристрасност на популарноста , или прекумерна изложеност на најпопуларните статии [24,25]; (ii) пристрасност во рангирањето, односно идејата дека најдобро рангираните резултати се најрелевантни и најважни; (iii) пристрасност за евалуација, која вклучува употреба на несоодветни и непропорционални мерила за евалуација на апликациите; и (iv) појавната пристрасност, која се јавува како резултат на промена на населението, културните вредности или општественото знаење, обично некое време по завршувањето на дизајнот [19]. Како што може да се види, оваа последна категоризација ги опфаќа и ги проширува претходните класификации. Згора на тоа, оди уште еден чекор понатаму со илустрација на податочно-алгоритамскиот процес како повратна јамка составена од: (i) алгоритам; (ii) податоците кои го потхрануваат алгоритмот; и (iii) интеракцијата со корисникот што е под влијание на исходот на алгоритмот.
Примери за родова пристрасност
Овој дел ги разгледува научните трудови каде се обработени примероци на дата алгоритамски процеси со родови предрасуди. Структуриран е во четири потсекции кои ги опишуваат апликациите со обработка и генерирање на природен јазик, препознавање говор, управување со одлуки и препознавање лица.
Обработка и генерирање на природен јазик
Повеќето од истражувањата кои ги разгледуваат родовите предрасуди во вештачката интелигенција и алгоритмите се спроведени во областа на пресметковната лингвистика. Целта е да се избегнат предрасуди при фазата на тренинг на оние алгоритми вклучени во развојот на гласовни асистенти.
Родовата пристрасност е изложена во повеќе делови на системот за обработка на природен јазик, односно самите податоци користени за тренинг, ресурсите, пред-обучени модели (како на пример, вградување зборови) и самите алгоритми. Еден од првите трудови каде се посочија родовите стереотипи во обработката на природен јазик е трудот од [26] на Word2Vec. За овие автори, слепата примена на машинското учење влијае кон засилување на предрасудите кои се веќе присутни во податоците. Таквиот ризик не конфронтира со вградувањето зборови, што е популарна рамка за претставување на текстуални податоци како вектори што се користела во многу модели за машинско учење и обработка на природни јазици. Од тука, тие ја опишуваат родовата пристрасност како врска помеѓу тоа колку еден родово неутрален збор е поврзан со родови концепти и како тој збор е оценет според пристрасност од страна на анкетирани учесници. Во нивното истражување, тие идентификуваат проблематични стереотипни претставувања на мажите и жените. Референца [2] го усвојува основниот концепт на тестот за имплицитна асоцијација (IAT), кој се користи во психологијата за мерење на пристрасноста во процесот на вгнездување на зборови. Авторите во нивниот труд потврдуваат дека постојат родови пристрасности откриени преку IAT тестот во алатките за вгнездување на зборови како GloVe и Word2Vec, при што се истакнува стереотипната асоцијација на машкоста со науките и женственоста со уметностите. Претходните истражувања покажуваат дека моделите за вгнездување зборови учат од големи онлајн текстуални корпуси, при што присуството на родови пристрасности во тие модели може да го одразува постоењето на длабоко вкоренети пристрасности во општеството.
Препознавање говор
Препознавањето говор е уште една форма на вештачка интелигенција каде постои голема веројатност за појава на родова пристрасност. Татман [27] ја оценува точноста на преводите автоматски генерирани од YouTube во два пола и пет дијалекти на англиски јазик. Дијалектот и полот на говорителите биле контролирани со помош на видеа поставени како дел од „предизвикот за откривање на акцент“, каде што говорниците експлицитно го идентификуваат нивното јазично потекло. Резултатите покажуваат големи разлики во прецизноста и на полот и на дијалектот, со помала точност за женските и шкотските говорници. Според ова истражување, овие разлики постојат поради начинот на кој е структурирана анализата на податоци, базите на податоци и методите за машинско учење. Слично на начинот на кој камерите се приспособуваат при фотографирање бели лица, така и аудио анализата се бори со анализирањето на гласови со повисок тон. Основната причина може да биде тоа што базите на податоци имаат многу податоци за бели мажи и помалку податоци за женски и малцински гласови. Татман и Кастен [28] ја споредуваат точноста на два системи за автоматско препознавање говор (ASR), односно Бинг говорот и автоматските натписи на YouTube, според полот, расата и четирите дијалекти на американски англиски јазик. Според нивните резултати, постои неточност на ASR системите во справувањето со социо-лингвистичките варијации.
Управување со одлуки
Во денешно време, сè повеќе одлуки за заеми, грантови или студиски апликации се делумно автоматизирани врз основа на модели кои се потпираат на историски податоци. Различни студии го докажаа постоењето на предрасуди. Според Дастин [29], добро позната алатка за вработување повеќе ги претпочитала машките кандидати отколку женските кандидати. Слично на тоа, некои услуги за земање кредит се чинело дека нудат помали кредити за жените во споредба со мажите. Сосема е можно податочно-алгоритамските процеси да прават дискриминација по пол дури и кога се програмирани да бидат „слепи“ за таа променлива. Исто како и во првиот даден пример, иако алгоритамот е ,,слеп’’, тој може да стане пристрасен против одреден пол ако се насочува кон влезови (податоци) кои корелираат со оваа променлива.
Препознавање лица
Многу од алгоритмите што се користат во апликациите за препознавање слики или глас се засновани на родови стереотипи. Додека пак овие, се потпираат на физичкиот изглед на луѓето од кои би требало да бидат користени. Оттука, податочно-алгоритамскиот процес може да репродуцира лажни верувања за тоа какви треба да бидат физичките атрибути што ги дефинираат луѓето, гледајќи го нивниот биолошки пол, етничкото или културното потекло или сексуалната ориентација. Многупати, доминантниот културен модел одговара на бел маж кој припаѓа на богата група. Слична критика се среќава во повеќето трудови посветени на оваа тема [30]. Оттука, Буоламвини и Гебру [31] тврдат дека повеќето предрасуди во апликациите кои користат препознавање лица првично се наоѓаат во базите на податоци. Според овие автори, најчесто користените бази на податоци за бенчмарк тестови се главно мажи (77%) и од кавкаско потекло (помеѓу 79% и 86% се бели лица). Поради оваа причина, тие ги класифицираат белите мажи подобри од жените или од луѓето од друга етничка припадност, што може да генерира и родова и расна пристрасност.
Иницијативи за решавање на родовата пристрасност
Овој дел опишува неколку неодамнешни, релевантни и репрезентативни приватни иницијативи за решавање на родовата пристрасност, како и сродни препораки на меѓународните организации.
Приватни иницијативи
,,Google translate” најави родово-специфични преводи во 2018 година. Оваа функција обезбедува опции за преводи и од женски и од машки род кога се преведуваат прашања кои се родово неутрални на изворниот јазик. IBM во 2018 година ја претстави ,,AI Fairness 360”, екстензивна библиотека со отворен код со техники развиени од истражувачката заедница со цел да се помогне во откривањето и ублажувањето на пристрасноста во моделите за машинско учење во текот на животниот циклус на апликацијата за вештачка интелигенција. Пакетот вклучува збир на метрики за множества на податоци и модели за тестирање на предрасуди, објаснувања за овие метрики и алгоритми за ублажување на пристрасноста во множествата на податоци и моделите. Сега библиотеката е достапна и во ,,Python” и во ,,Facebook”. Неодамна, Google објави ,,ML fairness-gym”, односно збир на компоненти за градење симулации кои ги истражуваат потенцијалните долгорочни влијанија при објавувањето на системи со машинско учење коишто се засновани на одлучување во социјалните средини. На овој начин, тие овозможуваат проучување на ефектите на правичноста на долг рок [32]. Овие алатки се споделени на ,,GitHub” и работат со ,,Python 3”.
Меѓународни организации
УНЕСКО ја забележува потребата за вештачка интелигенција фокусирана на човекот, истакнува дека вештачката интелигенција придонесува за проширување на постоечките родови јазови (особено, родовите предрасуди и стереотипите се репродуцираат бидејќи жените се недоволно застапени во индустријата) и во моментов го елаборира првиот глобален стандард, односно поставување инструмент за етиката на вештачката интелигенција во форма на препорака (Достапно онлајн: https://en.unesco.org/artificial Intelligence/ethics, пристапено на 19 јули 2022 година). Прелиминарната студија за етиката на вештачка интелигенција ја дефинира „инклузивноста“ како генерички принцип за развој, имплементација и употреба на вештачката интелигенција: „Вештачката интелигенција треба да биде инклузивна, со цел да се избегне пристрасност и да се дозволи различност и да се избегне нов дигитален јаз“. Слично на тоа, препораката на Советот на Европа за влијанијата врз човековите права на алгоритамските системи предлага збир на насоки за актери од јавниот и приватниот сектор (Достапно на интернет: https://search.coe.int/cm, пристапено на 19 јули 2022 г. ). Советот препорачува претпазлив пристап за следење на социо-техничкиот развој за заштита на човековите права. Истакнува дека множествата на податоци често содржат пристрасност и може да стојат како замена за класификатори како што се пол, раса, религија, политичко мислење или социјално потекло, при што укажува на важноста од зајакнување на јавната свест. Слично, советот на организацијата за економска соработка и развој за вештачка интелигенција обезбедува збир на меѓународно договорени принципи и препораки. Препораките за креаторите на политиките вклучуваат: инвестирање во истражување и развој на вештачката интелигенција, поттикнување на дигитален екосистем за вештачка интелигенција, обезбедување на поволна политичка средина за вештачка интелигенција, градење човечки капацитети и подготовка за транзиција на пазарот на трудот и меѓународна соработка за доверлива вештачка интелигенција. Принципите засновани на вредности се: инклузивен раст, одржлив развој и благосостојба, вредности и праведност насочени кон човекот, транспарентност и објаснување, робусност, безбедност и одговорност.
Препораки за спречување, идентификување и ублажување на родовата пристрасност
За важноста на етиката во алгоритамските процеси се истражува и дискутира веќе долго време. Сепак, темата за интегрирање на родовата димензија во податочно-алгоритамските процеси добива се повеќе внимание бидејќи бројот на апликации со вештачка интелигенција расте експоненцијално, при што се идентификуваат се повеќе релевантни примери за родова пристрасност. Дополнително, податочните множества за тренинг не секогаш содржат репрезентативна јавна демографија. Ова ја ограничува интеграцијата на ранливите групи и ги засилува родовите предрасуди. Со цел да се придонесе за намалување на родовата пристрасност, прикажана е листа на препораки за практичарите на вештачка интелигенција. Препораките се класифицирани во 3 категории, во зависност од тоа дали имаат за цел да ја спречат, идентификуваат или ублажат родовата пристрасност.
А)Спречување на родова пристрасност: (i) да се конфигурира разумна застапеност на двата пола меѓу секоја категорија експерти кои работат во дизајнот, имплементацијата, валидацијата и документацијата на алгоритмите; (ii) да се постави разумна родова дистрибуција меѓу секоја категорија експерти кои работат во вадење/собирање, претходна обработка и анализа на податоците; (iii) да се вклучи најмалку еден експерт за податочно-алгоритамска пристрасност во групата; и (iv) да се обучи целиот персонал (машки/женски/не/би) за родова пристрасност (со користење на пристапи за спречување, избегнување, откривање и коригирање).
Б)Идентификување на родова пристрасност: (i) да се биде транспарентен во однос на составот на работната група (родова дистрибуција и експертиза во етиката и податочно-алгоритамската пристрасност), имплементираните стратегии за ублажување на пристрасноста и да се биде транспарентен во резултатите од тестовите спроведени за откривање потенцијална пристрасност; (ii) да се проценат и објават ограничувањата во однос на родовата пристрасност; (iii) да се подобри интерпретабилноста на моделите на „црната кутија“; и (iv) периодично да се анализира употребата и резултатите од употребените алгоритми.
В)Ублажување на родовата пристрасност: (i) да се избегнува повторна употреба на податоци и претходно обучени модели со родова пристрасност што не може да се коригира; (ii) да се применуваат методи за добивање на балансирана база на податоци доколку е потребно [33], како и методи за мерење на нивоата на присутност посебно за секој пол; (iii) да се проценат различни мерки засновани на правичност за да избере кои од нив се најсоодветни во одреден случај; (iv) да се тестираат различни алгоритми (и конфигурации на параметри) за да се открие најдобриот; (v) да се модифицира базата на податоци за да се ублажи родовата пристрасност; (vi) да се документираат и зачуваат сите претходните случаеви каде била откриена пристрасност во базата на податоци, но и како истата била решена (како што беше коментирано претходно, родовата пристрасност има тенденција да се повторува во некои специфични полиња); и (vii) да се имплементираат пристапи за отстранување на несаканите карактеристики поврзани со полот во моделите за длабоко учење.
Заклучок
Алгоритмите стануваат сè повеќе употребувани за донесување одлуки со високи влогови во широк опсег на полиња (од финансиски заеми до прием на универзитети или практики за вработување). Дополнително, во сè поголем број компании и влади се воспоставува култура водена од податоци. Како што расте бројот на апликации за вештачка интелигенција, како и нивните способности и релевантност, важно е да се проценат потенцијалните алгоритамски предрасуди на податоци. Иако ова не е нов концепт, има многу апликации за вештачка интелигенција каде овој концепт сеуште не е разработен, поради што се игнорираат потенцијалните последици. Од сите видови на пристрасности во алгоритамските процеси, овој труд се фокусира на родовата пристрасност. Беа прикажани примери за родова пристрасност во различни области на вештачката интелигенција (обработка на природен јазик, препознавање лица и процеси на управување со одлуки, како што е регрутирање, меѓу другото). Некои од главните извори на оваа пристрасност се недоволната застапеност на жените во дизајнот и развојот на производи и услуги за вештачка интелигенција, како и употребата на множества на податоци со родова пристрасност [34,35]. Ова веројатно би се намалило со вклучување на статистичари во тимовите за развој на вештачката интелигенција, бидејќи овие експерти можат да помогнат да се избегне користење на пристрасни множества на податоци за време на процесот на тренинг на алгоритмите. Исто така, беа разгледани некои научни трудови кои успеале да го решат проблемот со овој тип на пристрасност и беа посочени некои приватни иницијативи со примена на специфични апликации. Крајно, прикажана е листа на општи препораки кои можат да се користат при креирање на модели со вештачка интелигенција.
Развојот и употребата на апликации за вештачка интелигенција се зголемува кај компании од широк опсег на области. Оттука, од витално значење е да се открие и да се ублажи родовата пристрасност во податочните алгоритамски процеси, што може да има огромни влијанија врз општеството. Изворите на родова пристрасност, како и особеностите на секој тип алгоритам и база на податоци, го прават отстранувањето на пристрасноста особено тежок предизвик. Поради тешкотијата за решавање на ова прашање и потенцијалните влијанија што може да ги има, станува неопходно усвојување на интердисциплинарен пристап, како и тесна соработка меѓу компаниите и владите.
Референци
1. Draude, C.; Klumbyte, G.; Lücking, P.; Treusch, P. Situated algorithms: A sociotechnical systemic approach to bias. Online Inf.
Rev. 2019, 44, 325–342. [CrossRef]
2. Caliskan, A.; Bryson, J.J.; Narayanan, A. Semantics derived automatically from language corpora contain human-like biases.
Science 2017, 356, 183–186. [CrossRef]
3. Mittelstadt, B.D.; Allo, P.; Taddeo, M.;Wachter, S.; Floridi, L. The ethics of algorithms: Mapping the debate. Big Data Soc. 2016,
3, 1–21. [CrossRef]
4. Taddeo, M.; Floridi, L. The debate on the moral responsibilities of online service providers. Sci. Eng. Ethics 2016, 22, 1575–1603.
[CrossRef]
5. Moschovakis, Y.N. What is an Algorithm? In Mathematics Unlimited—2001 and beyond; Springer: Berlin/Heidelberg, Germany,
2001; pp. 919–936.
6. Sedgewick, R.;Wayne, K. Algorithms; Addison-Wesley Professional: Boston, MA, USA, 2011.
7. Brassard, G.; Bratley, P. Fundamentals of Algorithmics; Prentice-Hall, Inc.: Englewood Cliffs, NJ, USA, 1996.
8. Skiena, S.S. The Algorithm Design Manual; Springer International Publishing: Berlin/Heidelberg, Germany, 2020.
9. Mohri, M.; Rostamizadeh, A.; Talwalkar, A. Foundations of Machine Learning; MIT Press: Cambridge, MA, USA, 2018.
10. Nilsson, N.J. The Quest for Artificial Intelligence; Cambridge University Press: Cambridge, UK, 2009.
11. Pedreschi, D.; Giannotti, F.; Guidotti, R.; Monreale, A.; Ruggieri, S.; Turini, F. Meaningful explanations of black box AI decision
systems. In Proceedings of the AAAI Conference on Artificial Intelligence, Honolulu, HI, USA, 27 January–1 February 2019;
pp. 9780–9784.
12. Oneto, L.; Chiappa, S. Fairness in machine learning. In Recent Trends Learn from Data; Springer: Cham, Switzerland, 2020;
pp. 155–196.
13. Danaher, J.; Hogan, M.J.; Noone, C.; Kennedy, R.; Behan, A.; De Paor, A.; Felzmann, H.; Haklay, M.; Khoo, S.M.; Morison, J.;
et al. Algorithmic governance: Developing a research agenda through the power of collective intelligence. Big Data Soc. 2017,
4, 2053951717726554. [CrossRef]
14. Beer, D. Power through the algorithm? Participatory web cultures and the technological unconscious. New Media Soc. 2009,
11, 985–1002.
15. Seaver, N. Algorithms as culture: Some tactics for the ethnography of algorithmic systems. Big Data Soc. 2017, 4, 2053951717738104.
16. Wellner, G.; Rothman, T. Feminist AI: Can we expect our AI systems to become feminist? Philos. Technol. 2020, 33, 191–205.
17. Ihde, D. Technosystem: The Social Life of Reason by Andrew Feenberg. Technol. Cult. 2018, 59, 506–508. [CrossRef]
18. Mitchell, T.M. Machine Learning; McGraw-Hill: New York, NY, USA, 1997.
19. Friedman, B.; Nissenbaum, H. Bias in computer systems. ACM Trans. Inf. Syst. (TOIS) 1996, 14, 330–347.
20. Ntoutsi, E.; Fafalios, P.; Gadiraju, U.; Iosifidis, V.; Nejdl, W.; Vidal, M.E.; Ruggieri, S.; Turini, F.; Papadopoulos, S.; Krasanakis, E.;
et al. Bias in data-driven artificial intelligence systems—An introductory survey. Wiley Interdiscip. Rev. Data Min. Knowl. Discov.
2020, 10, e1356.
21. Mehrabi, N.; Morstatter, F.; Saxena, N.; Lerman, K.; Galstyan, A. A survey on bias and fairness in machine learning. ACM Comput.
Surv. (CSUR) 2021, 54, 1–35.
22. Olteanu, A.; Castillo, C.; Diaz, F.; Kıcıman, E. Social data: Biases, methodological pitfalls, and ethical boundaries. Front. Big Data
2019, 2, 13.
23. Baeza-Yates, R. Bias on the web. Commun. ACM 2018, 61, 54–61.
24. Introna, L.; Nissenbaum, H. Defining the web: The politics of search engines. Computer 2000, 33, 54–62.
25. Prates, M.O.; Avelar, P.H.; Lamb, L.C. Assessing gender bias in machine translation: A case study with Google translate. Neural.
Comput. Appl. 2020, 32, 6363–6381.
26. Bolukbasi, T.; Chang, K.W.; Zou, J.Y.; Saligrama, V.; Kalai, A.T. Man is to computer programmer as woman is to homemaker?
Debiasing word embeddings. Adv. Neural Inf. Process. Syst. 2016, 29, 4349–4357.
27. Tatman, R. Gender and dialect bias in YouTube’s automatic captions. In Proceedings of the First ACLWorkshop on Ethics in
Natural Language Processing, Valencia, Spain, 4 April 2017; pp. 53–59.
28. Tatman, R.; Kasten, C. Effects of Talker Dialect, Gender & Race on Accuracy of Bing Speech and YouTube Automatic Captions. In
Proceedings of the Interspeech, Stockholm, Sweden, 20–24 August 2017; pp. 934–938.
29. Dastin, J. Amazon scraps secret AI recruiting tool that showed bias against women. In Ethics of Data and Analytics; Auerbach
Publications: Boca Raton, FL, USA, 2018; pp. 296–299.
30. Ensmenger, N. Beards, sandals, and other signs of rugged individualism: Masculine culture within the computing professions.
Osiris 2015, 30, 38–65.
31. Buolamwini, J.; Gebru, T. Gender shades: Intersectional accuracy disparities in commercial gender classification. In Proceedings
of the Conference on Fairness, Accountability and Transparency, New York, NY, USA, 23–24 February 2018; pp. 77–91.
32. D’Amour, A.; Srinivasan, H.; Atwood, J.; Baljekar, P.; Sculley, D.; Halpern, Y. Fairness is Not Static: Deeper Understanding of
Long Term Fairness via Simulation Studies. In Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency,
Barcelona, Spain, 27–30 January 2020; pp. 525–534.
33. Kaur, H.; Pannu, H.S.; Malhi, A.K. A systematic review on imbalanced data challenges in machine learning: Applications and
solutions. ACM Comput. Surv. (CSUR) 2019, 52, 1–36.
34. Panteli, N.; Urquhart, C. Job crafting for female contractors in a male-dominated profession. New Technol. Work. Employ. 2022,
37, 102–123. [CrossRef]
35. Tiainen, T.; Berki, E. The re-production process of gender bias: A case of ICT professors through recruitment in a gender-neutral
country. Stud. High. Educ. 2019, 44, 170–184.