Ez a szerkezet elolvasott 3,5 millió könyvet aztán elmondta mit gondol a férfiakról és a nőkről


2019.10.03 11:03

90.9 Jazzy Radio on 2019. 10. 03

A gép 3,5 millió könyvet elemzett, hogy arra a következtetésre jusson: a tulajdonságok, amiket nőkhöz kötünk a külső megjelenést írják körül, míg a szavak, amik a viselkedésre utalnak a férfiakat jellemzik.

Fotó: REUTERS/Mariana Bazo

“Gyönyörű” és “szexi” kifejezések a két leggyakrabban használt melléknév, amellyel nőket szoktak illetni. Eközben a férfiakra leginkább használt kifejezések között a “tisztességes”, a “racionális” és a “bátor” szavak szerepelnek.

Kutatók hihetetlen mennyiségű könyvet bogarásztak végig annak érdekében, hogy megkapják a választ arra az égető kérdésre, hogy van-e különbség a nőket és a férfiakat jellemző melléknevek között az irodalomban. Egy új számítógép modell segítségével a kutatók képesek voltak egy 3,5 millió könyvből álló adathalmazt végignézni. Az összes vizsgált könyv angol nyelven íródott 1900 és 2008 között. Az adatbázisnak mind a fikciók, mind a valóságos történetek is részei voltak.

Fotó: Koppenhágai Egyetem

“Tisztán kirajzolódik, hogy a nők jellemzésére használt szavak sokkal inkább utalnak a megjelenésre, mint a férfiakra használtak. Ezért nem csak megerősíteni tudjuk ezt az elterjedt felfogást, hanem most már statisztikailag is alá tudjuk támasztani.” – állítja az informatikus Isabelle Augenstein, a Koppenhágai Egyetem számítástechnikai osztályának adjunktusa.

A kutatók mellékneveket és igéket állítottak párba olyan gender-specifikus főnevekkel, mint a “kislány” és a “stewardess”. Például olyan kombinációk születtek, mint a “szexi stewardess” vagy a “csacsogó csajok”. Ezután azt nézték meg, hogy a szavak pozitív, negatív vagy semleges érzést közvetítenek és ez alapján különböző kategóriákba sorolták őket, mint a “viselkedés”, “alak”, “érzés” és “elme”.

 

11 milliárd szó

A kutatás kimutatja, hogy az alakkal és a megjelenéssel összekapcsolt negatív igék ötször olyan sokszor jelennek meg nőknél, mint férfiaknál. Az elemzés azt is megmutatja, hogy az alakkal és a megjelenéssel kapcsolatba hozott pozitív és semleges melléknevek körülbelül kétszer olyan gyakran fordulnak elő női jellemzésekben, mint a férfiakéban. A férfiak jellemzésében sokkal inkább viselkedésre és személyes képességekre utaló melléknevek fordulnak elő.

Régebben a nyelvészek a nemekkel kapcsolatos előítéletek megjelenésének gyakoriságát vizsgálták, de kisebb adatbázissal. Ma már informatikusok olyan algoritmusokat tudnak telepíteni, amelyek óriási adatmennyiséget tudnak elemezni – ebben az esetben 11 milliárd szót.

Azok a könyvek, amelyek több évtizeddel ezelőtt jelentek meg is fontos szerepet játszanak – emeli ki Augenstein. Különböző emberi nyelvet értő gépezetek és applikációk létrehozására használt algoritmusok olyan adathalmazból állnak, amelyek szöveges formában online is elérhetőek. Ez az a technológia, ami képessé teszi okostelefonjainkat arra, hogy felismerjék a hangunkat, és lehetővé teszi azt, hogy a Google kulcsszavakat feldobva segítse keresésünket.

 

Miért számítanak annyira a melléknevek?

“Az algoritmusok azon dolgoznak, hogy felfedezzenek mintákat, és amikor megtaláltak egyet, akkor azt az algoritmusok “igaznak” érzékelik. Ha ezen minták bármelyike előítéletességre utal, akkor az eredmény is előítéletes lesz. A rendszer befogad új információt és alkalmazza is azt, így az emberi nyelvet használni tudja a nemi sztereotípiákat és az előítéleteket figyelembe véve.” – fogalmaz Augenstein. Ad egy példát arra is, hogy ez mikor lehet fontos: “Ha a nyelv amit a férfiak és a nők jellemzésére használunk eltér a munkavállalói ajánlásokban, például ahol a vállalatok informatikai rendszert alkalmaznak, ott az, hogy ki kapja a munkát befolyásolva lesz.”

Augenstein folyatja: “Meg kell próbálni ezt figyelembe venni új modellek készítése során – ezt vagy úgy tehetjük meg, hogy kevesebb előítéletekkel teli szöveget használunk, vagy arra késztetjük a gépet, hogy ne vegye figyelembe, esetleg ellensúlyozza az előítéleteket. Mindhárom lehetőség lehetséges.”

A kutatók kimondják, hogy az elemzési folyamatnak vannak határai. Többek között a rendszer nem tudja figyelembe venni az előítéletek és a korszakok összefüggéseit és azt sem, hogy melyik író tollából származnak a szavak. Továbbá nem tesz különbséget műfajok között (például romantikus novellák és valóságos történetek között). A kutatók jelenleg is dolgoznak a rendszer tökéletesítésén.

 

FORRÁS