Kaip „Big Data“ keičia Amerikos kasdienį gyvenimą?

„Didžiųjų duomenų“ idėja tapo visur paplitusi, bet kas tai yra ir kaip ji keičia mūsų gyvenimo būdą? Susėdome su duomenų žinove, Harvardo mokslų daktaru ir Nacionalinės knygos apdovanojimų nominante Cathy O'Neil.

CT: Pradėkime nuo pagrindų - kas tiksliai yra „dideli duomenys“?

CO: Dideli duomenys yra naujas požiūris į dalykų numatymą. Tiksliau sakant, „dideli duomenys“ yra atsitiktinai surinktų duomenų, tokių kaip tai, kaip jūs ieškote per savo naršyklę, ar tai, ką darote „Facebook“, naudojimas, kad padarytumėte išvadą apie jus, pavyzdžiui, tai, ką ketinate pirkti ar kokie yra jūsų politiniai ryšiai. Tai netiesioginis būdas išsiaiškinti žmones. Pvz., Fotoaparatas, kuris mus apžiūri, neklausia „ką tu darai?“ - tereikia pamatyti, ką mes darome.

CT: O kas yra algoritmas?

CO: Algoritmai yra skaičiavimai, kurie [aiškina] duomenis, surinktus apie jus siekiant sukurti prognozę. Pagalvokite apie tai kaip apie matematinę lygtį, kuria bandoma atsakyti į klausimą, suplanuotą kaip spėjimas, pavyzdžiui: „Ar šis asmuo ketina ką nors nusipirkti?“ arba „Ar šis asmuo ketina už ką nors balsuoti?“

CT: Kodėl aš dabar apie tai tiek daug girdžiu?

CO: Prieš „didelius duomenis“ statistai imtųsi brangių dalykų, pavyzdžiui, apklausų žmones, kad išsiaiškintų ateitį. Pavyzdžiui, užduodamas žmonėms tiesioginius klausimus, tokius kaip: „Už ką balsuosite?“ Dabar mes vis labiau pasikliaujame „duomenų išnaudojimu“, vadinamu duomenimis, kurie nuolat renkami apie jus, kad galėtumėte daryti išvadą apie jus.

Prieš „didelius duomenis“ įmonės turėjo tik spėliones. Dabar mes turime daugiau nei laukiniai spėlionės. Stebina tai, kad dauguma didžiųjų duomenų algoritmų yra nepaprastai tikslūs ir nėra pagrindo manyti, kad jie teisingi. Bet jie yra geresni už laukinius spėliones. Štai kodėl dideli duomenys atsirado taip, kaip yra.

KT: Jei jie netikslūs, ką jie atspindi?

CO: Netinkami duomenų rinkiniai, kuriuos mes jiems teikiame. Algoritmai nieko nežino, išskyrus tai, ką jiems sakome. Taigi, kai turime nevienodus duomenis ir pateikiame juos algoritmui arba šališkiems duomenims, manysime, kad tai yra tikrovė.

Ailsa Johnson / © kultūros kelionė

CT: koks yra realaus pasaulio pavyzdys?

CO: Pavyzdys gali būti tas, kad JAV juodaodžiai penkis kartus dažniau suimami už puodų rūkymą nei baltaodžiai. Taip nėra todėl, kad juodaodžiai žmonės dažniau rūko puodą - abi grupės rūko vienodai. Juodieji žmonės yra tiesiog labiau linkę už tai areštuoti. Jei pateiksite tai algoritmui, kurį mes darome, teisingai padarysime išvadą, kad juodaodžiai ateityje yra labiau linkę areštuoti už rūkymo puodą. Tada juodaodžiams bus suteiktas didesnis nusikalstamumo rizikos balas, o tai turi įtakos baudžiamiesiems nuosprendžiams.

Kitas pavyzdys yra minčių eksperimentas. Naudosiu „Fox News“, nes „Fox News“ pastaruoju metu turėjo išsiveržimų, susijusių su vidine seksizmo kultūra. Eksperimentas yra „kas nutiktų, jei„ Fox News “bandytų naudoti savo duomenis, kad sudarytų mašininio mokymosi algoritmą, kad ateityje galėtų samdyti žmones?“

Tarkime, kad ieškome žmonių, kuriems pavyko, pavyzdžiui, „Fox News“. Tai priklauso nuo to, kaip apibrėžtumėte sėkmę, tačiau paprastai žiūrėtumėte į žmones, kurie gauna pakėlimus, paaukštinimus ar ilgesnį laiką pasilieka. Taikant bet kurią iš šių priemonių, duomenys atspindėtų, kad moterims nesiseka „Fox News“. Jei jis būtų naudojamas kaip nuomos algoritmai, jis skleistų šią problemą. Tai apžvelgtų kandidatų sąrašą ir sakytų: „Aš nenoriu samdyti moterų, nes joms čia nesiseka. Jie nėra geri darbuotojai. Ir tai nebūtinai turi būti „Fox News“ - kiekviena įmonės kultūra turi šališkumo. Kai pateikiate algoritmo duomenis, algoritmo paklaida tada sklinda. Tai ir toliau stiprina visuomenėje jau egzistuojančius šališkumus.

CT: Ar šališkumas yra tyčinis?

CO: Nemanau, kad duomenų mokslininkai bando sudaryti seksistinius ar rasistinius algoritmus. Tačiau mašininio mokymosi algoritmai ypač gerai renkasi palyginti niuansuotus modelius ir juos paskleidžia. Tai nėra kažkas duomenų, kuriuos mokslininkai sąmoningai daro, tačiau tai vis dėlto yra šališka.

KT: Kokį vaidmenį kasdieniniame gyvenime vaidina netikslūs algoritmai?

CO: Jie yra naudojami priimant įvairius sprendimus dėl žmonių gyvenimo - nuo priėmimo į universitetus iki darbo.

Yra algoritmai, pagal kuriuos sprendžiama, kaip policija prižiūrės seniūnijas, taip pat algoritmai, pagal kuriuos sprendžiama, kaip teisėjai paskirs kaltinamiesiems bausmes. Yra algoritmai, pagal kuriuos nusprendžiama, kiek sumokėsite už draudimą, arba tai, kokią MN [palūkanų normą] gausite už savo kredito kortelę. Yra algoritmai, pagal kuriuos nustatoma, kaip jums sekasi jūsų darbe, kurie naudojami nustatant atlyginimų padidėjimą. Yra algoritmai kiekviename žingsnyje, nuo gimimo iki mirties.

CT: Taigi, kur tai mus palieka?

CO: Mes perėjome į didžiųjų duomenų erą ir išmetėme algoritmus visoms iškilusioms problemoms, darant prielaidą, kad šie algoritmai turi būti teisingesni nei žmonės, tačiau iš tikrųjų jie yra tokie pat nesąžiningi kaip žmonės. Turime padaryti geriau.

Spustelėkite čia, kad perskaitytumėte antrąją mūsų interviu su gydytoju O'Neiliu dalį. Jos knyga „Matematikos sunaikinimo ginklai: kaip dideli duomenys padidina nelygybę ir kelia grėsmę demokratijai“ yra prieinama dabar.