Kāpēc mākslīgā intelekta produkti neizdodas, ja mācību dati neatbilst reālajai pasaulei?

Ievads

Pirmoreiz, kad es redzēju, kā AI produkts sabruka pēc daudzsološas ieviešanas, problēma nebija ne interfeiss, ne infrastruktūra, ne pat pats modelis. Sistēma bija labi darbojusies iekšējo testu laikā. Rādītāji izskatījās labi, demonstrācijas iespaidoja ieinteresētās puses, un ieviešana noritēja pārliecinoši. Tad reālie lietotāji sāka ar to mijiedarboties nekontrolētā vidē, un trūkumi parādījās gandrīz uzreiz. Šī pieredze mainīja manu skatījumu uz AI attīstību. Šodien, kad komandas sāk apspriest sintētiskos datus datorredzes vajadzībām, es to parasti uztveru nevis kā eksperimentālu tehnoloģiju, bet gan kā atbildi uz daudz dziļāku problēmu: lielākā daļa AI sistēmu tiek apmācītas vidēs, kas ir daudz tīrākas un šaurākas nekā realitāte.

AI sistēmas pārņem savu apmācības vidu ierobežojumus

Viens no lielākajiem maldiem par AI ir pārliecība, ka modeļi kļūst inteliģenti plašā, cilvēciskā nozīmē. Praksē lielākā daļa sistēmu ir ļoti atkarīgas no vidēm, no kurām tās mācās.

Ja modelis tiek apmācīts galvenokārt uz tīriem piemēriem, tas iemācās gaidīt tīrus ievaddatus. Ja tas reti sastopas ar neskaidrībām, vēlāk tam rodas grūtības ar tām tikt galā. Ja apmācības laikā nav svarīgu robežgadījumu, modelim nav nozīmīga atsauces punkta, kad šie apstākļi parādās reālajā darbībā.

Tāpēc daudzi AI produkti izskatās iespaidīgi kontrolētos demonstrējumos, bet pēc ieviešanas darbojas nekonsekventi. Problēma ne vienmēr ir tā, ka modelis ir vājš. Bieži vien sistēma vienkārši darbojas ārpus robežām, kuras tā bija gatava interpretēt.

Reālās dzīves apstākļi ir grūtāki, nekā komandas gaida

Sākotnējā produkta testēšana parasti notiek labvēlīgos apstākļos.

Attēli ir salīdzinoši skaidri. Lietotāju uzvedība ir diezgan paredzama. Scenāriji tiek apzināti atlasīti. Datu plūsmas joprojām ir pietiekami nelielas, lai tās varētu rūpīgi pārvaldīt.

Reālās vides ir atšķirīgas. Apgaismojums mainās. Ierīces darbojas nekonsekventi. Ievadītie dati kļūst trokšņaināki. Cilvēku uzvedība kļūst mazāk strukturēta. Retas situācijas parādās biežāk, nekā gaidīts. Mainīgie mijiedarbojas kombinācijās, kuras neviens nav skaidri pārbaudījis.

Šī plaisa starp kontrolētu testēšanu un reālo darbību ir vieta, kur daudzas AI sistēmas sāk kļūdīties.

Šī problēma ir īpaši redzama datorredzes produktos, jo vizuālās vides pēc savas būtības ir nestabilas. Nelielas izmaiņas, kuras cilvēki gandrīz nemana, var radikāli ietekmēt modeļa uzticamību un prognožu kvalitāti.

Lielāks datu apjoms automātiski neatrisina problēmu

Kad parādās veiktspējas problēmas, standarta reakcija parasti ir vienkārša: vākt vairāk datu.

No pirmā acu uzmetiena tas šķiet loģiski. Lielāks piemēru skaits būtu jāuzlabo mācīšanos. Taču praksē reālās pasaules datu kopas bieži paplašinās nevienmērīgi. Komandas vāc vairāk to, ko ir viegli iegūt, vienlaikus neiekļaujot apstākļus, kas ir visnozīmīgākie.

Rezultāts ir apjoms bez nozīmīgas pārklājības.

AI sistēma var apstrādāt miljoniem piemēru un joprojām nedarboties konkrētos vides apstākļos, jo šie apstākļi joprojām ir nepietiekami pārstāvēti. Organizācija to interpretē kā modelēšanas problēmu, lai gan patiesībā tā ir datu vides problēma.

Tas ir viens no iemesliem, kāpēc daudzas AI iniciatīvas nonāk strupceļā. Papildu pūles rada nelielus uzlabojumus, jo sistēma mācās no pasaules, kas strukturāli joprojām ir nepilnīga.

Demo versijas novērtē izsmalcinātību, bet ražošana – izturību

Viens no iemesliem, kāpēc šī problēma pastāv, ir tas, ka demonstrācijas un reāla ieviešana ir optimizētas atšķirīgiem mērķiem.

Demo versijas novērtē vienmērīgu darbību. Komandas dabiski demonstrē vidi, kurā sistēma darbojas labi. Mērķis ir radīt uzticību un impulsu.

Ražošanas vidē tiek novērtēta elastība. Sistēmām jādarbojas paredzami pat tad, ja apstākļi pasliktinās, lietotāji rīkojas neparedzami vai ievadītie dati kļūst nekonsekventi.

Izstrādāta demo versija var slēpt trauslas pieņēmumus par datiem, no kuriem sistēma ir atkarīga. Šie pieņēmumi bieži paliek neredzami, līdz mērogs ievieš mainīgumu, kas nekad nav bijis daļa no apmācības.

Tāpēc organizācijas dažkārt jūtas pārsteigtas pēc produkta palaišanas. No to viedokļa produkts “darbojās” pirms ieviešanas. Patiesībā tas darbojās rūpīgi ierobežotā vidē.

AI produkti sāk kļūdīties pakāpeniski, pirms kļūdas kļūst redzamas

Viena no interesantākajām lietām par AI uzticamības problēmām ir tā, ka tās bieži vien parādās lēnām.

Sākumā lietotāji pamanītu atsevišķas neatbilstības. Komandas ieviestu manuālas pārbaudes. Tiktu pielāgoti uzticamības sliekšņi. Ekstrēmi gadījumi tiktu nodoti cilvēku risināšanai.

Laika gaitā pieaug slēptās darbības problēmas. Darbinieki vairs pilnībā neuzticas automatizācijai. Klienti saskaras ar neparedzamām situācijām. Atbalsta komandas veltī vairāk laika izņēmumu risināšanai.

Produkts tehniski joprojām darbojas, bet ar to saistītā darbības slodze pastāvīgi palielinās.

Šī pakāpeniskā uzticības erozija ir daudz izplatītāka nekā katastrofālas kļūmes, un tās cēlonis parasti ir viens un tas pats: sistēma nekad nav mācījusies no pietiekami reprezentatīvas vides.

Kāpēc sintētiskās vides kļūst arvien svarīgākas

Šeit sintētiskie dati kļūst stratēģiski noderīgi.

Es neuzskatu sintētiskās vides par realitātes aizstājējām. Es tās uzskatu par rīkiem, kas paplašina to, ko realitāte viena pati nespēj nodrošināt. Komandas var ieviest kontrolētas variācijas, simulēt retus apstākļus un apzināti testēt ekstremālus gadījumus, nevis gaidīt, kad tie parādīsies dabiskā veidā.

Tas ievērojami maina attīstības procesu.

Tā vietā, lai pilnībā paļautos uz pasīvu datu vākšanu, organizācijas var aktīvi veidot apstākļus, kādos mākslīgā intelekta sistēmas mācās. Tās var strukturētā veidā izpētīt apgaismojuma variācijas, vides troksni, objektu mijiedarbību un neparastus scenārijus.

Vērtība nav tikai mākslīgais reālisms. Vērtība ir kontrolēta pārklājums.

Uzticamība ir atkarīga no apzinātas variācijas

Spēcīgas AI sistēmas netiek vienkārši apmācītas, izmantojot lielus datu apjomus. Tās tiek apmācītas, izmantojot nozīmīgas variācijas.

Šī atšķirība ir svarīga, jo reālās vides ir pilnas ar smalkām atšķirībām. Kameru leņķi mainās. Laika apstākļi ietekmē redzamību. Lietotāju uzvedība attīstās. Aparatūras kvalitāte atšķiras.

Ja šīs variācijas nav iekļautas apmācības procesā, sistēmas ieviešana kļūst neparedzama.

Sintētiskās vides ļauj komandām apzināti modelēt šīs atšķirības. Tā vietā, lai cerētu, ka svarīgi apstākļi parādīsies dabiski savāktajos datos, tās var tos ieviest sistemātiski un novērtēt, kā sistēma reaģē.

Tādējādi sistēmas stabilitāte kļūst izmērāma, nevis atkarīga no nejaušībām.

AI attīstība kļūst par infrastruktūras disciplīnu

Visā nozarē notiek plašākas pārmaiņas.

Sākotnējā AI attīstība galvenokārt koncentrējās uz modeļu arhitektūru un eksperimentēšanu. Arvien biežāk sarežģītās problēmas ir saistītas ar infrastruktūru. Datu kvalitāte, reproducējamība, vides kontrole un validācijas procesi tagad ietekmē rezultātus tikpat lielā mērā kā algoritmu izvēle.

Organizācijas sāk saprast, ka AI sistēmas nav tikai programmatūras produkti. Tās ir mācīšanās sistēmas, kuru uzticamība ir atkarīga no vidēm, kurās tās darbojas apmācības laikā.

Šī atziņa maina to, kā komandas domā par datu stratēģiju.

Apmācības vides vairs netiek uzskatītas par pagaidu resursiem, bet gan par darbības infrastruktūru.

Reproduktivitāte ir svarīgāka, nekā vairums komandu saprot

Viens no iemesliem, kāpēc kontrolētas vides ir svarīgas, ir reproducējamība.

Kad veiktspēja negaidīti mainās, komandām ir jāizprot, kāpēc tā notiek. Tas kļūst ārkārtīgi grūti, ja datu kopas attīstās nekontrolēti vai vides izmaiņas ir slikti dokumentētas.

Sintētiskās vides atvieglo kontrolētus eksperimentus. Apstākļus var atkārtot, parametrus pielāgot un sistēmas darbību salīdzināt atkārtojamās situācijās.

Tas samazina minējumus un ļauj komandām sistemātiskāk diagnosticēt vājās vietas.

Liela mēroga AI produktiem šāda darbības skaidrība kļūst arvien vērtīgāka.

Kāpēc lietotāju uzticību ir grūti atgūt

Varbūt lielākais izaicinājums saistībā ar neuzticamām AI sistēmām ir tas, ka uzticība ir trausla.

Lietotāji var paciest gadījuma rakstura kļūdas tradicionālajā programmnodrošinājumā, jo loģika šķiet saprotama. AI kļūdas bieži vien šķiet nekonsekventas un grūti paredzamas. Šī neparedzamība maina to, kā cilvēki mijiedarbojas ar produktu.

Tiklīdz lietotāji sāk gaidīt neuzticamu darbību, produkta pieņemšana palēninās. Palielinās manuālā pārbaude. Uzticība samazinās pat tad, ja sistēma vēlāk tiek uzlabota.

Tāpēc tik svarīgas ir spēcīgas apmācības vides. Uzticamība nav tikai tehnisks rādītājs. Tā veido to, kā cilvēki emocionāli uztver pašu produktu.

Nākamās paaudzes AI produkti

Nākamās paaudzes veiksmīgie AI produkti, visticamāk, atšķirsies no daudzām agrīnām sistēmām.

Tie nebalstīsies vienkārši uz lielākiem modeļiem vai lielāku skaitļošanas jaudu. Tie būs atkarīgi no labāk kontrolētām mācību vidēm, spēcīgākām validācijas stratēģijām un apdomīgākām pieejām variāciju un robežgadījumu aptveršanai.

Organizācijas, kas to saprot, jau maina savas prioritātes. Tās veic lielākas investīcijas datu infrastruktūrā, simulācijas procesā un kontrolētās testēšanas vidēs, jo atzīst, ka ar modeļa kvalitāti vien nepietiek.

Nobeiguma domas

Lielākā daļa AI produktu neizgāžas tāpēc, ka tehnoloģija ir nepietiekama. Tie izgāžas tāpēc, ka vides, kurās tie tiek apmācīti, ir pārāk šauras salīdzinājumā ar vidēm, ar kurām tiem galu galā nākas saskarties.

Tiklīdz parādās šī neatbilstība, darba plūsmas kļūst nestabilas, lietotāju uzticība mazinās un darbības izmaksas nemanāmi pieaug.

Organizācijas, kas veido uzticamākas sistēmas, parasti ir tās, kas apmācības vidi uztver tikpat nopietni kā kodu, infrastruktūru un ieviešanas procesus.

Šī pārmaiņa varbūt nav tik redzama kā jauna modeļa izlaide, bet praksē bieži vien tieši tā nosaka, vai AI produkts paliek iespaidīgs tikai demonstrācijās vai turpina darboties uzticami, nonākot reālajā pasaulē.

Kāpēc mākslīgā intelekta produkti neizdodas, ja mācību dati neatbilst reālajai pasaulei?

Ievads

AI sistēmas pārņem savu apmācības vidu ierobežojumus

Reālās dzīves apstākļi ir grūtāki, nekā komandas gaida

Lielāks datu apjoms automātiski neatrisina problēmu

Demo versijas novērtē izsmalcinātību, bet ražošana – izturību

AI produkti sāk kļūdīties pakāpeniski, pirms kļūdas kļūst redzamas

Kāpēc sintētiskās vides kļūst arvien svarīgākas

Uzticamība ir atkarīga no apzinātas variācijas

AI attīstība kļūst par infrastruktūras disciplīnu

Reproduktivitāte ir svarīgāka, nekā vairums komandu saprot

Kāpēc lietotāju uzticību ir grūti atgūt

Nākamās paaudzes AI produkti

Nobeiguma domas

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Kāpēc mākslīgā intelekta produkti neizdodas, ja mācību dati neatbilst reālajai pasaulei?

Ievads

AI sistēmas pārņem savu apmācības vidu ierobežojumus

Reālās dzīves apstākļi ir grūtāki, nekā komandas gaida

Lielāks datu apjoms automātiski neatrisina problēmu

Demo versijas novērtē izsmalcinātību, bet ražošana – izturību

AI produkti sāk kļūdīties pakāpeniski, pirms kļūdas kļūst redzamas

Kāpēc sintētiskās vides kļūst arvien svarīgākas

Uzticamība ir atkarīga no apzinātas variācijas

AI attīstība kļūst par infrastruktūras disciplīnu

Reproduktivitāte ir svarīgāka, nekā vairums komandu saprot

Kāpēc lietotāju uzticību ir grūti atgūt

Nākamās paaudzes AI produkti

Nobeiguma domas

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Sāciet izmantot Ranktracker... Bez maksas!