RagWal skrev:spacecoin skrev:RagWal skrev:ML behöver bli tillräckligt duktig på detta.
Precis. Men hur då? Du får inte ett resonerande system genom att bada det i mer data. Ingen vet hur. Ännu. Eller kanske någonsin.
"Ingen vet hur. Ännu. Eller kanske någonsin."? Missförstår jag dig eller busar du? Hyfsat ordinärt problem skulle jag påstå. Att skilja en katt från en hund på bild kan ju ett ML-system göra sen flera år tillbaka. Soptunnor från brevlådor är ju ett mer nära exempel.
Att skilja ett trafikljus från tre färgglada punkter på ett plakat går med hyfsat god sannolikhet. Eftersom det är rörlig video så kan man när man kommer närmare "se" dess form. Såklart är en människa ännu bättre på att skilja ett fake-trafikljus från ett riktigt, men det finns ju gråzoner även för det.
Jag har fått inbromsning vid röd signal för tåg. Klarastrandsleden i Stockholm och nånstans vid Bräcke (tror jag). På båda ställen går tåg nära vägen. Går säkert att filtrera bort med rimligt enkel logik pga deras placering i förhållande till vägen.
Finns andra problem som är svårare då.
Det är klart det inte är omöjligt att köra utan HD-kartor och ja, det är klart att det finns svårare problem än att hitta trafikljus, läsa av dem korrekt, och förstår vilken fil de hör till. Det var bara ett exempel på något som HD-kartor kan bidra med att ÖKA SÄKERHETSGRADEN i bedömningen genom att skära ned problemet till ett mindre komplicerat problem. Crowd-sourcade HD-kartor kan innehålla annan information som t ex genomsnittlig hastighet på varje meter väg, vilken väg folk normalt sett åker (inte i bussfiler, inte på light-rail) osv osv.
Ett NN-system kan träna på hundra miljoner bilder på djur och ändå klassificera en katt i ett träd som en fågel eller alla bilder som innehåller en regnbåge som giraffer. Det kan vara svårt att upptäcka.
Jag anser att man är fruktansvärt naiv om man tror några miljoner 10s videoklipp kan ge ett dataset som är säkert nog kör att representera vad som kan hända när man kör i t ex USA på ett sånt sätt att man kan göra L4 av det trots att problemet i princip kan uttryckas som "kör där man kan köra, följ trafikregler och kör inte på något".
Man behöver ett dataset som sannolikt är flera hundra "orders-of-magnitude" mindre om man t ex begränsar sin ODD till en stad/stadsdel, använder bättre indata (Waymo har 29 kameror per bil), använder hd-kartor, använder flera parallella system för att få upp säkerheten (imaging radar, lidar, kameror), till exempel.
Frågan det kokar ned till är om det är möjligt att få ihop det där perfekta datasettet och NN-lösningar så man är så säker på att inte folk dör. Går det över huvudtaget, inom rimlig tid och till rimlig kostnad eller ej. Jag tror nej tills vidare på alla tre: kostnad, tid, över huvudtaget.
Sedan har vi Teslas praktiska problem med bland annat en NN-arkitektur som inte funkar ännu för rätt triviala fall (och vill köra in i cyklister, forgängare, eller annat, väljer fel hastighet). Dom har för lite compute, sensorer som inte är adekvata under vissa förhållanden som t ex låg sol, suboptimal sensorplacering, säkra avståndsbedömningar, och säkert hundra andra saker som dom brottas med.
Hade det bara varit en fråga om att slänga på mer träningsdata så tror jag vi hade sett större förbättring de senaste 15 månaderna.