Beste NLP-modell noensinne? Google BERT setter nye standarder i 11 språkoppgaver

Det nye Google AI-papiret BERT: Fortrening av Deep Bidirectional Transformers for Language Understanding får utmerkelser fra hele maskinlæringsfellesskapet. Google-forskere presenterer en dyp toveis transformatormodell som omdefinerer den nyeste teknikken for 11 naturlige språkprosesseringsoppgaver, til og med overgår menneskelig ytelse i det utfordrende spørsmålsområdet. Noen høydepunkter fra papiret:

  • NLP-forskere utnytter dagens store mengde tilgjengelige språkdata og modnes overføring læringsteknikker for å utvikle nye føropplæringsmetoder. De trener først en modellarkitektur på ett språklig modelleringsmål, og finjusterer det deretter for en overvåket nedstrømsoppgave. Aylien forskningsforsker Sebastian Ruder antyder i bloggen sin at ferdigtrente modeller kan ha "den samme omfattende innvirkning på NLP som forhåndsutdannede ImageNet-modeller hadde på datagesyn."
  • BERT-modellens arkitektur er en toveis transformator-kode. Bruken av en Transformer kommer ikke som noen overraskelse - dette er en nyere trend på grunn av Transformers 'treningseffektivitet og overlegen ytelse når det gjelder å fange avstander over lang avstand sammenlignet med en tilbakevendende nevrale nettverksarkitektur. Den toveis koderen er i mellomtiden en fremtredende funksjon som skiller BERT fra OpenAI GPT (en venstre-til-høyre-transformator) og ELMo (en sammenløpning av uavhengig trent venstre-til-høyre og høyre-til-venstre LSTM).
  • BERT er en enorm modell, med 24 transformatorblokker, 1024 skjulte enheter i hvert lag, og 340M-parametere.
  • Modellen er forhåndstrenet på 40 epoker over et korpus på 3,3 milliarder ord, inkludert BooksCorpus (800 millioner ord) og engelsk Wikipedia (2,5 milliarder ord).
  • Modellen kjører på 16 TPU-pods for trening.
  • I føropplæringsprosessen tok forskere en tilnærming som involverte tilfeldig maskering av en prosentandel av input-symbolene (15 prosent) for å trene en dyp toveisk representasjon. De refererer til denne metoden som en Masked Language Model (MLM).
  • En forhåndsopplært språkmodell kan ikke forstå sammenhenger mellom setninger, noe som er avgjørende for språkoppgaver som spørsmålssvar og naturlig språkinnsats. Forskere forhåndsutdannet en binærisert neste setnings prediksjonsoppgave som kan trivielt genereres fra et enspråklig korpus.
  • Den finjusterte modellen for forskjellige datasett forbedrer GLUE-målestokken til 80,4 prosent (7,6 prosent absolutt forbedring), MultiNLI-nøyaktighet til 86,7 prosent (5,6 prosent absolutt forbedring), SQuAD v1.1-spørsmålet som svarer Test F1 til 93.2 (1.5 absolutt forbedring) , og så videre over totalt 11 språkoppgaver.

Oppgavens første forfatter er Jacob Devlin, en seniorforsker fra Google med en primær forskningsinteresse i å utvikle dype læringsmodeller for naturlige språkoppgaver. Han ledet tidligere Microsoft Translate overgang fra setningsbasert oversettelse til neural machine translation (NMT) som prinsippforsker ved Microsoft Research fra 2014 til 2017.

Google Brain Research Scientist Thang Luong tweetet entusiastisk "en ny epoke av NLP er nettopp startet for noen dager siden: store førtreningsmodeller (Transformer 24 lag, 1024 dim, 16 hoder) + massiv beregning er alt du trenger."

Baoxun Wang, sjefforsker for den kinesiske AI-oppstarten Tricorn, berømmet også Google-papiret som en "milepæl" i hovedadressen hans på denne ukens konferanse for kunstig intelligensindustriallianse i Suzhou, Kina. Oppgaven utnytter enorme datamengder og beregnede og godt polerte ingeniørverk, som representerer det Wang kaller "Googles tradisjon for voldelig estetikk."

Den ferdig trente modellen og koden vil bli utgitt i løpet av de neste to ukene. Oppgaven er på arXiv.

Oppdater:

Google har åpnet papirets kode og data på Github.

Journalist: Tony Peng | Redaktør: Michael Sarazen

Følg oss på Twitter @ Synced_Global for daglige AI-nyheter

Vi vet at du ikke vil gå glipp av noen historier. Abonner på vår populære Synced Global AI Weekly for å få ukentlige AI-oppdateringer.