Sciencistoj publikigis en Frontiers in Artificial Intelligence novan metodon por redukti erarojn kiam AI resumas longajn dokumentojn. Teamo ĉe New York University, gvidata de Anasse Bari kaj kun kunlaboro de Binxu Huang, kreis algoritman kadron kiu antaŭpretigas enigaĵon por grandaj lingvaj modeloj (LLM-oj).
La unua fazo purigas frazojn kaj kunfandas multvortajn terminojn, poste konvertas ĉiun frazon al numerika vektoro kiu kombinas leksikajn, semantikajn kaj temajn trajtojn. Frazaj poentoj mezuriĝas laŭ dokumenta centra graveco, sekcia nivelo de graveco kaj alineco kun la resumo; la metodo donas numeran plibonigon al sekcioj kiel Introdukto, Rezultoj kaj Konkludo.
En la dua fazo la kadro uzas cohezion, alineadon kaj separon por grupigi frazojn en flokoj. Poste el ĉiu floko oni elektas la plej alt‑poentajn frazojn, reordigas ilin kaj transdonas ilin al LLM, kiu sintezas flekseblan resumon. Testoj sur pli ol 9,000 dokumentoj montris pli grandan fakto‑ĝustecon kun la kadro, kvankam ĝi ne forigas ĉiujn halucinojn.
Malfacilaj vortoj
- kadro — strukturo uzata por organizi metodojnalgoritman kadron, la kadro
- enigaĵo — teksto aŭ informo donata al komputiloenigaĵon
- vektoro — serio de nombroj, reprezentas informon pri tekstonumerika vektoro
- trajto — karakterizaĵoj uzataj por priskribi tekstontrajtojn
- kunfandi — meti kune plurajn vortojn aŭ frazojnkunfandas
- cohezio — konekteco inter frazoj, kiu montras logikoncohezion
- halucino — mensa eraro, kiam sistemo inventas malveran faktonhalucinojn
- graveco — kiom grava estas parto de teksto
Konsilo: ŝovu la musmontrilon, fokusu aŭ tuŝu la reliefigitajn vortojn en la artikolo por vidi rapidajn difinojn dum legado aŭ aŭskultado.
Diskutaj demandoj
- Kiel antaŭpretigo de enigaĵo povus helpi vin kiam vi uzas resumadon de longaj artikoloj?
- Ĉu vi pensas, ke grupigo de frazoj en flokoj helpas konservi gravajn informojn? Kial aŭ kial ne?
- Kio laŭ vi restos risko, se sistemo daŭre povas produkti halucinojn, eĉ post plibonigoj?