Esploristoj ĉe North Carolina State University analizis kiel funkcias sekureca aligado en grandaj lingvaj modeloj kaj testis novajn trejnajn teknikojn por redukti nesekurajn respondojn dum konservado de modelo‑efikeco. Koresponda aŭtoro Jung‑Eun Kim klarigis, ke ili ne volas, ke LLM‑oj diru al homoj faru memvundiĝon aŭ disponigu informojn por vundi aliajn.
La teamo identigis du ĉefajn defiojn: unue, sekureca trejnado povas malpliigi la precizecon de la modelo (la «imposto de aligado»); due, multaj modeloj uzas surfacan sekurecan kontrolon, kiu ofte decidas frue kaj povas esti facile evitita. Jianwei Li donis ekzemplon pri peto por ŝteli monon, kio montras kiel subtekstoj povas ŝanĝi respondon.
Por trakti tion, la esploristoj proponis la Hipotezon pri Superfacia Sekureca Aligado (SSAH) kaj identigis specifajn neŭrajn komponentojn kiuj influas sekurecon. Ili montris, ke frostigi tiujn neŭronojn dum plifinezigo permesas al la modelo lerni novajn taskojn sen perdi originan sekurecan konduton. La teamo raportis, ke ĉi tiu aliro reduktas la imposto de aligado kaj retenas sekurecan aligadon.
Malfacilaj vortoj
- aligado — procezo por igi modelon sekuraaligadon
- imposto — perdo de precizeco pro sekureca trejnado
- plifinezigo — ĝisfina trejnado por adapti modelon
- frostigi — malvarmigi parametron por ne ŝanĝi ĝin
- komponento — parto de neŭra reto aŭ modelokomponentojn
- subteksto — kaŝita mesaĝo aŭ intenco en demandosubtekstoj
Konsilo: ŝovu la musmontrilon, fokusu aŭ tuŝu la reliefigitajn vortojn en la artikolo por vidi rapidajn difinojn dum legado aŭ aŭskultado.
Diskutaj demandoj
- Ĉu vi pensas, ke frostigi neŭronojn estas bona strategio por plibonigi sekurecon? Klarigu vian opinion.
- Kiel surfaca sekureca kontrolon povus esti evitita en praktiko, laŭ vi? Donu unu aŭ du ideojn.
- Ĉu laŭ vi sekureca aligado devus preferi precizecon aŭ malpliigi riskojn? Klarigu mallonge.
Rilataj artikoloj
AI kaj civitanoj trovas Anopheles stephensi en Madagaskaro
Sciencistoj uzis artefaritan inteligenton kaj telefonajn fotojn por identigi tion, kion ili kredas esti la unua Anopheles stephensi en Madagaskaro. La foto venis per la aplikaĵo GLOBE Observer kaj estis publikigita en Insects.
Nova materialo uzanta lumon por rompi PFAS
Materialaj sciencistoj kreis materialon kiu kombinas COF-ojn kaj hBN por uzi lumon kaj rompi malmulte traktatajn poluaĵojn, inkluzive PFAS. La hibrida surfaco estis kreskigita per difektinĝenierado kaj montris konstatan efikon en fluaj reaktoroj.
Sudaziaj civitaj arkivistoj registras buŝajn tradiciojn
Civitaj arkivistoj en Sudazio registras popolajn kantojn, buŝajn historiojn, enigmojn kaj tradician kuracistan scion. Projekto subtenas denaskajn parolantojn; ĝis nun estas 227 registritaj eroj el 14 lingvaj komunumoj alŝutitaj al Wikimedia-platformoj.