കണ്ടിന്യുവൽ ലേണിംഗ്, കണ്ടിന്യുവൽ മിഡ്ട്രെയിനിംഗ് അല്ല

AGI-യിലേക്ക് വെറും LLM-സ്കെയിലിംഗ് വഴി എത്താനാകില്ല എന്ന സത്യം പലരും മനസ്സിലാക്കിയിട്ടുണ്ട്. LLM-കളും പൊതുബുദ്ധിയുള്ള ഒരു ഏജന്റും തമ്മിലുള്ള പ്രധാന വ്യത്യാസം കണ്ടിന്യുവൽ ലേണിംഗ് ആണെന്നും പലരും തിരിച്ചറിഞ്ഞിട്ടുണ്ട്. നിങ്ങൾ എപ്പോഴെങ്കിലും Claude Code ഉപയോഗിച്ചിട്ടുണ്ടെങ്കിൽ, കോൺടെക്സ്റ്റ് ദൈർഘ്യത്തിന്റെ പരിധി LLM-കളുടെ പൊതുഉപയോഗിത്തയെ എത്രമാത്രം പരിമിതപ്പെടുത്തുന്നു എന്ന് നിങ്ങൾക്ക് വ്യക്തമായി അറിയാം. കോൺടെക്സ്റ്റ് തീർന്നുപോകാത്ത എന്തെങ്കിലും ഉണ്ടായിരുന്നെങ്കിൽ, നമുക്കെല്ലാവർക്കും ഒടുവിൽ തൊഴിൽനഷ്ടം സംഭവിക്കുമായിരുന്നു.

ഇത് പരിഹരിക്കാനുള്ള ഒരു ആകർഷകവും (യുക്തിസഹവുമായ) ശ്രമം ആണ് കണ്ടിന്യുവൽ മിഡ്ട്രെയിനിംഗ്. ഉദാഹരണത്തിന്, ആൻത്രോപിക് വിജയകരമായ Claude Code ട്രേസുകൾ ശേഖരിച്ച് അത് അടുത്ത മാതൃകയുടെ SFT ഘട്ടത്തിലേക്ക് മടക്കിക്കളയുകയും പ്രതിമാസ അടിസ്ഥാനത്തിൽ അത് പുറത്തിറക്കുകയും ചെയ്യുന്നതായി കരുതുക. ഇത് അവയെ വളരെ ശക്തമായ കോഡിംഗ് ഏജന്റുകളാക്കിയേക്കാം, പക്ഷേ ജോലികൾ പൂർണ്ണമായി യാന്ത്രികമാക്കാനുള്ള കഴിവ് അത് നൽകില്ല. എന്തുകൊണ്ട്? കാരണം, ഈ പ്രക്രിയയുടെ മുഴുവൻ പ്രവർത്തനവും LLM-ന്റെ വേൾഡ് മോഡൽ തുടർച്ചയായി മെച്ചപ്പെടുത്തുക മാത്രമാണ്, അത് അതിന്റെ വേൾഡ് സ്റ്റേറ്റിൽ നിന്ന് വ്യത്യസ്തമാണ്. അതിന്റെ വേൾഡ് സ്റ്റേറ്റ് അതിന്റെ സ്ഥാനത്ത് എംബെഡ് ചെയ്ത KV കാഷെയ്ക്കുള്ളിലേക്ക് മാത്രമേ നിലനിൽക്കുന്നുള്ളൂ.

മനുഷ്യർക്ക് എന്നെന്നേക്കുമായി വികസിച്ചുകൊണ്ടിരിക്കുന്ന വേൾഡ് മോഡലുകളും വേൾഡ് സ്റ്റേറ്റും ഉണ്ട്. നമ്മുടെ അനുഭവങ്ങളെ നമ്മുടെ ജീവിതകാലത്ത് നമ്മുടെ അടിസ്ഥാന വേൾഡ് മോഡൽ മെച്ചപ്പെടുത്തുന്നതിലേക്ക് കാര്യക്ഷമമായി കംപ്രസ് ചെയ്യുകയും, അതേസമയം അവയുടെ പ്രാധാന്യം അനുസരിച്ച് തൂക്കം നൽകിയ റെസല്യൂഷനുകളിൽ ഓർമ്മകൾ ക്രമത്തിൽ വീണ്ടെടുക്കാനും കഴിയും.

അനന്തമായ ഒരു ചക്രവാളത്തിൽ അനുഭവങ്ങളെ ഒരു വേൾഡ് മോഡലിലേക്കോ (അല്ലെങ്കിൽ RL-ഭാഷയിൽ ഒരു വാല്യൂ ഫംഗ്ഷനിലേക്കോ) കംപ്രസ് ചെയ്യേണ്ട ഈ പ്രശ്നമാണ് പരിഹരിക്കേണ്ടത്. കണ്ടിന്യുവൽ മിഡ്ട്രെയിനിംഗ് ഒരു താൽക്കാലിക പരിഹാരം മാത്രമാണ്.

✦ ഈ ലേഖനത്തിന്റെ ആശയരൂപീകരണം, ഗവേഷണം, എഴുത്ത്, അല്ലെങ്കിൽ എഡിറ്റിംഗ് എന്നിവയിൽ LLM-കൾ ഉപയോഗിച്ചിട്ടില്ല.