ആരംഭിക്കുക
കാസൽ സെൽഫ്-അറ്റൻഷൻ 2017 മുതൽ AI ലെ മിക്ക പുരോഗതികളുടെയും അടിസ്ഥാനമാണ്. ഈ ലേഖനത്തിൽ, ഞാൻ കമ്പ്യൂട്ടേഷൻ ഘട്ടം ഘട്ടമായി പരിശോധിക്കുകയും അത് എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്നതിനെക്കുറിച്ച് മികച്ച ഒരു അവബോധം നേടുകയും ചെയ്യും.
ഉയർന്ന തലത്തിൽ, ഈ ഫംഗ്ഷൻ ഒരു സീക്വൻസ് എടുത്ത് അതിനെ മറ്റൊന്നാക്കി മാറ്റുന്നു. ഒരു സീക്വൻസ് എന്നത് ടോക്കൻ എംബെഡിംഗുകളുടെ ഒരു ലിസ്റ്റാണ്, ആകൃതിയിലുള്ള ഒരു ടെൻസർ, ഇവിടെ എന്നത് ഇൻപുട്ട് സീക്വൻസ് ദൈർഘ്യവും എന്നത് എംബെഡിംഗ് ഡൈമെൻഷനുമാണ്. ഈ മാട്രിക്സിന്റെ ഓരോ വരിയും ഒരു ഇൻപുട്ട് ടോക്കനുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു, അത് -ഡൈമെൻഷണൽ വെക്ടറായി പ്രതിനിധീകരിക്കപ്പെടുന്നു.
എന്നാൽ എന്തുകൊണ്ടാണ് ന് 3 ഇൻപുട്ടുകൾ ഉള്ളത്? ഇതിന് കാരണം, ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചറിൽ, ഇൻപുട്ട് സീക്വൻസ് 3 വ്യത്യസ്ത ലീനിയർ ലെയറുകൾ ഉപയോഗിച്ച് പ്രൊജക്റ്റ് ചെയ്യപ്പെടുന്നു. ഇൻപുട്ട് സീക്വൻസ് ആണെങ്കിൽ,
ഇവിടെ എന്നിവ ആണ്. അതിനാൽ, എന്നിവ ഒരേ ഇൻപുട്ട് സീക്വൻസിന്റെ വ്യത്യസ്ത പ്രതിനിധാനങ്ങളാണ്.
ഘട്ടം ഘട്ടമായി കമ്പ്യൂട്ട് ചെയ്യാം. ആദ്യം, ചെയ്യുന്നു, ഇത് by ഡോട്ട് പ്രൊഡക്ട് ആണ്, ഫലമായി ഔട്ട്പുട്ട് ലഭിക്കുന്നു. ഇത് എന്താണ് ചെയ്യുന്നത്?
ന്റെ ഫലം ഒരു സ്കെയിലർ ( dot ) ആണ്, അത് യും യും തമ്മിലുള്ള വെക്ടർ ഡോട്ട്-പ്രൊഡക്ട് ആണ്. നമ്മൾ ഫോർമുല ഓർമ്മിക്കുകയാണെങ്കിൽ,
യും യും തമ്മിലുള്ള കോൺ 0º നോട് അടുത്തിരിക്കുമ്പോൾ ഡോട്ട്-പ്രൊഡക്ട് പോസിറ്റീവ് ആണെന്നും കോൺ 180º ആയിരിക്കുമ്പോൾ അല്ലെങ്കിൽ അവ എതിർദിശകളിലേക്ക് ചൂണ്ടുമ്പോൾ നെഗറ്റീവ് ആണെന്നും നമുക്ക് കാണാം. ഡോട്ട് പ്രൊഡക്ട് ഒരു സമാനത മെട്രിക് ആയി വ്യാഖ്യാനിക്കാം, ഇവിടെ പോസിറ്റീവ് മൂല്യങ്ങൾ സമാന വെക്ടറുകളെ സൂചിപ്പിക്കുന്നു, നെഗറ്റീവ് മൂല്യങ്ങൾ വിപരീതമായി സൂചിപ്പിക്കുന്നു.
അതിനാൽ, നമ്മുടെ അവസാന മാട്രിക്സ് യും യും ടോക്കനുകൾ തമ്മിലുള്ള സമാനത സ്കോറുകളാൽ നിറഞ്ഞിരിക്കുന്നു. ഫലം കൊണ്ട് ഹരിക്കുന്നു, കാരണം വലിയ എംബെഡിംഗ് ഡൈമെൻഷനുകൾക്ക് വേരിയൻസ് വർദ്ധിക്കുന്നത് തടയാൻ. അനുബന്ധം കാണുക.
അടുത്ത ഘട്ടം ഫംഗ്ഷൻ പ്രയോഗിക്കുക എന്നതാണ്, ഇത് ഇൻപുട്ട് മാട്രിക്സിന്റെ താഴെയുള്ള ത്രികോണ ഭാഗത്ത് ഇല്ലാത്ത എല്ലാ മൂല്യങ്ങളും ആക്കി മാറ്റുന്നു.
ഇതിന് പ്രയോഗിക്കുന്നു, ഇത് മാട്രിക്സിലെ ഓരോ വരിയിലെ മൂല്യങ്ങളെയും പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനാക്കി മാറ്റുന്നു. ഈ ഫംഗ്ഷൻ ആയി നിർവചിക്കപ്പെട്ടിരിക്കുന്നു, ഇവിടെ th ഔട്ട്പുട്ട് എലമെന്റ് നൽകുന്നത്
ഇവിടെ രണ്ട് കാര്യങ്ങൾ ശ്രദ്ധിക്കുക:
- എല്ലാ ഔട്ട്പുട്ട് എലമെന്റുകളുടെയും ആകെത്തുക ആണ്, പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനായി പ്രതീക്ഷിക്കുന്നത് പോലെ
- ഒരു ഇൻപുട്ട് എലമെന്റ് ആണെങ്കിൽ, ആണ്
മാസ്ക് ചെയ്ത സമാനത സ്കോറുകൾക്ക് ഫംഗ്ഷൻ പ്രയോഗിച്ച ശേഷം, നമുക്ക് ലഭിക്കുന്നത്:
ഇവിടെ എന്നിവ നിർവചിച്ചിരിക്കുന്നത്:
ഫലമായുണ്ടാകുന്ന മാട്രിക്സ് ന് ദൈർഘ്യമുള്ള പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷൻ വരികളുണ്ട്. അവസാന ഘട്ടം ഈ പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷനുകൾ ഉപയോഗിച്ച് നമ്മുടെ മൂല്യ മാട്രിക്സ് മാപ്പ് ചെയ്യുക എന്നതാണ്, അത് നമ്മുടെ പുതിയ സീക്വൻസ് നൽകുന്നു.
ഇവിടെ ഒരു സ്കെയിലർ ആണ്, ഒരു എംബെഡിംഗ് വെക്ടർ ആണ്. ദൃശ്യപരമായി, SelfAttention ക്വറികളും കീകളും പരസ്പരം എത്രത്തോളം ശ്രദ്ധിക്കുന്നുവെന്നതിന്റെ അടിസ്ഥാനത്തിൽ ഉണ്ടാക്കിയ പ്രോബബിലിറ്റി ഡിസ്ട്രിബ്യൂഷൻ ഉപയോഗിച്ച് വാല്യൂ ടോക്കനുകൾ തിരഞ്ഞെടുത്ത് സംയോജിപ്പിക്കുന്നു എന്ന് നമുക്ക് കാണാം. മുമ്പ് പ്രയോഗിച്ച കാസൽ മാസ്ക് കാരണം, ഔട്ട്പുട്ട് ടോക്കന്റെ ഇൻഡെക്സ് ലെ ഭാരം ഇൻപുട്ട് ടോക്കനുകളുടെ ഇൻഡെക്സ് ഉള്ളവയെ മാത്രം ആശ്രയിച്ചിരിക്കുന്നു. ഇത് കാസൽ അസംപ്ഷൻ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, അതായത് ഒരു ഔട്ട്പുട്ട് ടോക്കൻ ഭാവിയിലെ ടോക്കനുകളെ ആശ്രയിക്കുന്നില്ല, ഇത് ഓട്ടോറിഗ്രസിവ് (അതായത് അടുത്ത ടോക്കൻ പ്രെഡിക്ഷൻ) മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ ആവശ്യമാണ്.
ഇത് നിങ്ങൾക്ക് ഉപയോഗപ്രദമാകുമെന്ന് പ്രതീക്ഷിക്കുന്നു!
അനുബന്ധം
### എന്തുകൊണ്ട് $\sqrt{d}$ കൊണ്ട് സ്കെയിൽ ചെയ്യണം?
വർദ്ധിക്കുമ്പോൾ വേരിയൻസ് വികസിക്കുന്നത് തടയാൻ ഇത് ചെയ്യുന്നു.
എന്നും അവ i.i.d ആണെന്നും കരുതുക. സ്കെയിൽ ചെയ്യാത്ത ന്റെ മീൻ, വേരിയൻസ് കണക്കാക്കാം.
മീൻ പൂജ്യമാണ്:
വേരിയൻസ്:
കാരണം
ആണെങ്കിൽ ഇത് ആണ് ( , i.i.d ആയതിനാൽ). ആണെങ്കിൽ,
കാരണം .
അതിനാൽ, കൊണ്ട് സ്കെയിൽ ചെയ്താൽ, പുതിയ വേരിയൻസ്
ആകുന്നു, ഇത് ആവശ്യമുള്ളതാണ്.
മൾട്ടി-ഹെഡ് ആറ്റൻഷൻ
മിക്ക ആധുനിക സിസ്റ്റങ്ങളും മൾട്ടി-ഹെഡ് ആറ്റൻഷൻ ഉപയോഗിക്കുന്നു, ഇത് നെ ഒന്നിലധികം “ഹെഡുകളിൽ” സമാന്തരമായി കണക്കാക്കുന്നു. സാധാരണയായി എന്ന് സജ്ജമാക്കുന്നു, ഇവിടെ എന്നത് ഹെഡുകളുടെ എണ്ണമാണ്.