În primul rând, rețineți că a $2^{16}$-Tabelul de căutare lung de intrări de 16 biți = 2 octeți ocupă 131.072 de octeți de spațiu.
Întrebarea ta depinde foarte mult de arhitectură. Pentru o criptare rapidă, ați dori ca S-ul să fie încărcat în cel mai rapid bit de memorie cache (cache-ul L1 este un termen folosit frecvent). Acum, Pentium III, de exemplu, avea 32 KB de cache L1 care ar putea face față cu ușurință unui S-box 256B, dar nu ar putea face față cu S-Box-ul tău. Ar fi schimbul de secțiuni ale mesei înăuntru și în afara și obținerea unui hit de performanță. Procesoare mai moderne precum seria Xeon au 1-2MB de cache L1 și ar putea să facă față. Dacă doriți să criptați lucruri în medii cu resurse limitate, cum ar fi telefoanele mobile și senzorii IoT (și acesta este punctul central al multor proiecte de cifră bloc în zilele noastre), rețineți că, de exemplu, Cache-ul ARM Cortex A L1 este de obicei de 32 kB sau 64 kB și nu s-ar descurca bine.
Efectul general este probabil mult mai mic decât un factor de 256 (dar din nou vitezele magistralei dependente de arhitectură vor afecta acest lucru). Cu toate acestea, variația de timp produsă de schimbarea cache-ului crește pericolul de sincronizare a atacurilor de canal lateral (Bernstein „Atacuri de sincronizare a memoriei cache asupra AES” a arătat că efectele de sincronizare a memoriei cache pot cauza vulnerabilități în implementările AES). Aceasta devine acum o problemă nu doar de degradare a performanței, ci și de degradare a securității.