Соответственно организовывается ПОСЛЕДОВАТЕЛЬНАЯ очередь из кусочков 2..8 Мб, и такая очередь не параллельная.
Нифига. Эти 2..8 Мб состоят из множества кусочков (надо смотреть, какого объёма) и обслуживают ядра по принципу "кто первый пришёл-того и тапки". Образно говоря, общая куча. 
По аналогии, вапример, виртуальная память организована страницами по 4 килобайта, и такими же кусками скидывается на диск когда физической памяти не хватает (у 64-битных систем чуточку сложнее). Когда Паскаль просит Виндовс дать память для кучи, Виндовс делает это в целом числе 4-килобайтных страниц. А уже менеджер памяти паскаля разбивает эти страницы на более мелкие кусочки, напрмер, для строки из трёх букв.
Если несколько ядер активно ломятся к памяти - они начнут толкаться локтями, замедляя друг друга. При этом не ломящиеся к памяти продолжат работать на полную мощность.
Минуя первые три уровня памяти - данные могут попасть к ядрам процессора? Или вначале всегда (из 4 или 5) загружаются в 1,2,3-уровня память?
Нет. Только проходя по иерархии.
Но надо не забывать, что дробность у каждого уровня кеша разная, а разные фрагменты кеша обычно указывают на совершенно произвольные области памяти. 
  Ошибочно думать, что кеш отражает лишь один участок памяти целиком.
  Ошибочно думать, что кеш отражает лишь один участок памяти целиком. Иначе грош ему цена была бы.
с процессором 4-ре ядра, априори медленнее чем аналог на мат. плате с двумя процессорами по два ядра
Разве не так? Я ошибаюсь? 
Ошибка в том, что два отдельных проца будут всё равно друг с другом конкурировать за одну шину памяти, точно так же, как за неё конкурируют ядра внутри одного процессора.
Сейчас самые навороченые системы начинают использовать архитектуру где у каждого процессора на аплате - своя память, а другие процессоры могут лазить в неё, но это медленно. 
Но! Требуется новые операционные системы и языки программирования для работы этого, и по любому это уже суперкомпьютеры по заоблачным ценам.
Паскаль же поддерживает 99.999% обычных компьютеров, у которых, кстати, контроллер шины памяти теперь встроен в процессор, так что два таких на одну материнку уже не посадишь (или я тут ошибаюсь?)
 - может затормозить работу процессора, только в том случае,
Слишком чёрно-белое мышление. Никто ничего не заморозит, самое свинское поведение одной программы лишь замедлит всё раз этак в пять - десять.