Hirnrissig ist daran gar nichts.
Ein Bayer-Fiter macht ja vor jeweils 2 x 2 Pixeln des Sensors 2 grüne, ein rotes und ein blaues Filter. Diese Filter schucken Licht und zwar ziemlich viel und lassen nur jeweils ihre Farbe zum Sensor durch. Die Kamera schaut sich nun z.B an, wie hell ist denn mein einsames rotes Pixelchen und wie hell sind seine Nachbarn. Aus diesen Werten wird die Farbe geraten, die an diesem speziellen Punkt wahrscheinlich ist (logischerweise mit Unschärfe, die sich aus der Tatsache ergibt, dass man die Nachbarn fragen muss) und es wird festgelegt, mit welcher Helligkeit der Pixel gespeichert wird (wenngleich auch mit unschärfen, weil ja jedes Pixel eine Sonnenbrille trägt. Nur nicht jedes die Selbe!
Monochrom läuft das alles einfacher:
Die Pixel tragen keine Sonnenbrille also sammelt jeder einzelne viel mehr Photonen ein. Die Signalverstärkung kann niedriger ausfallen, das Rauschen fällt viel geringer aus und die Reserven im High-ISO-Bereich sind entspechend höher.
Außerdem werden die Nachbarn nicht mehr gefragt, die Schärfe nimmt zu. Statt gemitelter Werte gibt es plötzlich Präzision. 65000 hübsche Grautöne ro Ixel, die auch wirklich genau an diesem einen Sensorpunkt gemessen werden. Und nicht außenrum und nur hingerechnet.
Nein, das ist nicht hirnrissig sondern das ist genau so, wie es sein sollte.