Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Stel je voor dat je aan een edge AI-project werkt met de RK3588: de videostream van de camera moet in realtime gezichtsherkenning en voertuigdetectie uitvoeren, terwijl het ook UI-weergave, gegevensupload,en business logic-verwerkingJe merkt op: kaderdruppels optreden wanneer er veel objecten in het frame zijn, grote modellen niet soepel kunnen draaien en de temperatuur sterk stijgt.
Op dit punt zeggen mensen meestal: "Jouw model is te groot" RK3588's 6TOPS is niet genoeg.
Maar is het echt een gebrek aan rekenkracht? Heb je je ooit afgevraagd: Waarom ervaart een 6TOPS NPU nog steeds frame drops en lag bij het uitvoeren van een 4TOPS model?Het antwoord ligt in de drie dimensies van NPU-computers:Topprestaties (TOPS),Precisie (INT8/FP16), enEfficiëntie (bandbreedte).
U zult zien dat verschillende chips hun NPU-specificaties benadrukken, met een kernparameter die prominent wordt weergegeven: NPU Computing Power: X TOPS. Voorbeelden zijn RK3588-6TOPS, RK3576-6TOPS,RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, enzovoort...
Tera.: vertegenwoordigt 1012.
Operaties per seconde: Verwijst naar het totale aantal AI-operaties dat de NPU in één seconde kan uitvoeren.
![]()
Het totale aantal MAC-eenheden is de kern van neurale netwercomputing.de hoofdberekening omvat het vermenigvuldigen van de ingangsgegevens met gewichten en vervolgens het optellen van de resultaten.
De ontwerpfilosofie van een NPU ligt in het hebben van een extreem groot scala aan parallelle MAC-eenheden.die tegelijkertijd kunnen werken om grootschalige parallelle computing te bereiken.
Hoe meer MAC-eenheden er zijn, hoe groter de hoeveelheid berekeningen die de NPU in een enkele klokcyclus kan voltooien.
Clockfrequentie: Bepaalt het aantal cycli dat de NPU-chip en de MAC-eenheden per seconde gebruiken (gemeten in Hertz, Hz).Een hogere frequentie stelt de MAC-array in staat om meer vermenigvuldigings-accumulatie-operaties per tijdseenheid uit te voerenWanneer de fabrikanten TOPS aankondigen, gebruiken zij de piekfrequentie van de NPU (d.w.z. de maximaal bereikbare frequentie).
Operaties per MACEen complete MAC-operatie omvat eigenlijk één vermenigvuldiging en één optelling.veel computerstandaarden tellen één MAC-operatie als 2 basisoperaties (1 voor vermenigvuldiging en 1 voor optelling).
Precisiefactor: De MAC-eenheden van een NPU zijn geoptimaliseerd voor de verwerking van gegevens met een lage nauwkeurigheid (bv. INT8).
Vergemakkelijkt snelheidsverhouding van INT8 vs. FP32: aangezien 32 bits / 8 bits = 4, kan een enkele FP32-eenheid theoretisch 4 keer zoveel operaties uitvoeren in één cyclus wanneer ze wordt overgeschakeld op INT8-berekening.,Als de TOPS van een fabrikant wordt berekend op basis van INT8, moet deze worden vermenigvuldigd met een nauwkeurigheidsgerelateerde snelheidsverhoging.
TOPS meet de theoretische rekenkracht. In praktische toepassingen, als gevolg van factoren zoals gegevensoverdracht, geheugenbeperkingen en modelstructuurde werkelijke effectieve rekenkracht van een NPU is vaak lager dan deze piekwaarde.
![]()
De computervermogen vertelt ons hoe snel een NPU draait, terwijl de computationele precisie ons vertelt hoe fijn het werkt.bepalen van het aantal gebruikte bits en het weergavebereik van gegevens tijdens de berekening.
Op hetzelfde TOPS-niveau is de werkelijke rekensnelheid van INT8 veel sneller dan die van FP32.
De door fabrikanten aangegeven NPU TOPS zijn gewoonlijk gebaseerd op INT8-nauwkeurigheid.
![]()
Als je een NPU ziet beweren 20 TOPS (INT8), moet je begrijpen:
De rekenkracht van een NPU (TOPS) is een indicator van de snelheid ervan, terwijl de berekeningsnauwkeurigheid (bv. INT8) de sleutel is tot de efficiëntie en toepasbaarheid ervan.fabrikanten in het algemeen streven naar maximale INT8 TOPS met behoud van aanvaardbare precisie verlies, om een laag vermogen en een hoge efficiëntie van AI inferentie prestaties te bereiken.