logo

Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021

Shanghai Neardi Technology Co., Ltd. Profiel van het bedrijf
Nieuws
Huis > Nieuws >
Bedrijfsnieuws Over Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht

Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht

2025-12-15
Latest company news about Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht

Stel je voor dat je aan een edge AI-project werkt met de RK3588: de videostream van de camera moet in realtime gezichtsherkenning en voertuigdetectie uitvoeren, terwijl het ook UI-weergave, gegevensupload,en business logic-verwerkingJe merkt op: kaderdruppels optreden wanneer er veel objecten in het frame zijn, grote modellen niet soepel kunnen draaien en de temperatuur sterk stijgt.

Op dit punt zeggen mensen meestal: "Jouw model is te groot" RK3588's 6TOPS is niet genoeg.

Maar is het echt een gebrek aan rekenkracht? Heb je je ooit afgevraagd: Waarom ervaart een 6TOPS NPU nog steeds frame drops en lag bij het uitvoeren van een 4TOPS model?Het antwoord ligt in de drie dimensies van NPU-computers:Topprestaties (TOPS),Precisie (INT8/FP16), enEfficiëntie (bandbreedte).

U zult zien dat verschillende chips hun NPU-specificaties benadrukken, met een kernparameter die prominent wordt weergegeven: NPU Computing Power: X TOPS. Voorbeelden zijn RK3588-6TOPS, RK3576-6TOPS,RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, enzovoort...

Waarom praat iedereen erover?

Tera.: vertegenwoordigt 1012.

Operaties per seconde: Verwijst naar het totale aantal AI-operaties dat de NPU in één seconde kan uitvoeren.

Hoe wordt TOPS berekend?

laatste bedrijfsnieuws over Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht  0

Het totale aantal MAC-eenheden is de kern van neurale netwercomputing.de hoofdberekening omvat het vermenigvuldigen van de ingangsgegevens met gewichten en vervolgens het optellen van de resultaten.

De ontwerpfilosofie van een NPU ligt in het hebben van een extreem groot scala aan parallelle MAC-eenheden.die tegelijkertijd kunnen werken om grootschalige parallelle computing te bereiken.

Hoe meer MAC-eenheden er zijn, hoe groter de hoeveelheid berekeningen die de NPU in een enkele klokcyclus kan voltooien.

Clockfrequentie: Bepaalt het aantal cycli dat de NPU-chip en de MAC-eenheden per seconde gebruiken (gemeten in Hertz, Hz).Een hogere frequentie stelt de MAC-array in staat om meer vermenigvuldigings-accumulatie-operaties per tijdseenheid uit te voerenWanneer de fabrikanten TOPS aankondigen, gebruiken zij de piekfrequentie van de NPU (d.w.z. de maximaal bereikbare frequentie).

Operaties per MACEen complete MAC-operatie omvat eigenlijk één vermenigvuldiging en één optelling.veel computerstandaarden tellen één MAC-operatie als 2 basisoperaties (1 voor vermenigvuldiging en 1 voor optelling).

Precisiefactor: De MAC-eenheden van een NPU zijn geoptimaliseerd voor de verwerking van gegevens met een lage nauwkeurigheid (bv. INT8).

Vergemakkelijkt snelheidsverhouding van INT8 vs. FP32: aangezien 32 bits / 8 bits = 4, kan een enkele FP32-eenheid theoretisch 4 keer zoveel operaties uitvoeren in één cyclus wanneer ze wordt overgeschakeld op INT8-berekening.,Als de TOPS van een fabrikant wordt berekend op basis van INT8, moet deze worden vermenigvuldigd met een nauwkeurigheidsgerelateerde snelheidsverhoging.

TOPS meet de theoretische rekenkracht. In praktische toepassingen, als gevolg van factoren zoals gegevensoverdracht, geheugenbeperkingen en modelstructuurde werkelijke effectieve rekenkracht van een NPU is vaak lager dan deze piekwaarde.

Computerkracht gaat over snelheid; precisie gaat over "finesse".

laatste bedrijfsnieuws over Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht  1

De computervermogen vertelt ons hoe snel een NPU draait, terwijl de computationele precisie ons vertelt hoe fijn het werkt.bepalen van het aantal gebruikte bits en het weergavebereik van gegevens tijdens de berekening.

Op hetzelfde TOPS-niveau is de werkelijke rekensnelheid van INT8 veel sneller dan die van FP32.

De door fabrikanten aangegeven NPU TOPS zijn gewoonlijk gebaseerd op INT8-nauwkeurigheid.

laatste bedrijfsnieuws over Een Diepgaande Interpretatie van de 6TOPS Bottleneck van RK3588 en de Waarheid over NPU-rekenkracht  2

Hoge nauwkeurigheid (meestal gebruikt voor training)
  • FP32 (single-precision floating-point, 32-bit): Biedt het grootste numerieke bereik en precisie. Gewoonlijk gebruikt in traditionele GPU en PC computing. Modellen nemen meestal FP32 tijdens de trainingsfase om nauwkeurigheid te garanderen.
  • FP16/BF16 (halfprecisie zwevende punt, 16-bit): Verminder het gegevensvolume met de helft en behoudt tegelijkertijd een bepaald nauwkeurigheidsniveau, waardoor snellere berekeningen en geheugenbesparingen mogelijk zijn.
Lage nauwkeurigheid (meestal gebruikt voor inferentie)
  • INT8 (8-bit Integer): Momenteel de industriestandaard voor de evaluatie van de inferentieprestaties van edge-side NPU's. Het proces van omzetting van modelgewichten en activeringswaarden van hoge nauwkeurigheid (bijv.FP32) tot 8-bit gehele getallen wordt kwantificatie genoemd.
  • INT4 (lower bit-width): Toegevoegde compressie, geschikt voor scenario's met extreem hoge eisen aan stroomverbruik en latentie, maar met hogere eisen aan het beheersen van modelprecisieverlies.
Hoe de werkelijke prestaties van een NPU te begrijpen?

Als je een NPU ziet beweren 20 TOPS (INT8), moet je begrijpen:

  • De maximale rekenkracht is 20 biljoen operaties per seconde.
  • Deze rekenkracht wordt gemeten onder 8-bits gehele getallen (INT8) precisie. Dit betekent dat het voornamelijk wordt gebruikt voor AI inferentie (zoals beeldherkenning, spraakverwerking, enz.), Niet training.
  • De uiteindelijke prestaties zijn afhankelijk van de toepassing: de daadwerkelijke gebruikerservaring (zoals de snelheid van het ontgrendelen van het gezicht, de latentie van real-time vertaling) is niet alleen afhankelijk van de TOPS van de NPU, maar ook van:
    • Kwaliteit van de kwantificatie van het model: of het kwantificeerde INT8-model voldoende nauwkeurigheid behoudt.
    • Geheugenbandbreedte: de snelheid van gegevensinvoer en -uitvoer.
    • Software stack en drivers: het optimalisatieniveau van de toolchain en drivers die door de chipfabrikant worden geleverd voor de implementatie van het model.

De rekenkracht van een NPU (TOPS) is een indicator van de snelheid ervan, terwijl de berekeningsnauwkeurigheid (bv. INT8) de sleutel is tot de efficiëntie en toepasbaarheid ervan.fabrikanten in het algemeen streven naar maximale INT8 TOPS met behoud van aanvaardbare precisie verlies, om een laag vermogen en een hoge efficiëntie van AI inferentie prestaties te bereiken.

Gebeuren
Contactpersonen
Contactpersonen: Mr. Cola
Contact opnemen
Mail ons.