develop/op__encodings_8hh_source.html

/*

 * Copyright (c) 2016-2021 Advanced Micro Devices, Inc.

 * All rights reserved.

 *

 * Redistribution and use in source and binary forms, with or without

 * modification, are permitted provided that the following conditions are met:

 *

 * 1. Redistributions of source code must retain the above copyright notice,

 * this list of conditions and the following disclaimer.

 *

 * 2. Redistributions in binary form must reproduce the above copyright notice,

 * this list of conditions and the following disclaimer in the documentation

 * and/or other materials provided with the distribution.

 *

 * 3. Neither the name of the copyright holder nor the names of its

 * contributors may be used to endorse or promote products derived from this

 * software without specific prior written permission.

 *

 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

 * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

 * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

 * POSSIBILITY OF SUCH DAMAGE.

 */


#ifndef __ARCH_VEGA_INSTS_OP_ENCODINGS_HH__

#define __ARCH_VEGA_INSTS_OP_ENCODINGS_HH__


#include "arch/amdgpu/vega/gpu_decoder.hh"

#include "arch/amdgpu/vega/gpu_mem_helpers.hh"

#include "arch/amdgpu/vega/insts/gpu_static_inst.hh"

#include "arch/amdgpu/vega/insts/inst_util.hh"

#include "arch/amdgpu/vega/operand.hh"

#include "debug/GPUExec.hh"

#include "debug/VEGA.hh"

#include "mem/ruby/system/RubySystem.hh"


namespace gem5

{


namespace VegaISA

{


    struct BufferRsrcDescriptor

    {

        uint64_t baseAddr : 48;

        uint32_t stride : 14;

        uint32_t cacheSwizzle : 1;

        uint32_t swizzleEn : 1;

        uint32_t numRecords : 32;

        uint32_t dstSelX : 3;

        uint32_t dstSelY : 3;

        uint32_t dstSelZ : 3;

        uint32_t dstSelW : 3;

        uint32_t numFmt : 3;

        uint32_t dataFmt : 4;

        uint32_t elemSize : 2;

        uint32_t idxStride : 2;

        uint32_t addTidEn : 1;

        uint32_t atc : 1;

        uint32_t hashEn : 1;

        uint32_t heap : 1;

        uint32_t mType : 3;

        uint32_t type : 2;

    };


    // --- purely virtual instruction classes ---


    class Inst_SOP2 : public VEGAGPUStaticInst

    {

      public:

        Inst_SOP2(InFmt_SOP2*, const std::string &opcode);


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_SOP2 instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


      private:

        bool hasSecondDword(InFmt_SOP2 *);

    }; // Inst_SOP2


    class Inst_SOPK : public VEGAGPUStaticInst

    {

      public:

        Inst_SOPK(InFmt_SOPK*, const std::string &opcode);

        ~Inst_SOPK();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_SOPK instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


      private:

        bool hasSecondDword(InFmt_SOPK *);

    }; // Inst_SOPK


    class Inst_SOP1 : public VEGAGPUStaticInst

    {

      public:

        Inst_SOP1(InFmt_SOP1*, const std::string &opcode);

        ~Inst_SOP1();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_SOP1 instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


      private:

        bool hasSecondDword(InFmt_SOP1 *);

    }; // Inst_SOP1


    class Inst_SOPC : public VEGAGPUStaticInst

    {

      public:

        Inst_SOPC(InFmt_SOPC*, const std::string &opcode);

        ~Inst_SOPC();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_SOPC instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


      private:

        bool hasSecondDword(InFmt_SOPC *);

    }; // Inst_SOPC


    class Inst_SOPP : public VEGAGPUStaticInst

    {

      public:

        Inst_SOPP(InFmt_SOPP*, const std::string &opcode);

        ~Inst_SOPP();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_SOPP instData;

    }; // Inst_SOPP


    class Inst_SMEM : public VEGAGPUStaticInst

    {

      public:

        Inst_SMEM(InFmt_SMEM*, const std::string &opcode);

        ~Inst_SMEM();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        template<int N>

        void


        initMemRead(GPUDynInstPtr gpuDynInst)

        {

            initMemReqScalarHelper<ScalarRegU32, N>(gpuDynInst,

                                                    MemCmd::ReadReq);

        }


        template<int N>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst)

        {

            initMemReqScalarHelper<ScalarRegU32, N>(gpuDynInst,

                                                    MemCmd::WriteReq);

        }


        void


        calcAddr(GPUDynInstPtr gpu_dyn_inst, ConstScalarOperandU64 &addr,

                 ScalarRegU32 offset)

        {

            Addr vaddr = ((addr.rawData() + offset) & ~0x3);

            gpu_dyn_inst->scalarAddr = vaddr;

        }


        void


        calcAddr(GPUDynInstPtr gpu_dyn_inst,

                 ConstScalarOperandU128 &s_rsrc_desc, ScalarRegU32 offset)

        {

            BufferRsrcDescriptor rsrc_desc;

            ScalarRegU32 clamped_offset(offset);

            std::memcpy((void*)&rsrc_desc, s_rsrc_desc.rawDataPtr(),

                        sizeof(BufferRsrcDescriptor));


            if (!rsrc_desc.stride && offset >= rsrc_desc.numRecords) {

                clamped_offset = rsrc_desc.numRecords;

            } else if (rsrc_desc.stride && offset

                       > (rsrc_desc.stride * rsrc_desc.numRecords)) {

                clamped_offset = (rsrc_desc.stride * rsrc_desc.numRecords);

            }


            Addr vaddr = ((rsrc_desc.baseAddr + clamped_offset) & ~0x3);

            gpu_dyn_inst->scalarAddr = vaddr;

        }


        // first instruction DWORD

        InFmt_SMEM instData;

        // second instruction DWORD

        InFmt_SMEM_1 extData;

    }; // Inst_SMEM


    class Inst_VOP2 : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP2(InFmt_VOP2*, const std::string &opcode);

        ~Inst_VOP2();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP2 instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


        template<typename T>


        T sdwaSrcHelper(GPUDynInstPtr gpuDynInst, T & src1)

        {

            T src0_sdwa(gpuDynInst, extData.iFmt_VOP_SDWA.SRC0);

            // use copies of original src0, src1, and dest during selecting

            T origSrc0_sdwa(gpuDynInst, extData.iFmt_VOP_SDWA.SRC0);

            T origSrc1(gpuDynInst, instData.VSRC1);


            src0_sdwa.read();

            origSrc0_sdwa.read();

            origSrc1.read();


            DPRINTF(VEGA, "Handling %s SRC SDWA. SRC0: register v[%d], "

                "DST_SEL: %d, DST_U: %d, CLMP: %d, SRC0_SEL: %d, SRC0_SEXT: "

                "%d, SRC0_NEG: %d, SRC0_ABS: %d, SRC1_SEL: %d, SRC1_SEXT: %d, "

                "SRC1_NEG: %d, SRC1_ABS: %d\n",

                opcode().c_str(), extData.iFmt_VOP_SDWA.SRC0,

                extData.iFmt_VOP_SDWA.DST_SEL, extData.iFmt_VOP_SDWA.DST_U,

                extData.iFmt_VOP_SDWA.CLMP, extData.iFmt_VOP_SDWA.SRC0_SEL,

                extData.iFmt_VOP_SDWA.SRC0_SEXT,

                extData.iFmt_VOP_SDWA.SRC0_NEG, extData.iFmt_VOP_SDWA.SRC0_ABS,

                extData.iFmt_VOP_SDWA.SRC1_SEL,

                extData.iFmt_VOP_SDWA.SRC1_SEXT,

                extData.iFmt_VOP_SDWA.SRC1_NEG,

                extData.iFmt_VOP_SDWA.SRC1_ABS);


            processSDWA_src(extData.iFmt_VOP_SDWA, src0_sdwa, origSrc0_sdwa,

                            src1, origSrc1);


            return src0_sdwa;

        }


        template<typename T>


        void sdwaDstHelper(GPUDynInstPtr gpuDynInst, T & vdst)

        {

            T origVdst(gpuDynInst, instData.VDST);


            Wavefront *wf = gpuDynInst->wavefront();

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (wf->execMask(lane)) {

                    origVdst[lane] = vdst[lane]; // keep copy consistent

                }

            }


            processSDWA_dst(extData.iFmt_VOP_SDWA, vdst, origVdst);

        }


        template<typename T>


        T dppHelper(GPUDynInstPtr gpuDynInst, T & src1)

        {

            T src0_dpp(gpuDynInst, extData.iFmt_VOP_DPP.SRC0);

            src0_dpp.read();


            DPRINTF(VEGA, "Handling %s SRC DPP. SRC0: register v[%d], "

                "DPP_CTRL: 0x%#x, SRC0_ABS: %d, SRC0_NEG: %d, SRC1_ABS: %d, "

                "SRC1_NEG: %d, BC: %d, BANK_MASK: %d, ROW_MASK: %d\n",

                opcode().c_str(), extData.iFmt_VOP_DPP.SRC0,

                extData.iFmt_VOP_DPP.DPP_CTRL, extData.iFmt_VOP_DPP.SRC0_ABS,

                extData.iFmt_VOP_DPP.SRC0_NEG, extData.iFmt_VOP_DPP.SRC1_ABS,

                extData.iFmt_VOP_DPP.SRC1_NEG, extData.iFmt_VOP_DPP.BC,

                extData.iFmt_VOP_DPP.BANK_MASK, extData.iFmt_VOP_DPP.ROW_MASK);


            processDPP(gpuDynInst, extData.iFmt_VOP_DPP, src0_dpp, src1);


            return src0_dpp;

        }


        template<typename ConstT, typename T>


        void vop2Helper(GPUDynInstPtr gpuDynInst,

                        void (*fOpImpl)(T&, T&, T&, Wavefront*))

        {

            Wavefront *wf = gpuDynInst->wavefront();

            T src0(gpuDynInst, instData.SRC0);

            T src1(gpuDynInst, instData.VSRC1);

            T vdst(gpuDynInst, instData.VDST);


            src0.readSrc();

            src1.read();


            if (isSDWAInst()) {

                T src0_sdwa = sdwaSrcHelper(gpuDynInst, src1);

                fOpImpl(src0_sdwa, src1, vdst, wf);

                sdwaDstHelper(gpuDynInst, vdst);

            } else if (isDPPInst()) {

                T src0_dpp = dppHelper(gpuDynInst, src1);

                fOpImpl(src0_dpp, src1, vdst, wf);

            } else {

                // src0 is unmodified. We need to use the const container

                // type to allow reading scalar operands from src0. Only

                // src0 can index scalar operands. We copy this to vdst

                // temporarily to pass to the lambda so the instruction

                // does not need to write two lambda functions (one for

                // a const src0 and one of a mutable src0).

                ConstT const_src0(gpuDynInst, instData.SRC0);

                const_src0.readSrc();


                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    vdst[lane] = const_src0[lane];

                }

                fOpImpl(vdst, src1, vdst, wf);

            }


            vdst.write();

        }


      private:

        bool hasSecondDword(InFmt_VOP2 *);

    }; // Inst_VOP2


    class Inst_VOP1 : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP1(InFmt_VOP1*, const std::string &opcode);

        ~Inst_VOP1();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP1 instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


      private:

        bool hasSecondDword(InFmt_VOP1 *);

    }; // Inst_VOP1


    class Inst_VOPC : public VEGAGPUStaticInst

    {

      public:

        Inst_VOPC(InFmt_VOPC*, const std::string &opcode);

        ~Inst_VOPC();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOPC instData;

        // possible second DWORD

        InstFormat extData;

        uint32_t varSize;


        template<typename T>

        uint32_t


        sdwabSelect(uint32_t dword, const SDWASelVals sel,

                    bool sign_ext, bool neg, bool abs)

        {

            // Use the gem5 bits() helper to select a sub region from the

            // dword based on the select. Return a 32-bit unsigned which will

            // be cast to the appropriate compare type in the lambda passed to

            // sdwabHelper.

            int low_bit = 0, high_bit = 0;

            uint32_t rv = dword;


            if (sel < SDWA_WORD_0) {

                // Selecting a sub-dword value smaller than a word (i.e., a

                // byte). These values are 0-3 so multiplying by BITS_PER_BYTE

                // gives the lower and upper bit easily.

                low_bit = sel * VegaISA::BITS_PER_BYTE;

                high_bit = low_bit + VegaISA::BITS_PER_BYTE - 1;

            } else if (sel < SDWA_DWORD) {

                // Selecting a sub-dword value of word size. Enum value is 4

                // or 5, so selecting the LSb and multiplying gives the lower

                // and upper bit.

                low_bit = (sel & 1) * VegaISA::BITS_PER_WORD;

                high_bit = low_bit + VegaISA::MSB_PER_WORD - 1;

            } else {

                // We are selecting the whole dword. Assert that is true and

                // set the bit locations for lower and upper based on dword

                // size.

                assert(sel == SDWA_DWORD);

                low_bit = 0;

                high_bit = sizeof(uint32_t) * VegaISA::BITS_PER_BYTE - 1;

            }


            rv = bits(dword, high_bit, low_bit);


            uint32_t sign_bit = 1 << high_bit;


            // Panic on combinations which do not make sense.

            if (std::is_integral_v<T> && std::is_unsigned_v<T>) {

                panic_if(neg, "SWDAB negation operation on unsigned type!\n");

                panic_if(sign_ext, "SWDAB sign extend on unsigned type!\n");

            }


            // Apply ABS, then NEG, then SEXT.

            if (abs) {

                if (std::is_integral_v<T>) {

                    // If sign is set, sign extend first then call std::abs.

                    if ((rv & sign_bit) && std::is_signed_v<T>) {

                        rv = sext(rv, high_bit + 1) & 0xFFFFFFFF;

                        rv = std::abs(static_cast<long long>(rv)) & 0xFFFFFFFF;

                    }

                } else {

                    // Clear sign bit for FP types.

                    rv = rv & mask(high_bit);

                }

            }


            if (neg) {

                if (std::is_integral_v<T>) {

                    // If sign is set, sign extend first then call unary-.

                    if (rv & sign_bit) {

                        rv = sext(rv, high_bit + 1) & 0xFFFFFFFF;

                        rv = -rv;

                    }

                } else {

                    // Flip sign bit for FP types.

                    rv = rv ^ mask(high_bit);

                }

            }


            if (sign_ext) {

                if (std::is_integral_v<T>) {

                    if (rv & sign_bit) {

                        rv = sext(rv, high_bit + 1) & 0xFFFFFFFF;

                    }

                } else {

                    // It is not entirely clear what to do here. Literal

                    // extensions for FP operands append zeros to mantissa

                    // but specification does not state anything for SDWAB.

                    panic("SDWAB sign extend set for non-integral type!\n");

                }

            }


            return rv;

        }


        template<typename T>

        void


        sdwabHelper(GPUDynInstPtr gpuDynInst, int (*cmpFunc)(T, T))

        {

            DPRINTF(VEGA, "Handling %s SRC SDWA. SRC0: register %s[%d], "

                    "sDst s[%d], sDst type %s, SRC0_SEL: %d, SRC0_SEXT: %d "

                    "SRC0_NEG: %d, SRC0_ABS: %d, SRC1: register %s[%d], "

                    "SRC1_SEL: %d, SRC1_SEXT: %d, SRC1_NEG: %d, SRC1_ABS: "

                    "%d\n", _opcode.c_str(),

                    (extData.iFmt_VOP_SDWAB.S0 ? "s" : "v"),

                    extData.iFmt_VOP_SDWAB.SRC0,

                    extData.iFmt_VOP_SDWAB.SDST,

                    (extData.iFmt_VOP_SDWAB.SD ? "SGPR" : "VCC"),

                    extData.iFmt_VOP_SDWAB.SRC0_SEL,

                    extData.iFmt_VOP_SDWAB.SRC0_SEXT,

                    extData.iFmt_VOP_SDWAB.SRC0_NEG,

                    extData.iFmt_VOP_SDWAB.SRC0_ABS,

                    (extData.iFmt_VOP_SDWAB.S1 ? "s" : "v"),

                    instData.VSRC1,

                    extData.iFmt_VOP_SDWAB.SRC1_SEL,

                    extData.iFmt_VOP_SDWAB.SRC1_SEXT,

                    extData.iFmt_VOP_SDWAB.SRC1_NEG,

                    extData.iFmt_VOP_SDWAB.SRC1_ABS);


            // Start with SRC0 and insert 9th bit for VGPR source (S0 == 0).

            int src0_idx = extData.iFmt_VOP_SDWAB.SRC0;

            src0_idx += (extData.iFmt_VOP_SDWAB.S0 == 0) ? 0x100 : 0;


            // Start with VSRC1[7:0], insert 9th bit for VGPR source (S1 == 0).

            int src1_idx = instData.VSRC1;

            src1_idx += (extData.iFmt_VOP_SDWAB.S1 == 0) ? 0x100 : 0;


            // SD == 0 if VCC is dest, else use SDST index.

            int sdst_idx = (extData.iFmt_VOP_SDWAB.SD == 1) ?

                int(extData.iFmt_VOP_SDWAB.SDST) : REG_VCC_LO;


            ConstVecOperandU32 src0(gpuDynInst, src0_idx);

            ConstVecOperandU32 src1(gpuDynInst, src1_idx);

            ScalarOperandU64 sdst(gpuDynInst, sdst_idx);


            // Use readSrc in case of scalar const register.

            src0.readSrc();

            src1.readSrc();


            // Select bits first, then cast to type, then apply modifiers.

            const SDWASelVals src0_sel =

                (SDWASelVals)extData.iFmt_VOP_SDWAB.SRC0_SEL;

            const SDWASelVals src1_sel =

                (SDWASelVals)extData.iFmt_VOP_SDWAB.SRC1_SEL;


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->wavefront()->execMask(lane)) {

                    T a = sdwabSelect<T>(src0[lane], src0_sel,

                                         extData.iFmt_VOP_SDWAB.SRC0_SEXT,

                                         extData.iFmt_VOP_SDWAB.SRC0_NEG,

                                         extData.iFmt_VOP_SDWAB.SRC0_ABS);

                    T b = sdwabSelect<T>(src1[lane], src1_sel,

                                         extData.iFmt_VOP_SDWAB.SRC1_SEXT,

                                         extData.iFmt_VOP_SDWAB.SRC1_NEG,

                                         extData.iFmt_VOP_SDWAB.SRC1_ABS);

                    sdst.setBit(lane, cmpFunc(a, b));

                }

            }


            sdst.write();

        }


      private:

        bool hasSecondDword(InFmt_VOPC *);

    }; // Inst_VOPC


    class Inst_VINTRP : public VEGAGPUStaticInst

    {

      public:

        Inst_VINTRP(InFmt_VINTRP*, const std::string &opcode);

        ~Inst_VINTRP();


        int instSize() const override;


      protected:

        // first instruction DWORD

        InFmt_VINTRP instData;

    }; // Inst_VINTRP


    class Inst_VOP3A : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP3A(InFmt_VOP3A*, const std::string &opcode, bool sgpr_dst);

        ~Inst_VOP3A();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP3A instData;

        // second instruction DWORD

        InFmt_VOP3_1 extData;


        // Output modifier for VOP3 instructions. This 2-bit field can be set

        // to "0" to do nothing, "1" to multiply output value by 2, "2" to

        // multiply output value by 4, or "3" to divide output value by 2. If

        // the instruction supports clamping, this is applied *before* clamp

        // but after the abs and neg modifiers.

        template<typename T>


        T omodModifier(T val, unsigned omod)

        {

            assert(omod < 4);


            if constexpr (std::is_floating_point_v<T>) {

                if (omod == 1) return val * T(2.0f);

                if (omod == 2) return val * T(4.0f);

                if (omod == 3) return val / T(2.0f);

            } else {

                assert(std::is_integral_v<T>);

                if (omod == 1) return val * T(2);

                if (omod == 2) return val * T(4);

                if (omod == 3) return val / T(2);

            }


            return val;

        }


      private:

        bool hasSecondDword(InFmt_VOP3A *);

        const bool sgprDst;

    }; // Inst_VOP3A


    class Inst_VOP3B : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP3B(InFmt_VOP3B*, const std::string &opcode);

        ~Inst_VOP3B();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP3B instData;

        // second instruction DWORD

        InFmt_VOP3_1 extData;


      private:

        bool hasSecondDword(InFmt_VOP3B *);

    }; // Inst_VOP3B


    class Inst_VOP3P : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP3P(InFmt_VOP3P*, const std::string &opcode);

        ~Inst_VOP3P();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP3P instData;

        // second instruction DWORD

        InFmt_VOP3P_1 extData;


        template<typename T>


        void vop3pHelper(GPUDynInstPtr gpuDynInst,

                        T (*fOpImpl)(T, T, bool))

        {

            Wavefront *wf = gpuDynInst->wavefront();

            ConstVecOperandU32 S0(gpuDynInst, extData.SRC0);

            ConstVecOperandU32 S1(gpuDynInst, extData.SRC1);

            VecOperandU32 D(gpuDynInst, instData.VDST);


            S0.readSrc();

            S1.readSrc();


            int opLo = instData.OPSEL;

            int opHi = instData.OPSEL_HI2 << 2 | extData.OPSEL_HI;

            int negLo = extData.NEG;

            int negHi = instData.NEG_HI;

            bool clamp = instData.CLMP;

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (wf->execMask(lane)) {

                    T upper_val = fOpImpl(word<T>(S0[lane], opHi, negHi, 0),

                                          word<T>(S1[lane], opHi, negHi, 1),

                                          clamp);

                    T lower_val = fOpImpl(word<T>(S0[lane], opLo, negLo, 0),

                                          word<T>(S1[lane], opLo, negLo, 1),

                                          clamp);


                    uint16_t upper_raw =

                        *reinterpret_cast<uint16_t*>(&upper_val);

                    uint16_t lower_raw =

                        *reinterpret_cast<uint16_t*>(&lower_val);


                    D[lane] = upper_raw << 16 | lower_raw;

                }

            }


            D.write();

        }


        template<typename T>


        void vop3pHelper(GPUDynInstPtr gpuDynInst,

                        T (*fOpImpl)(T, T, T, bool))

        {

            Wavefront *wf = gpuDynInst->wavefront();

            ConstVecOperandU32 S0(gpuDynInst, extData.SRC0);

            ConstVecOperandU32 S1(gpuDynInst, extData.SRC1);

            ConstVecOperandU32 S2(gpuDynInst, extData.SRC2);

            VecOperandU32 D(gpuDynInst, instData.VDST);


            S0.readSrc();

            S1.readSrc();

            S2.readSrc();


            int opLo = instData.OPSEL;

            int opHi = instData.OPSEL_HI2 << 2 | extData.OPSEL_HI;

            int negLo = extData.NEG;

            int negHi = instData.NEG_HI;

            bool clamp = instData.CLMP;

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (wf->execMask(lane)) {

                    T upper_val = fOpImpl(word<T>(S0[lane], opHi, negHi, 0),

                                          word<T>(S1[lane], opHi, negHi, 1),

                                          word<T>(S2[lane], opHi, negHi, 2),

                                          clamp);

                    T lower_val = fOpImpl(word<T>(S0[lane], opLo, negLo, 0),

                                          word<T>(S1[lane], opLo, negLo, 1),

                                          word<T>(S2[lane], opLo, negLo, 2),

                                          clamp);


                    uint16_t upper_raw =

                        *reinterpret_cast<uint16_t*>(&upper_val);

                    uint16_t lower_raw =

                        *reinterpret_cast<uint16_t*>(&lower_val);


                    D[lane] = upper_raw << 16 | lower_raw;

                }

            }


            D.write();

        }


        void


        dotHelper(GPUDynInstPtr gpuDynInst,

                  uint32_t (*fOpImpl)(uint32_t, uint32_t, uint32_t, bool))

        {

            Wavefront *wf = gpuDynInst->wavefront();

            ConstVecOperandU32 S0(gpuDynInst, extData.SRC0);

            ConstVecOperandU32 S1(gpuDynInst, extData.SRC1);

            ConstVecOperandU32 S2(gpuDynInst, extData.SRC2);

            VecOperandU32 D(gpuDynInst, instData.VDST);


            S0.readSrc();

            S1.readSrc();

            S2.readSrc();


            // OPSEL[2] and OPSEL_HI2 are unused. Craft two dwords where:

            // dword1[15:0]  is upper/lower 16b of src0 based on opsel[0]

            // dword1[31:15] is upper/lower 16b of src0 based on opsel_hi[0]

            // dword2[15:0]  is upper/lower 16b of src1 based on opsel[1]

            // dword2[31:15] is upper/lower 16b of src1 based on opsel_hi[1]

            int opLo = instData.OPSEL;

            int opHi = extData.OPSEL_HI;

            int negLo = extData.NEG;

            int negHi = instData.NEG_HI;

            bool clamp = instData.CLMP;


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (wf->execMask(lane)) {

                    uint32_t dword1l =

                        word<uint16_t>(S0[lane], opLo, negLo, 0);

                    uint32_t dword1h =

                        word<uint16_t>(S0[lane], opHi, negHi, 0);

                    uint32_t dword2l =

                        word<uint16_t>(S1[lane], opLo, negLo, 1);

                    uint32_t dword2h =

                        word<uint16_t>(S1[lane], opHi, negHi, 1);


                    uint32_t dword1 = (dword1h << 16) | dword1l;

                    uint32_t dword2 = (dword2h << 16) | dword2l;


                    // Take in two uint32_t dwords and one src2 dword. The

                    // function will need to call bits to break up to the

                    // correct size and then reinterpret cast to the correct

                    // value.

                    D[lane] = fOpImpl(dword1, dword2, S2[lane], clamp);

                }

            }


            D.write();

        }


      private:

        bool hasSecondDword(InFmt_VOP3P *);


        template<typename T>

        T


        word(uint32_t data, int opSel, int neg, int opSelBit)

        {

            // This method assumes two words packed into a dword

            static_assert(sizeof(T) == 2);


            bool select = bits(opSel, opSelBit, opSelBit);

            uint16_t raw = select ? bits(data, 31, 16)

                                  : bits(data, 15, 0);


            // Apply input modifiers. This may seem odd, but the hardware

            // just flips the MSb instead of doing unary negation.

            bool negate = bits(neg, opSelBit, opSelBit);

            if (negate) {

                raw ^= 0x8000;

            }


            return *reinterpret_cast<T*>(&raw);

        }


    }; // Inst_VOP3P


    class Inst_VOP3P_MAI : public VEGAGPUStaticInst

    {

      public:

        Inst_VOP3P_MAI(InFmt_VOP3P_MAI*, const std::string &opcode);

        ~Inst_VOP3P_MAI();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_VOP3P_MAI instData;

        // second instruction DWORD

        InFmt_VOP3P_MAI_1 extData;


      private:

        bool hasSecondDword(InFmt_VOP3P_MAI *);

    }; // Inst_VOP3P


    class Inst_DS : public VEGAGPUStaticInst

    {

      public:

        Inst_DS(InFmt_DS*, const std::string &opcode);

        ~Inst_DS();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        template<typename T>

        void


        initMemRead(GPUDynInstPtr gpuDynInst, Addr offset)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr = gpuDynInst->addr[lane] + offset;


                    (reinterpret_cast<T*>(gpuDynInst->d_data))[lane]

                        = wf->ldsChunk->read<T>(vaddr);

                }

            }

        }


        template<int N>

        void


        initMemRead(GPUDynInstPtr gpuDynInst, Addr offset)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr = gpuDynInst->addr[lane] + offset;

                    for (int i = 0; i < N; ++i) {

                        (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->d_data))[lane * N + i]

                            = wf->ldsChunk->read<VecElemU32>(

                                vaddr + i*sizeof(VecElemU32));

                    }

                }

            }

        }


        template<typename T>

        void


        initDualMemRead(GPUDynInstPtr gpuDynInst, Addr offset0, Addr offset1)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr0 = gpuDynInst->addr[lane] + offset0;

                    Addr vaddr1 = gpuDynInst->addr[lane] + offset1;


                    (reinterpret_cast<T*>(gpuDynInst->d_data))[lane * 2]

                        = wf->ldsChunk->read<T>(vaddr0);

                    (reinterpret_cast<T*>(gpuDynInst->d_data))[lane * 2 + 1]

                        = wf->ldsChunk->read<T>(vaddr1);

                }

            }

        }


        template<typename T>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst, Addr offset)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr = gpuDynInst->addr[lane] + offset;

                    wf->ldsChunk->write<T>(vaddr,

                        (reinterpret_cast<T*>(gpuDynInst->d_data))[lane]);

                }

            }

        }


        template<int N>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst, Addr offset)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr = gpuDynInst->addr[lane] + offset;

                    for (int i = 0; i < N; ++i) {

                        wf->ldsChunk->write<VecElemU32>(

                            vaddr + i*sizeof(VecElemU32),

                            (reinterpret_cast<VecElemU32*>(

                                gpuDynInst->d_data))[lane * N + i]);

                    }

                }

            }

        }


        template<typename T>

        void


        initDualMemWrite(GPUDynInstPtr gpuDynInst, Addr offset0, Addr offset1)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr0 = gpuDynInst->addr[lane] + offset0;

                    Addr vaddr1 = gpuDynInst->addr[lane] + offset1;

                    wf->ldsChunk->write<T>(vaddr0, (reinterpret_cast<T*>(

                        gpuDynInst->d_data))[lane * 2]);

                    wf->ldsChunk->write<T>(vaddr1, (reinterpret_cast<T*>(

                        gpuDynInst->d_data))[lane * 2 + 1]);

                }

            }

        }


        template<typename T>

        void


        initAtomicAccess(GPUDynInstPtr gpuDynInst, Addr offset)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    Addr vaddr = gpuDynInst->addr[lane] + offset;


                    AtomicOpFunctorPtr amo_op =

                        gpuDynInst->makeAtomicOpFunctor<T>(

                        &(reinterpret_cast<T*>(gpuDynInst->a_data))[lane],

                        &(reinterpret_cast<T*>(gpuDynInst->x_data))[lane]);


                    (reinterpret_cast<T*>(gpuDynInst->d_data))[lane]

                        = wf->ldsChunk->atomic<T>(vaddr, std::move(amo_op));

                }

            }

        }


        void


        calcAddr(GPUDynInstPtr gpuDynInst, ConstVecOperandU32 &addr)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (wf->execMask(lane)) {

                    gpuDynInst->addr.at(lane) = (Addr)addr[lane];

                }

            }

        }


        // first instruction DWORD

        InFmt_DS instData;

        // second instruction DWORD

        InFmt_DS_1 extData;

    }; // Inst_DS


    class Inst_MUBUF : public VEGAGPUStaticInst

    {

      public:

        Inst_MUBUF(InFmt_MUBUF*, const std::string &opcode);

        ~Inst_MUBUF();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        template<typename T>

        void


        initMemRead(GPUDynInstPtr gpuDynInst)

        {

            // temporarily modify exec_mask to supress memory accesses to oob

            // regions.  Only issue memory requests for lanes that have their

            // exec_mask set and are not out of bounds.

            VectorMask old_exec_mask = gpuDynInst->exec_mask;

            gpuDynInst->exec_mask &= ~oobMask;

            initMemReqHelper<T, 1>(gpuDynInst, MemCmd::ReadReq);

            gpuDynInst->exec_mask = old_exec_mask;

        }


        template<int N>

        void


        initMemRead(GPUDynInstPtr gpuDynInst)

        {

            // temporarily modify exec_mask to supress memory accesses to oob

            // regions.  Only issue memory requests for lanes that have their

            // exec_mask set and are not out of bounds.

            VectorMask old_exec_mask = gpuDynInst->exec_mask;

            gpuDynInst->exec_mask &= ~oobMask;

            initMemReqHelper<VecElemU32, N>(gpuDynInst, MemCmd::ReadReq);

            gpuDynInst->exec_mask = old_exec_mask;

        }


        template<typename T>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst)

        {

            // temporarily modify exec_mask to supress memory accesses to oob

            // regions.  Only issue memory requests for lanes that have their

            // exec_mask set and are not out of bounds.

            VectorMask old_exec_mask = gpuDynInst->exec_mask;

            gpuDynInst->exec_mask &= ~oobMask;

            initMemReqHelper<T, 1>(gpuDynInst, MemCmd::WriteReq);

            gpuDynInst->exec_mask = old_exec_mask;

        }


        template<int N>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst)

        {

            // temporarily modify exec_mask to supress memory accesses to oob

            // regions.  Only issue memory requests for lanes that have their

            // exec_mask set and are not out of bounds.

            VectorMask old_exec_mask = gpuDynInst->exec_mask;

            gpuDynInst->exec_mask &= ~oobMask;

            initMemReqHelper<VecElemU32, N>(gpuDynInst, MemCmd::WriteReq);

            gpuDynInst->exec_mask = old_exec_mask;

        }


        template<typename T>

        void


        initAtomicAccess(GPUDynInstPtr gpuDynInst)

        {

            // temporarily modify exec_mask to supress memory accesses to oob

            // regions.  Only issue memory requests for lanes that have their

            // exec_mask set and are not out of bounds.

            VectorMask old_exec_mask = gpuDynInst->exec_mask;

            gpuDynInst->exec_mask &= ~oobMask;

            initMemReqHelper<T, 1>(gpuDynInst, MemCmd::SwapReq, true);

            gpuDynInst->exec_mask = old_exec_mask;

        }


        void


        injectGlobalMemFence(GPUDynInstPtr gpuDynInst)

        {

            // create request and set flags

            gpuDynInst->resetEntireStatusVector();

            gpuDynInst->setStatusVector(0, 1);

            RequestPtr req = std::make_shared<Request>(0, 0, 0,

                                       gpuDynInst->computeUnit()->

                                       requestorId(), 0,

                                       gpuDynInst->wfDynId);

            gpuDynInst->setRequestFlags(req);

            gpuDynInst->computeUnit()->

                injectGlobalMemFence(gpuDynInst, false, req);

        }


        template<int NumDwords, int SignBit = 0>

        void


        ldsComplete(GPUDynInstPtr gpuDynInst)

        {

            assert(isFlatGlobal() || isFlatScratch());


            Wavefront *wf = gpuDynInst->wavefront();

            ScalarRegU32 inst_offset = instData.OFFSET;

            ConstScalarOperandU32 lds_offset(gpuDynInst, REG_M0);


            lds_offset.read();


            // LDS base should be implied by the ldsChunk for the wave.

            uint32_t m0_offset = bits(lds_offset.rawData(), 17, 2);

            uint32_t lds_addr = m0_offset * 4 + inst_offset;


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    uint32_t chunk_addr =

                        lds_addr + lane * NumDwords * sizeof(VecElemU32);


                    for (int i = 0; i < NumDwords; ++i) {

                        VecElemU32 val = (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->d_data))[lane * NumDwords + i];

                        if constexpr (SignBit != 0) {

                            val = (VecElemI32)sext<SignBit>(val);

                        }


                        wf->ldsChunk->write<VecElemU32>(

                            chunk_addr + i*sizeof(VecElemU32), val);

                    }

                }

            }

        }


        template<typename VOFF, typename VIDX, typename SRSRC, typename SOFF>

        void


        calcAddr(GPUDynInstPtr gpuDynInst, VOFF v_off, VIDX v_idx,

            SRSRC s_rsrc_desc, SOFF s_offset, int inst_offset)

        {

            Addr vaddr = 0;

            Addr base_addr = 0;

            Addr stride = 0;

            Addr buf_idx = 0;

            Addr buf_off = 0;

            Addr buffer_offset = 0;

            BufferRsrcDescriptor rsrc_desc;


            std::memcpy((void*)&rsrc_desc, s_rsrc_desc.rawDataPtr(),

                sizeof(BufferRsrcDescriptor));


            base_addr = rsrc_desc.baseAddr;


            stride = rsrc_desc.addTidEn ? ((rsrc_desc.dataFmt << 14)

                + rsrc_desc.stride) : rsrc_desc.stride;


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    vaddr = base_addr + s_offset.rawData();

                    buf_idx = v_idx[lane] + (rsrc_desc.addTidEn ? lane : 0);


                    buf_off = v_off[lane] + inst_offset;


                    if (rsrc_desc.swizzleEn) {

                        Addr idx_stride = 8 << rsrc_desc.idxStride;

                        Addr elem_size = 2 << rsrc_desc.elemSize;

                        Addr idx_msb = buf_idx / idx_stride;

                        Addr idx_lsb = buf_idx % idx_stride;

                        Addr off_msb = buf_off / elem_size;

                        Addr off_lsb = buf_off % elem_size;

                        DPRINTF(VEGA, "mubuf swizzled lane %d: "

                                "idx_stride = %llx, elem_size = %llx, "

                                "idx_msb = %llx, idx_lsb = %llx, "

                                "off_msb = %llx, off_lsb = %llx\n",

                                lane, idx_stride, elem_size, idx_msb, idx_lsb,

                                off_msb, off_lsb);


                        buffer_offset =(idx_msb * stride + off_msb * elem_size)

                            * idx_stride + idx_lsb * elem_size + off_lsb;

                    } else {

                        buffer_offset = buf_off + stride * buf_idx;

                    }


                    if (rsrc_desc.stride == 0 || !rsrc_desc.swizzleEn) {

                        if (buffer_offset >=

                            rsrc_desc.numRecords - s_offset.rawData()) {

                            DPRINTF(VEGA, "mubuf out-of-bounds condition 1: "

                                    "lane = %d, buffer_offset = %llx, "

                                    "const_stride = %llx, "

                                    "const_num_records = %llx\n",

                                    lane, buf_off + stride * buf_idx,

                                    stride, rsrc_desc.numRecords);

                            oobMask.set(lane);

                            continue;

                        }

                    }


                    if (rsrc_desc.stride != 0 && rsrc_desc.swizzleEn) {

                        if (buf_idx >= rsrc_desc.numRecords ||

                            buf_off >= stride) {

                            DPRINTF(VEGA, "mubuf out-of-bounds condition 2: "

                                    "lane = %d, offset = %llx, "

                                    "index = %llx, "

                                    "const_num_records = %llx\n",

                                    lane, buf_off, buf_idx,

                                    rsrc_desc.numRecords);

                            oobMask.set(lane);

                            continue;

                        }

                    }


                    vaddr += buffer_offset;


                    DPRINTF(VEGA, "Calculating mubuf address for lane %d: "

                            "vaddr = %llx, base_addr = %llx, "

                            "stride = %llx, buf_idx = %llx, buf_off = %llx\n",

                            lane, vaddr, base_addr, stride,

                            buf_idx, buf_off);

                    gpuDynInst->addr.at(lane) = vaddr;

                }

            }

        }


        // first instruction DWORD

        InFmt_MUBUF instData;

        // second instruction DWORD

        InFmt_MUBUF_1 extData;

        // Mask of lanes with out-of-bounds accesses.  Needs to be tracked

        // seperately from the exec_mask so that we remember to write zero

        // to the registers associated with out of bounds lanes.

        VectorMask oobMask;

    }; // Inst_MUBUF


    class Inst_MTBUF : public VEGAGPUStaticInst

    {

      public:

        Inst_MTBUF(InFmt_MTBUF*, const std::string &opcode);

        ~Inst_MTBUF();


        int instSize() const override;

        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_MTBUF instData;

        // second instruction DWORD

        InFmt_MTBUF_1 extData;


      private:

        bool hasSecondDword(InFmt_MTBUF *);

    }; // Inst_MTBUF


    class Inst_MIMG : public VEGAGPUStaticInst

    {

      public:

        Inst_MIMG(InFmt_MIMG*, const std::string &opcode);

        ~Inst_MIMG();


        int instSize() const override;

        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_MIMG instData;

        // second instruction DWORD

        InFmt_MIMG_1 extData;

    }; // Inst_MIMG


    class Inst_EXP : public VEGAGPUStaticInst

    {

      public:

        Inst_EXP(InFmt_EXP*, const std::string &opcode);

        ~Inst_EXP();


        int instSize() const override;

        void initOperandInfo() override;


      protected:

        // first instruction DWORD

        InFmt_EXP instData;

        // second instruction DWORD

        InFmt_EXP_1 extData;

    }; // Inst_EXP


    class Inst_FLAT : public VEGAGPUStaticInst

    {

      public:

        Inst_FLAT(InFmt_FLAT*, const std::string &opcode);

        ~Inst_FLAT();


        int instSize() const override;

        void generateDisassembly() override;


        void initOperandInfo() override;


      protected:

        template<typename T>

        void


        initMemRead(GPUDynInstPtr gpuDynInst)

        {

            if (gpuDynInst->executedAs() == enums::SC_GLOBAL) {

                initMemReqHelper<T, 1>(gpuDynInst, MemCmd::ReadReq);

            } else if (gpuDynInst->executedAs() == enums::SC_PRIVATE) {

                // Store with more than one dword need to be swizzled and

                // should use the template<int N> version of this method.

                static_assert(sizeof(T) <= 4);

                initMemReqHelper<T, 1>(gpuDynInst, MemCmd::ReadReq);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                Wavefront *wf = gpuDynInst->wavefront();

                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        Addr vaddr = gpuDynInst->addr[lane];

                        (reinterpret_cast<T*>(gpuDynInst->d_data))[lane]

                            = wf->ldsChunk->read<T>(vaddr);

                    }

                }

            }

        }


        template<int N>

        void


        initMemRead(GPUDynInstPtr gpuDynInst)

        {

            if (gpuDynInst->executedAs() == enums::SC_GLOBAL) {

                initMemReqHelper<VecElemU32, N>(gpuDynInst, MemCmd::ReadReq);

            } else if (gpuDynInst->executedAs() == enums::SC_PRIVATE) {

                initScratchReqHelper<N>(gpuDynInst, MemCmd::ReadReq);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                Wavefront *wf = gpuDynInst->wavefront();

                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        Addr vaddr = gpuDynInst->addr[lane];

                        for (int i = 0; i < N; ++i) {

                            (reinterpret_cast<VecElemU32*>(

                                gpuDynInst->d_data))[lane * N + i]

                                = wf->ldsChunk->read<VecElemU32>(

                                        vaddr + i*sizeof(VecElemU32));

                        }

                    }

                }

            }

        }


        template<typename T>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst)

        {

            if (gpuDynInst->executedAs() == enums::SC_GLOBAL) {

                initMemReqHelper<T, 1>(gpuDynInst, MemCmd::WriteReq);

            } else if (gpuDynInst->executedAs() == enums::SC_PRIVATE) {

                // Store with more than one dword need to be swizzled and

                // should use the template<int N> version of this method.

                static_assert(sizeof(T) <= 4);

                initMemReqHelper<T, 1>(gpuDynInst, MemCmd::WriteReq);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                Wavefront *wf = gpuDynInst->wavefront();

                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        Addr vaddr = gpuDynInst->addr[lane];

                        wf->ldsChunk->write<T>(vaddr,

                            (reinterpret_cast<T*>(gpuDynInst->d_data))[lane]);

                    }

                }

            }

        }


        template<int N>

        void


        initMemWrite(GPUDynInstPtr gpuDynInst)

        {

            if (gpuDynInst->executedAs() == enums::SC_GLOBAL) {

                initMemReqHelper<VecElemU32, N>(gpuDynInst, MemCmd::WriteReq);

            } else if (gpuDynInst->executedAs() == enums::SC_PRIVATE) {

                swizzleData<N>(gpuDynInst);

                initScratchReqHelper<N>(gpuDynInst, MemCmd::WriteReq);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                Wavefront *wf = gpuDynInst->wavefront();

                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        Addr vaddr = gpuDynInst->addr[lane];

                        for (int i = 0; i < N; ++i) {

                            wf->ldsChunk->write<VecElemU32>(

                                vaddr + i*sizeof(VecElemU32),

                                (reinterpret_cast<VecElemU32*>(

                                    gpuDynInst->d_data))[lane * N + i]);

                        }

                    }

                }

            }

        }


        template<typename T>

        void


        initAtomicAccess(GPUDynInstPtr gpuDynInst)

        {

            // Flat scratch requests may not be atomic according to ISA manual

            // up to MI200. See MI200 manual Table 45.

            assert(gpuDynInst->executedAs() != enums::SC_PRIVATE);


            if (gpuDynInst->executedAs() == enums::SC_GLOBAL) {

                initMemReqHelper<T, 1>(gpuDynInst, MemCmd::SwapReq, true);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                Wavefront *wf = gpuDynInst->wavefront();

                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        Addr vaddr = gpuDynInst->addr[lane];

                        auto amo_op =

                            gpuDynInst->makeAtomicOpFunctor<T>(

                                &(reinterpret_cast<T*>(

                                    gpuDynInst->a_data))[lane],

                                &(reinterpret_cast<T*>(

                                    gpuDynInst->x_data))[lane]);


                        T tmp = wf->ldsChunk->read<T>(vaddr);

                        (*amo_op)(reinterpret_cast<uint8_t *>(&tmp));

                        wf->ldsChunk->write<T>(vaddr, tmp);

                        (reinterpret_cast<T*>(gpuDynInst->d_data))[lane] = tmp;

                    }

                }

            }

        }


        void


        calcAddr(GPUDynInstPtr gpuDynInst, ScalarRegU32 vaddr,

                 ScalarRegU32 saddr, ScalarRegI32 offset)

        {

            // Offset is a 13-bit field w/the following meanings:

            // In Flat instructions, offset is a 12-bit unsigned number

            // In Global/Scratch instructions, offset is a 13-bit signed number

            if (isFlat()) {

                offset = offset & 0xfff;

            } else {

                offset = (ScalarRegI32)sext<13>(offset);

            }

            // If saddr = 0x7f there is no scalar reg to read and address will

            // be a 64-bit address. Otherwise, saddr is the reg index for a

            // scalar reg used as the base address for a 32-bit address.

            if ((saddr == 0x7f && isFlatGlobal()) || isFlat()) {

                ConstVecOperandU64 vbase(gpuDynInst, vaddr);

                vbase.read();


                calcAddrVgpr(gpuDynInst, vbase, offset);

            } else if (isFlatGlobal()) {

                // Assume we are operating in 64-bit mode and read a pair of

                // SGPRs for the address base.

                ConstScalarOperandU64 sbase(gpuDynInst, saddr);

                sbase.read();


                ConstVecOperandU32 voffset(gpuDynInst, vaddr);

                voffset.read();


                calcAddrSgpr(gpuDynInst, voffset, sbase, offset);

            // For scratch, saddr = 0x7f there is no scalar reg to read and

            // a vgpr will be used for address offset. Otherwise, saddr is

            // the sgpr index holding the address offset. For scratch

            // instructions the offset GPR is always 32-bits.

            } else if (saddr != 0x7f) {

                assert(isFlatScratch());


                ConstScalarOperandU32 soffset(gpuDynInst, saddr);

                soffset.read();


                ConstVecOperandU32 voffset(gpuDynInst, vaddr);

                if (instData.SVE) {

                    voffset.read();

                }


                Addr flat_scratch_addr = readFlatScratch(gpuDynInst);

                VecElemI32 swizzleOffset = soffset.rawData() + offset;


                // These are the same as RDNA3. From RDNA3 ISA manual:

                // In Scratch SS mode (saddr != NULL (0x7f) SVE==0), the

                // inst_offset must be aligned to the payload size: 4 byte

                // aligned for 1-DWORD, 16-byte aligned for 4-DWORD.

                //

                // Also (SADDR + INST_OFFSET) must be at least DWORD-aligned.

                if (!instData.SVE) {

                    [[maybe_unused]] int elemSize;

                    [[maybe_unused]] auto staticInst =

                        gpuDynInst->staticInstruction();

                    if (gpuDynInst->isLoad()) {

                        elemSize = staticInst->getOperandSize(2);

                    } else {

                        assert(gpuDynInst->isStore());

                        elemSize = staticInst->getOperandSize(1);

                    }


                    // Check offset aligned to payload and saddr+offset is

                    // dword aligned.

                    assert((offset % elemSize) == 0);

                    assert((swizzleOffset % 4) == 0);

                }


                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        swizzleOffset += instData.SVE ? voffset[lane] : 0;

                        gpuDynInst->addr.at(lane) = flat_scratch_addr

                            + swizzleAddr(swizzleOffset, lane);

                    }

                }

            } else {

                assert(isFlatScratch());


                ConstVecOperandU32 voffset(gpuDynInst, vaddr);

                if (instData.SVE) {

                    voffset.read();

                } else {

                    // In Scratch-ST mode (saddr == NULL (0x7f) and SVE==0),

                    // inst_offset must not be negative.

                    assert(offset > 0);

                }


                Addr flat_scratch_addr = readFlatScratch(gpuDynInst);


                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        VecElemU32 vgpr_offset =

                            instData.SVE ? voffset[lane] : 0;


                        gpuDynInst->addr.at(lane) = flat_scratch_addr

                            + swizzleAddr(vgpr_offset+offset, lane);

                    }

                }

            }


            if (isFlat()) {

                gpuDynInst->resolveFlatSegment(gpuDynInst->exec_mask);

            } else if (isFlatGlobal()) {

                gpuDynInst->staticInstruction()->executed_as =

                    enums::SC_GLOBAL;

            } else {

                assert(isFlatScratch());

                gpuDynInst->staticInstruction()->executed_as =

                    enums::SC_PRIVATE;

                gpuDynInst->resolveFlatSegment(gpuDynInst->exec_mask);

            }

        }


        void


        issueRequestHelper(GPUDynInstPtr gpuDynInst)

        {

            if ((gpuDynInst->executedAs() == enums::SC_GLOBAL && isFlat())

                    || isFlatGlobal()) {

                gpuDynInst->computeUnit()->globalMemoryPipe

                    .issueRequest(gpuDynInst);

            } else if (gpuDynInst->executedAs() == enums::SC_GROUP) {

                assert(isFlat());

                gpuDynInst->computeUnit()->localMemoryPipe

                    .issueRequest(gpuDynInst);

            } else {

                assert(gpuDynInst->executedAs() == enums::SC_PRIVATE);

                gpuDynInst->computeUnit()->globalMemoryPipe

                    .issueRequest(gpuDynInst);

            }

        }


        // Execute for atomics is identical besides the flag set in the

        // constructor, except cmpswap. For cmpswap, the offset to the "cmp"

        // register is needed. For all other operations this offset is zero

        // and implies the atomic is not a cmpswap.

        // RegT defines the type of GPU register (e.g., ConstVecOperandU32)

        // LaneT defines the type of the register elements (e.g., VecElemU32)

        template<typename RegT, typename LaneT, int CmpRegOffset = 0>

        void


        atomicExecute(GPUDynInstPtr gpuDynInst)

        {

            Wavefront *wf = gpuDynInst->wavefront();


            if (gpuDynInst->exec_mask.none()) {

                wf->decVMemInstsIssued();

                wf->untrackVMemInst(gpuDynInst);

                if (isFlat()) {

                    wf->decLGKMInstsIssued();

                    wf->untrackLGKMInst(gpuDynInst);

                }

                return;

            }


            gpuDynInst->execUnitId = wf->execUnitId;

            gpuDynInst->latency.init(gpuDynInst->computeUnit());

            gpuDynInst->latency.set(gpuDynInst->computeUnit()->clockPeriod());


            RegT data(gpuDynInst, extData.DATA);

            RegT cmp(gpuDynInst, extData.DATA + CmpRegOffset);


            data.read();

            if constexpr (CmpRegOffset) {

                cmp.read();

            }


            calcAddr(gpuDynInst, extData.ADDR, extData.SADDR, instData.OFFSET);


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    if constexpr (CmpRegOffset) {

                        (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->x_data))[lane] = data[lane];

                        (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->a_data))[lane] = cmp[lane];

                    } else {

                        (reinterpret_cast<LaneT*>(gpuDynInst->a_data))[lane]

                            = data[lane];

                    }

                }

            }


            issueRequestHelper(gpuDynInst);

        }


        // RegT defines the type of GPU register (e.g., ConstVecOperandU32)

        // LaneT defines the type of the register elements (e.g., VecElemU32)

        template<typename RegT, typename LaneT>

        void


        atomicComplete(GPUDynInstPtr gpuDynInst)

        {

            if (isAtomicRet()) {

                RegT vdst(gpuDynInst, extData.VDST);


                for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                    if (gpuDynInst->exec_mask[lane]) {

                        vdst[lane] = (reinterpret_cast<LaneT*>(

                            gpuDynInst->d_data))[lane];

                    }

                }


                vdst.write();

            }

        }


        // Swizzle memory such that dwords from each lane are interleaved.

        // For example, a global_store_dwordx2 where every lane has two dwords

        // A and B would write A B A B, A B ... A B in contiguous memory while

        // scratch should write A A ... A B B ... B for 64 x2 total dwords.

        // Only applies to >1 dword.

        template<int N>

        void


        swizzleData(GPUDynInstPtr gpuDynInst)

        {

            static_assert(N > 1);


            uint32_t data[N * NumVecElemPerVecReg];

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                for (int dword = 0; dword < N; ++dword) {

                    data[dword * NumVecElemPerVecReg + lane] =

                        (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->d_data))[lane * N + dword];

                }

            }

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                for (int dword = 0; dword < N; ++dword) {

                    (reinterpret_cast<VecElemU32*>(

                        gpuDynInst->d_data))[lane * N + dword] =

                            data[lane * N + dword];

                }

            }

        }


        template<int NumDwords, int SignBit = 0>

        void


        ldsComplete(GPUDynInstPtr gpuDynInst)

        {

            assert(isFlatGlobal() || isFlatScratch());


            Wavefront *wf = gpuDynInst->wavefront();

            ScalarRegI32 inst_offset = sext<13>(instData.OFFSET);

            ConstScalarOperandU32 lds_offset(gpuDynInst, REG_M0);


            lds_offset.read();


            uint32_t m0_offset = bits(lds_offset.rawData(), 17, 2);

            uint32_t lds_addr = m0_offset * 4 + inst_offset;


            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    uint32_t chunk_addr =

                        lds_addr + lane * NumDwords * sizeof(VecElemU32);


                    for (int i = 0; i < NumDwords; ++i) {

                        VecElemU32 val = (reinterpret_cast<VecElemU32*>(

                            gpuDynInst->d_data))[lane * NumDwords + i];

                        if constexpr (SignBit != 0) {

                            val = (VecElemI32)sext<SignBit>(val);

                        }


                        wf->ldsChunk->write<VecElemU32>(

                            chunk_addr + i*sizeof(VecElemU32), val);

                    }

                }

            }

        }


        bool


        vgprIsOffset()

        {

            return (extData.SADDR != 0x7f);

        }


        // first instruction DWORD

        InFmt_FLAT instData;

        // second instruction DWORD

        InFmt_FLAT_1 extData;


      private:

        void initFlatOperandInfo();

        void initGlobalScratchOperandInfo();


        void generateFlatDisassembly();

        void generateGlobalScratchDisassembly();


        void


        calcAddrSgpr(GPUDynInstPtr gpuDynInst, ConstVecOperandU32 &vaddr,

                     ConstScalarOperandU64 &saddr, ScalarRegI32 offset)

        {

            // Use SGPR pair as a base address and add VGPR-offset and

            // instruction offset. The VGPR-offset is always 32-bits so we

            // mask any upper bits from the vaddr.

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    ScalarRegI32 voffset = vaddr[lane];

                    gpuDynInst->addr.at(lane) =

                        saddr.rawData() + voffset + offset;

                }

            }

        }


        void


        calcAddrVgpr(GPUDynInstPtr gpuDynInst, ConstVecOperandU64 &addr,

                     ScalarRegI32 offset)

        {

            for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

                if (gpuDynInst->exec_mask[lane]) {

                    gpuDynInst->addr.at(lane) = addr[lane] + offset;

                }

            }

        }


        VecElemI32


        swizzleAddr(VecElemI32 offset, int tid)

        {

            // See: RDNA3 Instruction Set Architecture, Section 11.2:

            // https://www.amd.com/content/dam/amd/en/documents/

            //        radeon-tech-docs/instruction-set-architectures/

            //        rdna3-shader-instruction-set-architecture-feb-2023_0.pdf

            // Description in Scratch Addressing Equation.

            return ((offset / 4) * 4 * 64) + (offset % 4) + (tid * 4);

        }


        Addr


        readFlatScratch(GPUDynInstPtr gpuDynInst)

        {

            return gpuDynInst->computeUnit()->shader->getScratchBase();

        }


    }; // Inst_FLAT


} // namespace VegaISA

} // namespace gem5


#endif // __ARCH_VEGA_INSTS_OP_ENCODINGS_HH__

RubySystem.hh

gpu_static_inst.hh

DPRINTF
#define DPRINTF(x,...)
Definition trace.hh:209

data
const char data[]
Definition circlebuf.test.cc:48

gem5::GPUStaticInst::isDPPInst
bool isDPPInst() const
Definition gpu_static_inst.hh:116

gem5::GPUStaticInst::opcode
const std::string & opcode() const
Definition gpu_static_inst.hh:270

gem5::GPUStaticInst::isSDWAInst
bool isSDWAInst() const
Definition gpu_static_inst.hh:115

gem5::GPUStaticInst::isFlat
bool isFlat() const
Definition gpu_static_inst.hh:131

gem5::GPUStaticInst::isFlatGlobal
bool isFlatGlobal() const
Definition gpu_static_inst.hh:132

gem5::GPUStaticInst::isAtomicRet
bool isAtomicRet() const
Definition gpu_static_inst.hh:144

gem5::GPUStaticInst::_opcode
const std::string _opcode
Definition gpu_static_inst.hh:305

gem5::GPUStaticInst::isFlatScratch
bool isFlatScratch() const
Definition gpu_static_inst.hh:133

gem5::LdsChunk::write
void write(const uint32_t index, const T value)
a write operation
Definition lds_state.hh:111

gem5::LdsChunk::atomic
T atomic(const uint32_t index, AtomicOpFunctorPtr amoOp)
an atomic operation
Definition lds_state.hh:153

gem5::LdsChunk::read
T read(const uint32_t index)
a read operation
Definition lds_state.hh:72

gem5::MemCmd::SwapReq
@ SwapReq
Definition packet.hh:120

gem5::MemCmd::WriteReq
@ WriteReq
Definition packet.hh:90

gem5::MemCmd::ReadReq
@ ReadReq
Definition packet.hh:87

gem5::VegaISA::Inst_DS::instData
InFmt_DS instData
Definition op_encodings.hh:1016

gem5::VegaISA::Inst_DS::extData
InFmt_DS_1 extData
Definition op_encodings.hh:1018

gem5::VegaISA::Inst_DS::initMemRead
void initMemRead(GPUDynInstPtr gpuDynInst, Addr offset)
Definition op_encodings.hh:878

gem5::VegaISA::Inst_DS::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1356

gem5::VegaISA::Inst_DS::~Inst_DS
~Inst_DS()
Definition op_encodings.cc:1351

gem5::VegaISA::Inst_DS::initDualMemRead
void initDualMemRead(GPUDynInstPtr gpuDynInst, Addr offset0, Addr offset1)
Definition op_encodings.hh:913

gem5::VegaISA::Inst_DS::initMemWrite
void initMemWrite(GPUDynInstPtr gpuDynInst, Addr offset)
Definition op_encodings.hh:932

gem5::VegaISA::Inst_DS::Inst_DS
Inst_DS(InFmt_DS *, const std::string &opcode)
Definition op_encodings.cc:1339

gem5::VegaISA::Inst_DS::calcAddr
void calcAddr(GPUDynInstPtr gpuDynInst, ConstVecOperandU32 &addr)
Definition op_encodings.hh:1004

gem5::VegaISA::Inst_DS::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1385

gem5::VegaISA::Inst_DS::instSize
int instSize() const override
Definition op_encodings.cc:1379

gem5::VegaISA::Inst_DS::initAtomicAccess
void initAtomicAccess(GPUDynInstPtr gpuDynInst, Addr offset)
Definition op_encodings.hh:984

gem5::VegaISA::Inst_DS::initDualMemWrite
void initDualMemWrite(GPUDynInstPtr gpuDynInst, Addr offset0, Addr offset1)
Definition op_encodings.hh:966

gem5::VegaISA::Inst_EXP::Inst_EXP
Inst_EXP(InFmt_EXP *, const std::string &opcode)
Definition op_encodings.cc:1659

gem5::VegaISA::Inst_EXP::~Inst_EXP
~Inst_EXP()
Definition op_encodings.cc:1669

gem5::VegaISA::Inst_EXP::instData
InFmt_EXP instData
Definition op_encodings.hh:1326

gem5::VegaISA::Inst_EXP::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1674

gem5::VegaISA::Inst_EXP::instSize
int instSize() const override
Definition op_encodings.cc:1692

gem5::VegaISA::Inst_EXP::extData
InFmt_EXP_1 extData
Definition op_encodings.hh:1328

gem5::VegaISA::Inst_FLAT::generateFlatDisassembly
void generateFlatDisassembly()
Definition op_encodings.cc:1864

gem5::VegaISA::Inst_FLAT::atomicComplete
void atomicComplete(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1660

gem5::VegaISA::Inst_FLAT::calcAddrSgpr
void calcAddrSgpr(GPUDynInstPtr gpuDynInst, ConstVecOperandU32 &vaddr, ConstScalarOperandU64 &saddr, ScalarRegI32 offset)
Definition op_encodings.hh:1757

gem5::VegaISA::Inst_FLAT::~Inst_FLAT
~Inst_FLAT()
Definition op_encodings.cc:1726

gem5::VegaISA::Inst_FLAT::instData
InFmt_FLAT instData
Definition op_encodings.hh:1745

gem5::VegaISA::Inst_FLAT::vgprIsOffset
bool vgprIsOffset()
Definition op_encodings.hh:1739

gem5::VegaISA::Inst_FLAT::initFlatOperandInfo
void initFlatOperandInfo()
Definition op_encodings.cc:1746

gem5::VegaISA::Inst_FLAT::calcAddr
void calcAddr(GPUDynInstPtr gpuDynInst, ScalarRegU32 vaddr, ScalarRegU32 saddr, ScalarRegI32 offset)
Definition op_encodings.hh:1470

gem5::VegaISA::Inst_FLAT::swizzleData
void swizzleData(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1683

gem5::VegaISA::Inst_FLAT::Inst_FLAT
Inst_FLAT(InFmt_FLAT *, const std::string &opcode)
Definition op_encodings.cc:1699

gem5::VegaISA::Inst_FLAT::extData
InFmt_FLAT_1 extData
Definition op_encodings.hh:1747

gem5::VegaISA::Inst_FLAT::initMemRead
void initMemRead(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1345

gem5::VegaISA::Inst_FLAT::readFlatScratch
Addr readFlatScratch(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1795

gem5::VegaISA::Inst_FLAT::atomicExecute
void atomicExecute(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1611

gem5::VegaISA::Inst_FLAT::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1849

gem5::VegaISA::Inst_FLAT::calcAddrVgpr
void calcAddrVgpr(GPUDynInstPtr gpuDynInst, ConstVecOperandU64 &addr, ScalarRegI32 offset)
Definition op_encodings.hh:1773

gem5::VegaISA::Inst_FLAT::swizzleAddr
VecElemI32 swizzleAddr(VecElemI32 offset, int tid)
Definition op_encodings.hh:1784

gem5::VegaISA::Inst_FLAT::generateGlobalScratchDisassembly
void generateGlobalScratchDisassembly()
Definition op_encodings.cc:1887

gem5::VegaISA::Inst_FLAT::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1731

gem5::VegaISA::Inst_FLAT::initGlobalScratchOperandInfo
void initGlobalScratchOperandInfo()
Definition op_encodings.cc:1783

gem5::VegaISA::Inst_FLAT::ldsComplete
void ldsComplete(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1706

gem5::VegaISA::Inst_FLAT::issueRequestHelper
void issueRequestHelper(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1586

gem5::VegaISA::Inst_FLAT::initAtomicAccess
void initAtomicAccess(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1440

gem5::VegaISA::Inst_FLAT::initMemWrite
void initMemWrite(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1392

gem5::VegaISA::Inst_FLAT::instSize
int instSize() const override
Definition op_encodings.cc:1843

gem5::VegaISA::Inst_MIMG::~Inst_MIMG
~Inst_MIMG()
Definition op_encodings.cc:1600

gem5::VegaISA::Inst_MIMG::instSize
int instSize() const override
Definition op_encodings.cc:1652

gem5::VegaISA::Inst_MIMG::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1605

gem5::VegaISA::Inst_MIMG::Inst_MIMG
Inst_MIMG(InFmt_MIMG *, const std::string &opcode)
Definition op_encodings.cc:1584

gem5::VegaISA::Inst_MIMG::extData
InFmt_MIMG_1 extData
Definition op_encodings.hh:1312

gem5::VegaISA::Inst_MIMG::instData
InFmt_MIMG instData
Definition op_encodings.hh:1310

gem5::VegaISA::Inst_MTBUF::~Inst_MTBUF
~Inst_MTBUF()
Definition op_encodings.cc:1528

gem5::VegaISA::Inst_MTBUF::extData
InFmt_MTBUF_1 extData
Definition op_encodings.hh:1293

gem5::VegaISA::Inst_MTBUF::instSize
int instSize() const override
Definition op_encodings.cc:1577

gem5::VegaISA::Inst_MTBUF::hasSecondDword
bool hasSecondDword(InFmt_MTBUF *)

gem5::VegaISA::Inst_MTBUF::instData
InFmt_MTBUF instData
Definition op_encodings.hh:1291

gem5::VegaISA::Inst_MTBUF::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1533

gem5::VegaISA::Inst_MTBUF::Inst_MTBUF
Inst_MTBUF(InFmt_MTBUF *, const std::string &opcode)
Definition op_encodings.cc:1512

gem5::VegaISA::Inst_MUBUF::oobMask
VectorMask oobMask
Definition op_encodings.hh:1277

gem5::VegaISA::Inst_MUBUF::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1440

gem5::VegaISA::Inst_MUBUF::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1493

gem5::VegaISA::Inst_MUBUF::~Inst_MUBUF
~Inst_MUBUF()
Definition op_encodings.cc:1435

gem5::VegaISA::Inst_MUBUF::initMemWrite
void initMemWrite(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1062

gem5::VegaISA::Inst_MUBUF::injectGlobalMemFence
void injectGlobalMemFence(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1100

gem5::VegaISA::Inst_MUBUF::extData
InFmt_MUBUF_1 extData
Definition op_encodings.hh:1273

gem5::VegaISA::Inst_MUBUF::instData
InFmt_MUBUF instData
Definition op_encodings.hh:1271

gem5::VegaISA::Inst_MUBUF::calcAddr
void calcAddr(GPUDynInstPtr gpuDynInst, VOFF v_off, VIDX v_idx, SRSRC s_rsrc_desc, SOFF s_offset, int inst_offset)
MUBUF insructions calculate their addresses as follows:
Definition op_encodings.hh:1171

gem5::VegaISA::Inst_MUBUF::ldsComplete
void ldsComplete(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1116

gem5::VegaISA::Inst_MUBUF::initMemRead
void initMemRead(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1035

gem5::VegaISA::Inst_MUBUF::initAtomicAccess
void initAtomicAccess(GPUDynInstPtr gpuDynInst)
Definition op_encodings.hh:1088

gem5::VegaISA::Inst_MUBUF::Inst_MUBUF
Inst_MUBUF(InFmt_MUBUF *, const std::string &opcode)
Definition op_encodings.cc:1419

gem5::VegaISA::Inst_MUBUF::instSize
int instSize() const override
Definition op_encodings.cc:1487

gem5::VegaISA::Inst_SMEM::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:513

gem5::VegaISA::Inst_SMEM::~Inst_SMEM
~Inst_SMEM()
Definition op_encodings.cc:508

gem5::VegaISA::Inst_SMEM::instData
InFmt_SMEM instData
Definition op_encodings.hh:253

gem5::VegaISA::Inst_SMEM::extData
InFmt_SMEM_1 extData
Definition op_encodings.hh:255

gem5::VegaISA::Inst_SMEM::calcAddr
void calcAddr(GPUDynInstPtr gpu_dyn_inst, ConstScalarOperandU128 &s_rsrc_desc, ScalarRegU32 offset)
For s_buffer_load_dword/s_buffer_store_dword instruction addresses.
Definition op_encodings.hh:228

gem5::VegaISA::Inst_SMEM::Inst_SMEM
Inst_SMEM(InFmt_SMEM *, const std::string &opcode)
Definition op_encodings.cc:492

gem5::VegaISA::Inst_SMEM::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:565

gem5::VegaISA::Inst_SMEM::initMemRead
void initMemRead(GPUDynInstPtr gpuDynInst)
initiate a memory read access for N dwords
Definition op_encodings.hh:194

gem5::VegaISA::Inst_SMEM::instSize
int instSize() const override
Definition op_encodings.cc:559

gem5::VegaISA::Inst_SMEM::calcAddr
void calcAddr(GPUDynInstPtr gpu_dyn_inst, ConstScalarOperandU64 &addr, ScalarRegU32 offset)
For normal s_load_dword/s_store_dword instruction addresses.
Definition op_encodings.hh:215

gem5::VegaISA::Inst_SMEM::initMemWrite
void initMemWrite(GPUDynInstPtr gpuDynInst)
initiate a memory write access for N dwords
Definition op_encodings.hh:205

gem5::VegaISA::Inst_SOP1::instSize
int instSize() const override
Definition op_encodings.cc:279

gem5::VegaISA::Inst_SOP1::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:294

gem5::VegaISA::Inst_SOP1::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:245

gem5::VegaISA::Inst_SOP1::Inst_SOP1
Inst_SOP1(InFmt_SOP1 *, const std::string &opcode)
Definition op_encodings.cc:223

gem5::VegaISA::Inst_SOP1::varSize
uint32_t varSize
Definition op_encodings.hh:133

gem5::VegaISA::Inst_SOP1::instData
InFmt_SOP1 instData
Definition op_encodings.hh:130

gem5::VegaISA::Inst_SOP1::~Inst_SOP1
~Inst_SOP1()
Definition op_encodings.cc:240

gem5::VegaISA::Inst_SOP1::hasSecondDword
bool hasSecondDword(InFmt_SOP1 *)
Definition op_encodings.cc:285

gem5::VegaISA::Inst_SOP1::extData
InstFormat extData
Definition op_encodings.hh:132

gem5::VegaISA::Inst_SOP2::varSize
uint32_t varSize
Definition op_encodings.hh:89

gem5::VegaISA::Inst_SOP2::hasSecondDword
bool hasSecondDword(InFmt_SOP2 *)
Definition op_encodings.cc:91

gem5::VegaISA::Inst_SOP2::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:103

gem5::VegaISA::Inst_SOP2::Inst_SOP2
Inst_SOP2(InFmt_SOP2 *, const std::string &opcode)
Definition op_encodings.cc:43

gem5::VegaISA::Inst_SOP2::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:61

gem5::VegaISA::Inst_SOP2::instData
InFmt_SOP2 instData
Definition op_encodings.hh:86

gem5::VegaISA::Inst_SOP2::extData
InstFormat extData
Definition op_encodings.hh:88

gem5::VegaISA::Inst_SOP2::instSize
int instSize() const override
Definition op_encodings.cc:85

gem5::VegaISA::Inst_SOPC::~Inst_SOPC
~Inst_SOPC()
Definition op_encodings.cc:329

gem5::VegaISA::Inst_SOPC::extData
InstFormat extData
Definition op_encodings.hh:154

gem5::VegaISA::Inst_SOPC::instData
InFmt_SOPC instData
Definition op_encodings.hh:152

gem5::VegaISA::Inst_SOPC::instSize
int instSize() const override
Definition op_encodings.cc:351

gem5::VegaISA::Inst_SOPC::hasSecondDword
bool hasSecondDword(InFmt_SOPC *)
Definition op_encodings.cc:357

gem5::VegaISA::Inst_SOPC::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:369

gem5::VegaISA::Inst_SOPC::varSize
uint32_t varSize
Definition op_encodings.hh:155

gem5::VegaISA::Inst_SOPC::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:334

gem5::VegaISA::Inst_SOPC::Inst_SOPC
Inst_SOPC(InFmt_SOPC *, const std::string &opcode)
Definition op_encodings.cc:312

gem5::VegaISA::Inst_SOPK::Inst_SOPK
Inst_SOPK(InFmt_SOPK *, const std::string &opcode)
Definition op_encodings.cc:128

gem5::VegaISA::Inst_SOPK::instSize
int instSize() const override
Definition op_encodings.cc:178

gem5::VegaISA::Inst_SOPK::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:201

gem5::VegaISA::Inst_SOPK::~Inst_SOPK
~Inst_SOPK()
Definition op_encodings.cc:145

gem5::VegaISA::Inst_SOPK::varSize
uint32_t varSize
Definition op_encodings.hh:111

gem5::VegaISA::Inst_SOPK::extData
InstFormat extData
Definition op_encodings.hh:110

gem5::VegaISA::Inst_SOPK::instData
InFmt_SOPK instData
Definition op_encodings.hh:108

gem5::VegaISA::Inst_SOPK::hasSecondDword
bool hasSecondDword(InFmt_SOPK *)
Definition op_encodings.cc:184

gem5::VegaISA::Inst_SOPK::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:150

gem5::VegaISA::Inst_SOPP::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:437

gem5::VegaISA::Inst_SOPP::instData
InFmt_SOPP instData
Definition op_encodings.hh:174

gem5::VegaISA::Inst_SOPP::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:407

gem5::VegaISA::Inst_SOPP::~Inst_SOPP
~Inst_SOPP()
Definition op_encodings.cc:402

gem5::VegaISA::Inst_SOPP::instSize
int instSize() const override
Definition op_encodings.cc:431

gem5::VegaISA::Inst_SOPP::Inst_SOPP
Inst_SOPP(InFmt_SOPP *, const std::string &opcode)
Definition op_encodings.cc:393

gem5::VegaISA::Inst_VINTRP::instSize
int instSize() const override
Definition op_encodings.cc:949

gem5::VegaISA::Inst_VINTRP::Inst_VINTRP
Inst_VINTRP(InFmt_VINTRP *, const std::string &opcode)
Definition op_encodings.cc:937

gem5::VegaISA::Inst_VINTRP::instData
InFmt_VINTRP instData
Definition op_encodings.hh:592

gem5::VegaISA::Inst_VINTRP::~Inst_VINTRP
~Inst_VINTRP()
Definition op_encodings.cc:944

gem5::VegaISA::Inst_VOP1::varSize
uint32_t varSize
Definition op_encodings.hh:401

gem5::VegaISA::Inst_VOP1::Inst_VOP1
Inst_VOP1(InFmt_VOP1 *, const std::string &opcode)
Definition op_encodings.cc:736

gem5::VegaISA::Inst_VOP1::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:822

gem5::VegaISA::Inst_VOP1::instData
InFmt_VOP1 instData
Definition op_encodings.hh:398

gem5::VegaISA::Inst_VOP1::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:761

gem5::VegaISA::Inst_VOP1::instSize
int instSize() const override
Definition op_encodings.cc:797

gem5::VegaISA::Inst_VOP1::hasSecondDword
bool hasSecondDword(InFmt_VOP1 *)
Definition op_encodings.cc:803

gem5::VegaISA::Inst_VOP1::~Inst_VOP1
~Inst_VOP1()
Definition op_encodings.cc:756

gem5::VegaISA::Inst_VOP1::extData
InstFormat extData
Definition op_encodings.hh:400

gem5::VegaISA::Inst_VOP2::dppHelper
T dppHelper(GPUDynInstPtr gpuDynInst, T &src1)
Definition op_encodings.hh:324

gem5::VegaISA::Inst_VOP2::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:626

gem5::VegaISA::Inst_VOP2::vop2Helper
void vop2Helper(GPUDynInstPtr gpuDynInst, void(*fOpImpl)(T &, T &, T &, Wavefront *))
Definition op_encodings.hh:344

gem5::VegaISA::Inst_VOP2::instSize
int instSize() const override
Definition op_encodings.cc:665

gem5::VegaISA::Inst_VOP2::sdwaSrcHelper
T sdwaSrcHelper(GPUDynInstPtr gpuDynInst, T &src1)
Definition op_encodings.hh:277

gem5::VegaISA::Inst_VOP2::extData
InstFormat extData
Definition op_encodings.hh:273

gem5::VegaISA::Inst_VOP2::varSize
uint32_t varSize
Definition op_encodings.hh:274

gem5::VegaISA::Inst_VOP2::sdwaDstHelper
void sdwaDstHelper(GPUDynInstPtr gpuDynInst, T &vdst)
Definition op_encodings.hh:309

gem5::VegaISA::Inst_VOP2::~Inst_VOP2
~Inst_VOP2()
Definition op_encodings.cc:621

gem5::VegaISA::Inst_VOP2::instData
InFmt_VOP2 instData
Definition op_encodings.hh:271

gem5::VegaISA::Inst_VOP2::hasSecondDword
bool hasSecondDword(InFmt_VOP2 *)
Definition op_encodings.cc:671

gem5::VegaISA::Inst_VOP2::Inst_VOP2
Inst_VOP2(InFmt_VOP2 *, const std::string &opcode)
Definition op_encodings.cc:601

gem5::VegaISA::Inst_VOP2::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:696

gem5::VegaISA::Inst_VOP3A::Inst_VOP3A
Inst_VOP3A(InFmt_VOP3A *, const std::string &opcode, bool sgpr_dst)
Definition op_encodings.cc:956

gem5::VegaISA::Inst_VOP3A::extData
InFmt_VOP3_1 extData
Definition op_encodings.hh:610

gem5::VegaISA::Inst_VOP3A::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1022

gem5::VegaISA::Inst_VOP3A::~Inst_VOP3A
~Inst_VOP3A()
Definition op_encodings.cc:967

gem5::VegaISA::Inst_VOP3A::sgprDst
const bool sgprDst
the v_cmp and readlane instructions in the VOP3 encoding are unique because they are the only instruc...
Definition op_encodings.hh:647

gem5::VegaISA::Inst_VOP3A::omodModifier
T omodModifier(T val, unsigned omod)
Definition op_encodings.hh:618

gem5::VegaISA::Inst_VOP3A::instData
InFmt_VOP3A instData
Definition op_encodings.hh:608

gem5::VegaISA::Inst_VOP3A::instSize
int instSize() const override
Definition op_encodings.cc:1016

gem5::VegaISA::Inst_VOP3A::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:972

gem5::VegaISA::Inst_VOP3A::hasSecondDword
bool hasSecondDword(InFmt_VOP3A *)

gem5::VegaISA::Inst_VOP3B::extData
InFmt_VOP3_1 extData
Definition op_encodings.hh:665

gem5::VegaISA::Inst_VOP3B::~Inst_VOP3B
~Inst_VOP3B()
Definition op_encodings.cc:1091

gem5::VegaISA::Inst_VOP3B::Inst_VOP3B
Inst_VOP3B(InFmt_VOP3B *, const std::string &opcode)
Definition op_encodings.cc:1081

gem5::VegaISA::Inst_VOP3B::hasSecondDword
bool hasSecondDword(InFmt_VOP3B *)

gem5::VegaISA::Inst_VOP3B::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1096

gem5::VegaISA::Inst_VOP3B::instData
InFmt_VOP3B instData
Definition op_encodings.hh:663

gem5::VegaISA::Inst_VOP3B::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1142

gem5::VegaISA::Inst_VOP3B::instSize
int instSize() const override
Definition op_encodings.cc:1136

gem5::VegaISA::Inst_VOP3P_MAI::hasSecondDword
bool hasSecondDword(InFmt_VOP3P_MAI *)

gem5::VegaISA::Inst_VOP3P_MAI::~Inst_VOP3P_MAI
~Inst_VOP3P_MAI()
Definition op_encodings.cc:1274

gem5::VegaISA::Inst_VOP3P_MAI::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1312

gem5::VegaISA::Inst_VOP3P_MAI::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1279

gem5::VegaISA::Inst_VOP3P_MAI::Inst_VOP3P_MAI
Inst_VOP3P_MAI(InFmt_VOP3P_MAI *, const std::string &opcode)
Definition op_encodings.cc:1264

gem5::VegaISA::Inst_VOP3P_MAI::instSize
int instSize() const override
Definition op_encodings.cc:1306

gem5::VegaISA::Inst_VOP3P_MAI::extData
InFmt_VOP3P_MAI_1 extData
Definition op_encodings.hh:858

gem5::VegaISA::Inst_VOP3P_MAI::instData
InFmt_VOP3P_MAI instData
Definition op_encodings.hh:856

gem5::VegaISA::Inst_VOP3P::dotHelper
void dotHelper(GPUDynInstPtr gpuDynInst, uint32_t(*fOpImpl)(uint32_t, uint32_t, uint32_t, bool))
Definition op_encodings.hh:769

gem5::VegaISA::Inst_VOP3P::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:1201

gem5::VegaISA::Inst_VOP3P::word
T word(uint32_t data, int opSel, int neg, int opSelBit)
Definition op_encodings.hh:823

gem5::VegaISA::Inst_VOP3P::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:1234

gem5::VegaISA::Inst_VOP3P::extData
InFmt_VOP3P_1 extData
Definition op_encodings.hh:686

gem5::VegaISA::Inst_VOP3P::~Inst_VOP3P
~Inst_VOP3P()
Definition op_encodings.cc:1196

gem5::VegaISA::Inst_VOP3P::instSize
int instSize() const override
Definition op_encodings.cc:1228

gem5::VegaISA::Inst_VOP3P::vop3pHelper
void vop3pHelper(GPUDynInstPtr gpuDynInst, T(*fOpImpl)(T, T, T, bool))
Definition op_encodings.hh:727

gem5::VegaISA::Inst_VOP3P::instData
InFmt_VOP3P instData
Definition op_encodings.hh:684

gem5::VegaISA::Inst_VOP3P::hasSecondDword
bool hasSecondDword(InFmt_VOP3P *)

gem5::VegaISA::Inst_VOP3P::vop3pHelper
void vop3pHelper(GPUDynInstPtr gpuDynInst, T(*fOpImpl)(T, T, bool))
Definition op_encodings.hh:689

gem5::VegaISA::Inst_VOP3P::Inst_VOP3P
Inst_VOP3P(InFmt_VOP3P *, const std::string &opcode)
Definition op_encodings.cc:1187

gem5::VegaISA::Inst_VOPC::hasSecondDword
bool hasSecondDword(InFmt_VOPC *)
Definition op_encodings.cc:898

gem5::VegaISA::Inst_VOPC::sdwabSelect
uint32_t sdwabSelect(uint32_t dword, const SDWASelVals sel, bool sign_ext, bool neg, bool abs)
Definition op_encodings.hh:427

gem5::VegaISA::Inst_VOPC::generateDisassembly
void generateDisassembly() override
Definition op_encodings.cc:917

gem5::VegaISA::Inst_VOPC::sdwabHelper
void sdwabHelper(GPUDynInstPtr gpuDynInst, int(*cmpFunc)(T, T))
Definition op_encodings.hh:513

gem5::VegaISA::Inst_VOPC::initOperandInfo
void initOperandInfo() override
Definition op_encodings.cc:868

gem5::VegaISA::Inst_VOPC::extData
InstFormat extData
Definition op_encodings.hh:422

gem5::VegaISA::Inst_VOPC::instSize
int instSize() const override
Definition op_encodings.cc:892

gem5::VegaISA::Inst_VOPC::varSize
uint32_t varSize
Definition op_encodings.hh:423

gem5::VegaISA::Inst_VOPC::instData
InFmt_VOPC instData
Definition op_encodings.hh:420

gem5::VegaISA::Inst_VOPC::~Inst_VOPC
~Inst_VOPC()
Definition op_encodings.cc:863

gem5::VegaISA::Inst_VOPC::Inst_VOPC
Inst_VOPC(InFmt_VOPC *, const std::string &opcode)
Definition op_encodings.cc:842

gem5::VegaISA::ScalarOperand::write
void write() override
Definition operand.hh:440

gem5::VegaISA::ScalarOperand::read
void read() override
read from and write to the underlying register(s) that this operand is referring to.
Definition operand.hh:419

gem5::VegaISA::ScalarOperand::rawData
std::enable_if< Condition, DataType >::type rawData() const
we store scalar data in a std::array, however if we need the full operand data we use this method to ...
Definition operand.hh:402

gem5::VegaISA::ScalarOperand::rawDataPtr
void * rawDataPtr()
Definition operand.hh:413

gem5::VegaISA::ScalarOperand::setBit
std::enable_if< Condition, void >::type setBit(int bit, int bit_val)
bit access to scalar data.
Definition operand.hh:507

gem5::VegaISA::VEGAGPUStaticInst::VEGAGPUStaticInst
VEGAGPUStaticInst(const std::string &opcode)
Definition gpu_static_inst.cc:44

gem5::VegaISA::VecOperand::read
void read() override
read from the vrf.
Definition operand.hh:148

gem5::VegaISA::VecOperand::readSrc
void readSrc()
certain vector operands can read from the vrf/srf or constants.
Definition operand.hh:132

gem5::VegaISA::VecOperand::write
void write() override
write to the vrf.
Definition operand.hh:203

gem5::Wavefront
Definition wavefront.hh:62

gem5::Wavefront::execUnitId
int execUnitId
Definition wavefront.hh:105

gem5::Wavefront::decVMemInstsIssued
void decVMemInstsIssued()
Definition wavefront.cc:1452

gem5::Wavefront::untrackLGKMInst
void untrackLGKMInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1529

gem5::Wavefront::decLGKMInstsIssued
void decLGKMInstsIssued()
Definition wavefront.cc:1464

gem5::Wavefront::untrackVMemInst
void untrackVMemInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1516

gem5::Wavefront::ldsChunk
LdsChunk * ldsChunk
Definition wavefront.hh:232

gem5::Wavefront::execMask
VectorMask & execMask()
Definition wavefront.cc:1581

gpu_decoder.hh

gpu_mem_helpers.hh

gem5::AtomicOpFunctorPtr
std::unique_ptr< AtomicOpFunctor > AtomicOpFunctorPtr
Definition amo.hh:269

gem5::bits
constexpr T bits(T val, unsigned first, unsigned last)
Extract the bitfield from position 'first' to 'last' (inclusive) from 'val' and right justify it.
Definition bitfield.hh:79

gem5::sext
constexpr uint64_t sext(uint64_t val)
Sign-extend an N-bit value to 64 bits.
Definition bitfield.hh:129

panic
#define panic(...)
This implements a cprintf based panic() function.
Definition logging.hh:220

panic_if
#define panic_if(cond,...)
Conditional panic macro that checks the supplied condition and only panics if the condition is true a...
Definition logging.hh:246

inst_util.hh

gem5::ArmISA::mask
Bitfield< 3, 0 > mask
Definition pcstate.hh:63

gem5::ArmISA::stride
Bitfield< 21, 20 > stride
Definition misc_types.hh:533

gem5::ArmISA::b
Bitfield< 7 > b
Definition misc_types.hh:471

gem5::ArmISA::i
Bitfield< 7 > i
Definition misc_types.hh:67

gem5::ArmISA::offset
Bitfield< 23, 0 > offset
Definition types.hh:144

gem5::ArmISA::a
Bitfield< 8 > a
Definition misc_types.hh:66

gem5::ArmISA::sel
sel
Definition misc_types.hh:768

gem5::MipsISA::vaddr
vaddr
Definition pra_constants.hh:278

gem5::VegaISA
classes that represnt vector/scalar operands in VEGA ISA.
Definition faults.cc:39

gem5::VegaISA::ScalarOperandU64
ScalarOperand< ScalarRegU64, false > ScalarOperandU64
Definition operand.hh:804

gem5::VegaISA::VecElemI32
int32_t VecElemI32
Definition gpu_registers.hh:166

gem5::VegaISA::VecOperandU32
VecOperand< VecElemU32, false > VecOperandU32
Definition operand.hh:829

gem5::VegaISA::ConstScalarOperandU32
ScalarOperand< ScalarRegU32, true > ConstScalarOperandU32
Definition operand.hh:815

gem5::VegaISA::ConstVecOperandU32
VecOperand< VecElemU32, true > ConstVecOperandU32
Definition operand.hh:844

gem5::VegaISA::BITS_PER_WORD
const int BITS_PER_WORD
Definition gpu_registers.hh:144

gem5::VegaISA::ConstScalarOperandU128
ScalarOperand< ScalarRegU32, true, 4 > ConstScalarOperandU128
Definition operand.hh:821

gem5::VegaISA::processSDWA_src
void processSDWA_src(InFmt_VOP_SDWA sdwaInst, T &src0, T &origSrc0)
processSDWA_src is a helper function for implementing sub d-word addressing instructions for the src ...
Definition inst_util.hh:836

gem5::VegaISA::ScalarRegI32
int32_t ScalarRegI32
Definition gpu_registers.hh:154

gem5::VegaISA::VecElemU32
uint32_t VecElemU32
Definition gpu_registers.hh:165

gem5::VegaISA::ConstScalarOperandU64
ScalarOperand< ScalarRegU64, true > ConstScalarOperandU64
Definition operand.hh:818

gem5::VegaISA::processSDWA_dst
void processSDWA_dst(InFmt_VOP_SDWA sdwaInst, T &dst, T &origDst)
processSDWA_dst is a helper function for implementing sub d-word addressing instructions for the dst ...
Definition inst_util.hh:892

gem5::VegaISA::NumVecElemPerVecReg
const int NumVecElemPerVecReg(64)

gem5::VegaISA::MSB_PER_WORD
const int MSB_PER_WORD
Definition gpu_registers.hh:146

gem5::VegaISA::BITS_PER_BYTE
const int BITS_PER_BYTE
Definition gpu_registers.hh:143

gem5::VegaISA::REG_VCC_LO
@ REG_VCC_LO
Definition gpu_registers.hh:56

gem5::VegaISA::REG_M0
@ REG_M0
Definition gpu_registers.hh:74

gem5::VegaISA::ConstVecOperandU64
VecOperand< VecElemU64, true > ConstVecOperandU64
Definition operand.hh:847

gem5::VegaISA::ScalarRegU32
uint32_t ScalarRegU32
Definition gpu_registers.hh:153

gem5::VegaISA::processDPP
void processDPP(GPUDynInstPtr gpuDynInst, InFmt_VOP_DPP dppInst, T &src0)
processDPP is a helper function for implementing Data Parallel Primitive instructions.
Definition inst_util.hh:424

gem5::X86ISA::val
Bitfield< 63 > val
Definition misc.hh:804

gem5::X86ISA::addr
Bitfield< 3 > addr
Definition types.hh:84

gem5
Copyright (c) 2024 Arm Limited All rights reserved.
Definition binary32.hh:36

gem5::RequestPtr
std::shared_ptr< Request > RequestPtr
Definition request.hh:94

gem5::GPUDynInstPtr
std::shared_ptr< GPUDynInst > GPUDynInstPtr
Definition misc.hh:49

gem5::Addr
uint64_t Addr
Address type This will probably be moved somewhere else in the near future.
Definition types.hh:147

gem5::initMemReqHelper
void initMemReqHelper(GPUDynInstPtr gpuDynInst, MemCmd mem_req_type, bool is_atomic=false)
Helper function for instructions declared in op_encodings.
Definition gpu_mem_helpers.hh:51

gem5::SDWASelVals
SDWASelVals
Definition inst_util.hh:45

gem5::SDWA_WORD_0
@ SDWA_WORD_0
Definition inst_util.hh:50

gem5::SDWA_DWORD
@ SDWA_DWORD
Definition inst_util.hh:52

gem5::initScratchReqHelper
void initScratchReqHelper(GPUDynInstPtr gpuDynInst, MemCmd mem_req_type)
Definition gpu_mem_helpers.hh:134

gem5::VectorMask
std::bitset< std::numeric_limits< unsigned long long >::digits > VectorMask
Definition misc.hh:48

gem5::initMemReqScalarHelper
void initMemReqScalarHelper(GPUDynInstPtr gpuDynInst, MemCmd mem_req_type)
Helper function for scalar instructions declared in op_encodings.
Definition gpu_mem_helpers.hh:192

operand.hh

gem5::VegaISA::BufferRsrcDescriptor
Definition op_encodings.hh:50

gem5::VegaISA::BufferRsrcDescriptor::stride
uint32_t stride
Definition op_encodings.hh:52

gem5::VegaISA::BufferRsrcDescriptor::numFmt
uint32_t numFmt
Definition op_encodings.hh:60

gem5::VegaISA::BufferRsrcDescriptor::type
uint32_t type
Definition op_encodings.hh:69

gem5::VegaISA::BufferRsrcDescriptor::hashEn
uint32_t hashEn
Definition op_encodings.hh:66

gem5::VegaISA::BufferRsrcDescriptor::atc
uint32_t atc
Definition op_encodings.hh:65

gem5::VegaISA::BufferRsrcDescriptor::baseAddr
uint64_t baseAddr
Definition op_encodings.hh:51

gem5::VegaISA::BufferRsrcDescriptor::dstSelZ
uint32_t dstSelZ
Definition op_encodings.hh:58

gem5::VegaISA::BufferRsrcDescriptor::elemSize
uint32_t elemSize
Definition op_encodings.hh:62

gem5::VegaISA::BufferRsrcDescriptor::dstSelW
uint32_t dstSelW
Definition op_encodings.hh:59

gem5::VegaISA::BufferRsrcDescriptor::idxStride
uint32_t idxStride
Definition op_encodings.hh:63

gem5::VegaISA::BufferRsrcDescriptor::dataFmt
uint32_t dataFmt
Definition op_encodings.hh:61

gem5::VegaISA::BufferRsrcDescriptor::dstSelY
uint32_t dstSelY
Definition op_encodings.hh:57

gem5::VegaISA::BufferRsrcDescriptor::addTidEn
uint32_t addTidEn
Definition op_encodings.hh:64

gem5::VegaISA::BufferRsrcDescriptor::numRecords
uint32_t numRecords
Definition op_encodings.hh:55

gem5::VegaISA::BufferRsrcDescriptor::swizzleEn
uint32_t swizzleEn
Definition op_encodings.hh:54

gem5::VegaISA::BufferRsrcDescriptor::mType
uint32_t mType
Definition op_encodings.hh:68

gem5::VegaISA::BufferRsrcDescriptor::cacheSwizzle
uint32_t cacheSwizzle
Definition op_encodings.hh:53

gem5::VegaISA::BufferRsrcDescriptor::dstSelX
uint32_t dstSelX
Definition op_encodings.hh:56

gem5::VegaISA::BufferRsrcDescriptor::heap
uint32_t heap
Definition op_encodings.hh:67

gem5::VegaISA::InFmt_DS_1
Definition gpu_decoder.hh:1789

gem5::VegaISA::InFmt_DS
Definition gpu_decoder.hh:1780

gem5::VegaISA::InFmt_EXP_1
Definition gpu_decoder.hh:1806

gem5::VegaISA::InFmt_EXP
Definition gpu_decoder.hh:1796

gem5::VegaISA::InFmt_FLAT_1
Definition gpu_decoder.hh:1824

gem5::VegaISA::InFmt_FLAT
Definition gpu_decoder.hh:1813

gem5::VegaISA::InFmt_MIMG_1
Definition gpu_decoder.hh:1851

gem5::VegaISA::InFmt_MIMG
Definition gpu_decoder.hh:1836

gem5::VegaISA::InFmt_MTBUF_1
Definition gpu_decoder.hh:1871

gem5::VegaISA::InFmt_MTBUF
Definition gpu_decoder.hh:1860

gem5::VegaISA::InFmt_MUBUF_1
Definition gpu_decoder.hh:1894

gem5::VegaISA::InFmt_MUBUF
Definition gpu_decoder.hh:1881

gem5::VegaISA::InFmt_SMEM_1
Definition gpu_decoder.hh:1915

gem5::VegaISA::InFmt_SMEM
Definition gpu_decoder.hh:1903

gem5::VegaISA::InFmt_SOP1
Definition gpu_decoder.hh:1921

gem5::VegaISA::InFmt_SOP2
Definition gpu_decoder.hh:1928

gem5::VegaISA::InFmt_SOPC
Definition gpu_decoder.hh:1936

gem5::VegaISA::InFmt_SOPK
Definition gpu_decoder.hh:1943

gem5::VegaISA::InFmt_SOPP
Definition gpu_decoder.hh:1950

gem5::VegaISA::InFmt_VINTRP
Definition gpu_decoder.hh:1956

gem5::VegaISA::InFmt_VOP1
Definition gpu_decoder.hh:1965

gem5::VegaISA::InFmt_VOP2
Definition gpu_decoder.hh:1972

gem5::VegaISA::InFmt_VOP3A
Definition gpu_decoder.hh:1980

gem5::VegaISA::InFmt_VOP3B
Definition gpu_decoder.hh:1997

gem5::VegaISA::InFmt_VOP3P_1
Definition gpu_decoder.hh:2073

gem5::VegaISA::InFmt_VOP3P_MAI_1
Definition gpu_decoder.hh:2092

gem5::VegaISA::InFmt_VOP3P_MAI
Definition gpu_decoder.hh:2082

gem5::VegaISA::InFmt_VOP3P
Definition gpu_decoder.hh:2063

gem5::VegaISA::InFmt_VOP3_1
Definition gpu_decoder.hh:1989

gem5::VegaISA::InFmt_VOPC
Definition gpu_decoder.hh:2005

gem5::VegaISA::InstFormat
Definition gpu_decoder.hh:2101