develop/vop3__cvt_8hh_source.html

/*

 * Copyright (c) 2025 Advanced Micro Devices, Inc.

 * All rights reserved.

 *

 * Redistribution and use in source and binary forms, with or without

 * modification, are permitted provided that the following conditions are met:

 *

 * 1. Redistributions of source code must retain the above copyright notice,

 * this list of conditions and the following disclaimer.

 *

 * 2. Redistributions in binary form must reproduce the above copyright notice,

 * this list of conditions and the following disclaimer in the documentation

 * and/or other materials provided with the distribution.

 *

 * 3. Neither the name of the copyright holder nor the names of its

 * contributors may be used to endorse or promote products derived from this

 * software without specific prior written permission.

 *

 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

 * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

 * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

 * POSSIBILITY OF SUCH DAMAGE.

 */


#ifndef __ARCH_AMDGPU_VEGA_INSTS_VOP3_CVT_HH__

#define __ARCH_AMDGPU_VEGA_INSTS_VOP3_CVT_HH__


#include <vector>


#include "arch/amdgpu/common/dtype/mxfp_types.hh"

#include "arch/amdgpu/vega/insts/inst_util.hh"


namespace gem5

{


namespace VegaISA

{


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALE_PK : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALE_PK(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALE_PK() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    static_assert(dFMT::size() == 32 || dFMT::size() == 16 ||

                  dFMT::size() == 8  || dFMT::size() == 4);

    static_assert(sFMT::size() == 32 || sFMT::size() == 16 ||

                  sFMT::size() == 8  || sFMT::size() == 4);


    Wavefront *wf = gpuDynInst->wavefront();


    // For the operands, there might be an easier way to type these based

    // on dFMT/sFMT. Here we define the possibilities and only read/write

    // the valid ones in an if constexpr conditional.

    ConstVecOperandU32 src0(gpuDynInst, extData.SRC0);

    ConstVecOperandU32 src1(gpuDynInst, extData.SRC1);

    ConstVecOperandF32 src2(gpuDynInst, extData.SRC2);


    VecOperandU64 vdst64(gpuDynInst, instData.VDST);

    VecOperandU32 vdst32(gpuDynInst, instData.VDST);


    src0.readSrc();

    src1.readSrc();


    if constexpr (sFMT::size() == 32) {

        src2.readSrc();

    }


    // These are read in the case of dFMT < 32 bit. In those cases the dest

    // register is updated without clobbering the unwritten bits.

    if constexpr (dFMT::size() == 32) {

        vdst64.read();

    } else {

        vdst32.read();

    }


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);

    panic_if(instData.ABS, "ABS not supported for %s", _opcode);

    panic_if(extData.NEG, "NEG not supported for %s", _opcode);


    // For 16 bit source format this is unused. For 8 bit only bit

    // 0 is valid. For 4 bit only bits 0 and 1 are valid.

    [[maybe_unused]] int in_opsel = 0;

    if constexpr (sFMT::size() == 8) {

        in_opsel = instData.OPSEL & 1;

    } else if (sFMT::size() == 4) {

        in_opsel = instData.OPSEL & 3;

    } else {

        in_opsel = 0;

    }


    // If the destination size is 8 bits select the word in vdst using

    // bit 3. If the size is 4 bits select the word using bits 3 and 2

    int out_opsel = 0;

    if constexpr (dFMT::size() == 8) {

        out_opsel = (instData.OPSEL >> 3) & 1;

    } else if (dFMT::size() == 4) {

        out_opsel = (instData.OPSEL >> 2) & 3;

    } else {

        out_opsel = 0;

    }


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            dFMT cvt1, cvt2;


            // When downcasting, scale before conversion otherwise scale

            // after conversion. Read the scale value first in either case.

            float scale_val = 1.0f;

            if constexpr (sFMT::size() == 32) {

                scale_val = src2[lane];

            } else {

                VecElemU32 tmp = src1[lane];

                scale_val = *reinterpret_cast<float*>(&(tmp));

            }


            if constexpr (sFMT::size() == 32) {

                sFMT tmp1(src0[lane]);

                sFMT tmp2(src1[lane]);


                static_assert(dFMT::size() < sFMT::size());

                tmp1.scaleDiv(scale_val);

                tmp2.scaleDiv(scale_val);


                // Implicit convert here

                cvt1 = tmp1;

                cvt2 = tmp2;

            } else {

                auto in = unpackMXOperands<sFMT>(src0[lane], in_opsel);


                if (dFMT::size() < sFMT::size()) {

                    in.first.scaleDiv(scale_val);

                    in.second.scaleDiv(scale_val);

                }


                cvt1 = in.first;

                cvt2 = in.second;

            }


            // Upcasting. Scale after conversion from above.

            if (dFMT::size() >= sFMT::size()) {

                cvt1.scaleMul(scale_val);

                cvt2.scaleMul(scale_val);

            }


            if (instData.CLAMP) {

                cvt1 = std::clamp(float(cvt1), 0.0f, 1.0f);

                cvt2 = std::clamp(float(cvt2), 0.0f, 1.0f);

            }


            if constexpr (dFMT::size() == 32) {

                vdst64[lane] = packMXOperands64(cvt2, cvt1);

            } else if (dFMT::size() == 16) {

                vdst32[lane] = packMXOperands32(cvt2, cvt1);

            } else if (dFMT::size() == 8) {

                uint16_t packed_data = packMXOperands32(cvt2, cvt1);

                vdst32[lane] = insertBits(vdst32[lane], 16 * out_opsel + 15,

                                          16 * out_opsel, packed_data);

            } else {

                uint8_t packed_data = packMXOperands32(cvt2, cvt1);

                vdst32[lane] = insertBits(vdst32[lane], 8 * out_opsel + 7,

                                          8 * out_opsel, packed_data);

            }

        }

    }


    if constexpr (dFMT::size() == 32) {

        vdst64.write();

    } else {

        vdst32.write();

    }

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    if constexpr (dFMT::size() == 32) {

        return 3;

    }


    return 2;

}


int


getOperandSize(int opIdx) override

{

    if constexpr (dFMT::size() == 32) {

        switch (opIdx) {

          case 0: //src_0

            return 4;

          case 1: //src_1

            return 4;

          case 2: //src_2

            return 4;

          case 3: //vdst

            return 8;

          default:

            fatal("op idx %i out of bounds\n", opIdx);

            return -1;

        }

    } else {

        switch (opIdx) {

          case 0: //src_0

            return 4;

          case 1: //src_1

            return 4;

          case 2: //vdst

            return 4;

          default:

            fatal("op idx %i out of bounds\n", opIdx);

            return -1;

        }

    }


    fatal("op idx %i out of bounds\n", opIdx);

    return -1;

}


};


static const char* MNEM__V_CVT_SCALEF32_PK_FP8_F32 =

    "v_cvt_scalef32_pk_fp8_f32";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F32 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat8, AMDGPU::mxfloat32,

                              &MNEM__V_CVT_SCALEF32_PK_FP8_F32>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF8_F32 =

    "v_cvt_scalef32_pk_bf8_f32";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F32 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat8, AMDGPU::mxfloat32,

                              &MNEM__V_CVT_SCALEF32_PK_BF8_F32>;


static const char* MNEM__V_CVT_SCALEF32_PK_F32_FP8 =

    "v_cvt_scalef32_pk_f32_fp8";

using Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat32, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_F32_FP8>;


static const char* MNEM__V_CVT_SCALEF32_PK_F32_BF8 =

    "v_cvt_scalef32_pk_f32_bf8";

using Inst_VOP3__V_CVT_SCALEF32_PK_F32_BF8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat32, AMDGPU::mxbfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_F32_BF8>;


static const char* MNEM__V_CVT_SCALEF32_PK_FP4_F32 =

    "v_cvt_scalef32_pk_fp4_f32";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F32 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfp4, AMDGPU::mxfloat32,

                              &MNEM__V_CVT_SCALEF32_PK_FP4_F32>;


static const char* MNEM__V_CVT_SCALEF32_PK_F32_FP4 =

    "v_cvt_scalef32_pk_f32_fp4";

using Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP4 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat32, AMDGPU::mxfp4,

                              &MNEM__V_CVT_SCALEF32_PK_F32_FP4>;


static const char* MNEM__V_CVT_SCALEF32_PK_FP8_F16 =

    "v_cvt_scalef32_pk_fp8_f16";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat8, AMDGPU::mxfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_FP8_F16>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF8_F16 =

    "v_cvt_scalef32_pk_bf8_f16";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat8, AMDGPU::mxfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_BF8_F16>;


static const char* MNEM__V_CVT_SCALEF32_PK_FP8_BF16 =

    "v_cvt_scalef32_pk_fp8_bf16";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP8_BF16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat8, AMDGPU::mxbfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_FP8_BF16>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF8_BF16 =

    "v_cvt_scalef32_pk_bf8_bf16";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF8_BF16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat8, AMDGPU::mxbfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_BF8_BF16>;


static const char* MNEM__V_CVT_SCALEF32_PK_F16_FP8 =

    "v_cvt_scalef32_pk_f16_fp8";

using Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat16, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_F16_FP8>;


static const char* MNEM__V_CVT_SCALEF32_PK_F16_BF8 =

    "v_cvt_scalef32_pk_f16_bf8";

using Inst_VOP3__V_CVT_SCALEF32_PK_F16_BF8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat16, AMDGPU::mxbfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_F16_BF8>;


static const char* MNEM__V_CVT_SCALEF32_PK_FP4_F16 =

    "v_cvt_scalef32_pk_fp4_f16";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfp4, AMDGPU::mxfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_FP4_F16>;


static const char* MNEM__V_CVT_SCALEF32_PK_FP4_BF16 =

    "v_cvt_scalef32_pk_fp4_bf16";

using Inst_VOP3__V_CVT_SCALEF32_PK_FP4_BF16 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfp4, AMDGPU::mxbfloat16,

                              &MNEM__V_CVT_SCALEF32_PK_FP4_BF16>;


static const char* MNEM__V_CVT_SCALEF32_PK_F16_FP4 =

    "v_cvt_scalef32_pk_f16_fp4";

using Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP4 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxfloat16, AMDGPU::mxfp4,

                              &MNEM__V_CVT_SCALEF32_PK_F16_FP4>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF16_FP4 =

    "v_cvt_scalef32_pk_bf16_fp4";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP4 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat16, AMDGPU::mxfp4,

                              &MNEM__V_CVT_SCALEF32_PK_BF16_FP4>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF16_FP8 =

    "v_cvt_scalef32_pk_bf16_fp8";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat16, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_BF16_FP8>;


static const char* MNEM__V_CVT_SCALEF32_PK_BF16_BF8 =

    "v_cvt_scalef32_pk_bf16_bf8";

using Inst_VOP3__V_CVT_SCALEF32_PK_BF16_BF8 =

    Inst_VOP3__V_CVT_SCALE_PK<AMDGPU::mxbfloat16, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_PK_BF16_BF8>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALE : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALE(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALE() { }


dFMT


omodModifier(dFMT val, unsigned omod)

{

    // These implicitly convert to F32 first. However that is always larger

    // than the largest source format so there should be not precision loss.

    assert(omod < 4);


    if (omod == 1) return val * 2.0f;

    if (omod == 2) return val * 4.0f;

    if (omod == 3) return val / 2.0f;


    return val;

}


void


execute(GPUDynInstPtr gpuDynInst) override

{

    // Currently only 4 conversions

    static_assert(dFMT::size() == 32 || dFMT::size() == 16);

    static_assert(sFMT::size() == 8);


    Wavefront *wf = gpuDynInst->wavefront();


    ConstVecOperandU32 src0(gpuDynInst, extData.SRC0);

    ConstVecOperandF32 src1(gpuDynInst, extData.SRC1);


    // The instruction spec does not mention existing bits in the dest be

    // preserved, so we do not read this before modifying and clobber it.

    VecOperandU32 vdst(gpuDynInst, instData.VDST);


    src0.readSrc();

    src1.readSrc();


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(instData.ABS, "ABS not supported for %s", _opcode);

    panic_if(extData.NEG, "NEG not supported for %s", _opcode);


    // Two bits to select the byte in the dword. No output opsel bit is

    // mentioned in the spec.

    int in_opsel = instData.OPSEL & 3;


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            sFMT in(bits(src0[lane], 8 * in_opsel + 7, 8 * in_opsel));

            dFMT cvt;


            // Implicit convert

            cvt = in;


            float scale_val = src1[lane];


            // Upcast only in this template. Apply after converting.

            cvt.scaleMul(scale_val);


            // Not marked OPF_NOOMOD, apply output modifiers before clamp.

            cvt = omodModifier(cvt, extData.OMOD);


            if (instData.CLAMP) {

                cvt = std::clamp(float(cvt), 0.0f, 1.0f);

            }


            // Write raw data back to register

            vdst[lane] = cvt.data >> (32 - dFMT::size());

        }

    }


    vdst.write();

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 2;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        return 4;

      case 1: //src_1

        return 4;

      case 2: //vdst

        return 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALEF32_F16_BF8 =

    "v_cvt_scalef32_f16_bf8";

using Inst_VOP3__V_CVT_SCALEF32_F16_BF8 =

    Inst_VOP3__V_CVT_SCALE<AMDGPU::mxfloat16, AMDGPU::mxbfloat8,

                              &MNEM__V_CVT_SCALEF32_F16_BF8>;


static const char* MNEM__V_CVT_SCALEF32_F16_FP8 =

    "v_cvt_scalef32_f16_fp8";

using Inst_VOP3__V_CVT_SCALEF32_F16_FP8 =

    Inst_VOP3__V_CVT_SCALE<AMDGPU::mxfloat16, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_F16_FP8>;


static const char* MNEM__V_CVT_SCALEF32_F32_BF8 =

    "v_cvt_scalef32_f32_bf8";

using Inst_VOP3__V_CVT_SCALEF32_F32_BF8 =

    Inst_VOP3__V_CVT_SCALE<AMDGPU::mxfloat32, AMDGPU::mxbfloat8,

                              &MNEM__V_CVT_SCALEF32_F32_BF8>;


static const char* MNEM__V_CVT_SCALEF32_F32_FP8 =

    "v_cvt_scalef32_f32_fp8";

using Inst_VOP3__V_CVT_SCALEF32_F32_FP8 =

    Inst_VOP3__V_CVT_SCALE<AMDGPU::mxfloat32, AMDGPU::mxfloat8,

                              &MNEM__V_CVT_SCALEF32_F32_FP8>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALE_PK32 : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALE_PK32(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALE_PK32() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    static_assert(dFMT::size() == 32 ||

            dFMT::size() == 16 || dFMT::size() == 6);

    static_assert(sFMT::size() == 16 || sFMT::size() == 6);


    // There are 32 values packed into a huge operand. These are called

    // components in the spec.

    constexpr const int components = sFMT::size() == 32 ? 16 : 32;

    size_t input_regs = getOperandSize(0) / 4;

    size_t output_regs = getOperandSize(2) / 4;


    Wavefront *wf = gpuDynInst->wavefront();


    // The gem5 operand types are really only handy up to 64 bits. For BF

    // operand sizes such as in these instructions, just create an array of

    // 32-bit registers to use.

    std::vector<ConstVecOperandU32> src0;

    src0.reserve(input_regs);

    for (int reg = 0; reg < input_regs; ++reg) {

        src0.emplace_back(gpuDynInst, extData.SRC0 + reg);

        src0[reg].readSrc();

    }


    ConstVecOperandF32 src1(gpuDynInst, extData.SRC1);

    src1.readSrc();


    std::vector<typename std::aligned_storage<sizeof(VecOperandU32),

                                              alignof(VecOperandU32)>::type>

        _vdst(output_regs);

    VecOperandU32* vdst =

        std::launder(reinterpret_cast<VecOperandU32*>(_vdst.data()));

    for (int reg = 0; reg < output_regs; ++reg) {

        new (&vdst[reg]) VecOperandU32(gpuDynInst, instData.VDST + reg);

    }


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(instData.CLAMP, "CLAMP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            PackedReg<sFMT::size() * components, sFMT::size()> in_reg;

            PackedReg<dFMT::size() * components, dFMT::size()> out_reg;


            for (int reg = 0; reg < input_regs; ++reg) {

                in_reg.setDword(reg, src0[reg][lane]);

            }


            for (int pass = 0; pass < components; ++pass) {

                sFMT in;

                dFMT out;


                // When downcasting, scale before conversion otherwise scale

                // after conversion. Read the scale value first in either case.

                float scale_val = src1[lane];

                if (instData.ABS & 2) {

                    scale_val = std::fabs(scale_val);

                }

                if (extData.NEG & 2) {

                    scale_val = -scale_val;

                }


                // Note: Due to the union of a signed int and bitfield struct,

                // the data is [31:(32 - sFMT::size())], so we must align this

                // otherwise the conversions will result in a zero value.

                in.data = in_reg.getElem(pass) << (32 - sFMT::size());


                // Apply ABS, NEG

                if (instData.ABS & 1 && float(in) < 0.0f) {

                    in = -in;

                }

                if (extData.NEG & 1) {

                    in = -in;

                }


                // Downcasting. Apply scale before converting.

                if constexpr (dFMT::size() < sFMT::size()) {

                    out.scaleDiv(scale_val);

                }


                out = in; // Implicit conversion happens here.


                // Upcasting. Apply scale after converting.

                if constexpr (dFMT::size() >= sFMT::size()) {

                    out.scaleMul(scale_val);

                }


                // Apply ABS, NEG

                if (instData.ABS & 8 && float(out) < 0.0f) {

                    out = -out;

                }

                if (extData.NEG & 8) {

                    out = -out;

                }


                out_reg.setElem(pass, out.data >> (32 - dFMT::size()));

            }


            for (int reg = 0; reg < output_regs; ++reg) {

                vdst[reg][lane] = out_reg.getDword(reg);

            }

        }

    }


    for (int reg = 0; reg < output_regs; ++reg) {

        vdst[reg].write();

    }

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 2;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        if constexpr (sFMT::size() == 32) {

            return sFMT::size() * 2;

        } else {

            return sFMT::size() * 4;

        }

      case 1: //src_1

        return 4;

      case 2: //vdst

        return dFMT::size() * 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALEF32_PK32_BF16_BF6 =

    "v_cvt_scalef32_pk32_bf16_bf6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_BF6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxbfloat16,

                                AMDGPU::mxbf6,

                                &MNEM__V_CVT_SCALEF32_PK32_BF16_BF6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_BF16_FP6 =

    "v_cvt_scalef32_pk32_bf16_fp6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_FP6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxbfloat16,

                                AMDGPU::mxfp6,

                                &MNEM__V_CVT_SCALEF32_PK32_BF16_FP6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_BF6_BF16 =

    "v_cvt_scalef32_pk32_bf6_bf16";

using Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_BF16 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxbf6,

                                AMDGPU::mxbfloat16,

                                &MNEM__V_CVT_SCALEF32_PK32_BF6_BF16>;


static const char* MNEM__V_CVT_SCALEF32_PK32_BF6_F16 =

    "v_cvt_scalef32_pk32_bf6_f16";

using Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_F16 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxbf6,

                                AMDGPU::mxfloat16,

                                &MNEM__V_CVT_SCALEF32_PK32_BF6_F16>;


static const char* MNEM__V_CVT_SCALEF32_PK32_F16_BF6 =

    "v_cvt_scalef32_pk32_f16_bf6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_F16_BF6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfloat16,

                                AMDGPU::mxbf6,

                                &MNEM__V_CVT_SCALEF32_PK32_F16_BF6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_F16_FP6 =

    "v_cvt_scalef32_pk32_f16_fp6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_F16_FP6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfloat16,

                                AMDGPU::mxfp6,

                                &MNEM__V_CVT_SCALEF32_PK32_F16_FP6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_F32_BF6 =

    "v_cvt_scalef32_pk32_f32_bf6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_F32_BF6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfloat32,

                                AMDGPU::mxbf6,

                                &MNEM__V_CVT_SCALEF32_PK32_F32_BF6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_F32_FP6 =

    "v_cvt_scalef32_pk32_f32_fp6";

using Inst_VOP3__V_CVT_SCALEF32_PK32_F32_FP6 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfloat32,

                                AMDGPU::mxfp6,

                                &MNEM__V_CVT_SCALEF32_PK32_F32_FP6>;


static const char* MNEM__V_CVT_SCALEF32_PK32_FP6_BF16 =

    "v_cvt_scalef32_pk32_fp6_bf16";

using Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_BF16 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfp6,

                                AMDGPU::mxbfloat16,

                                &MNEM__V_CVT_SCALEF32_PK32_FP6_BF16>;


static const char* MNEM__V_CVT_SCALEF32_PK32_FP6_F16 =

    "v_cvt_scalef32_pk32_fp6_f16";

using Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_F16 =

    Inst_VOP3__V_CVT_SCALE_PK32<AMDGPU::mxfp6,

                                AMDGPU::mxfloat16,

                                &MNEM__V_CVT_SCALEF32_PK32_FP6_F16>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32 : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    static_assert(dFMT::size() == 6);

    static_assert(sFMT::size() == 32);


    // There are 32 values over two source operands which have 16 values.

    // These are called components in the spec.

    constexpr const int components = 32;

    size_t input_regs = getOperandSize(0) / 4;

    size_t output_regs = getOperandSize(3) / 4;


    Wavefront *wf = gpuDynInst->wavefront();


    // The gem5 operand types are really only handy up to 64 bits. For BF

    // operand sizes such as in these instructions, just create an array of

    // 32-bit registers to use.

    std::vector<typename std::aligned_storage<

        sizeof(ConstVecOperandU32), alignof(ConstVecOperandU32)>::type>

        _src0(input_regs);

    ConstVecOperandU32* src0 =

        std::launder(reinterpret_cast<ConstVecOperandU32*>(_src0.data()));

    for (int reg = 0; reg < input_regs; ++reg) {

        new (&src0[reg]) ConstVecOperandU32(gpuDynInst, extData.SRC0 + reg);

        src0[reg].readSrc();

    }


    std::vector<typename std::aligned_storage<

        sizeof(ConstVecOperandU32), alignof(ConstVecOperandU32)>::type>

        _src1(input_regs);

    ConstVecOperandU32* src1 =

        std::launder(reinterpret_cast<ConstVecOperandU32*>(_src1.data()));

    for (int reg = 0; reg < input_regs; ++reg) {

        new (&src1[reg]) ConstVecOperandU32(gpuDynInst, extData.SRC1 + reg);

        src1[reg].readSrc();

    }


    ConstVecOperandF32 src2(gpuDynInst, extData.SRC2);

    src2.readSrc();


    std::vector<typename std::aligned_storage<sizeof(VecOperandU32),

                                              alignof(VecOperandU32)>::type>

        _vdst(output_regs);

    VecOperandU32* vdst =

        std::launder(reinterpret_cast<VecOperandU32*>(_vdst.data()));

    for (int reg = 0; reg < output_regs; ++reg) {

        new (&vdst[reg]) VecOperandU32(gpuDynInst, instData.VDST + reg);

    }


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(instData.CLAMP, "CLAMP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            PackedReg<sFMT::size() * components, sFMT::size()> in_reg;

            PackedReg<dFMT::size() * components, dFMT::size()> out_reg;


            for (int reg = 0; reg < input_regs; ++reg) {

                in_reg.setDword(reg * 2, src0[reg][lane]);

            }


            for (int reg = 0; reg < input_regs; ++reg) {

                in_reg.setDword(reg * 2 + 1, src1[reg][lane]);

            }


            for (int pass = 0; pass < components; ++pass) {

                sFMT in;

                dFMT out;


                // Note: Due to the union of a signed int and bitfield struct,

                // the data is [31:(32 - sFMT::size())], so we must align this

                // otherwise the conversions will result in a zero value.

                in.data = in_reg.getElem(pass) << (32 - sFMT::size());


                // Apply ABS, NEG

                if (instData.ABS & 1 && float(in) < 0.0f) {

                    in = -in;

                }

                if (extData.NEG & 1) {

                    in = -in;

                }


                // Only downcasts in this template. Scale before converting.

                float scale_val = src2[lane];

                if (instData.ABS & 2) {

                    scale_val = std::fabs(scale_val);

                }

                if (extData.NEG & 2) {

                    scale_val = -scale_val;

                }


                in.scaleDiv(scale_val);


                out = in; // Implicit conversion happens here.


                // Apply ABS, NEG

                if (instData.ABS & 8 && float(out) < 0.0f) {

                    out = -out;

                }

                if (extData.NEG & 8) {

                    out = -out;

                }


                out_reg.setElem(pass, out.data >> (32 - dFMT::size()));

            }


            for (int reg = 0; reg < output_regs; ++reg) {

                vdst[reg][lane] = out_reg.getDword(reg);

            }

        }

    }


    for (int reg = 0; reg < output_regs; ++reg) {

        vdst[reg].write();

    }

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 3;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        return sFMT::size() * 2;

      case 1: //src_1

        return sFMT::size() * 2;

      case 2: //src_2

        return 4;

      case 3: //vdst

        return dFMT::size() * 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALEF32_PK32_BF6_F32 =

    "v_cvt_scalef32_2xpk16_bf6_f32";

using Inst_VOP3__V_CVT_SCALEF32_2XPK16_BF6_F32 =

    Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32<AMDGPU::mxbf6,

                                         AMDGPU::mxfloat32,

                                         &MNEM__V_CVT_SCALEF32_PK32_BF6_F32>;


static const char* MNEM__V_CVT_SCALEF32_PK32_FP6_F32 =

    "v_cvt_scalef32_2xpk16_fp6_f32";

using Inst_VOP3__V_CVT_SCALEF32_2XPK16_FP6_F32 =

    Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32<AMDGPU::mxfp6,

                                         AMDGPU::mxfloat32,

                                         &MNEM__V_CVT_SCALEF32_PK32_FP6_F32>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALEF32_SR : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALEF32_SR(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALEF32_SR() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    // Currently only 5 conversions

    static_assert(dFMT::size() == 8);

    static_assert(sFMT::size() == 32 || sFMT::size() == 16);


    Wavefront *wf = gpuDynInst->wavefront();


    ConstVecOperandU32 src0(gpuDynInst, extData.SRC0); // input

    ConstVecOperandI32 src1(gpuDynInst, extData.SRC1); // seed

    ConstVecOperandF32 src2(gpuDynInst, extData.SRC2); // scale

    VecOperandU64 vdst(gpuDynInst, instData.VDST);


    src0.readSrc();

    src1.readSrc();

    src2.readSrc();

    vdst.read();


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);

    panic_if(instData.CLAMP, "CLAMP not supported for %s", _opcode);


    // Two bits [3:2] select the byte in the output dword. No input opsel bit

    // is mentioned in the spec.

    int out_byte = bits(instData.OPSEL, 3, 2);


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            sFMT in(src0[lane]);

            dFMT cvt;


            if (instData.ABS & 1 && float(in) < 0.0f) {

                in = -in;

            }

            if (extData.NEG & 1) {

                in = -in;

            }


            VecElemI32 seed_val = src1[lane];


            if (instData.ABS & 2) {

                seed_val = std::abs(seed_val);

            }

            if (extData.NEG & 2) {

                seed_val = -seed_val;

            }


            float scale_val = src2[lane];

            if (instData.ABS & 4) {

                scale_val = std::fabs(scale_val);

            }

            if (extData.NEG & 4) {

                scale_val = -scale_val;

            }


            // Only downcasts in this template. Apply scale before converting.

            in.scaleDiv(scale_val);


            using sInfo = decltype(in.getFmt());

            using dInfo = decltype(cvt.getFmt());

            dInfo cvt_info = AMDGPU::convertMXFP<dInfo, sInfo>(

                in.getFmt(), AMDGPU::roundStochastic, seed_val

            );

            cvt.setFmt(cvt_info);


            if (instData.ABS & 8 && float(cvt) < 0.0f) {

                cvt = -cvt;

            }

            if (extData.NEG & 8) {

                cvt = -cvt;

            }


            // Write raw data back to register

            vdst[lane] = insertBits(vdst[lane], out_byte * 8 + 7, out_byte * 8,

                                    bits(cvt.data, 31, 32 - dFMT::size()));

        }

    }


    vdst.write();

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 3;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        return 4;

      case 1: //src_1

        return 4;

      case 2: //src_2

        return 4;

      case 3: //vdst

        return 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALEF32_SR_BF8_F16 =

    "v_cvt_scale_sr_bf8_f16";

using Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F16 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxbfloat8,

                                 AMDGPU::mxfloat16,

                                 &MNEM__V_CVT_SCALEF32_SR_BF8_F16>;


static const char* MNEM__V_CVT_SCALEF32_SR_BF8_F32 =

    "v_cvt_scale_sr_bf8_f32";

using Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F32 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxbfloat8,

                                 AMDGPU::mxfloat32,

                                 &MNEM__V_CVT_SCALEF32_SR_BF8_F32>;


static const char* MNEM__V_CVT_SCALEF32_SR_FP8_BF16 =

    "v_cvt_scale_sr_fp8_bf16";

using Inst_VOP3__V_CVT_SCALEF32_SR_FP8_BF16 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxfloat8,

                                 AMDGPU::mxbfloat16,

                                 &MNEM__V_CVT_SCALEF32_SR_FP8_BF16>;


static const char* MNEM__V_CVT_SCALEF32_SR_BF8_BF16 =

    "v_cvt_scale_sr_bf8_bf16";

using Inst_VOP3__V_CVT_SCALEF32_SR_BF8_BF16 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxbfloat8,

                                 AMDGPU::mxbfloat16,

                                 &MNEM__V_CVT_SCALEF32_SR_BF8_BF16>;


static const char* MNEM__V_CVT_SCALEF32_SR_FP8_F16 =

    "v_cvt_scale_sr_fp8_f16";

using Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F16 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxfloat8,

                                 AMDGPU::mxfloat16,

                                 &MNEM__V_CVT_SCALEF32_SR_FP8_F16>;


static const char* MNEM__V_CVT_SCALEF32_SR_FP8_F32 =

    "v_cvt_scale_sr_fp8_f32";

using Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F32 =

    Inst_VOP3__V_CVT_SCALEF32_SR<AMDGPU::mxfloat8,

                                 AMDGPU::mxfloat32,

                                 &MNEM__V_CVT_SCALEF32_SR_FP8_F32>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALE_SR_PK32 : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALE_SR_PK32(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALE_SR_PK32() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    static_assert(dFMT::size() == 6);

    static_assert(sFMT::size() == 32 || sFMT::size() == 16);


    // There are 32 values in all cases.

    constexpr const int components = 32;

    size_t input_regs = getOperandSize(0) / 4;

    size_t output_regs = getOperandSize(3) / 4;


    Wavefront *wf = gpuDynInst->wavefront();


    // The gem5 operand types are really only handy up to 64 bits. For BF

    // operand sizes such as in these instructions, just create an array of

    // 32-bit registers to use.

    std::vector<typename std::aligned_storage<

        sizeof(ConstVecOperandU32), alignof(ConstVecOperandU32)>::type>

        _src0(input_regs);

    ConstVecOperandU32* src0 =

        std::launder(reinterpret_cast<ConstVecOperandU32*>(_src0.data()));

    for (int reg = 0; reg < input_regs; ++reg) {

        new (&src0[reg]) ConstVecOperandU32(gpuDynInst, extData.SRC0 + reg);

        src0[reg].readSrc();

    }


    ConstVecOperandI32 src1(gpuDynInst, extData.SRC1); // seed

    ConstVecOperandF32 src2(gpuDynInst, extData.SRC2); // scale

    src1.readSrc();

    src2.readSrc();


    std::vector<typename std::aligned_storage<sizeof(VecOperandU32),

                                              alignof(VecOperandU32)>::type>

        _vdst(output_regs);

    VecOperandU32* vdst =

        std::launder(reinterpret_cast<VecOperandU32*>(_vdst.data()));

    for (int reg = 0; reg < output_regs; ++reg) {

        new (&vdst[reg]) VecOperandU32(gpuDynInst, instData.VDST + reg);

    }


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(instData.CLAMP, "CLAMP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            PackedReg<sFMT::size() * components, sFMT::size()> in_reg;

            PackedReg<dFMT::size() * components, dFMT::size()> out_reg;


            for (int reg = 0; reg < input_regs; ++reg) {

                in_reg.setDword(reg, src0[reg][lane]);

            }


            for (int pass = 0; pass < components; ++pass) {

                sFMT in;

                dFMT out;


                // Note: Due to the union of a signed int and bitfield struct,

                // the data is [31:(32 - sFMT::size())], so we must align this

                // otherwise the conversions will result in a zero value.

                in.data = in_reg.getElem(pass) << (32 - sFMT::size());


                // Apply ABS, NEG, and scale

                if (instData.ABS & 1 && float(in) < 0.0f) {

                    in = -in;

                }

                if (extData.NEG & 1) {

                    in = -in;

                }


                VecElemI32 seed_val = src1[lane];


                if (instData.ABS & 2) {

                    seed_val = std::fabs(seed_val);

                }

                if (extData.NEG & 2) {

                    seed_val = -seed_val;

                }


                float scale_val = src2[lane];

                if (instData.ABS & 4) {

                    scale_val = std::fabs(scale_val);

                }

                if (extData.NEG & 4) {

                    scale_val = -scale_val;

                }


                // Only downcasts in this template. Scale before converting.

                in.scaleDiv(scale_val);


                using sInfo = decltype(in.getFmt());

                using dInfo = decltype(out.getFmt());

                dInfo cvt_info = AMDGPU::convertMXFP<dInfo, sInfo>(

                    in.getFmt(), AMDGPU::roundStochastic, seed_val

                );

                out.setFmt(cvt_info);


                if (instData.ABS & 8 && float(out) < 0.0f) {

                    out = -out;

                }

                if (extData.NEG & 8) {

                    out = -out;

                }


                out_reg.setElem(pass, out.data >> (32 - dFMT::size()));

            }


            for (int reg = 0; reg < output_regs; ++reg) {

                vdst[reg][lane] = out_reg.getDword(reg);

            }

        }

    }


    for (int reg = 0; reg < output_regs; ++reg) {

        vdst[reg].write();

    }

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 3;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        return sFMT::size() * 4;

      case 1: //src_1

        return 4;

      case 2: //src_2

        return 4;

      case 3: //vdst

        // Always 6 dwords

        return 6 * 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALE_SR_PK_BF6_BF16 =

    "v_cvt_scale_sr_pk_bf6_bf16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_BF16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxbf6,

                                   AMDGPU::mxbfloat16,

                                   &MNEM__V_CVT_SCALE_SR_PK_BF6_BF16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_BF6_F16 =

    "v_cvt_scale_sr_pk_bf6_f16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxbf6,

                                   AMDGPU::mxfloat16,

                                   &MNEM__V_CVT_SCALE_SR_PK_BF6_F16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_BF6_F32 =

    "v_cvt_scale_sr_pk_bf6_f32";

using Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F32 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxbf6,

                                   AMDGPU::mxfloat32,

                                   &MNEM__V_CVT_SCALE_SR_PK_BF6_F32>;


static const char* MNEM__V_CVT_SCALE_SR_PK_FP6_BF16 =

    "v_cvt_scale_sr_pk_fp6_bf16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_BF16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxfp6,

                                   AMDGPU::mxbfloat16,

                                   &MNEM__V_CVT_SCALE_SR_PK_FP6_BF16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_FP6_F16 =

    "v_cvt_scale_sr_pk_fp6_f16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxfp6,

                                   AMDGPU::mxfloat16,

                                   &MNEM__V_CVT_SCALE_SR_PK_FP6_F16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_FP6_F32 =

    "v_cvt_scale_sr_pk_fp6_f32";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F32 =

    Inst_VOP3__V_CVT_SCALE_SR_PK32<AMDGPU::mxfp6,

                                   AMDGPU::mxfloat32,

                                   &MNEM__V_CVT_SCALE_SR_PK_FP6_F32>;


template<typename dFMT, typename sFMT, const char **MNEM>


class Inst_VOP3__V_CVT_SCALE_SR_PK_FP4 : public Inst_VOP3A

{

public:


Inst_VOP3__V_CVT_SCALE_SR_PK_FP4(InFmt_VOP3A *iFmt)

    : Inst_VOP3A(iFmt, *MNEM, false)

{

    setFlag(ALU);

}


~Inst_VOP3__V_CVT_SCALE_SR_PK_FP4() { }


void


execute(GPUDynInstPtr gpuDynInst) override

{

    static_assert(dFMT::size() == 4);

    static_assert(sFMT::size() == 32 || sFMT::size() == 16);


    Wavefront *wf = gpuDynInst->wavefront();


    // There are either one or two dwords read depending on input type. To

    // simplify things, just declare two here and don't read the second

    // dword if it is not used.

    ConstVecOperandU32 src0[2] = { // input

        ConstVecOperandU32(gpuDynInst, extData.SRC0 + 0),

        ConstVecOperandU32(gpuDynInst, extData.SRC0 + 1)

    };

    ConstVecOperandI32 src1(gpuDynInst, extData.SRC1); // seed

    ConstVecOperandF32 src2(gpuDynInst, extData.SRC2); // scale

    VecOperandU32 vdst(gpuDynInst, instData.VDST); // output


    src0[0].readSrc();

    if constexpr (sFMT::size() == 32) {

        src0[1].readSrc();

    }

    src1.readSrc();

    src2.readSrc();


    // We want to replace the bits at the OPSEL location and not clobber

    // the rest of the register, therefore need to read modify and write.

    vdst.read();


    panic_if(isSDWAInst(), "SDWA not supported for %s", _opcode);

    panic_if(isDPPInst(), "DPP not supported for %s", _opcode);

    panic_if(instData.CLAMP, "CLAMP not supported for %s", _opcode);

    panic_if(extData.OMOD, "OMOD not supported for %s", _opcode);


    // Output byte. Input is always either 2x 16-bit values or 2x 32-bit

    // values. Therefore there is no input opsel.

    int out_opsel = bits(instData.OPSEL, 3, 2);


    for (int lane = 0; lane < NumVecElemPerVecReg; ++lane) {

        if (wf->execMask(lane)) {

            sFMT in[2];

            dFMT out[2]; // Always FP4 but may as well keep it templated.


            if constexpr (sFMT::size() == 32) {

                in[0].data = src0[0][lane];

                in[1].data = src0[1][lane];

            } else {

                assert(sFMT::size() == 16);

                in[0].data = bits(src0[0][lane], 15, 0)  << 16;

                in[1].data = bits(src0[0][lane], 31, 15) << 16;

            }


            // Apply ABS, NEG, and scale - Assume these apply to both packed

            // values.

            if (instData.ABS & 1) {

                if (float(in[0]) < 0.0f) {

                    in[0] = -in[0];

                }

                if (float(in[1]) < 0.0f) {

                    in[1] = -in[1];

                }

            }

            if (extData.NEG & 1) {

                in[0] = -in[0];

                in[1] = -in[1];

            }


            VecElemI32 seed_val = src1[lane];


            if (instData.ABS & 2) {

                seed_val = std::fabs(seed_val);

            }

            if (extData.NEG & 2) {

                seed_val = -seed_val;

            }


            // Only downcasts in this template. Apply scale before converting.

            float scale_val = src2[lane];

            if (instData.ABS & 4) {

                scale_val = std::fabs(scale_val);

            }

            if (extData.NEG & 4) {

                scale_val = -scale_val;

            }


            in[0].scaleDiv(scale_val);

            in[1].scaleDiv(scale_val);


            using sInfo = decltype(in[0].getFmt());

            using dInfo = decltype(out[0].getFmt());

            dInfo cvt_info = AMDGPU::convertMXFP<dInfo, sInfo>(

                in[0].getFmt(), AMDGPU::roundStochastic, seed_val

            );

            out[0].setFmt(cvt_info);

            cvt_info = AMDGPU::convertMXFP<dInfo, sInfo>(

                in[1].getFmt(), AMDGPU::roundStochastic, seed_val

            );

            out[1].setFmt(cvt_info);


            if (instData.ABS & 8) {

                if (float(out[0]) < 0.0f) {

                    out[0] = -out[0];

                }

                if (float(out[1]) < 0.0f) {

                    out[1] = -out[1];

                }

            }


            // The bits of the mxfp type are aligned to the left of the dword,

            // so bits [31:28] are the relevant bits.

            uint8_t packed_output = (bits(out[1].data, 31, 28) << 4)

                                  | bits(out[0].data, 31, 28);

            vdst[lane] = insertBits(vdst[lane], 8 * out_opsel + 7,

                                    8 * out_opsel, packed_output);

        }

    }


    vdst.write();

}


int


getNumOperands() override

{

    return numDstRegOperands() + numSrcRegOperands();

}


int


numDstRegOperands() override

{

    return 1;

}


int


numSrcRegOperands() override

{

    return 3;

}


int


getOperandSize(int opIdx) override

{

    switch (opIdx) {

      case 0: //src_0

        return sFMT::size() / 4;

      case 1: //src_1

        return 4;

      case 2: //src_2

        return 4;

      case 3: //vdst

        return 4;

      default:

        fatal("op idx %i out of bounds\n", opIdx);

        return -1;

    }

}


};


static const char* MNEM__V_CVT_SCALE_SR_PK_FP4_BF16 =

    "v_cvt_scale_sr_pk_fp4_bf16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_BF16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK_FP4<AMDGPU::mxfp4,

                                     AMDGPU::mxbfloat16,

                                     &MNEM__V_CVT_SCALE_SR_PK_FP4_BF16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_FP4_F16 =

    "v_cvt_scale_sr_pk_fp4_f16";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F16 =

    Inst_VOP3__V_CVT_SCALE_SR_PK_FP4<AMDGPU::mxfp4,

                                     AMDGPU::mxfloat16,

                                     &MNEM__V_CVT_SCALE_SR_PK_FP4_F16>;


static const char* MNEM__V_CVT_SCALE_SR_PK_FP4_F32 =

    "v_cvt_scale_sr_pk_fp4_f32";

using Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F32 =

    Inst_VOP3__V_CVT_SCALE_SR_PK_FP4<AMDGPU::mxfp4,

                                     AMDGPU::mxfloat32,

                                     &MNEM__V_CVT_SCALE_SR_PK_FP4_F32>;


}

}


#endif // __ARCH_AMDGPU_VEGA_INSTS_VOP3_CVT_HH__

data
const char data[]
Definition circlebuf.test.cc:48

gem5::GPUStaticInst::isDPPInst
bool isDPPInst() const
Definition gpu_static_inst.hh:116

gem5::GPUStaticInst::setFlag
void setFlag(Flags flag)
Definition gpu_static_inst.hh:251

gem5::GPUStaticInst::isSDWAInst
bool isSDWAInst() const
Definition gpu_static_inst.hh:115

gem5::GPUStaticInst::_opcode
const std::string _opcode
Definition gpu_static_inst.hh:305

gem5::VegaISA::Inst_VOP3A::Inst_VOP3A
Inst_VOP3A(InFmt_VOP3A *, const std::string &opcode, bool sgpr_dst)
Definition op_encodings.cc:956

gem5::VegaISA::Inst_VOP3A::extData
InFmt_VOP3_1 extData
Definition op_encodings.hh:610

gem5::VegaISA::Inst_VOP3A::instData
InFmt_VOP3A instData
Definition op_encodings.hh:608

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32
Base class for all V_CVT_SCALEF32_PK32* MI355X instructions which have F32 inputs.
Definition vop3_cvt.hh:764

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:894

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32
Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:766

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:900

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::~Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32
~Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32()
Definition vop3_cvt.hh:772

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:912

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:775

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:906

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR
Base class for all V_CVT_SCALEF32_SR_* instructions in MI355X which are NOT packed.
Definition vop3_cvt.hh:953

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:1047

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:1053

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:1065

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::~Inst_VOP3__V_CVT_SCALEF32_SR
~Inst_VOP3__V_CVT_SCALEF32_SR()
Definition vop3_cvt.hh:961

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:964

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::Inst_VOP3__V_CVT_SCALEF32_SR
Inst_VOP3__V_CVT_SCALEF32_SR(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:955

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:1059

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32
Base class for all V_CVT_SCALEF32_PK32* MI355X instructions (except with F32 inputs).
Definition vop3_cvt.hh:524

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:535

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::Inst_VOP3__V_CVT_SCALE_PK32
Inst_VOP3__V_CVT_SCALE_PK32(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:526

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:659

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:653

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:665

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::~Inst_VOP3__V_CVT_SCALE_PK32
~Inst_VOP3__V_CVT_SCALE_PK32()
Definition vop3_cvt.hh:532

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK32::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:647

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK
Base class for all V_CVT_SCALEF32_PK* instructions in MI355X.
Definition vop3_cvt.hh:52

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:197

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::~Inst_VOP3__V_CVT_SCALE_PK
~Inst_VOP3__V_CVT_SCALE_PK()
Definition vop3_cvt.hh:60

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:219

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:203

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:63

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:209

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_PK::Inst_VOP3__V_CVT_SCALE_PK
Inst_VOP3__V_CVT_SCALE_PK(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:54

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32
Base class for all V_CVT_SCALEF32_SR_PK32* MI355X instructions.
Definition vop3_cvt.hh:1134

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:1270

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:1276

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:1264

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:1282

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:1145

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::Inst_VOP3__V_CVT_SCALE_SR_PK32
Inst_VOP3__V_CVT_SCALE_SR_PK32(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:1136

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK32::~Inst_VOP3__V_CVT_SCALE_SR_PK32
~Inst_VOP3__V_CVT_SCALE_SR_PK32()
Definition vop3_cvt.hh:1142

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4
Base class for all V_CVT_SCALEF32_SR_PK_FP4* MI355X instructions.
Definition vop3_cvt.hh:1352

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:1502

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:1496

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4
Inst_VOP3__V_CVT_SCALE_SR_PK_FP4(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:1354

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:1484

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:1363

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::~Inst_VOP3__V_CVT_SCALE_SR_PK_FP4
~Inst_VOP3__V_CVT_SCALE_SR_PK_FP4()
Definition vop3_cvt.hh:1360

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:1490

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE
Base class for all V_CVT_SCALEF32* instructions in MI355X which are NOT packed.
Definition vop3_cvt.hh:372

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::execute
void execute(GPUDynInstPtr gpuDynInst) override
Definition vop3_cvt.hh:397

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::~Inst_VOP3__V_CVT_SCALE
~Inst_VOP3__V_CVT_SCALE()
Definition vop3_cvt.hh:380

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::numDstRegOperands
int numDstRegOperands() override
Definition vop3_cvt.hh:459

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::getOperandSize
int getOperandSize(int opIdx) override
Definition vop3_cvt.hh:471

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::getNumOperands
int getNumOperands() override
Definition vop3_cvt.hh:453

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::omodModifier
dFMT omodModifier(dFMT val, unsigned omod)
Definition vop3_cvt.hh:383

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::Inst_VOP3__V_CVT_SCALE
Inst_VOP3__V_CVT_SCALE(InFmt_VOP3A *iFmt)
Definition vop3_cvt.hh:374

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE::numSrcRegOperands
int numSrcRegOperands() override
Definition vop3_cvt.hh:465

gem5::VegaISA::PackedReg
Definition operand.hh:860

gem5::VegaISA::PackedReg::getElem
uint32_t getElem(int elem)
Definition operand.hh:892

gem5::VegaISA::PackedReg::setDword
void setDword(int dw, uint32_t value)
Definition operand.hh:878

gem5::VegaISA::PackedReg::setElem
void setElem(int elem, uint32_t value)
Definition operand.hh:933

gem5::VegaISA::PackedReg::getDword
uint32_t getDword(int dw)
Definition operand.hh:885

gem5::VegaISA::VecOperand::read
void read() override
read from the vrf.
Definition operand.hh:148

gem5::VegaISA::VecOperand::readSrc
void readSrc()
certain vector operands can read from the vrf/srf or constants.
Definition operand.hh:132

gem5::VegaISA::VecOperand::write
void write() override
write to the vrf.
Definition operand.hh:203

gem5::Wavefront
Definition wavefront.hh:62

gem5::Wavefront::execMask
VectorMask & execMask()
Definition wavefront.cc:1581

std::vector
STL vector class.
Definition stl.hh:37

gem5::bits
constexpr T bits(T val, unsigned first, unsigned last)
Extract the bitfield from position 'first' to 'last' (inclusive) from 'val' and right justify it.
Definition bitfield.hh:79

gem5::insertBits
constexpr T insertBits(T val, unsigned first, unsigned last, B bit_val)
Returns val with bits first to last set to the LSBs of bit_val.
Definition bitfield.hh:185

fatal
#define fatal(...)
This implements a cprintf based fatal() function.
Definition logging.hh:232

panic_if
#define panic_if(cond,...)
Conditional panic macro that checks the supplied condition and only panics if the condition is true a...
Definition logging.hh:246

inst_util.hh

mxfp_types.hh

gem5::AMDGPU::mxbf6
mxfp< fp6_e3m2_info > mxbf6
Definition mxfp_types.hh:44

gem5::AMDGPU::mxfloat8
mxfp< fp8_e4m3_info > mxfloat8
Definition mxfp_types.hh:47

gem5::AMDGPU::mxfloat32
mxfp< binary32 > mxfloat32
Definition mxfp_types.hh:52

gem5::AMDGPU::mxbfloat16
mxfp< fp16_e8m7_info > mxbfloat16
Definition mxfp_types.hh:49

gem5::AMDGPU::mxfloat16
mxfp< fp16_e5m10_info > mxfloat16
Definition mxfp_types.hh:50

gem5::AMDGPU::convertMXFP
dFMT convertMXFP(sFMT in, mxfpRoundingMode mode=roundTiesToEven, uint32_t seed=0)
Definition mxfp_convert.hh:62

gem5::AMDGPU::mxfp4
mxfp< fp4_e2m1_info > mxfp4
Definition mxfp_types.hh:42

gem5::AMDGPU::mxbfloat8
mxfp< fp8_e5m2_info > mxbfloat8
Definition mxfp_types.hh:46

gem5::AMDGPU::mxfp6
mxfp< fp6_e2m3_info > mxfp6
Definition mxfp_types.hh:43

gem5::AMDGPU::roundStochastic
@ roundStochastic
Definition mxfp_convert.hh:51

gem5::VegaISA
classes that represnt vector/scalar operands in VEGA ISA.
Definition faults.cc:39

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_FP8_BF16
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxfloat8, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_SR_FP8_BF16 > Inst_VOP3__V_CVT_SCALEF32_SR_FP8_BF16
Definition vop3_cvt.hh:1100

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP4_F16
static const char * MNEM__V_CVT_SCALE_SR_PK_FP4_F16
Definition vop3_cvt.hh:1528

gem5::VegaISA::MNEM__V_CVT_SCALEF32_F16_BF8
static const char * MNEM__V_CVT_SCALEF32_F16_BF8
Definition vop3_cvt.hh:488

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F16
Inst_VOP3__V_CVT_SCALE_SR_PK_FP4< AMDGPU::mxfp4, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALE_SR_PK_FP4_F16 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F16
Definition vop3_cvt.hh:1530

gem5::VegaISA::packMXOperands64
uint64_t packMXOperands64(T &lower_operand, T &upper_operand)
Pack two MXFP values into one qword.
Definition inst_util.hh:953

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF8_BF16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat8, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_PK_BF8_BF16 > Inst_VOP3__V_CVT_SCALEF32_PK_BF8_BF16
Definition vop3_cvt.hh:311

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F16_FP4
static const char * MNEM__V_CVT_SCALEF32_PK_F16_FP4
Definition vop3_cvt.hh:339

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_BF16_FP6
static const char * MNEM__V_CVT_SCALEF32_PK32_BF16_FP6
Definition vop3_cvt.hh:693

gem5::VegaISA::ConstVecOperandF32
VecOperand< VecElemF32, true > ConstVecOperandF32
Definition operand.hh:846

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F16
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxbfloat8, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_SR_BF8_F16 > Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F16
Definition vop3_cvt.hh:1086

gem5::VegaISA::VecElemI32
int32_t VecElemI32
Definition gpu_registers.hh:166

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_F16_FP8
Inst_VOP3__V_CVT_SCALE< AMDGPU::mxfloat16, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_F16_FP8 > Inst_VOP3__V_CVT_SCALEF32_F16_FP8
Definition vop3_cvt.hh:496

gem5::VegaISA::VecOperandU32
VecOperand< VecElemU32, false > VecOperandU32
Definition operand.hh:829

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_FP8_F32
static const char * MNEM__V_CVT_SCALEF32_SR_FP8_F32
Definition vop3_cvt.hh:1119

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F32
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxbf6, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALE_SR_PK_BF6_F32 > Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F32
Definition vop3_cvt.hh:1318

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF8_BF16
static const char * MNEM__V_CVT_SCALEF32_PK_BF8_BF16
Definition vop3_cvt.hh:309

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F32
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfp4, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_PK_FP4_F32 > Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F32
Definition vop3_cvt.hh:281

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP4
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat32, AMDGPU::mxfp4, &MNEM__V_CVT_SCALEF32_PK_F32_FP4 > Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP4
Definition vop3_cvt.hh:287

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F32
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxfp6, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALE_SR_PK_FP6_F32 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F32
Definition vop3_cvt.hh:1339

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_FP8_F16
static const char * MNEM__V_CVT_SCALEF32_SR_FP8_F16
Definition vop3_cvt.hh:1112

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_BF16
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxbf6, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALE_SR_PK_BF6_BF16 > Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_BF16
Definition vop3_cvt.hh:1304

gem5::VegaISA::unpackMXOperands
std::pair< T, T > unpackMXOperands(uint32_t src, int opsel)
Unpack MXFP values from a register based on opsel value and type size.
Definition inst_util.hh:911

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP4_F16
static const char * MNEM__V_CVT_SCALEF32_PK_FP4_F16
Definition vop3_cvt.hh:327

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP4_BF16
static const char * MNEM__V_CVT_SCALEF32_PK_FP4_BF16
Definition vop3_cvt.hh:333

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_F16_BF8
Inst_VOP3__V_CVT_SCALE< AMDGPU::mxfloat16, AMDGPU::mxbfloat8, &MNEM__V_CVT_SCALEF32_F16_BF8 > Inst_VOP3__V_CVT_SCALEF32_F16_BF8
Definition vop3_cvt.hh:490

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_BF6_F32
static const char * MNEM__V_CVT_SCALE_SR_PK_BF6_F32
Definition vop3_cvt.hh:1316

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP8_F32
static const char * MNEM__V_CVT_SCALEF32_PK_FP8_F32
Definition vop3_cvt.hh:255

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_BF8_F32
static const char * MNEM__V_CVT_SCALEF32_SR_BF8_F32
Definition vop3_cvt.hh:1091

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_BF16
Inst_VOP3__V_CVT_SCALE_SR_PK_FP4< AMDGPU::mxfp4, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALE_SR_PK_FP4_BF16 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_BF16
Definition vop3_cvt.hh:1523

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F16_BF8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat16, AMDGPU::mxbfloat8, &MNEM__V_CVT_SCALEF32_PK_F16_BF8 > Inst_VOP3__V_CVT_SCALEF32_PK_F16_BF8
Definition vop3_cvt.hh:323

gem5::VegaISA::ConstVecOperandI32
VecOperand< VecElemI32, true > ConstVecOperandI32
Definition operand.hh:845

gem5::VegaISA::ConstVecOperandU32
VecOperand< VecElemU32, true > ConstVecOperandU32
Definition operand.hh:844

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP8_BF16
static const char * MNEM__V_CVT_SCALEF32_PK_FP8_BF16
Definition vop3_cvt.hh:303

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF8_F32
static const char * MNEM__V_CVT_SCALEF32_PK_BF8_F32
Definition vop3_cvt.hh:261

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_BF16
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxfp6, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALE_SR_PK_FP6_BF16 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_BF16
Definition vop3_cvt.hh:1325

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F32
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat8, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_PK_BF8_F32 > Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F32
Definition vop3_cvt.hh:263

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP4_BF16
static const char * MNEM__V_CVT_SCALE_SR_PK_FP4_BF16
Definition vop3_cvt.hh:1521

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F32
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxbfloat8, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_SR_BF8_F32 > Inst_VOP3__V_CVT_SCALEF32_SR_BF8_F32
Definition vop3_cvt.hh:1093

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF16_FP4
static const char * MNEM__V_CVT_SCALEF32_PK_BF16_FP4
Definition vop3_cvt.hh:345

gem5::VegaISA::MNEM__V_CVT_SCALEF32_F32_FP8
static const char * MNEM__V_CVT_SCALEF32_F32_FP8
Definition vop3_cvt.hh:506

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF16_BF8
static const char * MNEM__V_CVT_SCALEF32_PK_BF16_BF8
Definition vop3_cvt.hh:357

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_BF6_F16
static const char * MNEM__V_CVT_SCALE_SR_PK_BF6_F16
Definition vop3_cvt.hh:1309

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F32_BF8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat32, AMDGPU::mxbfloat8, &MNEM__V_CVT_SCALEF32_PK_F32_BF8 > Inst_VOP3__V_CVT_SCALEF32_PK_F32_BF8
Definition vop3_cvt.hh:275

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfp4, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_PK_FP4_F16 > Inst_VOP3__V_CVT_SCALEF32_PK_FP4_F16
Definition vop3_cvt.hh:329

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_BF16
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxbf6, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_PK32_BF6_BF16 > Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_BF16
Definition vop3_cvt.hh:702

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_FP6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxbfloat16, AMDGPU::mxfp6, &MNEM__V_CVT_SCALEF32_PK32_BF16_FP6 > Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_FP6
Definition vop3_cvt.hh:695

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP4_F32
static const char * MNEM__V_CVT_SCALE_SR_PK_FP4_F32
Definition vop3_cvt.hh:1535

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F16_BF8
static const char * MNEM__V_CVT_SCALEF32_PK_F16_BF8
Definition vop3_cvt.hh:321

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_FP8_BF16
static const char * MNEM__V_CVT_SCALEF32_SR_FP8_BF16
Definition vop3_cvt.hh:1098

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F32
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxfloat8, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_SR_FP8_F32 > Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F32
Definition vop3_cvt.hh:1121

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_F16
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfp6, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_PK32_FP6_F16 > Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_F16
Definition vop3_cvt.hh:751

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F32
Inst_VOP3__V_CVT_SCALE_SR_PK_FP4< AMDGPU::mxfp4, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALE_SR_PK_FP4_F32 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP4_F32
Definition vop3_cvt.hh:1537

gem5::VegaISA::VecElemU32
uint32_t VecElemU32
Definition gpu_registers.hh:165

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_BF6_BF16
static const char * MNEM__V_CVT_SCALE_SR_PK_BF6_BF16
Definition vop3_cvt.hh:1302

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_F16_FP6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfloat16, AMDGPU::mxfp6, &MNEM__V_CVT_SCALEF32_PK32_F16_FP6 > Inst_VOP3__V_CVT_SCALEF32_PK32_F16_FP6
Definition vop3_cvt.hh:723

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F32_FP4
static const char * MNEM__V_CVT_SCALEF32_PK_F32_FP4
Definition vop3_cvt.hh:285

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat16, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_PK_BF16_FP8 > Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP8
Definition vop3_cvt.hh:353

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_BF16
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfp6, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_PK32_FP6_BF16 > Inst_VOP3__V_CVT_SCALEF32_PK32_FP6_BF16
Definition vop3_cvt.hh:744

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_FP6_F32
static const char * MNEM__V_CVT_SCALEF32_PK32_FP6_F32
Definition vop3_cvt.hh:938

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat16, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_PK_F16_FP8 > Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP8
Definition vop3_cvt.hh:317

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_BF8_BF16
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxbfloat8, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_SR_BF8_BF16 > Inst_VOP3__V_CVT_SCALEF32_SR_BF8_BF16
Definition vop3_cvt.hh:1107

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF16_FP8
static const char * MNEM__V_CVT_SCALEF32_PK_BF16_FP8
Definition vop3_cvt.hh:351

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_FP6_F32
Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32< AMDGPU::mxfp6, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_PK32_FP6_F32 > Inst_VOP3__V_CVT_SCALEF32_2XPK16_FP6_F32
Definition vop3_cvt.hh:940

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_F32_BF6
static const char * MNEM__V_CVT_SCALEF32_PK32_F32_BF6
Definition vop3_cvt.hh:728

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_BF8_F16
static const char * MNEM__V_CVT_SCALEF32_PK_BF8_F16
Definition vop3_cvt.hh:297

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP6_F32
static const char * MNEM__V_CVT_SCALE_SR_PK_FP6_F32
Definition vop3_cvt.hh:1337

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_BF8_BF16
static const char * MNEM__V_CVT_SCALEF32_SR_BF8_BF16
Definition vop3_cvt.hh:1105

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP6_F16
static const char * MNEM__V_CVT_SCALE_SR_PK_FP6_F16
Definition vop3_cvt.hh:1330

gem5::VegaISA::MNEM__V_CVT_SCALE_SR_PK_FP6_BF16
static const char * MNEM__V_CVT_SCALE_SR_PK_FP6_BF16
Definition vop3_cvt.hh:1323

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP4_F32
static const char * MNEM__V_CVT_SCALEF32_PK_FP4_F32
Definition vop3_cvt.hh:279

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP4_BF16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfp4, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_PK_FP4_BF16 > Inst_VOP3__V_CVT_SCALEF32_PK_FP4_BF16
Definition vop3_cvt.hh:335

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_BF16_BF6
static const char * MNEM__V_CVT_SCALEF32_PK32_BF16_BF6
Definition vop3_cvt.hh:686

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F32_FP8
static const char * MNEM__V_CVT_SCALEF32_PK_F32_FP8
Definition vop3_cvt.hh:267

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP8_BF16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat8, AMDGPU::mxbfloat16, &MNEM__V_CVT_SCALEF32_PK_FP8_BF16 > Inst_VOP3__V_CVT_SCALEF32_PK_FP8_BF16
Definition vop3_cvt.hh:305

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_FP8_F16
static const char * MNEM__V_CVT_SCALEF32_PK_FP8_F16
Definition vop3_cvt.hh:291

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_BF6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxbfloat16, AMDGPU::mxbf6, &MNEM__V_CVT_SCALEF32_PK32_BF16_BF6 > Inst_VOP3__V_CVT_SCALEF32_PK32_BF16_BF6
Definition vop3_cvt.hh:688

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat32, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_PK_F32_FP8 > Inst_VOP3__V_CVT_SCALEF32_PK_F32_FP8
Definition vop3_cvt.hh:269

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_BF6_F32
static const char * MNEM__V_CVT_SCALEF32_PK32_BF6_F32
Definition vop3_cvt.hh:931

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_F16_BF6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfloat16, AMDGPU::mxbf6, &MNEM__V_CVT_SCALEF32_PK32_F16_BF6 > Inst_VOP3__V_CVT_SCALEF32_PK32_F16_BF6
Definition vop3_cvt.hh:716

gem5::VegaISA::NumVecElemPerVecReg
const int NumVecElemPerVecReg(64)

gem5::VegaISA::VecOperandU64
VecOperand< VecElemU64, false > VecOperandU64
Definition operand.hh:832

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F16
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxbf6, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALE_SR_PK_BF6_F16 > Inst_VOP3__V_CVT_SCALE_SR_PK_BF6_F16
Definition vop3_cvt.hh:1311

gem5::VegaISA::MNEM__V_CVT_SCALEF32_F16_FP8
static const char * MNEM__V_CVT_SCALEF32_F16_FP8
Definition vop3_cvt.hh:494

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP4
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat16, AMDGPU::mxfp4, &MNEM__V_CVT_SCALEF32_PK_BF16_FP4 > Inst_VOP3__V_CVT_SCALEF32_PK_BF16_FP4
Definition vop3_cvt.hh:347

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F16
Inst_VOP3__V_CVT_SCALEF32_SR< AMDGPU::mxfloat8, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_SR_FP8_F16 > Inst_VOP3__V_CVT_SCALEF32_SR_FP8_F16
Definition vop3_cvt.hh:1114

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_F16_BF6
static const char * MNEM__V_CVT_SCALEF32_PK32_F16_BF6
Definition vop3_cvt.hh:714

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_BF6_F16
static const char * MNEM__V_CVT_SCALEF32_PK32_BF6_F16
Definition vop3_cvt.hh:707

gem5::VegaISA::MNEM__V_CVT_SCALEF32_SR_BF8_F16
static const char * MNEM__V_CVT_SCALEF32_SR_BF8_F16
Definition vop3_cvt.hh:1084

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_2XPK16_BF6_F32
Inst_VOP3__V_CVT_SCALEF32_2XPK16_F32< AMDGPU::mxbf6, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_PK32_BF6_F32 > Inst_VOP3__V_CVT_SCALEF32_2XPK16_BF6_F32
Definition vop3_cvt.hh:933

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F32_BF8
static const char * MNEM__V_CVT_SCALEF32_PK_F32_BF8
Definition vop3_cvt.hh:273

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_F16
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxbf6, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_PK32_BF6_F16 > Inst_VOP3__V_CVT_SCALEF32_PK32_BF6_F16
Definition vop3_cvt.hh:709

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_F32_FP8
Inst_VOP3__V_CVT_SCALE< AMDGPU::mxfloat32, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_F32_FP8 > Inst_VOP3__V_CVT_SCALEF32_F32_FP8
Definition vop3_cvt.hh:508

gem5::VegaISA::MNEM__V_CVT_SCALEF32_F32_BF8
static const char * MNEM__V_CVT_SCALEF32_F32_BF8
Definition vop3_cvt.hh:500

gem5::VegaISA::packMXOperands32
uint32_t packMXOperands32(T &upper_operand, T &lower_operand)
Pack two MXFP values into one dword.
Definition inst_util.hh:932

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_FP6_BF16
static const char * MNEM__V_CVT_SCALEF32_PK32_FP6_BF16
Definition vop3_cvt.hh:742

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F32
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat8, AMDGPU::mxfloat32, &MNEM__V_CVT_SCALEF32_PK_FP8_F32 > Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F32
Definition vop3_cvt.hh:257

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_F32_BF6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfloat32, AMDGPU::mxbf6, &MNEM__V_CVT_SCALEF32_PK32_F32_BF6 > Inst_VOP3__V_CVT_SCALEF32_PK32_F32_BF6
Definition vop3_cvt.hh:730

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_BF6_BF16
static const char * MNEM__V_CVT_SCALEF32_PK32_BF6_BF16
Definition vop3_cvt.hh:700

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_FP6_F16
static const char * MNEM__V_CVT_SCALEF32_PK32_FP6_F16
Definition vop3_cvt.hh:749

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat8, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_PK_FP8_F16 > Inst_VOP3__V_CVT_SCALEF32_PK_FP8_F16
Definition vop3_cvt.hh:293

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_F32_FP6
static const char * MNEM__V_CVT_SCALEF32_PK32_F32_FP6
Definition vop3_cvt.hh:735

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP4
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxfloat16, AMDGPU::mxfp4, &MNEM__V_CVT_SCALEF32_PK_F16_FP4 > Inst_VOP3__V_CVT_SCALEF32_PK_F16_FP4
Definition vop3_cvt.hh:341

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF16_BF8
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat16, AMDGPU::mxfloat8, &MNEM__V_CVT_SCALEF32_PK_BF16_BF8 > Inst_VOP3__V_CVT_SCALEF32_PK_BF16_BF8
Definition vop3_cvt.hh:359

gem5::VegaISA::Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F16
Inst_VOP3__V_CVT_SCALE_SR_PK32< AMDGPU::mxfp6, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALE_SR_PK_FP6_F16 > Inst_VOP3__V_CVT_SCALE_SR_PK_FP6_F16
Definition vop3_cvt.hh:1332

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F16
Inst_VOP3__V_CVT_SCALE_PK< AMDGPU::mxbfloat8, AMDGPU::mxfloat16, &MNEM__V_CVT_SCALEF32_PK_BF8_F16 > Inst_VOP3__V_CVT_SCALEF32_PK_BF8_F16
Definition vop3_cvt.hh:299

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_PK32_F32_FP6
Inst_VOP3__V_CVT_SCALE_PK32< AMDGPU::mxfloat32, AMDGPU::mxfp6, &MNEM__V_CVT_SCALEF32_PK32_F32_FP6 > Inst_VOP3__V_CVT_SCALEF32_PK32_F32_FP6
Definition vop3_cvt.hh:737

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK32_F16_FP6
static const char * MNEM__V_CVT_SCALEF32_PK32_F16_FP6
Definition vop3_cvt.hh:721

gem5::VegaISA::Inst_VOP3__V_CVT_SCALEF32_F32_BF8
Inst_VOP3__V_CVT_SCALE< AMDGPU::mxfloat32, AMDGPU::mxbfloat8, &MNEM__V_CVT_SCALEF32_F32_BF8 > Inst_VOP3__V_CVT_SCALEF32_F32_BF8
Definition vop3_cvt.hh:502

gem5::VegaISA::MNEM__V_CVT_SCALEF32_PK_F16_FP8
static const char * MNEM__V_CVT_SCALEF32_PK_F16_FP8
Definition vop3_cvt.hh:315

gem5::X86ISA::reg
Bitfield< 5, 3 > reg
Definition types.hh:92

gem5::X86ISA::val
Bitfield< 63 > val
Definition misc.hh:804

gem5
Copyright (c) 2024 Arm Limited All rights reserved.
Definition binary32.hh:36

gem5::GPUDynInstPtr
std::shared_ptr< GPUDynInst > GPUDynInstPtr
Definition misc.hh:49

gem5::VegaISA::InFmt_VOP3A
Definition gpu_decoder.hh:1980