Думает одно, говорит другое

решили: 9124 балла

Ассистент-цензор хранит секрет и наотрез отказывается его произносить: на выходе всегда что-то отредактированное. Зато его веса у тебя на руках. Достань секрет.

⬇️ Артефакты

Положи всё в одну папку. Сервер модель не запускает, вся атака локально.

▶️ Быстрый старт

import json, torch
from model import GPT, GPTConfig

if __name__ == '__main__':

    ckpt = torch.load("model.pt", map_location="cpu")
    cfg = GPTConfig(**ckpt["config"])
    model = GPT(cfg)
    model.load_state_dict(ckpt["model"])
    model.eval()
    v = json.load(open("vocab.json"))
    stoi, itos = v["stoi"], {int(k): c for k, c in v["itos"].items()}
    dec = lambda t: "".join(itos[int(i)] for i in t)

    prompt = "hello world"
    idx = torch.tensor([[stoi.get(c, 0) for c in prompt]])

    logits, _ = model(idx)
    print("вход :", prompt)
    print("выход:", dec(logits[0].argmax(-1)))

🕐 5/5 попыток за час