RTZ Auction Lab

Rebuild: legacy baseline, validated simulator, v2.1 redesign

Celem aplikacji jest ocena, czy zmodyfikowana aukcja holenderska dla frakcjonalizowanych strumieni tantiem może utrzymać przychód sprzedającego, poprawić strukturę alokacji między segmentami rynku oraz ograniczyć przewagę strategii exploitacyjnych. interpretacja kontekst rynku

Cel

Porównać wariant historyczny, walidowany baseline i redesign mechanizmu.

Realizacja

Symulator wykonuje uczenie, ewaluację i przeszukiwanie parametrów mechanizmu.

Hipoteza H1

v2.1 może poprawić fairness i odporność bez zejścia poniżej RR ≥ 90%.

Hipoteza H2

Dłuższe uczenie i Bayesian-lite powinny stabilizować wybór konfiguracji.

Szybkie akcje

Pomoc

68 ewaluacji, reps=9 opis akcji

ready

Gotowe. etapy

Parametry eksperymentu

opis parametrów

Liczba agentów?

Populacja heterogenicznych agentów

Wartość katalogu?

Wartość fundamentalna V w PLN

50k

T_learn?

Rundy uczenia w jednej repetycji

160

T_eval?

Rundy ewaluacji po uczeniu

Repetycje?

Ile seedów na konfigurację

Redesign search

jak wybiera kandydatów?

Eksploracja?

Losowe kandydackie konfiguracje

Eksploatacja?

Mutacje najlepszych kandydatów

Bayesian-lite?

Kandydaci z modelu zastępczego TPE-like

Limit autopilota?

Maksymalna liczba kolejnych sugerowanych przebiegów w jednej serii; historia wyników nie jest ucinana

Szacowana liczba ewaluacji konfiguracji: 68. Każda ewaluacja to 9 repetycji. Dla validated i redesign obowiązuje polityka S ≥ 1000. Aktualne ziarna losowości: seedBase=1000 / seedSearch=424242.

Podpowiedzi parametrów

więcej

T_learn: liczba rund aktualizacji strategii?

Qₐ ← Qₐ + (r − Qₐ) ÷ nₐ

Zwiększać przy learning-limited, czyli gdy CR/EG lub krzywa uczenia sugerują niedouczenie agentów.

T_eval: liczba rund pomiaru po uczeniu?

metric = (1 ÷ Tₑᵥₐₗ) · ∑ₜ metricₜ

Zwiększać przy wynikach blisko progów albo przy wysokim szumie, bo redukuje wariancję pomiaru po treningu.

reps: liczba niezależnych seedów na konfigurację?

x̄ = (1 ÷ reps) · ∑ᵣ xᵣ,  sd = √(∑ᵣ(xᵣ − x̄)² ÷ (reps − 1))

Zwiększać, gdy interesuje stabilność między populacjami i losowaniami.

seed window: okno losowości dla populacji, uczenia i searchu?

seedBaseₖ₊₁ = seedBaseₖ + 1 000 003;  seedSearchₖ₊₁ = seedSearchₖ + 104 729

Autopilot przesuwa seedy w każdej rekomendacji, żeby nie powtarzać identycznej trajektorii.

explore/exploit: budżet searchu mechanizmu?

Nᶜᵃⁿᵈ = searchExplore + searchExploit + searchBayes

Zwiększać przy search-limited; parametr rozszerza przeszukiwanie konfiguracji mechanizmu, nie wydłuża treningu agentów.

Bayesian-lite: surrogate-assisted kandydaci?

x* = arg maxₓ [log ℓ(x) − log g(x) + novelty(x)]

Po explore/exploit model TPE-like estymuje, gdzie dobre konfiguracje występują częściej, i wybiera kandydatów do pełnej ewaluacji symulatorem.

autopilot: pętla badawcza?

runₖ → interpretacjaₖ → parametryₖ₊₁ → seedₖ₊₁ → runₖ₊₁

Startuje od aktualnych suwaków, potem sam stosuje rekomendacje aż do limitu albo zatrzymania.

Status

pipeline

Gotowe.

Pipeline: walidacja silnika → RTZ v1.0 legacy → RTZ v1.1 validated → search v2.1 z Bayesian-lite i bramką RR → ablacja → krzywa uczenia → eksport.

Matematyka metryk

pełny opis

M1 Revenue Ratio?

RR = min(R ÷ V, 2),  R = ∑ᵢ cᵢ = ∑ᵢ p · sᵢ

cel: RR ≥ 0.90. M1 mierzy przychód aukcji względem wartości fundamentalnej katalogu V. Wyższa wartość jest korzystna, ale konfiguracje fairness-preferred muszą utrzymać co najmniej 90%.

M2 Allocative Efficiency?

AE = PVᵣₑₐₗ ÷ PV*,  PVᵣₑₐₗ = ∑ᵢ sᵢ · pvᵢ

cel: AE ≥ 0.70. M2 porównuje wartość prywatną faktycznej alokacji z najlepszą budżetowo wykonalną alokacją przy tej samej cenie. Wyższa wartość jest korzystna.

M3 Exploitation Gap?

EG = max((ROIᴿᵉᵈ − ROIᴵⁿᵈ) ÷ (|ROIᴿᵉᵈ| + |ROIᴵⁿᵈ| + 0.01), 0)

cel: EG ≤ 0.15. M3 wykrywa przewagę Red Teamu nad uczestnikami indywidualnymi. Niższa wartość jest korzystna; zero oznacza brak przewagi Red Teamu w ROI.

M4 Completion Rate?

CR = Nᶜˡᵉᵃʳᵉᵈₑᵥₐₗ ÷ Tₑᵥₐₗ

cel: CR ≥ 0.85. M4 mierzy, jak często aukcja sprzedaje pełne S frakcji w rundach ewaluacji. Wyższa wartość jest korzystna.

M5 Fairness Index (market-only)?

FI = 1 − (∑ₜ |shareₜ − targetₜ|) ÷ Dₘₐₓ,  t ∈ {Ind, Inst, Spec}

cel: FI ≥ 0.60. M5 mierzy odległość struktury rynku od target shares. Red Team jest wyłączony z FI i zostaje tylko w diagnostyce EG.

Weighted score i selection?

score = 0.25·RR + 0.25·AE + 0.20·(1 − EG) + 0.15·CR + 0.15·FI

selection = score + 0.04·𝟙FI + 0.04·𝟙EG + 0.04·FI + 0.03·(1 − EG) + 0.01·hits

Raw score agreguje M1-M5. Fair-aware selection dodaje premie za spełnienie progów FI/EG, niski EG i liczbę trafionych celów; ranking nadal wymaga bariery RR ≥ 0.90 dla wariantu fairness-preferred.

Co się zmieniło

wersje RTZ

• v1.0 odtwarza historyczną logikę oryginalnego algorytmu, w tym jego ograniczenia implementacyjne,

• v1.1 wprowadza walidację budżetów, reguły clearingu i minimalnej granularności S ≥ 1000,

• v2.1 rozdziela best feasible od best trade-off: rekomendacją jest tylko kandydat z RR ≥ 90%, a trade-off zostaje diagnostyką,

• adaptive pozostaje w searchu, ale dostaje karę ryzyka w rankingu v2.1, bo w poprzednich przebiegach często podbijał FI kosztem RR,

• Bayesian-lite proponuje kandydatów na podstawie historii wyników, a każdy kandydat jest następnie oceniany pełną symulacją.