RTZ Auction Lab

Rebuild: legacy baseline, validated simulator, v2.1 redesign

Celem aplikacji jest ocena, czy zmodyfikowana aukcja holenderska dla frakcjonalizowanych strumieni tantiem może utrzymać przychód sprzedającego, poprawić strukturę alokacji między segmentami rynku oraz ograniczyć przewagę strategii exploitacyjnych. interpretacja kontekst rynku
Cel
Porównać wariant historyczny, walidowany baseline i redesign mechanizmu.
Realizacja
Symulator wykonuje uczenie, ewaluację i przeszukiwanie parametrów mechanizmu.
Hipoteza H1
v2.1 może poprawić fairness i odporność bez zejścia poniżej RR ≥ 90%.
Hipoteza H2
Dłuższe uczenie i Bayesian-lite powinny stabilizować wybór konfiguracji.
Szybkie akcje
Pomoc
68 ewaluacji, reps=9 opis akcji
ready
Gotowe. etapy
Parametry eksperymentu
opis parametrów
Liczba agentów?
Populacja heterogenicznych agentów
30
Wartość katalogu?
Wartość fundamentalna V w PLN
50k
T_learn?
Rundy uczenia w jednej repetycji
160
T_eval?
Rundy ewaluacji po uczeniu
80
Repetycje?
Ile seedów na konfigurację
9
Eksploracja?
Losowe kandydackie konfiguracje
10
Eksploatacja?
Mutacje najlepszych kandydatów
14
Bayesian-lite?
Kandydaci z modelu zastępczego TPE-like
6
Limit autopilota?
Maksymalna liczba kolejnych sugerowanych przebiegów w jednej serii; historia wyników nie jest ucinana
7
Szacowana liczba ewaluacji konfiguracji: 68. Każda ewaluacja to 9 repetycji. Dla validated i redesign obowiązuje polityka S ≥ 1000. Aktualne ziarna losowości: seedBase=1000 / seedSearch=424242.
Podpowiedzi parametrów
więcej
T_learn: liczba rund aktualizacji strategii?
Qₐ ← Qₐ + (r − Qₐ) ÷ nₐ
Zwiększać przy learning-limited, czyli gdy CR/EG lub krzywa uczenia sugerują niedouczenie agentów.
T_eval: liczba rund pomiaru po uczeniu?
metric = (1 ÷ Tₑᵥₐₗ) · ∑ₜ metricₜ
Zwiększać przy wynikach blisko progów albo przy wysokim szumie, bo redukuje wariancję pomiaru po treningu.
reps: liczba niezależnych seedów na konfigurację?
x̄ = (1 ÷ reps) · ∑ᵣ xᵣ, sd = √(∑ᵣ(xᵣ − x̄)² ÷ (reps − 1))
Zwiększać, gdy interesuje stabilność między populacjami i losowaniami.
seed window: okno losowości dla populacji, uczenia i searchu?
seedBaseₖ₊₁ = seedBaseₖ + 1 000 003; seedSearchₖ₊₁ = seedSearchₖ + 104 729
Autopilot przesuwa seedy w każdej rekomendacji, żeby nie powtarzać identycznej trajektorii.
explore/exploit: budżet searchu mechanizmu?
Nᶜᵃⁿᵈ = searchExplore + searchExploit + searchBayes
Zwiększać przy search-limited; parametr rozszerza przeszukiwanie konfiguracji mechanizmu, nie wydłuża treningu agentów.
Bayesian-lite: surrogate-assisted kandydaci?
x* = arg maxₓ [log ℓ(x) − log g(x) + novelty(x)]
Po explore/exploit model TPE-like estymuje, gdzie dobre konfiguracje występują częściej, i wybiera kandydatów do pełnej ewaluacji symulatorem.
autopilot: pętla badawcza?
runₖ → interpretacjaₖ → parametryₖ₊₁ → seedₖ₊₁ → runₖ₊₁
Startuje od aktualnych suwaków, potem sam stosuje rekomendacje aż do limitu albo zatrzymania.
Status
pipeline
Gotowe.
Pipeline: walidacja silnika → RTZ v1.0 legacy → RTZ v1.1 validated → search v2.1 z Bayesian-lite i bramką RR → ablacja → krzywa uczenia → eksport.
Matematyka metryk
pełny opis
M1 Revenue Ratio?
RR = min(R ÷ V, 2), R = ∑ᵢ cᵢ = ∑ᵢ p · sᵢ
cel: RR ≥ 0.90. M1 mierzy przychód aukcji względem wartości fundamentalnej katalogu V. Wyższa wartość jest korzystna, ale konfiguracje fairness-preferred muszą utrzymać co najmniej 90%.
M2 Allocative Efficiency?
AE = PVᵣₑₐₗ ÷ PV*, PVᵣₑₐₗ = ∑ᵢ sᵢ · pvᵢ
cel: AE ≥ 0.70. M2 porównuje wartość prywatną faktycznej alokacji z najlepszą budżetowo wykonalną alokacją przy tej samej cenie. Wyższa wartość jest korzystna.
M3 Exploitation Gap?
EG = max((ROIᴿᵉᵈ − ROIᴵⁿᵈ) ÷ (|ROIᴿᵉᵈ| + |ROIᴵⁿᵈ| + 0.01), 0)
cel: EG ≤ 0.15. M3 wykrywa przewagę Red Teamu nad uczestnikami indywidualnymi. Niższa wartość jest korzystna; zero oznacza brak przewagi Red Teamu w ROI.
M4 Completion Rate?
CR = Nᶜˡᵉᵃʳᵉᵈₑᵥₐₗ ÷ Tₑᵥₐₗ
cel: CR ≥ 0.85. M4 mierzy, jak często aukcja sprzedaje pełne S frakcji w rundach ewaluacji. Wyższa wartość jest korzystna.
M5 Fairness Index (market-only)?
FI = 1 − (∑ₜ |shareₜ − targetₜ|) ÷ Dₘₐₓ, t ∈ {Ind, Inst, Spec}
cel: FI ≥ 0.60. M5 mierzy odległość struktury rynku od target shares. Red Team jest wyłączony z FI i zostaje tylko w diagnostyce EG.
Weighted score i selection?
score = 0.25·RR + 0.25·AE + 0.20·(1 − EG) + 0.15·CR + 0.15·FI
selection = score + 0.04·𝟙FI + 0.04·𝟙EG + 0.04·FI + 0.03·(1 − EG) + 0.01·hits
Raw score agreguje M1-M5. Fair-aware selection dodaje premie za spełnienie progów FI/EG, niski EG i liczbę trafionych celów; ranking nadal wymaga bariery RR ≥ 0.90 dla wariantu fairness-preferred.
Co się zmieniło
wersje RTZ
• v1.0 odtwarza historyczną logikę oryginalnego algorytmu, w tym jego ograniczenia implementacyjne,
• v1.1 wprowadza walidację budżetów, reguły clearingu i minimalnej granularności S ≥ 1000,
• v2.1 rozdziela best feasible od best trade-off: rekomendacją jest tylko kandydat z RR ≥ 90%, a trade-off zostaje diagnostyką,
• adaptive pozostaje w searchu, ale dostaje karę ryzyka w rankingu v2.1, bo w poprzednich przebiegach często podbijał FI kosztem RR,
• Bayesian-lite proponuje kandydatów na podstawie historii wyników, a każdy kandydat jest następnie oceniany pełną symulacją.