T_learn: liczba rund aktualizacji strategii?
Qₐ ← Qₐ + (r − Qₐ) ÷ nₐ
Zwiększać przy learning-limited, czyli gdy CR/EG lub krzywa uczenia sugerują niedouczenie agentów.
T_eval: liczba rund pomiaru po uczeniu?
metric = (1 ÷ Tₑᵥₐₗ) · ∑ₜ metricₜ
Zwiększać przy wynikach blisko progów albo przy wysokim szumie, bo redukuje wariancję pomiaru po treningu.
reps: liczba niezależnych seedów na konfigurację?
x̄ = (1 ÷ reps) · ∑ᵣ xᵣ, sd = √(∑ᵣ(xᵣ − x̄)² ÷ (reps − 1))
Zwiększać, gdy interesuje stabilność między populacjami i losowaniami.
seed window: okno losowości dla populacji, uczenia i searchu?
seedBaseₖ₊₁ = seedBaseₖ + 1 000 003; seedSearchₖ₊₁ = seedSearchₖ + 104 729
Autopilot przesuwa seedy w każdej rekomendacji, żeby nie powtarzać identycznej trajektorii.
explore/exploit: budżet searchu mechanizmu?
Nᶜᵃⁿᵈ = searchExplore + searchExploit + searchBayes
Zwiększać przy search-limited; parametr rozszerza przeszukiwanie konfiguracji mechanizmu, nie wydłuża treningu agentów.
Bayesian-lite: surrogate-assisted kandydaci?
x* = arg maxₓ [log ℓ(x) − log g(x) + novelty(x)]
Po explore/exploit model TPE-like estymuje, gdzie dobre konfiguracje występują częściej, i wybiera kandydatów do pełnej ewaluacji symulatorem.
autopilot: pętla badawcza?
runₖ → interpretacjaₖ → parametryₖ₊₁ → seedₖ₊₁ → runₖ₊₁
Startuje od aktualnych suwaków, potem sam stosuje rekomendacje aż do limitu albo zatrzymania.