NeurIPS 2024

La conferencia ML más grande. OpenReview expone solo los envíos que llegaron a fase de decisión: lo que ves aquí es la cola del proceso.

OpenReview

Sobre los datos disponibles

OpenReview expone públicamente 4.236 envíos de NeurIPS 2024. La conferencia completa recibió ~17.000. Los envíos retirados o rechazados antes de revisión no aparecen en la API pública, lo que infla el porcentaje de aceptación visible. Las debilidades agrupadas provienen de los 201 papers rechazados visibles.

4236

Envíos visibles

Total expuesto en OpenReview

95,3 %

Aceptación visible

Sobre el subconjunto público

2468

Críticas analizadas

Sobre 201 envíos rechazados

Patrones detectados

Distribución de puntuaciones

Puntuaciones que dieron los revisores en sus revisiones.

Decisiones del comité

Cómo se reparten las decisiones finales sobre los envíos visibles.

Accept (poster)86,1 %
Accept (spotlight)7,7 %
Reject4,7 %
Accept (oral)1,4 %

Mapa de debilidades

Cada barra es un patrón recurrente que aparece en las revisiones de papers rechazados. La anchura representa cuánto pesa ese patrón sobre el total de críticas analizadas.

Comparación experimental débil25,5 %574
Notación matemática y supuestos15,1 %340
Difícil de seguir12,2 %274
Críticas específicas a modelos generativos9,5 %214
Detalles del método propuesto8,2 %185
Resultados experimentales limitados7,9 %178
Posicionamiento frente al trabajo previo6,4 %143
Validación en escenarios reales5,2 %118
Erratas tipográficas y de código5,2 %116
Figuras poco legibles4,8 %109

Patrones, uno a uno

Ordenados por peso. Para cada patrón mostramos qué representa, cómo lo formulan los revisores y un aprendizaje práctico que puedes aplicar antes de enviar tu próximo paper.

#01

Comparación experimental débil

23,3 %del total574 items

El revisor encuentra que el conjunto de comparaciones no es lo suficientemente amplio o detallado: faltan baselines fuertes, faltan ablaciones, los detalles del entrenamiento no están.

methodsperformanceexperimentscomparisonauthorsdatatrainingdetails

Cómo lo dicen los revisores

Unfortunately, I found the rest of the paper (beyond the core idea) lacking and having several weaknesses. Importantly, the authors mischaracterize important relevant literature and conceptual ideas.

The paper compares against three baselines published before 2022. Two recent strong baselines are absent without explanation.

Performance numbers are reported, but training details (compute, seeds, hyperparameter search) are not, which makes the comparison hard to interpret.

Aprendizaje práctico. Antes del deadline, escribe la lista de comparaciones que esperarías ver tú como reviewer. Si tu paper no las tiene, añádelas o explica por qué se omiten.

#02

Notación matemática y supuestos

13,8 %del total340 items

Errores en teoremas, ecuaciones con notación inconsistente, supuestos que aparecen sin enunciarse en las pruebas. Crítico para papers teóricos.

equationtheoremeqassumptionlinesauthorsdefinedused

Cómo lo dicen los revisores

I found several typos in the main theorems in section 4. For example, the stability equation in Lemma 4 should be written with respect to the output at the iteration instead of the output of the ERM.

The proof of Theorem 1 silently uses a Lipschitz assumption that was never stated. Either add it to the theorem statement or argue why it is implied.

Eq. (12) uses the same symbol for two different objects defined on different pages.

Aprendizaje práctico. Pasa cada teorema por la regla de oro: enuncia primero todos los supuestos en bloque, luego la conclusión. Una pasada con compañero matemático antes de enviar.

#03

Difícil de seguir

11,1 %del total274 items

El paper se lee con esfuerzo. La estructura no ayuda al razonamiento, hay frases imprecisas, partes están escritas a un nivel de detalle muy distinto.

paperwritingunderstandsectionmainhardauthorspresentation

Cómo lo dicen los revisores

While the paper makes significant contributions, there are some areas that could be improved. The writing is occasionally imprecise, making it challenging to follow the arguments and understand the details.

The introduction is dense and assumes a lot of background; the experimental section by contrast over-explains. Even out the levels.

The main result is buried at the bottom of page 6. Pull it forward and signpost it earlier.

Aprendizaje práctico. Después del primer borrador, lee solo los títulos y subtítulos en orden: ¿se entiende la historia? Si no, refactoriza la estructura antes de pulir las frases.

#04

Críticas específicas a modelos generativos

8,7 %del total214 items

Cluster temático que agrupa quejas concretas a papers sobre diffusion y modelos generativos: elecciones de arquitectura sin justificar, comparaciones contra DM concretas, costes de entrenamiento no reportados.

modelmodelsdiffusiondiffusion modelpaperperformancedataauthors

Cómo lo dicen los revisores

Since we usually don't switch models based on data I am not sure why this is important. Do we really have edge devices that switch on a daily basis?

The diffusion model used as backbone is two generations behind the state of the art. A repeat with a current model would change the conclusions.

Compute cost of training is not reported; this is the single most relevant axis for comparing generative methods.

Aprendizaje práctico. Si trabajas en generativos: anticipa la pregunta `¿por qué este backbone y no SDXL/SD3/Flux?` y respóndela explícitamente.

#05

Detalles del método propuesto

7,5 %del total185 items

El método aparece descrito a alto nivel pero los detalles operativos faltan: velocidad, coste computacional, ablaciones del componente clave.

methodproposedproposed methodmethodstrainingpapertableanalysis

Cómo lo dicen los revisores

The processing speed of the proposed method is one of the limitations.

There is no ablation on the core regulariser; we don't know whether it is doing the work the authors claim.

Memory cost compared to the baseline isn't reported.

Aprendizaje práctico. Una sub-sección dedicada a `Implementación y coste` mata muchas de estas quejas. Tiempo por iteración, memoria, hiperparámetros sensibles.

#06

Resultados experimentales limitados

7,2 %del total178 items

La tabla principal cubre escenarios restringidos. El revisor pide ver el método en condiciones más diversas o más adversas.

resultstableexperimentalexperimental resultsperformanceanalysispaperauthors

Cómo lo dicen los revisores

The random daycare market for which the results are derived is somewhat restrictive.

All experimental settings stay within the i.i.d. regime; covariate shift would test the claims.

Why are results aggregated over only three runs? At this gap size, more seeds are needed.

Aprendizaje práctico. Una columna extra con un escenario que rompa tu método (y honestidad sobre cuándo deja de funcionar) suele recibir mejor que un experimento más en lo cómodo.

#07

Posicionamiento frente al trabajo previo

5,8 %del total143 items

La sección de related work no relaciona el paper con la audiencia adecuada (track de safety, sub-área concreta) o no resuelve la pregunta de novedad.

workrelatedrelated workpaperworkssectionnoveltyauthors

Cómo lo dicen los revisores

One of my major concerns is the audience of this work. Given that this work is submitted to the safe ML track of NeurIPS, I expect more discussion on the relevance of this framework to AI safety.

The related work section reads like a chronology, not a comparison. Group prior work and contrast with the contribution.

Novelty over [Author, 2023] is not articulated; that paper appears to solve the same problem.

Aprendizaje práctico. Si envías a un track temático (safety, datasets), dedica un párrafo en related work explicando explícitamente la conexión. No lo des por implícito.

#08

Validación en escenarios reales

4,8 %del total118 items

El método se prueba sobre datasets sintéticos o académicos. Falta evidencia de que funciona donde el problema importa.

datasetsrealreal worldworldexperimentspaperapplicationsscenarios

Cómo lo dicen los revisores

While the method is tested on two real-world datasets, broader evaluation across more diverse and challenging datasets could strengthen the validation.

Both datasets are well-curated benchmarks; one industrial dataset would substantially raise confidence in the claims.

The application scenarios discussed in the introduction are not represented in the experiments.

Aprendizaje práctico. Un experimento con un dataset real, aunque pequeño, vale más que tres con datos sintéticos. Si no es viable: declara la limitación con precisión.

#09

Erratas tipográficas y de código

4,7 %del total116 items

Errores de líneas concretas: typos, símbolos mal puestos, fragmentos de código que no compilan tal y como aparecen.

linerightarrowtypotypo linetildeenda_algorithm

Cómo lo dicen los revisores

Line 307, `one week The` -> `one week. The`

In Algorithm 1 line 4, the index a_t should be a_{t-1} given the recurrence.

$\\tilde{x}$ is used in Eq. (9) but defined only in the appendix.

Aprendizaje práctico. Una pasada de dos horas con foco solo en `errores de detalle` antes del deadline ahorra muchísimo en el rebuttal. No es trabajo glamuroso pero es alta densidad.

#10

Figuras poco legibles

4,4 %del total109 items

Captions inconsistentes, capitalización irregular, líneas finas que desaparecen al imprimir, etiquetas duplicadas o ambiguas.

figurefigurescaptionhardbettertextsmallfig

Cómo lo dicen los revisores

Keep capitalisation consistent across the figure labels.

Lines in Fig. 4 are too thin; the dashed and dotted variants are indistinguishable in print.

Caption of Fig. 2 is one sentence; please describe what the reader is looking at without referring to the body text.

Aprendizaje práctico. Imprime tu paper en blanco y negro y míralo a un metro. Lo que no se entienda a esa distancia no se va a entender en pantalla a velocidad de revisión.

Otros venues

ICLR 2024

7404 envíos · 10 clusters

→

ICLR 2025

11.672 envíos · 10 clusters

→

TMLR

6661 envíos · 10 clusters

→