A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | AC | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|

1 | Criteria: 1. papers that define a new idea; 2. have a wide impact; 3. field diversity. | Suggestions are welcome! | |||||||||||||||||||||||||||

2 | Title | Year | Categories | #Citations | Note/why it is important | ||||||||||||||||||||||||

3 | Semi-Supervised Classification with Graph Convolutional Networks | 2017 | GNN | 303 | First successful application of spectral graph convolution | ||||||||||||||||||||||||

4 | Inductive Representation Learning on Large Graphs | 2017 | GNN | 156 | GraphSAGE; inductive learning | ||||||||||||||||||||||||

5 | Wide Residual Network | 2017 | CV | 923 | |||||||||||||||||||||||||

6 | WaveNet: A generative model for raw audio | 2016 | NLP, LR | 441 | WaveNet; high quality natural sounding speech generation; causal convolutions | ||||||||||||||||||||||||

7 | Perceptual Losses for Real-Time Style Transfer and Super-Resolution | 2016 | CV | 1,177 | real-time style transfer | ||||||||||||||||||||||||

8 | Asynchronous Methods for Deep Reinforcement Learning | 2016 | RL | 982 | A3C | ||||||||||||||||||||||||

9 | You Only Look Once: Unified, Real-Time Object Detection | 2016 | CV | 2,271 | YOLO, first single-stage object detection with ConvNets | ||||||||||||||||||||||||

10 | Mastering the game of Go with Deep Neural Networks & Tree Search | 2016 | RL | 3,694 | AlphaGo | ||||||||||||||||||||||||

11 | Continuous control with deep reinforcement learning | 2015 | RL | 1,283 | Deep deterministic policy gradient | ||||||||||||||||||||||||

12 | Neural Machine Translation by Jointly Learning to Align and Translate | 2015 | NLP, LR | 4,695 | Attention. For self attention: Non-local neural networks; for transformers: Attention is all you need | ||||||||||||||||||||||||

13 | FlowNet: Learning Optical Flow with Convolutional Networks | 2015 | CV | 248 | FlowNet | ||||||||||||||||||||||||

14 | A Neural Algorithm of Artistic Style | 2015 | CV | 724 | original style transfer | ||||||||||||||||||||||||

15 | Spectral Networks and Locally Connected Networks on Graphs | 2015 | GNN | 359 | Formulation of spectral graph convolution | ||||||||||||||||||||||||

16 | U-Net: Convolutional Networks for Biomedical Image Segmentation | 2015 | CV | 3,225 | U-Net | ||||||||||||||||||||||||

17 | Human-level control through deep reinforcement learning | 2015 | RL | 3,631 | DQN | ||||||||||||||||||||||||

18 | Auto-Encoding Variational Bayes | 2014 | LR | 3,525 | VAE | ||||||||||||||||||||||||

19 | Generative Adversarial Nets | 2014 | CV, LR, RL | 5,121 | GAN; maybe also see the NIPS 2016 tutorial on GANs as a supplement | ||||||||||||||||||||||||

20 | Fully Convolutional Networks for Semantic Segmentation | 2014 | CV | 7,316 | FCN | ||||||||||||||||||||||||

21 | Rich feature hierarchies for accurate object detection and semantic segmentation | 2014 | CV | 6,295 | Original R-CNN (first two-stage object detection with ConvNets) | ||||||||||||||||||||||||

22 | Sequence to Sequence Learning with Neural Networks | 2014 | NLP | 4,790 | seq2seq | ||||||||||||||||||||||||

23 | Distributed Representations of Words and Phrases and their Compositionality | 2013 | NLP | 9,627 | word2vec | ||||||||||||||||||||||||

24 | Efficient Estimation of Word Representations in Vector Space | 2013 | NLP | 7,854 | word2vec | ||||||||||||||||||||||||

25 | Playing Atari with Deep Reinforcement Learning | 2013 | RL | 2,826 | Deep Q learning | ||||||||||||||||||||||||

26 | Representation learning: A review and new perspectives | 2013 | LR | 4,186 | |||||||||||||||||||||||||

27 | Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank | 2013 | NLP | 2,478 | Recursive Neural Tensor Network | ||||||||||||||||||||||||

28 | ImageNet Classification with Deep Convolutional Neural Networks | 2012 | CV | 29,479 | Original ConvNet on ImageNet | ||||||||||||||||||||||||

29 | Improving neural networks by preventing co-adaptation of feature detectors | 2012 | ML | 3,390 | The original dropout | ||||||||||||||||||||||||

30 | Particle Swarm Optimization | 2011 | ML | 51,960 | Biologically inspired optimization | ||||||||||||||||||||||||

31 | Wavelets on Graphs via Spectral Graph Theory | 2011 | GNN | 697 | Fast approximation of spectral graph convolution | ||||||||||||||||||||||||

32 | Matrix factorization techniques for recommender systems | 2009 | Rec | 4,860 | First to use Matrix Factorization for collab. filtering; Netflix Prize winner | ||||||||||||||||||||||||

33 | Deep Boltzmann Machines | 2009 | ML | 1,783 | DBM | ||||||||||||||||||||||||

34 | Visualizing Data using t-SNE | 2008 | LR | 5,835 | t-SNE | ||||||||||||||||||||||||

35 | Learning to rank: from pairwise approach to listwise approach | 2007 | Rec | 1,366 | Learning to rank | ||||||||||||||||||||||||

36 | A fast learning algorithm for deep belief nets | 2006 | ML | 9,049 | A very fast algorithm far training DBN; still being used for DBN and CNN pretraining | ||||||||||||||||||||||||

37 | Diffusion maps | 2006 | ML | 1,905 | Difussion maps | ||||||||||||||||||||||||

38 | A Neural Probabilistic Language Model | 2003 | NLP | 3,866 | a very significant precursor to the Mikolov papers | ||||||||||||||||||||||||

39 | Amazon.com recommendations: item-to-item collaborative filtering | 2003 | Rec | 5,552 | item2item | ||||||||||||||||||||||||

40 | Latent Dirichlet Allocation | 2003 | ML, LR | 24,453 | LDA | ||||||||||||||||||||||||

41 | Random Forrests | 2001 | ML | 39,735 | Random forrests | ||||||||||||||||||||||||

42 | Greedy Function Approximation: A Gradient Boosting Machine | 2001 | ML | 6,114 | GBM | ||||||||||||||||||||||||

43 | Estimating the number of clusters in a data set via the gap statistic | 2001 | ML | 3,283 | gap statistic for estimating the number of clusters | ||||||||||||||||||||||||

44 | Item-based collaborative filtering recommendation algorithms | 2001 | Rec | 7,608 | item2item | ||||||||||||||||||||||||

45 | Policy gradient methods for reinforcement learning with function approximation | 2000 | RL | 1,632 | policy gradient | ||||||||||||||||||||||||

46 | An Overview of Statistical Learning Theory | 1999 | ML | 35,486 | |||||||||||||||||||||||||

47 | An Introduction to Variational Methods for Graphical Models | 1999 | ML | 2,533 | Variation inference; unclear which paper proposed the original VI; this is a highly cited intro paper | ||||||||||||||||||||||||

48 | Gradient-based learning applied to document recognition | 1998 | CV | 14,365 | LeNet | ||||||||||||||||||||||||

49 | A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting | 1997 | ML | 15,989 | Adaboost | ||||||||||||||||||||||||

50 | An empirical study of smoothing techniques for language modeling | 1996 | NLP | 3,289 | Label smoothing | ||||||||||||||||||||||||

51 | Regression Shrinkage and Selection via the Lasso | 1996 | ML | 27,052 | The lasso | ||||||||||||||||||||||||

52 | A Density-Based Algorithm for Discovering Clusters | 1996 | ML | 15,191 | DBSCAN | ||||||||||||||||||||||||

53 | Support-vector networks | 1995 | ML | 32,501 | SVM | ||||||||||||||||||||||||

54 | a training algorithm for optimal margin classifiers | 1992 | ML | 9,925 | SVM | ||||||||||||||||||||||||

55 | Backpropagation Through Time: What It Does and How to Do It | 1990 | NLP, LR | 3,196 | BPTT (short) | ||||||||||||||||||||||||

56 | The self-organizing map | 1990 | ML | 23,487 | SOM | ||||||||||||||||||||||||

57 | Probablistic Neural Networks | 1990 | LR | 4,194 | |||||||||||||||||||||||||

58 | Learning from Delayed Rewards (PhD Thesis) | 1989 | RL | 5,963 | Original Q-learning | ||||||||||||||||||||||||

59 | Multilayer feedforward networks are universal approximators | 1989 | ML | 15,932 | Two-hidden layers as universal approximator | ||||||||||||||||||||||||

60 | Approximation by Superpositions of a Sigmoidal Function | 1989 | LR | 10,402 | Idea that NN with one hidden layer neurons suffices | ||||||||||||||||||||||||

61 | A Focused Backpropagation Algorithm for Temporal Pattern Recognition | 1989 | NLP, LR | 306 | BPTT (long) | ||||||||||||||||||||||||

62 | Learning Internal Representations by Error Propagation | 1986 | ML | 25,444 | Backprop | ||||||||||||||||||||||||

63 | Stochastic Estimation of the Maximum of a Regression Function | 1952 | ML | 1,708 | SGD for ML | ||||||||||||||||||||||||

64 | A Stochastic Approximation Method | 1951 | ML | 5,765 | Stochastic Approximation | ||||||||||||||||||||||||

65 | Statistical Modeling: The Two Cultures | Frequentists vs. Bayesians | |||||||||||||||||||||||||||

66 | |||||||||||||||||||||||||||||

67 | |||||||||||||||||||||||||||||

68 | |||||||||||||||||||||||||||||

69 | |||||||||||||||||||||||||||||

70 | |||||||||||||||||||||||||||||

71 | |||||||||||||||||||||||||||||

72 | |||||||||||||||||||||||||||||

73 | |||||||||||||||||||||||||||||

74 | |||||||||||||||||||||||||||||

75 | |||||||||||||||||||||||||||||

76 | |||||||||||||||||||||||||||||

77 | |||||||||||||||||||||||||||||

78 | |||||||||||||||||||||||||||||

79 | |||||||||||||||||||||||||||||

80 | |||||||||||||||||||||||||||||

81 | |||||||||||||||||||||||||||||

82 | |||||||||||||||||||||||||||||

83 | |||||||||||||||||||||||||||||

84 | |||||||||||||||||||||||||||||

85 | |||||||||||||||||||||||||||||

86 | |||||||||||||||||||||||||||||

87 | |||||||||||||||||||||||||||||

88 | |||||||||||||||||||||||||||||

89 | |||||||||||||||||||||||||||||

90 | |||||||||||||||||||||||||||||

91 | |||||||||||||||||||||||||||||

92 | |||||||||||||||||||||||||||||

93 | |||||||||||||||||||||||||||||

94 | |||||||||||||||||||||||||||||

95 | |||||||||||||||||||||||||||||

96 | |||||||||||||||||||||||||||||

97 | |||||||||||||||||||||||||||||

98 | |||||||||||||||||||||||||||||

99 | |||||||||||||||||||||||||||||

100 |