NIPS2017 タイトル&概要訳 一覧
The version of the browser you are using is no longer supported. Please upgrade to a supported browser.Dismiss

View only
1 and Deeper, Cheaper and Faster: Tensorized LSTMs for Sequence Learningより広く、より深い、より安く、より速く:系列学習のためのTensorized LSTMsLong Short-Term Memory (LSTM) is a popular approach to boosting the ability of Recurrent Neural Networks to store longer term temporal information. The capacity of an LSTM network can be increased by widening and adding layers. However, usually the former introduces additional parameters, while the latter increases the runtime. As an alternative we propose the Tensorized LSTM in which the hidden states are represented by tensors and updated via a cross-layer convolution. By increasing the tensor size, the network can be widened efficiently without additional parameters since the parameters are shared across different locations in the tensor; by delaying the output, the network can be deepened implicitly with little additional runtime since deep computations for each timestep are merged into temporal computations of the sequence. Experiments conducted on five challenging sequence learning tasks show the potential of the proposed model.長期短期記憶(LSTMは)長期的、時間的な情報を格納するためのリカレントニューラルネットワークの能力を高めるに人気の高いアプローチです。 LSTMネットワークの容量が拡大し、層を追加することによって増加させることができます。しかしながら、通常は前者が後者の増加ながらランタイム、追加のパラメータを導入します。代替として、我々は隠された状態がテンソルで表され、クロスレイヤ畳み込みを介して更新されているTensorized LSTMを提案します。パラメータはテンソルの異なる位置間で共有されているので、テンソルのサイズを増加させることによって、ネットワークは、追加のパラメータを指定せずに効率的に広げることができます。各タイムステップのための深い計算がシーケンスの時間的な計算にマージされているので、出力を遅延させることによって、ネットワークは少し追加のランタイムと暗黙的に深化することができます。 5つの挑戦系列学習課題に行った実験では、提案モデルの可能性を示しました。
2 of Multilinear Functions of the Ising Model with Applications to Network Dataネットワークデータへの応用イジングモデルのマルチリニア機能の濃度We prove near-tight concentration of measure for polynomial functions of the Ising model, under high temperature, improving the radius of concentration guaranteed by known results by polynomial factors in the dimension (i.e.~the number of nodes in the Ising model). We show that our results are optimal up to logarithmic factors in the dimension. We obtain our results by extending and strengthening the exchangeable-pairs approach used to prove concentration of measure in this setting by Chatterjee. We demonstrate the efficacy of such functions as statistics for testing the strength of interactions in social networks in both synthetic and real world data.我々は次元の多項式係数で知ら結果によって保証濃度の半径を改善、高温下でのイジングモデルの多項式関数の尺度の近密な濃度を、証明する(すなわち〜イジングモデルのノード数)。私たちは、我々の結果は次元の対数要因にまで最適であることを示しています。我々は、交換・ペアがチャタジーで、この設定のメジャーの濃度を証明するために使用されるアプローチ延長し、強化することで、我々の結果を得ます。我々は両方の合成と実世界のデータにソーシャルネットワークで相互作用の強さをテストするための統計などの機能の有効性を示します。
3 Subspace Clustering Networksディープ部分空間クラスタリングネットワークWe present a novel deep neural network architecture for unsupervised subspace clustering. This architecture is built upon deep auto-encoders, which non-linearly map the input data into a latent space. Our key idea is to introduce a novel self-expressive layer between the encoder and the decoder to mimic the ""self-expressiveness"" property that has proven effective in traditional subspace clustering. Being differentiable, our new self-expressive layer provides a simple but effective way to learn pairwise affinities between all data points through a standard back-propagation procedure. Being nonlinear, our neural-network based method is able to cluster data points having complex (often nonlinear) structures. We further propose pre-training and fine-tuning strategies that let us effectively learn the parameters of our subspace clustering networks. Our experiments show that the proposed method significantly outperforms the state-of-the-art unsupervised subspace clustering methods.私たちは、教師なし部分空間クラスタリングのための新規の深いニューラルネットワークアーキテクチャを提示します。このアーキテクチャは、非直線的に潜在空間への入力データをマッピング深いオートエンコーダー、上に構築されています。当社の主要な考え方は、「伝統的な部分空間クラスタリングに有効であることが証明されたプロパティ「を」自己表現」を模倣するために、エンコーダとデコーダとの間に新たな自己表現力層を導入することです。微分可能なので、私たちの新しい自己表現力層は、標準的なバックプロパゲーション法を介してすべてのデータポイント間のペアごとの類似性を学ぶための簡単で効果的な方法を提供します。非線形なので、私たちのニューラルネットワークベースの方法は、複雑な(多くの場合、非線形)の構造を持つデータポイントをクラスタ化することができます。私たちは、さらに、私たちは効果的に私達の部分空間クラスタリングネットワークのパラメータを学習させる前のトレーニングや微調整戦略を提案します。私たちの実験では、提案手法が大幅に最先端の教師なし部分空間クラスタリング法よりも優れていることを示しています。
4 Pooling for Action Recognition動作認識のための注意のプールWe introduce a simple yet surprisingly powerful model to incorporate attention in action recognition and human object interaction tasks. Our proposed attention module can be trained with or without extra supervision, and gives a sizable boost in accuracy while keeping the network size and computational cost nearly the same. It leads to significant improvements over state of the art base architecture on three standard action recognition benchmarks across still images and videos, and establishes new state of the art on MPII (12.5% relative improvement) and HMDB (RGB) datasets. We also perform an extensive analysis of our attention module both empirically and analytically. In terms of the latter, we introduce a novel derivation of bottom-up and top-down attention as low-rank approximations of bilinear pooling methods (typically used for fine-grained classification). From this perspective, our attention formulation suggests a novel characterization of action recognition as a fine-grained recognition problem.私たちは、動作認識や人物との対話タスクに注意を組み込むために、シンプルでありながら驚くほど強力なモデルをご紹介します。私たちの提案注意モジュールは、余分な監督の有無にかかわらず訓練を受けた、とほぼ同じネットワークサイズと計算コストを維持しながら精度にかなりのブーストを与えることができます。これは、静止画や動画を横切る3つの標準動作認識ベンチマークに技術ベースのアーキテクチャの状態に比べて大きな改善をもたらす、およびMPII(12.5%の相対的改善)とHMDB(RGB)データセットに技術の新たな状態を確立します。また、両方の経験と解析的に我々の注目モジュールの広範囲な分析を行います。後者の点において、我々は、ボトムアップおよびトップダウンの注意(典型的には、きめの細かい分類に使用される)バイリニアプーリング法のような低ランク近似の新規な導出を導入します。このような観点から、我々の注目製剤は、きめの細かい認識問題として行動認識の新規特性を示唆しています。
5 the Consistency of Quick Shiftクイックシフトの一貫性にQuick Shift is a popular mode-seeking and clustering algorithm. We present finite sample statistical consistency guarantees for Quick Shift on mode and cluster recovery under mild distributional assumptions. We then apply our results to construct a consistent modal regression algorithm.クイックシフトは、人気のモード・シークおよびクラスタリングアルゴリズムです。私たちは、穏やかな分布の仮定の下でモードおよびクラスタ回復にクイックシフトための有限のサンプルの統計の整合性の保証を提示します。私たちは、その後、一貫性のあるモーダル回帰アルゴリズムを構築するために我々の結果を適用します。
6 the Nonsmooth Barrier: A Scalable Parallel Method for Composite Optimizationコンポジットの最適化のためのスケーラブルなパラレル方式:滑らかでバリアを破りますDue to their simplicity and excellent performance, parallel asynchronous variants of stochastic gradient descent have become popular methods to solve a wide range of large-scale optimization problems on multi-core architectures. Yet, despite their practical success, support for nonsmooth objectives is still lacking, making them unsuitable for many problems of interest in machine learning, such as the Lasso, group Lasso or empirical risk minimization with convex constraints. In this work, we propose and analyze ProxASAGA, a fully asynchronous sparse method inspired by SAGA, a variance reduced incremental gradient algorithm. The proposed method is easy to implement and significantly outperforms the state of the art on several nonsmooth, large-scale problems. We prove that our method achieves a theoretical linear speedup with respect to the sequential version under assumptions on the sparsity of gradients and block-separability of the proximal term. Empirical benchmarks on a multi-core architecture illustrate practical speedups of up to 12x on a 20-core machine.それらのシンプルさと優れた性能を、確率的勾配降下法の並列非同期変異体は、マルチコアアーキテクチャ上で大規模な最適化問題の広い範囲を解決するための一般的な方法となっています。しかし、彼らの実用的な成功にもかかわらず、滑らかな目的のためのサポートは、まだ、このような凸制約となげなわ、グループ投げ縄または経験的リスクの最小化などの機械学習への関心の多くの問題のためにそれらを不適当、不足しています。本研究では、提案しProxASAGA、SAGAに触発され、完全に非同期スパース法、分散減少増加勾配アルゴリズムを解析します。提案された方法は、実施が容易であり、有意にいくつかの滑らかで、大規模な問題に技術の状態よりも性能が優れています。我々は、我々の方法は、勾配と近位の用語のブロック分離のスパース性の仮定の下で、順次バージョンに関して理論的な線形のスピードアップを実現していることを証明します。マルチコアアーキテクチャに関する実証ベンチマークは、最大20コアマシン上12Xへの実用的なスピードアップを示します。
7 GANs for Photorealistic and Identity Preserving Profile Face Synthesisプロフィールの顔合成の保存フォトリアリスティックとアイデンティティのためのデュアルエージェントガンズSynthesizing realistic profile faces is promising for more efficiently training deep pose-invariant models for large-scale unconstrained face recognition, by populating samples with extreme poses and avoiding tedious annotations. However, learning from synthetic faces may not achieve the desired performance due to the discrepancy between distributions of the synthetic and real face images. To narrow this gap, we propose a Dual-Agent Generative Adversarial Network (DA-GAN) model, which can improve the realism of a face simulator's output using unlabeled real faces, while preserving the identity information during the realism refinement. The dual agents are specifically designed for distinguishing real v.s. fake and identities simultaneously. In particular, we employ an off-the-shelf 3D face model as a simulator to generate profile face images with varying poses. DA-GAN leverages a fully convolutional network as the generator to generate high-resolution images and an auto-encoder as the discriminator with the dual agents. Besides the novel architecture, we make several key modifications to the standard GAN to preserve pose and texture, preserve identity and stabilize training process: (i) a pose perception loss; (ii) an identity perception loss; (iii) an adversarial loss with a boundary equilibrium regularization term. Experimental results show that DA-GAN not only presents compelling perceptual results but also significantly outperforms state-of-the-arts on the large-scale and challenging NIST IJB-A unconstrained face recognition benchmark. In addition, the proposed DA-GAN is also promising as a new approach for solving generic transfer learning problems more effectively.現実的なプロファイルの顔を合成することは、より効率的に極端なポーズでサンプルを投入し、退屈な注釈を回避することにより、大規模な制約のない顔認識のための深いポーズ不変モデルを訓練するために有望です。しかし、合成面から学習することは、合成及び実際の顔画像の分布間の相違に所望の性能を達成しなくてもよいです。リアリズムリファイン時の身元情報を維持しながら、このギャップを狭めるために、我々は、非標識本当の顔を使った顔シミュレータの出力のリアリズムを向上させることができ、デュアルエージェント生成的敵対ネットワーク(DA-GAN)モデルを提案します。デュアルの薬剤は、特に際立った本当のv.s.のために設計されています偽物と同時にアイデンティティ。特に、我々は、様々なポーズでプロファイル顔画像を生成するためのシミュレータとして既製3次元顔モデルを採用します。 DA-GaNは高解像度の画像を生成するための発電機とデュアル剤との弁別器として自動エンコーダとして完全畳み込みネットワークを活用します。小説アーキテクチャに加えて、我々は、ポーズや風合いを保つアイデンティティを維持し、訓練プロセスを安定させるために、標準のGANへのいくつかの重要な変更を行います。(ⅰ)ポーズ知覚喪失; (ii)は同一の知覚の損失を、 (iii)の境界平衡正則化項を有する敵対損失。実験結果は、DA-GANは魅力的な知覚の結果を示すだけでなく、非常に大規模かつ挑戦的なNIST IJB-A制約のない顔認識ベンチマークに最新式の芸術を凌駕するだけでなくことを示しています。また、提案したDA-GANも、より効果的に一般的な転移学習の問題を解決するための新しいアプローチとして有望です。
8 Recurrent Neural Networks拡張型リカレントニューラルネットワークLearning with recurrent neural networks (RNNs) on long sequences is a notoriously difficult task. There are three major challenges: 1) complex dependencies, 2) vanishing and exploding gradients, and 3) efficient parallelization. In this paper, we introduce a simple yet effective RNN connection structure, the DilatedRNN, which simultaneously tackles all of these challenges. The proposed architecture is characterized by multi-resolution dilated recurrent skip connections and can be combined flexibly with diverse RNN cells. Moreover, the DilatedRNN reduces the number of parameters needed and enhances training efficiency significantly, while matching state-of-the-art performance (even with standard RNN cells) in tasks involving very long-term dependencies. To provide a theory-based quantification of the architecture's advantages, we introduce a memory capacity measure, the mean recurrent length, which is more suitable for RNNs with long skip connections than existing measures. We rigorously prove the advantages of the DilatedRNN over other recurrent neural architectures. The code for our method is publicly available at長いシーケンスのリカレントニューラルネットワーク(のRNN)で学ぶことは悪名高く困難な作業です。 1)複雑な依存関係、2)勾配を消失し、爆発、および3)効率的な並列化:三つの主要な課題があります。本稿では、同時に、これらの課題のすべてに取り組んシンプルで効果的なRNNの接続構造、DilatedRNNを、ご紹介します。提案されたアーキテクチャは、マルチ解像度によって特徴付けられる再発スキップ接続を拡張し、多様なRNN細胞と柔軟に組み合わせることができます。また、DilatedRNNは、必要なパラメータの数を減少させ、非常に長期の依存関係を伴うタスクで(も標準RNN細胞と)最先端の性能をマッチングしながら、大幅トレーニング効率を向上させます。アーキテクチャの利点の理論に基づく定量化を提供するために、我々は、既存の対策よりも長いスキップ接続でのRNNのために、より適しているメモリ容量指標、平均再発長さを、ご紹介します。私たちは、厳密に他のリカレントニューラルアーキテクチャ上DilatedRNNの利点を証明します。私たちのメソッドのコードは、で公開されています。
9 For The Unique, Stable, Sparse And Fast Feature Learning On Graphsグラフに学ぶユニークな、安定した、スパースと高速機能のハントFor the purpose of learning on graphs, we hunt for a graph feature representation that exhibit certain uniqueness, stability and sparsity properties while also being amenable to fast computation. This leads to the discovery of family of graph spectral distances (denoted as FGSD) and their based graph feature representations, which we prove to possess most of these desired properties. To both evaluate the quality of graph features produced by FGSD and demonstrate their utility, we apply them to the graph classification problem. Through extensive experiments, we show that a simple SVM based classification algorithm, driven with our powerful FGSD based graph features, significantly outperforms all the more sophisticated state-of-art algorithms on the unlabeled node datasets in terms of both accuracy and speed; it also yields very competitive results on the labeled datasets - despite the fact it does not utilize any node label information.グラフ上の学習の目的のために、我々はまた、高速計算に適している一方で、特定の独自性、安定性、スパース特性を示すグラフの特徴表現を捜します。これは、(FGSDと表記)は、グラフのスペクトル距離と、我々はこれらの所望の特性の大半を保有することを証明する彼らのもとグラフ機能表現のファミリーの発見につながります。両方がFGSDによって生成グラフ機能の品質を評価し、その有用性を実証するために、我々はグラフの分類問題に適用します。大規模な実験を通して、私たちは私たちの強力なFGSDベースのグラフ機能で駆動シンプルSVMに基づく分類アルゴリズムは、大幅に精度と速度の両面で標識されていないノードのデータセット上のすべてのより洗練された最先端のアルゴリズムよりも優れていることを示しています。それは任意のノードのラベル情報を利用しないという事実にもかかわらず - それはまた、ラベルされたデータセットで非常に競争力のある結果が得られます。
10 Generalized Linear Bandits: Online Computation and Hashingスケーラブルな一般化線形バンディッツ:オンライン計算とハッシュGeneralized Linear Bandits (GLBs), a natural extension of the stochastic linear bandits, has been popular and successful in recent years. However, existing GLBs scale poorly with the number of rounds and the number of arms, limiting their utility in practice. This paper proposes new, scalable solutions to the GLB problem in two respects. First, unlike existing GLBs, whose per-time-step space and time complexity grow at least linearly with time $t$, we propose a new algorithm that performs online computations to enjoy a constant space and time complexity. At its heart is a novel Generalized Linear extension of the Online-to-confidence-set Conversion (GLOC method) that takes \emph{any} online learning algorithm and turns it into a GLB algorithm. As a special case, we apply GLOC to the online Newton step algorithm, which results in a low-regret GLB algorithm with much lower time and memory complexity than prior work. Second, for the case where the number $N$ of arms is very large, we propose new algorithms in which each next arm is selected via an inner product search. Such methods can be implemented via hashing algorithms (i.e., ``hash-amenable'') and result in a time complexity sublinear in $N$. While a Thompson sampling extension of GLOC is hash-amenable, its regret bound for $d$-dimensional arm sets scales with $d^{3/2}$, whereas GLOC's regret bound scales with $d$. Towards closing this gap, we propose a new hash-amenable algorithm whose regret bound scales with $d^{5/4}$. Finally, we propose a fast approximate hash-key computation (inner product) with a better accuracy than the state-of-the-art, which can be of independent interest. We conclude the paper with preliminary experimental results confirming the merits of our methods.一般化線形バンディッツ(のGLB)、確率的線形山賊の自然な拡張は、近年では人気があり、成功しています。しかし、既存のGLBは、実際にそれらの有用性を制限し、ラウンド数とアームの数で不十分スケール。本論文では、2つの点でGLB問題への新しい、スケーラブルなソリューションを提案しています。まず、既存のGLBとは異なり、そのあたりの時間ステップの空間と時間の複雑さは、時間$ tの$で少なくとも直線的に成長し、我々は一定の空間と時間の複雑さを楽しむために、オンラインでの計算を実行する新しいアルゴリズムを提案します。その心臓部には、\ {EMPHいかなる}オンライン学習アルゴリズムを受け取り、GLBアルゴリズムにそれを回すオンライン・ツー・自信・セットの変換(GLOC法)の新規の一般化線形拡張です。特殊なケースとして、我々は前の仕事よりもはるかに低い時間とメモリの複雑さと低後悔GLBアルゴリズムにつながるオンラインニュートンステップアルゴリズムにGLOCを適用します。第二に、アームの数の$のN $は非常に大きい場合のために、私たちは、次の各アームが内積検索によって選択された新しいアルゴリズムを提案します。そのような方法は、ハッシュアルゴリズム(すなわち、 ``ハッシュ適し「」)を介して実装され、$ N $の時間複雑サブリニアをもたらすことができます。 GLOCのトンプソンサンプリング拡張はハッシュ可能であるが、$行き、その後悔は次元アーム$ D $ d個の$とGLOCの後悔結合スケール一方の$ D ^ {3/2} $、でスケールを設定します。このギャップを埋めるに向けて、私たちは、その後悔の$ D ^ {5/4} $とスケールをバインド新しいハッシュ適したアルゴリズムを提案します。最後に、我々は、最先端の独立した関心であることができる、より良好な精度で高速近似ハッシュキー計算(内積)を提案します。私たちは、予備実験の結果は、私たちの方法のメリットを確認した紙を締結します。
11 Models for Integration Error in the Assessment of Functional Cardiac Models機能性心臓モデルの評価における統合エラーのための確率モデルThis paper studies the numerical computation of integrals, representing estimates or predictions, over the output $f(x)$ of a computational model with respect to a distribution $p(\mathrm{d}x)$ over uncertain inputs $x$ to the model. For the functional cardiac models that motivate this work, neither $f$ nor $p$ possess a closed-form expression and evaluation of either requires $\approx$ 100 CPU hours, precluding standard numerical integration methods. Our proposal is to treat integration as an estimation problem, with a joint model for both the a priori unknown function $f$ and the a priori unknown distribution $p$. The result is a posterior distribution over the integral that explicitly accounts for dual sources of numerical approximation error due to a severely limited computational budget. This construction is applied to account, in a statistically principled manner, for the impact of numerical errors that (at present) are confounding factors in functional cardiac model assessment.本稿では、出力の$ f(x)が分布$ Pに対する計算モデルの$(\ mathrm {D} x)は不明入力上$ $第X $にかけ、推定又は予測を表し、積分の数値計算を研究しますモデル。この仕事をやる気機能心臓モデルの場合、どちらも$ fが$も$ P $は、標準的な数値積分法を排除、閉形式と必要と$ \約$ 100のCPU時間のいずれかの評価を持っています。私たちの提案は、先験的に未知の関数$ F $とアプリオリ未知の分布$ pが$の両方のための共同モデルと、推定問題として統合を扱うことです。結果が原因厳しく限られた計算予算に明示的に数値近似誤差のデュアルソースを占め、積分超える事後分布です。この構造は、(現時点で)機能的な心臓モデル評価における交絡因子である数値誤差の影響のために、統計的原則に基づいた方法で、口座に適用されます。
12 Learning with Adversaries: Byzantine Tolerant Gradient Descent敵対と機械学習:ビザンチントレラントグラデーションディセントWe study the resilience to Byzantine failures of distributed implementations of Stochastic Gradient Descent (SGD). So far, distributed machine learning frameworks have largely ignored the possibility of failures, especially arbitrary (i.e., Byzantine) ones. Causes of failures include software bugs, network asynchrony, biases in local datasets, as well as attackers trying to compromise the entire system. Assuming a set of $n$ workers, up to $f$ being Byzantine, we ask how resilient can SGD be, without limiting the dimension, nor the size of the parameter space. We first show that no gradient aggregation rule based on a linear combination of the vectors proposed by the workers (i.e, current approaches) tolerates a single Byzantine failure. We then formulate a resilience property of the aggregation rule capturing the basic requirements to guarantee convergence despite $f$ Byzantine workers. We propose \emph{Krum}, an aggregation rule that satisfies our resilience property, which we argue is the first provably Byzantine-resilient algorithm for distributed SGD. We also report on experimental evaluations of Krum.我々は確率的勾配降下(SGD)の分散実装のビザンチン故障に弾力性を研究しています。これまでのところ、分散型機械学習フレームワークは、主に障害の可能性、特に任意の(すなわち、ビザンチン)のものを無視してきました。障害の原因はソフトウェアのバグ、ネットワーク非同期、ローカルデータセット内のバイアスだけでなく、システム全体を侵害しようと、攻撃者が含まれます。ビザンチンている最高$に$ F $ N $の労働者、のセットを仮定すると、我々は次元を制限することなく、どのように弾力がSGDすることができ尋ね、またパラメータ空間のサイズ。まず、作業者(すなわち、現在のアプローチ)によって提案されたベクトルの線形結合に基づいた勾配アグリゲーション・ルールは、単一のビザンチン故障を許容しないことを示します。私たちは、その後、$ F $のビザンチン労働者にもかかわらず、収束を保証するための基本的な要件を取り込む集計ルールの反発特性を定式化します。私たちは、\ EMPH {Krum}、我々は分散SGDのための最初の証明可能ビザンチン、弾力性のアルゴリズムであると主張私たちの反発特性を満たす集計ルールを提案します。また、Krumの実験的評価について報告します。
13 Safe Interruptibility for Decentralized Multi-Agent Reinforcement Learning分散型マルチエージェント強化学習のための動的安全中断可能In reinforcement learning, agents learn by performing actions and observing their outcomes. Sometimes, it is desirable for a human operator to interrupt an agent in order to prevent dangerous situations from happening. Yet, as part of their learning process, agents may link these interruptions, that impact their reward, to specific states and deliberately avoid them. The situation is particularly challenging in a multi-agent context because agents might not only learn from their own past interruptions, but also from those of other agents. Orseau and Armstrong defined safe interruptibility for one learner, but their work does not naturally extend to multi-agent systems. This paper introduces dynamic safe interruptibility, an alternative definition more suited to decentralized learning problems, and studies this notion in two learning frameworks: joint action learners and independent learners. We give realistic sufficient conditions on the learning algorithm to enable dynamic safe interruptibility in the case of joint action learners, yet show that these conditions are not sufficient for independent learners. We show however that if agents can detect interruptions, it is possible to prune the observations to ensure dynamic safe interruptibility even for independent learners.強化学習では、エージェントは、アクションを実行し、その結果を観察することによって学びます。時には、それが起こってから危険な状況を防ぐために薬を中断する人間のオペレータのために望ましいです。しかし、彼らの学習プロセスの一環として、薬剤は、特定の状態に、その報酬、その影響をこれらの中断をリンクし、意図的にそれらを回避することができます。エージェントは、自分の過去の中断から学ぶかもしれないという理由だけで状況はなく、他の薬剤のものとは、マルチエージェントコンテキストで特に困難です。 Orseauとアームストロングは1人の学習者のための安全な中断性を定義し、彼らの仕事は、当然、マルチエージェントシステムには適用されません。共同行動の学習者と独立した学習者:本論文では、動的安全中断性、分散型学習の問題に、より適している別の定義、および2つの学習の枠組みで研究この概念を導入しています。私たちは、共同行動の学習者の場合には、動的安全な中断性を可能にするために、学習アルゴリズムに現実的な十分条件を与える、まだこれらの条件は、独立した学習者のために十分ではないことを示しています。私たちは、エージェントが中断を検知することができれば、それも独立した学習者のための動的安全中断性を確保するための観測を剪定することが可能であることが示されています。
14 Submodular Banditインタラクティブ劣モジュラバンディットIn many machine learning applications, submodular functions have been used as a model for evaluating the utility or payoff of a set such as news items to recommend, sensors to deploy in a terrain, nodes to influence in a social network, to name a few. At the heart of all these applications is the assumption that the underlying utility/payoff function is known a priori, hence maximizing it is in principle possible. In real life situations, however, the utility function is not fully known in advance and can only be estimated via interactions. For instance, whether a user likes a movie or not can be reliably evaluated only after it was shown to her. Or, the range of influence of a user in a social network can be estimated only after she is selected to advertise the product. We model such problems as an interactive submodular bandit optimization, where in each round we receive a context (e.g., previously selected movies) and have to choose an action (e.g., propose a new movie). We then receive a noisy feedback about the utility of the action (e.g., ratings) which we model as a submodular function over the context-action space. We develop SM-UCB that efficiently trades off exploration (collecting more data) and exploration (proposing a good action given gathered data) and achieves a $O(\sqrt{T})$ regret bound after $T$ rounds of interaction. Given a bounded-RKHS norm kernel over the context-action-payoff space that governs the smoothness of the utility function, SM-UCB keeps an upper-confidence bound on the payoff function that allows it to asymptotically achieve no-regret. Finally, we evaluate our results on four concrete applications, including movie recommendation (on the MovieLense data set), news recommendation (on Yahoo! Webscope dataset), interactive influence maximization (on a subset of the Facebook network), and personalized data summarization (on Reuters Corpus). In all these applications, we observe that SM-UCB consistently outperforms the prior art.多くの機械学習アプリケーションでは、劣モジュラ関数は、少数を示すために、ソーシャルネットワークに影響を与えるために、地形に展開するためにこのようなニュースをお勧めするアイテム、センサとしてセットの有用性やペイオフを評価するためのモデルとしてのノードを使用されています。すべてのこれらのアプリケーションの心臓部には根本的なユーティリティ/ペイオフ関数は、したがって、それは原理的には可能である最大化、事前に知られているという仮定があります。現実の状況では、しかし、効用関数が完全に事前に知られていないとだけ相互作用を介して推定することができます。例えば、ユーザが映画を好きかどうかを確実にそれは彼女に示された後にのみ評価することができます。または、ソーシャルネットワーク内のユーザーの影響力の範囲は、彼女は、製品を宣伝するために選択された後にのみ推定することができます。我々は(例えば、新しい映画を提案する)各ラウンドでは、我々はコンテキストを受け取るインタラクティブ劣モジュラ盗賊の最適化、(例えば、以前に映画を選択)などの問題をモデル化し、アクションを選択する必要があります。我々は、我々は、コンテキスト・行動空間を超える劣モジュラ関数としてモデル化するアクション(例えば、評価)の有用性についての騒々しいフィードバックを受けます。私たちは、効率的に(収集されたデータを与えられた良いアクションを提案)探査(より多くのデータを収集)して探査をトレードオフとの相互作用の$ T $のラウンド後にバインドの$ O(\のSQRT {T})$の後悔を実現SM-UCBを開発します。効用関数の滑らかさを支配し、コンテキスト・アクション・ペイオフのスペースの上に有界RKHSノルムカーネルを考えると、SM-UCBは、それが漸近的に無遺憾の意を達成しないことを可能にする利得関数の上限自信を保持します。最後に、我々は(MovieLenseデータセット上の)映画の勧告、(ヤフーWebscopeデータセット上の)ニュース勧告、(Facebookのネットワークのサブセット上の)対話型の影響の最大化、およびパーソナライズされたデータの集計を含む4つの具体的な用途、(上の我々の結果を評価しますロイターコーパス上)。すべてのこれらのアプリケーションでは、我々は、SM-UCBが一貫し、従来技術よりも優れていることを確認します。
15 to See Physics via Visual De-animationビジュアルデ・アニメーションを経由して物理学を参照してくださいことを学びますWe introduce a paradigm for understanding physical scenes without human annotations. At the core of our system is a physical world representation that is first recovered by a perception module and then utilized by physics and graphics engines. During training, the perception module and the generative models learn by visual de-animation --- interpreting and reconstructing the visual information stream. During testing, the system first recovers the physical world state, and then uses the generative models for reasoning and future prediction. Even more so than forward simulation, inverting a physics or graphics engine is a computationally hard problem; we overcome this challenge by using a convolutional inversion network. Our system quickly recognizes the physical world state from appearance and motion cues, and has the flexibility to incorporate both differentiable and non-differentiable physics and graphics engines. We evaluate our system on both synthetic and real datasets involving multiple physical scenes, and demonstrate that our system performs well on both physical state estimation and reasoning problems. We further show that the knowledge learned on the synthetic dataset generalizes to constrained real images.私たちは、人間の注釈なしで物理的なシーンを理解するためのパラダイムを紹介します。我々のシステムの中核は、最初の認識モジュールによって回収し、その後、物理学とグラフィックスエンジンによって利用される物理的な世界を表現したものです。トレーニング中、知覚モジュールと生成モデルを解釈し、視覚的な情報ストリームを再構築する---視覚的なデアニメーションで学びます。テストの間、システムは、最初の物理的な世界の状態を回復して、推論や将来予測のための生成モデルを使用しています。さらにその前方のシミュレーションよりも、物理学やグラフィックスエンジンを反転することは、計算困難な問題です。我々は、畳み込み反転ネットワークを使用することで、この課題を克服します。私たちのシステムは迅速な外観と運動の手がかりからの物理的な世界の状態を認識し、微分非微分の両方の物理学とグラフィックスエンジンを組み込むための柔軟性を持っています。私たちは、複数の物理的なシーンを含む合成し、実際のデータセットの両方に我々のシステムを評価し、私たちのシステムは物理的状態の推定と推論の問題の両方に良好に機能することを実証しています。私たちは、さらに知識が実際の画像を制約するために一般化した合成データセットで学んだことを示しています。
16 Efficient Learning of Transferable Representations acrosss Domains and Tasksドメインとタスクacrosss譲渡表現のラベル効率的な学習We propose a framework that learns a representation transferable across different domains and tasks in a data efficient manner. Our approach battles domain shift with a domain adversarial loss, and generalizes the embedding to novel task using a metric learning-based approach. Our model is simultaneously optimized on labeled source data and unlabeled or sparsely labeled data in the target domain. Our method shows compelling results on novel classes within a new domain even when only a few labeled examples per class are available, outperforming the prevalent fine-tuning approach. In addition, we demonstrate the effectiveness of our framework on the transfer learning task from image object recognition to video action recognition.私たちは、データ効率的な方法で異なるドメインやタスク間で譲渡表現を学習の枠組みを提案します。我々のアプローチは、ドメイン敵対的損失のドメインシフトを戦い、そして計量学習ベースのアプローチを用いた新規タスクに埋め込みを一般化します。我々のモデルは同時に、ターゲットドメイン中の標識されたソースデータと非標識またはまばらラベル付きデータに最適化されています。私たちのメソッドは、クラスごとにわずか数ラベルされた例が流行微調整のアプローチを上回る、利用可能であっても、新しいドメイン内の新しいクラスの魅力的な結果を示しています。加えて、我々はビデオ動作認識への画像の物体認識から転送学習課題に関する我々の枠組みの有効性を示します。
17 with Value Networks for Neural Machine Translationニューラル機械翻訳のためのバリュー・ネットワークとデコードNeural Machine Translation (NMT) has become a popular technology in recent years, and beam search is its de facto decoding method due to the shrunk search space and reduced computational complexity. However, since it only searches for local optima at each time step through one-step forward looking, it usually cannot output the best target sentence. Inspired by the success and methodology of AlphaGo, in this paper we propose using a prediction network to improve beam search, which takes the source sentence $x$, the currently available decoding output $y_1,\cdots, y_{t-1}$ and a candidate word $w$ at step $t$ as inputs and predicts the long-term value (e.g., BLEU score) of the partial target sentence if it is completed by the NMT model. Following the practice in reinforcement learning, we call this prediction network \emph{value network}. Specifically, we propose a recurrent structure for the value network, and train its parameters from bilingual data. During the test time, when choosing a word $w$ for decoding, we consider both its conditional probability given by the NMT model and its long-term value predicted by the value network. Experiments show that such an approach can significantly improve the translation accuracy on several translation tasks.ニューラル機械翻訳(NMT)は、近年、人気の技術となっている、とビームサーチが原因収縮探索空間と減少し、計算の複雑さへの事実上の復号方法です。しかし、それだけで前向きワンステップを介して各時間ステップにおける局所最適解を探しので、通常は出力できない最高のターゲットセンテンス。 AlphaGoの成功と方法論に触発され、この論文では、ソース文の$ X $を取るビーム探索、現在利用可能な復号化出力の$ Y_1、\ cdots、Y_ {T-1} $を改善するために、予測ネットワークを使用して提案しますそれはNMTモデルによって完成されている場合や候補語$ wを入力としてステップ$ tのの$で$とは、長期的な価値部分ターゲット文の(例えば、BLEUスコア)を予測します。強化学習における練習の後、我々はこの予測ネットワークの\ EMPH {値ネットワーク}を呼び出します。具体的には、バリュー・ネットワークのためのリカレント構造を提案し、バイリンガルデータからそのパラメータを訓練します。復号化のために単語の$ W $を選択する際の試験時間の間に、我々は、NMTモデルとバリュー・ネットワークによって予測長期的な値で与えられる条件付き確率の両方を考慮してください。実験は、このようなアプローチはかなりいくつかの翻訳作業上の翻訳精度を向上させることができることを示しています。
18 Simplex Method for Sparse Learningスパース学習のためのパラメトリックシンプレックス法High dimensional sparse learning has imposed a great computational challenge to large scale data analysis. In this paper, we investiage a broad class of sparse learning approaches formulated as linear programs parametrized by a {\em regularization factor}, and solve them by the parametric simplex method (PSM). PSM offers significant advantages over other competing methods: (1) PSM naturally obtains the complete solution path for all values of the regularization parameter; (2) PSM provides a high precision dual certificate stopping criterion; (3) PSM yields sparse solutions through very few iterations, and the solution sparsity significantly reduces the computational cost per iteration. Particularly, we demonstrate the superiority of PSM over various sparse learning approaches, including Dantzig selector for sparse linear regression, sparse support vector machine for sparse linear classification, and sparse differential network estimation. We then provide sufficient conditions under which PSM always outputs sparse solutions such that its computational performance can be significantly boosted. Thorough numerical experiments are provided to demonstrate the outstanding performance of the PSM method.高次元のスパース学習は、大規模データ解析に多大な計算挑戦を課しています。本稿では、{\のEM正則化因子}によってパラメータ線形プログラムとして処方スパース学習アプローチの広範なクラスをinvestiage、パラメトリックシンプレックス法(PSM)によってそれらを解決します。 PSMは、他の競合する方法よりもはるかに優れています:(1)PSMは、自然に正則化パラメータのすべての値のための完全なソリューションのパスを取得し、 (2)PSMは、基準を停止する高精度デュアル証明書を提供します。 (3)PSMは非常に数回の反復を通じてまばらなソリューションをもたらし、その溶液のスパース性が大幅に反復ごとの計算コストを削減します。特に、我々は、スパース線形回帰、スパース線形分類のためのスパースサポートベクターマシン、およびまばらな差動ネットワーク推定のためのダンツィークセレクタを含むさまざまなスパース学習アプローチ、オーバーPSMの優位性を示します。私たちは、その後、PSMは、常にその計算性能が大幅にブーストすることができるようなまばらなソリューションを出力するの下で十分な条件を提供しています。徹底した数値実験は、PSM方式の優れたパフォーマンスを発揮するために設けられています。
19 Sparse Additive Machineグループスパース添加マシンA family of learning algorithms generated from additive models have attracted much attention recently for their flexibility and interpretability in high dimensional data analysis. Among them, learning models with grouped variables have shown competitive performance for prediction and variable selection. However, the previous works mainly focus on the least squares regression problem, not the classification task. Thus, it is desired to design the new additive classification model with variable selection capability for many real-world applications which focus on high-dimensional data classification. To address this challenging problem, in this paper, we investigate the classification with group sparse additive models in reproducing kernel Hilbert spaces. A novel classification method, called as \emph{group sparse additive machine} (GroupSAM), is proposed to explore and utilize the structure information among the input variables. Generalization error bound is derived and proved by integrating the sample error analysis with empirical covering numbers and the hypothesis error estimate with the stepping stone technique. Our new bound shows that GroupSAM can achieve a satisfactory learning rate with polynomial decay. Experimental results on synthetic data and seven benchmark datasets consistently show the effectiveness of our new approach.加法モデルから生成された学習アルゴリズムのファミリーは、高次元のデータ分析での柔軟性と解釈可能のため、最近注目を集めています。その中で、グループ化された変数を持つ学習モデルは、予測と変数選択のための競争力のあるパフォーマンスを示しています。しかし、以前の作品は主に最小二乗回帰の問題ではなく、分類タスクに焦点を当てます。したがって、高次元データの分類に焦点を当て、多くの実際のアプリケーションのための変数選択機能を備えた新しい添加物の分類モデルを設計することが望まれます。この困難な問題に対処するために、本論文では、我々は核ヒルベルト空間を再現するにはグループスパース加法モデルと分類を調査します。 \ EMPH {グループスパース添加マシン}(GroupSAM)と呼ばれる新規の分類方法は、入力変数のうち、構造情報を探索し、利用することが提案されています。バインド汎化誤差が導出され、経験的なカバー番号や飛び石法と仮説誤差推定値とサンプルエラー分析を統合することにより証明されます。 GroupSAMは多項式崩壊と満足のいく学習率を達成することができます私たちの新しいバインドを示しています。合成データと7つのベンチマークデータセットに関する実験結果は一貫して私たちの新しいアプローチの有効性を示します。
20 and Rerooting Higher-Order Graphical Models根こそぎとRerooting高次グラフィカルモデルThe idea of uprooting and rerooting graphical models was introduced specifically for binary pairwise models by Weller (2016) as a way to transform a model to any of a whole equivalence class of related models, such that inference on any one model yields inference results for all others. This is very helpful since inference, or relevant bounds, may be much easier to obtain or more accurate for some model in the class. Here we introduce methods to extend the approach to models with higher-order potentials and develop theoretical insights. In particular, we show that the triplet-consistent polytope TRI is unique in being `universally rooted'. We demonstrate empirically that rerooting can significantly improve accuracy of methods of inference for higher-order models at negligible computational cost.グラフィカルモデルを根絶し、rerootingのアイデアは、関連するモデルの全体等価クラスのいずれかにモデルを変換するための方法としてウェラー(2016)によってバイナリペアワイズモデルのために特別に導入された、いずれかのモデルになるように推論は、すべてのための推論結果をもたらします他の人。これは、入手が非常に容易またはクラスのいくつかのモデルのために、より正確であり、推論、または関連する境界以来、非常に便利です。ここでは、高次のポテンシャルを持つモデルへのアプローチを拡張し、理論的な洞察力を開発する方法を紹介します。特に、我々は三重項一貫性のある多面体のTRIは普遍的「根ざし `ことで一意であることを示しています。私たちは、rerootingが大幅に無視できる計算コストで高次モデルの推論の方法の精度を向上させることができることを実験的に示しています。
21 Unreasonable Effectiveness of Structured Random Orthogonal Embeddings構造化されたランダム直交組み込み環境の不合理な効果We examine a class of embeddings based on structured random matrices with orthogonal rows which can be applied in many machine learning applications including dimensionality reduction and kernel approximation. For both the Johnson-Lindenstrauss transform and the angular kernel, we show that we can select matrices yielding guaranteed improved performance in accuracy and/or speed compared to earlier methods. We introduce matrices with complex entries which give significant further accuracy improvement. We provide geometric and Markov chain-based perspectives to help understand the benefits, and empirical results which suggest that the approach is helpful in a wider range of applications.私たちは、次元削減とカーネルの近似を含む多くの機械学習用途に適用することができ、直交行を有する構造化されたランダム行列に基づいて埋め込みのクラスを調べます。ジョンソン・Lindenstraussの両方のために変換し、角度のカーネルは、我々は以前の方法に比べて、精度および/または速度の保証性能向上が得られる行列を選択できることを示しています。私たちは、重要な更なる精度向上を与える複雑なエントリを持つ行列を紹介します。私たちは、アプローチがより広い範囲のアプリケーションに有用であることを示唆している利点、および実証結果を理解するための幾何学的およびマルコフ連鎖ベースの視点を提供しています。
22 Parity to Preference-based Notions of Fairness in Classification分類における公平性選好に基づく観念にパリティからThe adoption of automated, data-driven decision making in an ever expanding range of applications has raised concerns about its potential unfairness towards certain social groups. In this context, a number of recent studies have focused on defining, detecting, and removing unfairness from data-driven decision systems. However, the existing notions of fairness, based on parity (equality) in treatment or outcomes for different social groups, tend to be quite stringent, limiting the overall decision making accuracy. In this paper, we draw inspiration from the fair-division and envy-freeness literature in economics and game theory and propose preference-based notions of fairness -- given the choice between various sets of decision treatments or outcomes, any group of users would collectively prefer its treatment or outcomes, regardless of the (dis)parity as compared to the other groups. Then, we introduce tractable proxies to design margin-based classifiers that satisfy these preference-based notions of fairness. Finally, we experiment with a variety of synthetic and real-world datasets and show that preference-based fairness allows for greater decision accuracy than parity-based fairness.アプリケーションの拡大を続ける範囲で自動化され、データ駆動型の意思決定の採択は、特定の社会集団に対するその潜在的不公平の懸念が高まっています。この文脈では、最近の研究の数は、定義検出、およびデータ駆動型の意思決定システムからの不公平を取り除くことに焦点を当てています。しかし、公正さの既存の概念は、異なる社会集団の治療または転帰におけるパリティ(等価性)に基づいて、精度を作り、全体的な意思決定を制限する、非常に厳格になる傾向があります。本稿では、経済学やゲーム理論における公正分割と羨望-フリーネス文学からインスピレーションを描くと公平性の好みに基づく概念を提案する - 意思決定のトリートメントや成果の様々なセットの間の選択を考えると、ユーザーの任意のグループをまとめだろう関係なく(DIS)パリティの他の群と比較して、その治療または結果を好みます。その後、私たちは、公平性のこれらの好みに基づく概念を満たすマージンベースの分類器を設計するために扱いやすいプロキシをご紹介します。最後に、私たちは、合成および実世界のデータセットの様々な実験や好みに基づく公平性、パリティベースの公正性よりも大きい意思決定の精度を可能にすることを示しています。
23 Generative Model Structure with Static Analysis静的解析と生成モデルの構造を推測Obtaining enough labeled data to robustly train complex discriminative models is a major bottleneck in the machine learning pipeline. A popular solution is combining multiple sources of weak supervision using generative models. The structure of these models affects the quality of the training labels, but is difficult to learn without any ground truth labels. We instead rely on weak supervision sources having some structure by virtue of being encoded programmatically. We present Coral, a paradigm that infers generative model structure by statically analyzing the code for these heuristics, thus significantly reducing the amount of data required to learn structure. We prove that Coral's sample complexity scales quasilinearly with the number of heuristics and number of relations identified, improving over the standard sample complexity, which is exponential in n for learning n-th degree relations. Empirically, Coral matches or outperforms traditional structure learning approaches by up to 3.81 F1 points. Using Coral to model dependencies instead of assuming independence results in better performance than a fully supervised model by 3.07 accuracy points when heuristics are used to label radiology data without ground truth labels.確実に複雑な差別的なモデルを訓練するために標識に十分なデータを取得することは、機械学習のパイプラインの主要なボトルネックとなっています。人気のある解決策は、生成モデルを使用して、弱い監督の複数のソースを組み合わせています。これらのモデルの構造は、トレーニングラベルの品質に影響を与えるが、任意のグランドトゥルースラベルなしで学ぶことは困難です。我々は、代わりに、プログラムで符号化されるのおかげで、いくつかの構造を有する弱い監督ソースに依存しています。私たちは、サンゴ、静的にこれらのヒューリスティックのコードを解析し、大幅な構造を学ぶために必要なデータの量を減らすことにより、生成モデルの構造を推論パラダイムを提示します。私たちは、サンゴのサンプルの複雑さは、n番目の度の関係を学習するためのn個の指数関数的である標準試料の複雑性を、オーバー向上、経験則と識別の関係の数の数とquasilinearlyスケールことを証明しています。経験的には、サンゴは3.81 F1ポイントまですることにより、従来の構造学習アプローチと一致するかよりも優れています。代わりに、ヒューリスティックは、グランドトゥルースラベルなしで放射線データを標識するために使用されている3.07精度ポイントによって完全に教師モデルよりも優れた性能で自立結果を想定しての依存関係をモデル化するためにサンゴを使用しました。
24 Embedding Models for Grouped Dataグループ化されたデータのための構造化された埋め込みモデルWord embeddings are a powerful approach for analyzing language, and exponential family embeddings (EFE) extend them to other types of data. Here we develop structured exponential family embeddings (S-EFE), a method for discovering embeddings that vary across related groups of data. We study how the word usage of U.S. Congressional speeches varies across states and party affiliation, how words are used differently across sections of the ArXiv, and how the co-purchase patterns of groceries can vary across seasons. Key to the success of our method is that the groups share statistical information. We develop two sharing strategies: hierarchical modeling and amortization. We demonstrate the benefits of this approach in empirical studies of speeches, abstracts, and shopping baskets. We show how SEFE enables group-specific interpretation of word usage, and outperforms EFE in predicting held-out data.ワード埋め込み言語を分析するための強力なアプローチであり、指数家族の埋め込み(EFE)は、他のタイプのデータにそれらを拡張します。ここでは、構造化された指数家族の埋め込み(S-EFE)、データの関連グループごとに異なる埋め込みを発見するための方法を開発します。我々は、米国議会演説の言葉の使用は単語がarXivのセクションの間で別々に使用されているか、状態や政党間でどのように変化するかを研究し、どのように食料品の共同購入パターンは、季節ごとに異なることができます。本手法の成功の鍵は、グループは、統計情報を共有することです。階層的モデリングおよび償却:我々は2つの共有戦略を策定します。私たちは、スピーチ、抄録、ショッピングバスケットの実証研究では、このアプローチの利点を実証します。私たちは、SEFEは、単語の使用状況のグループ固有の解釈を可能にし、開催されたアウトデータを予測する際EFEを凌駕する方法を示しています。
25 Linear-Time Kernel Goodness-of-Fit Test線形時間カーネル適合度検定We propose a novel adaptive test of goodness-of-fit, with computational cost linear in the number of samples. We learn the test features that best indicate the differences between observed samples and a reference model, by minimizing the false negative rate. These features are constructed via Stein's method, meaning that it is not necessary to compute the normalising constant of the model. We analyse the asymptotic Bahadur efficiency of the new test, and prove that under a mean-shift alternative, our test always has greater relative efficiency than a previous linear-time kernel test, regardless of the choice of parameters for that test. In experiments, the performance of our method exceeds that of the earlier linear-time test, and matches or exceeds the power of a quadratic-time kernel test. In high dimensions and where model structure may be exploited, our goodness of fit test performs far better than a quadratic-time two-sample test based on the Maximum Mean Discrepancy, with samples drawn from the model.私たちは、サンプルの数で計算コストのリニアで、適合度の新規適応テストを提案します。私たちは、最高の偽陰性率を最小化することにより、観測されたサンプルとリファレンスモデルとの違いを示すテスト機能を学びます。これらの機能は、モデルの正規化定数を計算する必要がないことを意味し、スタインの方法によって構築されています。私たちは、新しいテストの漸近バハドゥール効率を分析し、平均値シフト代替の下で、我々のテストは関係なく、常にそのテストのためのパラメータの選択の、前回の線形時間カーネルのテストよりも大きな相対的効率を持っていることを証明します。実験では、提案手法の性能は、以前の線形時間テストのことを超えて、マッチまたは二次の時のカーネルのテストの力を超えています。高い寸法および場所モデル構造を利用することができるでは、適合試験の我々の良さは、モデルから引き出されたサンプルと、最大平均差異に基づいて、二次タイム二試料試験よりもはるかに良好に機能します。
26 microcircuits as gated-recurrent neural networksゲーテッド・リカレントニューラルネットワークなどの皮質微小回路Cortical circuits exhibit intricate recurrent architectures that are remarkably similar across different brain areas. Such stereotyped structure suggests the existence of common computational principles. However, such principles have remained largely elusive. Inspired by gated-memory networks, namely long short-term memory networks (LSTMs), we introduce a recurrent neural network in which information is gated through inhibitory cells that are subtractive (subLSTM). We propose a natural mapping of subLSTMs onto known canonical excitatory-inhibitory cortical microcircuits. Our empirical evaluation across sequential image classification and language modelling tasks shows that subLSTM units can achieve similar performance to LSTM units. These results suggest that cortical circuits can be optimised to solve complex contextual problems and proposes a novel view on their computational function. Overall our work provides a step towards unifying recurrent networks as used in machine learning with their biological counterparts.皮質回路は、異なる脳領域間で非常に類似しており、複雑な再発のアーキテクチャを示します。このようなステレオタイプの構造は、一般的な計算の原則の存在を示唆しています。しかし、そのような原則は、主にとらえどころのない推移しています。ゲーテッド・メモリ・ネットワーク、すなわち長い短期記憶ネットワーク(LSTMs)に触発され、我々は、情報は、サブトラクティブ(subLSTM)である阻害セルを介してゲートされたリカレントニューラルネットワークを導入します。私たちは、知られている標準的な興奮抑制皮質微小回路上にsubLSTMsの自然なマッピングを提案します。シーケンシャル画像分類と言語モデリング作業全体で私たちの経験的評価がsubLSTMユニットがLSTMユニットと同様の性能を達成できることを示しています。これらの結果は、皮質回路が複雑な文脈の問題を解決するために最適化できることを示唆しているとその計算機能に新しいビューを提案しています。全体的に私たちの仕事は、それらの生物学的同等と機械学習に使用されるようなリカレントネットワークを統一に向けたステップを提供します。
27 and Ordered Weighted Sparsity for Overlapping Groups: Hardness and Algorithms-サポートをkおよび重複グループの加重スパースを順序:硬さとアルゴリズムThe k-support and OWL norms generalize the l1 norm, providing better prediction accuracy and better handling of correlated variables. We study the norms obtained from extending the k-support norm and OWL norms to the setting in which there are overlapping groups. The resulting norms are in general NP-hard to compute, but they are tractable for certain collections of groups. To demonstrate this fact, we develop a dynamic program for the problem of projecting onto the set of vectors supported by a fixed number of groups. Our dynamic program utilizes tree decompositions and its complexity scales with the treewidth. This program can be converted to an extended formulation which, for the associated group structure, models the k-group support norms and an overlapping group variant of the ordered weighted l1 norm. Numerical results demonstrate the efficacy of the new penalties.K-サポートおよびOWL規範は、より良好な予測精度と相関する変数のより良好な取り扱いを提供する、L1ノルムを一般化。私たちは、重複グループがされた設定にK-サポートノルムとOWLの規範を拡張から取得した規範を学びます。結果的規範は、計算がNP困難で、一般的にですが、彼らはグループの特定のコレクションのために扱いやすいです。この事実を証明するために、我々はグループの固定数でサポートされているベクトルの集合に投影の問題のための動的なプログラムを開発します。私たちのダイナミックなプログラムは、木分解を利用し、その複雑さは、ツリー幅に比例します。このプログラムは、関連付けられたグループ構造のため、モデルK-群支持規範となっており、加重L1ノルムの重複グループバリアント拡張製剤に変換することができます。数値結果は、新たな罰則の有効性を示します。
28 simple model of recognition and recall memory認識とリコールメモリの単純なモデルWe show that several striking differences in memory performance between recognition and recall tasks are explained by an ecological bias endemic in classic memory experiments - that such experiments universally involve more stimuli than retrieval cues. We show that while it is sensible to think of recall as simply retrieving items when probed with a cue - typically the item list itself - it is better to think of recognition as retrieving cues when probed with items. To test this theory, by manipulating the number of items and cues in a memory experiment, we show a crossover effect in memory performance within subjects such that recognition performance is superior to recall performance when the number of items is greater than the number of cues and recall performance is better than recognition when the converse holds. We build a simple computational model around this theory, using sampling to approximate an ideal Bayesian observer encoding and retrieving situational co-occurrence frequencies of stimuli and retrieval cues. This model robustly reproduces a number of dissociations in recognition and recall previously used to argue for dual-process accounts of declarative memory.そのような実験は、普遍的に検索手がかりよりも多くの刺激を伴うこと - 私たちは認識してリコールタスク間のメモリ性能のいくつかの印象的な違いは、古典的なメモリの実験で流行生態バイアスによって説明されていることを示しています。通常、アイテムリスト自体を - - 私たちは、それが賢明である一方、キューでプローブしたときに、単に取得する項目として、リコールを考えていることを示し、アイテムでプローブしたときに手がかりを取得するよう認識を考える方が良いです。メモリ実験でアイテムや手がかりの数を操作することにより、この理論をテストするために、我々は認識性能は項目数がキューの数よりも大きいとされたときにパフォーマンスを思い出して優れているような被験者内のメモリ性能のクロスオーバー効果を示しますリコールのパフォーマンスが逆は成立した場合の認識よりも優れています。私たちは、理想的なベイズオブザーバーエンコーディングを近似するためにサンプリングを使用し、刺激と検索手がかりの状況共起頻度を取得し、この理論を中心に、簡単な計算モデルを構築します。このモデルは、堅牢認識に解離の数を再現し、以前に宣言型メモリのデュアルプロセスアカウントを主張するために使用さを思い出してください。
29 Structured Prediction Theory with Calibrated Convex Surrogate Lossesキャリブレーション凸サロゲート損失と構造予測理論についてWe provide novel theoretical insights on structured prediction in the context of efficient convex surrogate loss minimization with consistency guarantees. For any task loss, we construct a convex surrogate that can be optimized via stochastic gradient descent and we prove tight bounds on the so-called ""calibration function"" relating the excess surrogate risk to the actual risk. In contrast to prior related work, we carefully monitor the effect of the exponential number of classes in the learning guarantees as well as on the optimization complexity. As an interesting consequence, we formalize the intuition that some task losses make learning harder than others, and that the classical 0-1 loss is ill-suited for structured prediction.私たちは、一貫性の保証と効率的な凸代理損失の最小化の文脈における構造化された予測の小説の理論的な洞察を提供しています。任意のタスクの損失については、我々は確率的勾配降下を経由して最適化することができ、凸サロゲートを構築し、我々は実際のリスクに過剰代理リスクに関連する、いわゆる「」キャリブレーション機能「」にタイトな境界を証明します。従来の関連作業とは対照的に、我々は慎重に学習保証ならびに最適化の複雑さに、クラスの指数関数的な数の影響を監視します。面白い結果として、我々はいくつかのタスクの損失が他よりも学習難しく、そして古典0-1損失は、構造化された予測に不向きであることを直感を正式。
30 of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model両方の長所:ジェネレーティブ・ビジュアルダイアログモデルに弁別学習から知識を転送しますWe present a novel training framework for neural sequence models, particularly for grounded dialog generation. The standard training paradigm for these models is maximum likelihood estimation (MLE), or minimizing the cross-entropy of the human responses. Across a variety of domains, a recurring problem with MLE trained generative neural dialog models (G) is that they tend to produce 'safe' and generic responses like ""I don't know"", ""I can't tell""). In contrast, discriminative dialog models (D) that are trained to rank a list of candidate human responses outperform their generative counterparts; in terms of automatic metrics, diversity, and informativeness of the responses. However, D is not useful in practice since it can not be deployed to have real conversations with users. Our work aims to achieve the best of both worlds -- the practical usefulness of G and the strong performance of D -- via knowledge transfer from D to G. Our primary contribution is an end-to-end trainable generative visual dialog model, where G receives gradients from D as a perceptual (not adversarial) loss of the sequence sampled from G. We leverage the recently proposed Gumbel-Softmax (GS) approximation to the discrete distribution -- specifically, a RNN is augmented with a sequence of GS samplers, which coupled with the straight-through gradient estimator enables end-to-end differentiability. We also introduce a stronger encoder for visual dialog, and employ a self-attention mechanism for answer encoding along with a metric learning loss to aid D in better capturing semantic similarities in answer responses. Overall, our proposed model outperforms state-of-the-art on the VisDial dataset by a significant margin (2.67% on recall@10). The source code can be downloaded from私たちは、特に接地ダイアログ世代のために、神経のシーケンスモデルのための新規の研修の枠組みを提示します。これらのモデルのための標準的なトレーニングパラダイムは、最尤推定(MLE)、またはヒトの応答のクロスエントロピーを最小化です。ドメインの多様渡って、MLEとの定期的な問題は、訓練された生成ニューラルダイアログモデル(G)は、彼らが「私が言うことができない」」、「「私は知りません」」のような「安全」と一般的な応答を生成する傾向があることです「)。これとは対照的に、訓練を受けている差別ダイアログモデル(D)は、ヒトの応答はその生成的な対応を上回る候補者のリストをランク付けします。自動メトリック、多様性、および応答の情報提供の観点インチユーザーとの実際の会話を持つように展開することができないので、Dは、実際には有用ではありません。当社の主要な貢献は、エンドツーエンドのトレーニング可能な生成的な視覚的な対話モデルで、あるG.にDからの知識の伝達を介した - Gの実用性とDの好調 - 私たちの仕事は、両方の長所を達成することを目指して具体的には、RNNは、GSサンプラーのシーケンスで増強された - Gは、我々は離散分布に最近提案ガンベル、ソフトマックス(GS)近似を利用G.からサンプリングシーケンスの知覚(敵対ない)損失としてDから勾配を受け取ります、ストレート勾配推定器に結合されたエンドツーエンドの微分を可能にします。また、視覚的な対話のための強力なエンコーダを導入し、より良い解答応答でセマンティックの類似点を獲得してDを支援するためにメトリック学習損失と一緒に答え符号化のために自己の注目メカニズムを採用しています。全体的に、私たちの提案モデルは、大きなマージン(10 @リコールの2.67パーセント)でVisDialデータセットに最先端のよりも性能が優れています。ソースコードはからダウンロードすることができます
31 Instance Level Video Object SegmentationMaskRNN:インスタンス・レベルのビデオオブジェクトセグメンテーションInstance level video object segmentation is an important technique for video editing and compression. To capture the temporal coherence, in this paper, we develop MaskRNN, a recurrent neural net approach which fuses in each frame the output of two deep nets for each object instance - a binary segmentation net providing a mask and a localization net providing a bounding box. Due to the recurrent component and the localization component, our method is able to take advantage of long-term temporal structures of the video data as well as rejecting outliers. We validate the proposed algorithm on three challenging benchmark datasets, the DAVIS-2016 dataset, the DAVIS-2017 dataset, and the Segtrack v2 dataset, achieving state-of-the-art performance on all of them.インスタンス・レベルのビデオオブジェクトセグメンテーションは、ビデオ編集や圧縮のための重要な技術です。時間的コヒーレンスをキャプチャするには、この論文では、我々は、各フレーム内の各オブジェクトインスタンスのための2つの深いネットの出力を融合リカレントニューラルネットアプローチをMaskRNNを開発 - バイナリセグメンテーションネットはバウンディングボックスを提供するマスクとローカリゼーションネットを提供します。再発コンポーネントおよびローカリゼーション・コンポーネントに、私たちの方法は、ビデオデータの長期的な時間的構造の利点だけでなく、拒否外れ値を取ることが可能です。私たちは、それらのすべてに最先端のパフォーマンスを実現し、3つの挑戦ベンチマークデータセット、DAVIS-2016のデータセット、DAVIS-2017のデータセット、およびSegtrack v2のデータセットで提案したアルゴリズムを検証します。
32 Recurrent Convolution Neural Network for OCROCRの断続再発コンボリューションニューラルネットワークOptical Character Recognition (OCR) aims to recognize text in natural images. Inspired by a recently proposed model for general image classification, Recurrent Convolution Neural Network (RCNN), we propose a new architecture named Gated RCNN (GRCNN) for solving this problem. Its critical component, Gated Recurrent Convolution Layer (GRCL), is constructed by adding a gate to the Recurrent Convolution Layer (RCL), the critical component of RCNN. The gate controls the context modulation in RCL and balances the feed-forward information and the recurrent information. In addition, an efficient Bidirectional Long Short-Term Memory (BLSTM) is built for sequence modeling. The GRCNN is combined with BLSTM to recognize text in natural images. The entire GRCNN-BLSTM model can be trained end-to-end. Experiments show that the proposed model outperforms existing methods on several benchmark datasets including the IIIT-5K, Street View Text (SVT) and ICDAR.光学式文字認識(OCR)は、自然画像にテキストを認識することを目指しています。一般的な画像分類、再発コンボリューションニューラルネットワーク(RCNN)のために最近提案されたモデルに触発され、我々はこの問題を解決するためのゲーテッドRCNN(GRCNN)という名前の新しいアーキテクチャを提案します。その重要なコンポーネント、ゲーテッド再発畳み込みレイヤ(GRCL)は、再発畳み込みレイヤ(RCL)、RCNNの重要なコンポーネントにゲートを追加することによって構成されています。ゲートは、RCLのコンテキスト変調を制御し、フィードフォワード情報および再発情報のバランスをとります。また、効率的な双方向長期短期記憶(BLSTM)は、シーケンスモデリングのために構築されています。 GRCNNは、自然画像内のテキストを認識するためにBLSTMと組み合わされます。全体GRCNN-BLSTMモデルは、エンドツーエンドを訓練することができます。実験は、提案されたモデルは、IIIT-5K、ストリートビューのテキスト(SVT)とICDARを含むいくつかのベンチマークデータセット上の既存の方法よりも優れていることを示しています。
33 Accurate Binary Convolutional Neural Network正確なバイナリ畳み込みニューラルネットワークに向けてWe introduce a novel scheme to train binary convolutional neural networks (CNNs) -- CNNs with weights and activations constrained to \{-1,+1\} at run-time. It has been known that using binary weights and activations drastically reduce memory size and accesses, and can replace arithmetic operations with more efficient bitwise operations, leading to much faster test-time inference and lower power consumption. However, previous works on binarizing CNNs usually result in severe prediction accuracy degradation. In this paper, we address this issue with two major innovations: (1) approximating full-precision weights with the linear combination of multiple binary weight bases; (2) employing multiple binary activations to alleviate information loss. The implementation of the resulting binary CNN, denoted as ABC-Net, is shown to achieve much closer performance to its full-precision counterpart, and even reach the comparable prediction accuracy on ImageNet and forest trail datasets, given adequate binary weight bases and activations.実行時に - \に制約重みおよび活性化とCNNs { - 1、+ 1 \}我々は、バイナリ畳み込みニューラルネットワーク(CNNs)を訓練するための新規なスキームを導入します。バイナリ重みとアクティベーションを使用して大幅にメモリサイズを削減し、アクセスすることが知られており、はるかに高速テスト時間推論と低消費電力化につながる、より効率的なビット演算と算術演算を置き換えることができます。しかし、二値化CNNs上の以前の作品は、通常、厳しい予測精度の低下につながります。本稿では、二つの主要な技術革新と、この問題に対処:(1)複数のバイナリ重量拠点の線形結合との完全な精度の重みを近似します。 (2)情報の損失を軽減するために複数のバイナリアクティベーションを採用します。 ABC-Netのように示される得られたバイナリCNNの実装は、適切なバイナリ重み塩基および活性化与えられ、その完全精度対応物にはるかに近い性能を達成、さらにImageNet及び森林証跡データセットに匹敵する予測精度に到達するように示されています。
34 Learning for Optical Flow with Generative Adversarial Networksジェネレーティブ敵対ネットワークとのオプティカルフローのための半教師付き学習Convolutional neural networks (CNNs) have recently been applied to the optical flow estimation problem. As training the CNNs requires sufficiently large ground truth training data, existing approaches resort to synthetic, unrealistic datasets. On the other hand, unsupervised methods are capable of leveraging real-world videos for training where the ground truth flow fields are not available. These methods, however, rely on the fundamental assumptions of brightness constancy and spatial smoothness priors which do not hold near motion boundaries. In this paper, we propose to exploit unlabeled videos for semi-supervised learning of optical flow with a Generative Adversarial Network. Our key insight is that the adversarial loss can capture the structural patterns of flow warp errors without making explicit assumptions. Extensive experiments on benchmark datasets demonstrate that the proposed semi-supervised algorithm performs favorably against purely supervised and semi-supervised learning schemes.畳み込みニューラルネットワーク(CNNs)は最近、オプティカルフロー推定問題に適用されてきました。 CNNsを訓練することは十分に大きなグランドトゥルーストレーニングデータを必要とするので、既存の合成、非現実的なデータセットにリゾートに近づきます。一方、教師なしの方法がグランドトゥルース・フロー・フィールドは使用できません訓練のために、現実世界の映像を活用することができます。しかし、これらの方法は、運動の境界付近で保持していない基本的な明るさの恒常の仮定および空間的な滑らかさの事前分布に依存しています。本稿では、ジェネレーティブ敵対ネットワークとオプティカルフローの半教師あり学習のための標識されていない動画を活用することを提案します。当社の主要な洞察を敵対損失は、明示的な仮定をせずに、フローワープエラーの構造パターンを捉えることができるということです。ベンチマークデータセットの広範な実験は、提案された半教師アルゴリズムは純粋に教師と半教師あり学習スキームに対して好意的に実行することを実証しています。
35 a Multi-View Stereo Machineマルチビューステレオマシンを学びますWe present a learnt system for multi-view stereopsis. In contrast to recent learning based methods for 3D reconstruction, we leverage the underlying 3D geometry of the problem through feature projection and unprojection along viewing rays. By formulating these operations in a differentiable manner, we are able to learn the system end-to-end for the task of metric 3D reconstruction. End-to-end learning allows us to jointly reason about shape priors while conforming to geometric constraints, enabling reconstruction from much fewer images (even a single image) than required by classical approaches as well as completion of unseen surfaces. We thoroughly evaluate our approach on the ShapeNet dataset and demonstrate the benefits over classical approaches and recent learning based methods.私たちは、マルチビュー立体視のための学びのシステムを提示します。 3D再構成のための最近の学習ベースの方法とは対照的に、我々は視線に沿っ特徴投影とunprojectionを通じて、問題の根本的な3Dジオメトリを活用します。微分可能な方法でこれらの操作を配合することにより、我々は、メトリック3D再構成のタスクのためにシステムのエンド・ツー・エンドを学ぶことができます。エンドツーエンドの学習は、古典的なアプローチだけでなく、目に見えない面の完了によって必要とされるよりもはるかに少ない画像(1つでも画像)から再構成を可能にする、幾何学的制約に準拠しながら、私たちは共同形状事前分布について推論することを可能にします。我々は徹底的にShapeNetデータセットに我々のアプローチを評価し、古典的なアプローチと最近の学習ベースの方法に比べて利点を示します。
36 Transitions in the Pooled Data Problemプールされたデータの問題で相転移In this paper, we study the {\em pooled data} problem of identifying the labels associated with a large collection of items, based on a sequence of pooled tests revealing the counts of each label within the pool. In the noiseless setting, we identify an exact asymptotic threshold on the required number of tests with optimal decoding, and prove a {\em phase transition} between complete success and complete failure. In addition, we present a novel {\em noisy} variation of the problem, and provide an information-theoretic framework for characterizing the required number of tests for general random noise models. Our results reveal that noise can make the problem considerably more difficult, with strict increases in the scaling laws even at low noise levels. Finally, we demonstrate similar behavior in an {\em approximate recovery} setting, where a given number of errors is allowed in the decoded labels.本稿では、プール内の各ラベルの数を明らかにプールされた一連のテストに基づいて、アイテムの大規模なコレクションに関連したラベルを、特定の{\ EMは、データを集め}問題を研究します。ノイズレス設定において、我々は、最適な復号を用いた試験の必要数に正確な漸近しきい値を識別し、完全な成功と完全な失敗の間{\のEM相転移を}証明します。加えて、我々は、新規{\ EM騒々しい}問題のバリエーションを提示し、そして一般的なランダムノイズモデルのテストの必要な数を特徴付けるための情報理論的枠組みを提供します。我々の結果は、ノイズも低ノイズレベルでスケーリング則における厳格な増加と、問題はかなり困難になりますことを明らかにしました。最後に、我々は、エラーの特定の数は、復号ラベルで許可されている{\ EMおおよその回復}の設定、で同様の挙動を示しています。
37 Style Transfer via Feature Transformsフィーチャートランスフォームを経由してユニバーサルスタイル転送Universal style transfer aims to transfer arbitrary visual styles to content images. Existing feed-forward based methods, while enjoying the inference efficiency, are mainly limited by inability of generalizing to unseen styles or compromised visual quality. In this paper, we present a simple yet effective method that tackles these limitations without training on any pre-defined styles. The key ingredient of our method is a pair of feature transforms, whitening and coloring, that are embedded to an image reconstruction network. The whitening and coloring transforms reflect direct matching of feature covariance of the content image to a given style image, which shares similar spirits with the optimization of Gram matrix based cost in neural style transfer. We demonstrate the effectiveness of our algorithm by generating high-quality stylized images with comparisons to a number of recent methods. We also analyze our method by visualizing the whitened features and synthesizing textures by simple feature coloring.ユニバーサルスタイルの転送は、コンテンツ画像に任意の視覚的なスタイルを転送することを目指しています。推論効率を楽しみながら、フィードフォワードに基づく方法を、既存の、主に見えないスタイルまたは損なわ視覚的品質に一般化できないことによって制限されます。本稿では、任意の事前定義されたスタイルで訓練なしこれらの制限に取り組むシンプルで効果的な方法を提示します。我々の方法の重要な要素は、画像再構成のネットワークに埋め込まれている特徴の変換、白化及び着色の対です。美白や着色の変換は、神経スタイルの転送におけるグラム行列に基づくコストの最適化と同様の精神を共有する特定のスタイルの画像、コンテンツへの画像の特徴の共分散の直接のマッチングを反映しています。我々は最近、多くの方法に比較して高品質な様式化された画像を生成することにより、当社のアルゴリズムの有効性を示します。また、白色化機能を可視化し、シンプルな機能の発色によりテクスチャを合成することによって私たちの方法を分析します。
38 the Model Shrinkage Effect of Gamma Process Edge Partition Modelsガンマ処理エッジパーティションモデルのモデル収縮効果についてThe edge partition model (EPM) is a fundamental Bayesian nonparametric model for extracting an overlapping structure from binary matrix. The EPM adopts a gamma process ($\Gamma$P) prior to automatically shrink the number of active atoms. However, we empirically found that the model shrinkage of the EPM does not typically work appropriately and leads to an overfitted solution. An analysis of the expectation of the EPM's intensity function suggested that the gamma priors for the EPM hyperparameters disturb the model shrinkage effect of the internal $\Gamma$P. In order to ensure that the model shrinkage effect of the EPM works in an appropriate manner, we proposed two novel generative constructions of the EPM: CEPM incorporating constrained gamma priors, and DEPM incorporating Dirichlet priors instead of the gamma priors. Furthermore, all DEPM's model parameters including the infinite atoms of the $\Gamma$P prior could be marginalized out, and thus it was possible to derive a truly infinite DEPM (IDEPM) that can be efficiently inferred using a collapsed Gibbs sampler. We experimentally confirmed that the model shrinkage of the proposed models works well and that the IDEPM indicated state-of-the-art performance in generalization ability, link prediction accuracy, mixing efficiency, and convergence speed.エッジ・パーティション・モデル(EPM)は、バイナリ行列から重複構造を抽出するための基本的なベイジアンノンパラメトリックモデルです。 EPMは、自動的にアクティブ原子の数を縮小する前にガンマ処理($ \ガンマ$ P)を採用しています。しかし、我々は経験的にEPMのモデル収縮は通常、適切に機能してoverfitted解決につながるしないことがわかりました。 EPMの強度関数の期待の分析は、EPMのハイパーガンマ事前確率は、内部$ \ガンマ$ Pのモデル収縮効果を乱すことが示唆されました。 CEPMが制約ガンマ事前分布を組み込んだ、そしてDEPMはディリクレ事前分布の代わりにガンマ事前確率を組み込む:EPMのモデル収縮効果は、適切な方法で動作することを確実にするために、我々は、EPMの2つの新規生成的構造を提案しました。さらに、$ \ガンマ$ Pの無限の原子を含む、すべてのDEPMのモデルパラメータが前に出て取り残さすることができ、ひいては効率的に崩壊しギブスサンプラーを使用して推測することができ、本当に無限DEPM(IDEPM)を導出することが可能でした。我々は実験的に提案されたモデルのモデル収縮が十分とIDEPMが汎化能力、リンクの予測精度、混合効率、及び収束速度における最先端の性能を示すことが動作することを確認しました。
39 Guided Person Image Generationガイド人物画像生成ポーズThis paper proposes the novel Pose Guided Person Generation Network (PG$^2$) that allows to synthesize person images in arbitrary poses, based on an image of that person and a novel pose. Our generation framework PG$^2$ utilizes the pose information explicitly and consists of two key stages: pose integration and image refinement. In the first stage the condition image and the target pose are fed into a U-Net-like network to generate an initial but coarse image of the person with the target pose. The second stage then refines the initial and blurry result by training a U-Net-like generator in an adversarial way. Extensive experimental results on both 128$\times$64 re-identification images and 256$\times$256 fashion photos show that our model generates high-quality person images with convincing details.本論文では、人世代ネットワーク、その人とポーズを小説の画像に基づいて、任意のポーズで人の画像を合成することができます(PG $ ^ 2 $)、ガイド付きポーズ小説を提案しています。私たちの世代のフレームワークPG $ ^ 2 $は明示的にポーズ情報を利用し、二つの重要な段階で構成されています:統合とイメージ改善をもたらします。第一段階では、条件画像とターゲットポーズ対象の人の初期しかし粗い画像を生成するために、U-網目状ネットワークに供給されるポーズ。第二段階は、次に、敵対ようにU-網状発生器を訓練することによって初期およびぼやけた結果を洗練します。 128 $ \回$ 64個の再識別画像の両方で広範な実験結果と256枚の$ \回$ 256ファッション写真は、我々のモデルは、説得力のある内容で、高品質な人物の画像を生成することを示しています。
40 in Graphical Models via Semidefinite Programming Hierarchies半正定値計画階層を介したグラフィカルモデルにおける推論Maximum A posteriori Probability (MAP) inference in graphical models amounts to solving a graph-structured combinatorial optimization problem. Popular inference algorithms such as belief propagation (BP) and generalized belief propagation (GBP) are intimately related to linear programming (LP) relaxation within the Sherali-Adams hierarchy. Despite the popularity of these algorithms, it is well understood that the Sum-of-Squares (SOS) hierarchy based on semidefinite programming (SDP) can provide superior guarantees. Unfortunately, SOS relaxations for a graph with $n$ vertices require solving an SDP with $n^{\Theta(d)}$ variables where $d$ is the degree in the hierarchy. In practice, for $d\ge 4$, this approach does not scale beyond a few tens of variables. In this paper, we propose binary SDP relaxations for MAP inference using the SOS hierarchy with two innovations focused on computational efficiency. Firstly, in analogy to BP and its variants, we only introduce decision variables corresponding to contiguous regions in the graphical model. Secondly, we solve the resulting SDP using a non-convex Burer-Monteiro style method, and develop a sequential rounding procedure. We demonstrate that the resulting algorithm can solve problems with tens of thousands of variables within minutes, and outperforms BP and GBP on practical problems such as image denoising and Ising spin glasses. Finally, for specific graph types, we establish a sufficient condition for the tightness of the proposed partial SOS relaxation.グラフィカルモデルの最大事後確率(MAP)推論は、グラフ構造の組合せ最適化問題を解くことになります。そのような信念伝搬(BP)及び一般信念伝搬(GBP)などの一般的推論アルゴリズムは密接シェラリアダムス階層内の線形プログラミング(LP)の緩和に関連しています。これらのアルゴリズムの人気にもかかわらず、十分に半正定値計画(SDP)に基づく和の二乗(SOS)階層は、優れた保証を提供することができることを理解されたいです。残念ながら、$ N $頂点を持つグラフのSOS弛緩は、$ D $は階層の次数である$ N ^ {\シータ(D)} $変数をSDPを解く必要。実際には、$ D \ GE 4 $のために、このアプローチは、変数の数十を超えて拡張できません。本稿では、計算効率に焦点を当てた2つの革新とSOS階層を使用してMAP推論のためのバイナリSDP緩和を提案します。まず、BPとその亜種と同様に、我々は唯一のグラフィカルモデルに連続した領域に対応する決定変数を導入します。第二に、我々は、非凸Burer・モンテイロスタイルの方法を使用したSDPを解決し、シーケンシャル丸め手順を開発します。我々は、得られたアルゴリズムは、数十分内の変数の数千の有する問題点を解決できることを実証し、このような画像ノイズ除去とイジングスピングラスのような実際的な問題にBPおよびGBPを凌駕します。最後に、特定のグラフの種類のために、我々は、提案された部分SOS緩和の気密性のための十分条件を確立します。
41 Importance Using Decision Trees決定木を用いた可変重要性Decision trees and random forests are well established models that not only offer good predictive performance, but also provide rich feature importance information. While practitioners often employ variable importance methods that rely on this impurity-based information, these methods remain poorly characterized from a theoretical perspective. We provide novel insights into the performance of these methods by deriving finite sample performance guarantees in a high-dimensional setting under various modeling assumptions. We further demonstrate the effectiveness of these impurity-based methods via an extensive set of simulations.決定木とランダム森林はうまく良い予測性能を提供するだけでなく、豊富な機能の重要情報を提供するだけでなく、モデルを確立しています。実務家は、多くの場合、この不純物ベースの情報に依存している変数の重要度法を採用しながら、これらの方法は、理論的な観点からの特徴付けが乏しいまま。私たちは、さまざまなモデルの仮定の下で、高次元の設定で有限サンプル性能保証を得ることによって、これらのメソッドのパフォーマンスに新たな洞察を提供します。私たちは、さらに、シミュレーションの大規模なセットを介してこれらの不純物に基づいた方法の有効性を示します。
42 Gradient Explosions in Gated Recurrent Unitsゲーテッド再発単位でグラデーション爆発の防止A gated recurrent unit (GRU) is a successful recurrent neural network architecture for time-series data. The GRU is typically trained using a gradient-based method, which is subject to the exploding gradient problem in which the gradient increases significantly. This problem is caused by an abrupt change in the dynamics of the GRU due to a small variation in the parameters. In this paper, we find a condition under which the dynamics of the GRU changes drastically and propose a learning method to address the exploding gradient problem. Our method constrains the dynamics of the GRU so that it does not drastically change. We evaluated our method in experiments on language modeling and polyphonic music modeling. Our experiments showed that our method can prevent the exploding gradient problem and improve modeling accuracy.ゲーテッド再発ユニット(GRU)は、時系列データのための成功したリカレントニューラルネットワークアーキテクチャです。 GRUは、典型的には有意で勾配が増加爆発勾配問題にさらされる勾配に基づく方法を使用して訓練されます。この問題は、原因パラメータの小さな変化にGRUの動態の急激な変化によって引き起こされます。本稿では、GRUのダイナミクスが急激に変化し、爆発勾配の問題に対処するための学習法を提案する条件を見つけます。それは劇的に変化しないように私たちの方法は、GRUのダイナミクスを制約します。私たちは、言語モデルとポリフォニー音楽のモデリング上の実験で提案手法を評価しました。私たちの実験では、我々の方法が爆発勾配問題を回避し、モデリングの精度を向上させることができることを示しました。
43 the Power of Truncated SVD for General High-rank Matrix Estimation Problems一般的な高ランク行列推定問題の切り捨てられたSVDの電源オンWe show that given an estimate $\widehat{\mat A}$ that is close to a general high-rank positive semi-definite (PSD) matrix $\mat A$ in spectral norm (i.e., $\|\widehat{\mat A}-\mat A\|_2 \leq \delta$), the simple truncated Singular Value Decomposition of $\widehat{\mat A}$ produces a multiplicative approximation of $\mat A$ in Frobenius norm. This observation leads to many interesting results on general high-rank matrix estimation problems: 1.High-rank matrix completion: we show that it is possible to recover a {general high-rank matrix} $\mat A$ up to $(1+\varepsilon)$ relative error in Frobenius norm from partial observations, with sample complexity independent of the spectral gap of $\mat A$. 2.High-rank matrix denoising: we design algorithms that recovers a matrix $\mat A$ with relative error in Frobenius norm from its noise-perturbed observations, without assuming $\mat A$ is exactly low-rank. 3.Low-dimensional estimation of high-dimensional covariance: given $N$ i.i.d.~samples of dimension $n$ from $\mathcal N_n(\mat 0,\mat A)$, we show that it is possible to estimate the covariance matrix $\mat A$ with relative error in Frobenius norm with $N\approx n$,improving over classical covariance estimation results which requires $N\approx n^2$.\ widehat {\ |私たちは、スペクトル規範で一般的な高ランクの半正定値(PSD)は、行列の$ \マットA $に近い推定$の\のwidehat {\マットA} $(すなわち、$ \を与えられたことを示していますマットA} - \マットA \ | _2 \当量の\デルタ$)、$ \ widehat {\マットA} $の簡単な切り捨て特異値分解は、フロベニウスノルムで$ \マットA $の乗法近似値を生成します。 1.高ランクの行列補完:この観察は、一般的な高ランク行列推定問題に関する多くの興味深い結果につながり、我々は$(1まで{一般的な高ランク行列} $の\マットA $を回収することが可能であることを示しています+ \ varepsilon)は$ \マット$のスペクトルギャップの独立したサンプルの複雑さと、部分観測からのフロベニウスノルムの相対誤差を$。 2.高ランクの行列のノイズ除去:我々はA $の$ \マットを仮定せずに、そのノイズ摂動観測からフロベニウスノルムの相対誤差で行列の$ \マットA $を回復するアルゴリズムを設計し、正確に、低ランクです。高次元の共分散の3.Low次元推定:与えられたの$ N $のIIDは〜$ \ mathcal N_N(\マット0、\マットA)$から次元の$ n $のサンプルが、我々は共分散を推定することが可能であることを示しています$ N \約N ^ 2 $を必要とマトリックスの$ \マットAの$ N \の約n個の$でのフロベニウスノルムの相対誤差と$、古典共分散推定結果の上に改善します。
44 in an Information Geometric Nutshell情報幾何一言でF-ガンズNowozin \textit{et al} showed last year how to extend the GAN \textit{principle} to all $f$-divergences. The approach is elegant but falls short of a full description of the supervised game, and says little about the key player, the generator: for example, what does the generator actually converge to if solving the GAN game means convergence in some space of parameters? How does that provide hints on the generator's design and compare to the flourishing but almost exclusively experimental literature on the subject? In this paper, we unveil a broad class of distributions for which such convergence happens --- namely, deformed exponential families, a wide superset of exponential families ---. We show that current deep architectures are able to factorize a very large number of such densities using an especially compact design, hence displaying the power of deep architectures and their concinnity in the $f$-GAN game. This result holds given a sufficient condition on \textit{activation functions} --- which turns out to be satisfied by popular choices. The key to our results is a variational generalization of an old theorem that relates the KL divergence between regular exponential families and divergences between their natural parameters. We complete this picture with additional results and experimental insights on how these results may be used to ground further improvements of GAN architectures, via (i) a principled design of the activation functions in the generator and (ii) an explicit integration of proper composite losses' link function in the discriminator.Nowozin \ textit {ら}すべて$ F型の$ -divergencesにGANの\ textit {}原理を拡張する方法を昨年示しました。アプローチは、エレガントであるが、教師ゲームの完全な説明を下回ると、キープレーヤー、発電機について少し述べている:GANゲームを解決するいくつかのパラメータ空間での収束を意味している場合、たとえば、発電機は実際に何を収束していますか?どのようにそれは、発電機の設計上のヒントを提供し、対象の繁栄が、ほぼ独占的に実験的文献と比べてどうですか?本稿では、そのような収束が起きたために---つまり、指数家族を変形し、指数家族の広いスーパーセットを---分布の幅広いクラスを発表します。私たちは、現在の深いアーキテクチャは、したがって、深いアーキテクチャのパワーと$ F $の-GaNゲームで自分のconcinnityを表示し、特にコンパクトな設計を使用して、このような密度の非常に大きな数を因数分解することが可能であることを示しています。この結果は、人気のある選択肢が満足することが判明したの\ textit {活性化関数} ---に十分な条件を与え保持します。我々の結果への鍵は、その天然のパラメータの間の定期的な指数家族と相違間のKLダイバージェンスに関する古い定理の変一般化したものです。我々は、(i)発電における活性化関数の原則に基づいた設計と適切な複合損失の(ⅱ)明示的な統合により、追加の結果と、これらの結果は、GANアーキテクチャのさらなる改善を接地するために使用することができる方法についての実験的な洞察力でこの絵を完成します弁別の「リンク機能。
45 Multimodal Image-to-Image Translationマルチモーダル画像間の翻訳を目指してMany image-to-image translation problems are ambiguous, as a single input image may correspond to multiple possible outputs. In this work, we aim to model a distribution of possible outputs in a conditional generative modeling setting. The ambiguity of the mapping is distilled in a low-dimensional latent vector, which can be randomly sampled at test time. A generator learns to map the given input, combined with this latent code, to the output. We explicitly encourage the connection between output and the latent code to be invertible. This helps prevent a many-to-one mapping from the latent code to the output during training, also known as the problem of mode collapse, and produces more diverse results. We explore several variants of this approach by employing different training objectives, network architectures, and methods of injecting the latent code. Our proposed method encourages bijective consistency between the latent encoding and output modes. We present a systematic comparison of our method and other variants on both perceptual realism and diversity.単一の入力画像が複数の可能な出力に対応することができるように多くの画像間の変換の問題は、曖昧です。本研究では、条件付きの生成的モデリングの設定で可能な出力の分布をモデル化することを目指しています。マッピングのあいまいさをランダムに試験時間でサンプリングすることができる低次元潜在ベクトル、で蒸留します。発電機は、出力のために、この潜在コードと組み合わせて与えられた入力をマッピングするために学習します。私たちは、明示的に可逆であることを出力し、潜在コードとの間の接続を促します。また、これはモードの崩壊の問題として知られているトレーニング中に潜伏コードから出力する多対1のマッピングを、防ぐことができますし、より多様な結果が得られます。我々は、さまざまな研修の目的、ネットワークアーキテクチャ、および潜在コードを注入する方法を採用することにより、このアプローチのいくつかの変形を探ります。提案手法は、潜在エンコーディングと出力モードとの間の全単射の一貫性を促進します。私たちは、知覚的リアリズムと多様性の両方で私たちの方法や他の変異体の系統的な比較を提示します。
46 Matrix Approximation for Collaborative Filtering協調フィルタリングのための混合物、ランク行列の近似Low-rank matrix approximation (LRMA) methods have achieved excellent accuracy among today's collaborative filtering (CF) methods. In existing LRMA methods, the rank of user/item feature matrices is typically fixed, i.e., the same rank is adopted to describe all users/items. However, our studies show that submatrices with different ranks could coexist in the same user-item rating matrix, so that approximations with fixed ranks cannot perfectly describe the internal structures of the rating matrix, therefore leading to inferior recommendation accuracy. In this paper, a mixture-rank matrix approximation (MRMA) method is proposed, in which user-item ratings can be characterized by a mixture of LRMA models with different ranks. Meanwhile, a learning algorithm capitalizing on iterated condition modes is proposed to tackle the non-convex optimization problem pertaining to MRMA. Experimental studies on MovieLens and Netflix datasets demonstrate that MRMA can outperform six state-of-the-art LRMA-based CF methods in terms of recommendation accuracy.低ランク行列近似(LRMA)メソッドは、今日の協調フィルタリング(CF)法の中で優れた精度を達成しています。既存のLRMA方法において、ユーザ/アイテム特徴行列のランクは、典型的に、すなわち、同じランクの全てのユーザ/アイテムを記述するために採用され、固定されています。しかし、我々の研究は、固定されたランクとの近似が完全ので、劣っ推薦精度につながる、格付けマトリックスの内部構造を記述することができないように異なるランクとの部分行列は、同じユーザーが項目の評価マトリックスに共存することができることを示しています。この論文では、混合ランク行列近似(MRMA)メソッドは、ユーザのアイテム評価が異なるランクとLRMAモデルの混合物によって特徴付けすることが可能な、提案されています。一方、反復条件モードを活かした学習アルゴリズムはMRMAに関連する非凸最適化問題に取り組むために提案されています。 MovieLensとNetflixのデータセットに関する実験的研究はMRMAが推薦精度の面で6つの最先端のLRMAベースのCF法を上回ることができることを実証します。
47 Continuous DR-submodular Maximization: Structure and Algorithms非単調連続DR-劣モジュラ最大化:構造とアルゴリズムDR-submodular continuous functions are important objectives with wide real-world applications spanning MAP inference in determinantal point processes (DPPs), and mean-field inference for probabilistic submodular models, amongst others. DR-submodularity captures a subclass of non-convex functions that enables both exact minimization and approximate maximization in polynomial time. In this work we study the problem of maximizing non-monotone DR-submodular continuous functions under general down-closed convex constraints. We start by investigating geometric properties that underlie such objectives, e.g., a strong relation between (approximately) stationary points and global optimum is proved. These properties are then used to devise two optimization algorithms with provable guarantees. Concretely, we first devise a ""two-phase'' algorithm with 1/4 approximation guarantee. This algorithm allows the use of existing methods for finding (approximately) stationary points as a subroutine, thus, harnessing recent progress in non-convex optimization. Then we present a non-monotone Frank-Wolfe variant with 1/e approximation guarantee and sublinear convergence rate. Finally, we extend our approach to a broader class of generalized DR-submodular continuous functions, which captures a wider spectrum of applications. Our theoretical findings are validated on synthetic and real-world problem instances.DR-劣モジュラ連続関数は、とりわけ、確率的劣モジュラモデルのための重要なdeterminantalポイントプロセスでMAP推論にまたがる広い実際のアプリケーション(のDPP)との目標、および平均場推論しています。 DR-劣モジュラは多項式時間で正確な最小近似最大化の両方を可能にする非凸関数のサブクラスを取り込みます。本研究では、一般的なダウン閉じた凸制約の下で非単調DR-劣モジュラ連続関数を最大化する問題を研究します。我々はそのような目的の根底にある幾何学的特性を調べることによって開始し、例えば、(約)固定点とグローバル最適との間には強い関係が証明されます。これらのプロパティは、証明可能な保証を持つ2つの最適化アルゴリズムを考案するために使用されています。具体的には、我々は最初の1/4の近似保証付き「」二相「」アルゴリズムを考案します。このアルゴリズムは、非凸最適化における最近の進歩を利用する、従って、(約)サブルーチンとして固定点を見つけるための既存の方法の使用を可能にします。その後、我々は1 / Eの近似保証とサブリニア収束率と非単調フランク・ウルフのバリアントを提示します。最後に、我々は、アプリケーションの広いスペクトルを捉え一般DR-劣モジュラ連続関数の広いクラスに我々のアプローチを拡張します。私たちの理論的な調査結果は、合成と実世界の問題インスタンス上で検証されます。
48 with Average Top-k Loss平均トップ-kの損失を学びますIn this work, we introduce the average top-$k$ (\atk) loss as a new ensemble loss for supervised learning. The \atk loss provides a natural generalization of the two widely used ensemble losses, namely the average loss and the maximum loss. Furthermore, the \atk loss combines the advantages of them and can alleviate their corresponding drawbacks to better adapt to different data distributions. We show that the \atk loss affords an intuitive interpretation that reduces the penalty of continuous and convex individual losses on correctly classified data. The \atk loss can lead to convex optimization problems that can be solved effectively with conventional sub-gradient based method. We further study the Statistical Learning Theory of \matk by establishing its classification calibration and statistical consistency of \matk which provide useful insights on the practical choice of the parameter $k$. We demonstrate the applicability of \matk learning combined with different individual loss functions for binary and multi-class classification and regression using synthetic and real datasets.本研究では、教師付き学習のための新たなアンサンブル損失として平均トップ$ kは$(\ ATK)の損失を導入します。 \のATK損失は、2つの広く使用されるアンサンブルの損失、すなわち平均損失と最大損失の自然な一般化を提供します。さらに、\のATK損失は、それらの利点を組み合わせ、より良い別のデータ分布に適応するために、それに対応する欠点を軽減することができます。私たちは、\のATK損失が正しく分類されたデータに連続して凸個々の損失のペナルティを軽減直感的な解釈をもたらすことを示しています。 \のATK損失は、従来のサブ勾配ベースの方法を用いて効果的に解決することができる凸最適化問題につながる可能性があります。我々はさらにその分類・キャリブレーションおよびパラメータ$ K $の実用的な選択に便利な洞察を提供するの\ MATKの統計的な一貫性を確立することにより、\のMATKの統計的学習理論を学びます。私たちは、\ MATK合成し、実際のデータセットを使用してバイナリとマルチクラス分類および回帰の異なる個々の損失関数と組み合わせて学習の適用可能性を示しています。
49 multiple visual domains with residual adapters残留アダプタで複数のビジュアルドメインを学びますThere is a growing interest in learning data representations that work well for many different types of problems and data. In this paper, we look in particular at the task of learning a single visual representation that can be successfully utilized in the analysis of very different types of images, from dog breeds to stop signs and digits. Inspired by recent work on learning networks that predict the parameters of another, we develop a tunable deep network architecture that, by means of adapter residual modules, can be steered on the fly to diverse visual domains. Our method achieves a high degree of parameter sharing while maintaining or even improving the accuracy of domain-specific representations. We also introduce the Visual Decathlon Challenge, a benchmark that evaluates the ability of representations to capture simultaneously ten very different visual domains and measures their ability to recognize well uniformly.問題やデータの多くの異なる種類のためにうまく機能するデータ表現を学ぶことに関心が高まっています。本稿では、成功した兆候と数字を停止する犬の品種から、画像の非常に異なる種類の分析に利用することができ、単一の視覚的な表現を学ぶのタスクで特に見て。別のパラメータを予測するネットワークを学ぶ上での最近の作品に触発され、我々は、アダプタ残留モジュールによって、多様な視覚的なドメインにその場で操縦することができ、可変深いネットワークアーキテクチャを開発しています。維持あるいはドメイン固有の表現の精度を向上させつつ、我々の方法は、パラメータ共有の高度を達成します。また、ビジュアル十種競技チャレンジ、同時に10の非常に異なる視覚的ドメインをキャプチャする表現の能力を評価し、十分に均一に認識する能力を測定ベンチマークを紹介します。
50's Algorithm, ADMM, and Coordinate Descent: Connections, Insights, and Extensionsダイクストラ' sのアルゴリズム、ADMM、およびディセント座標:接続、洞察力、および拡張機能We study connections between Dykstra's algorithm for projecting onto an intersection of convex sets, the augmented Lagrangian method of multipliers or ADMM, and block coordinate descent. We prove that coordinate descent for a regularized regression problem, in which the penalty is a separable sum of support functions, is exactly equivalent to Dykstra's algorithm applied to the dual problem. ADMM on the dual problem is also seen to be equivalent, in the special case of two sets, with one being a linear subspace. These connections, aside from being interesting in their own right, suggest new ways of analyzing and extending coordinate descent. For example, from existing convergence theory on Dykstra's algorithm over polyhedra, we discern that coordinate descent for the lasso problem converges at an (asymptotically) linear rate. We also develop two parallel versions of coordinate descent, based on the Dykstra and ADMM connections.我々は、乗算器又はADMMの拡張ラグランジュ法、凸集合の交点上に投影するためのダイクストラのアルゴリズムとの間の接続を検討し、ブロックが降下を調整します。私たちは、それはペナルティがサポート機能の分離可能な合計である正則回帰問題のための降下を座標証明、双対問題に適用ダイクストラのアルゴリズムとまったく同じです。双対問題のADMMは、一つは、線形部分空間であることと、二組の特殊な場合には、同等であると見られています。これらの接続は、さておき、自分の右側に興味深いことから、分析し、降下を座標拡張する新しい方法を提案します。例えば、多面体を超えるダイクストラのアルゴリズム上の既存の収束理論から、我々は見分ける投げ縄の問題のためにその座標降下は(漸近的に)線形率に収束します。また、ダイクストラとADMMの接続に基づいて、降下を座標の2パラレルバージョンを開発しています。
51 Spherical Convolution for Fast Features from 360° Imagery360度画像から高速機能に対する球面畳み込みを学びますWhile 360° cameras offer tremendous new possibilities in vision, graphics, and augmented reality, the spherical images they produce make core feature extraction non-trivial. Convolutional neural networks (CNNs) trained on images from perspective cameras yield “flat"" filters, yet 360° images cannot be projected to a single plane without significant distortion. A naive solution that repeatedly projects the viewing sphere to all tangent planes is accurate, but much too computationally intensive for real problems. We propose to learn a spherical convolutional network that translates a planar CNN to process 360° imagery directly in its equirectangular projection. Our approach learns to reproduce the flat filter outputs on 360° data, sensitive to the varying distortion effects across the viewing sphere. The key benefits are 1) efficient feature extraction for 360° images and video, and 2) the ability to leverage powerful pre-trained networks researchers have carefully honed (together with massive labeled image training sets) for perspective images. We validate our approach compared to several alternative methods in terms of both raw CNN output accuracy as well as applying a state-of-the-art “flat"" object detector to 360° data. Our method yields the most accurate results while saving orders of magnitude in computation versus the existing exact reprojection solution.360度カメラはビジョン、グラフィックス、および拡張現実で驚異的な新しい可能性を提供していますが、彼らは生産する球状の画像がコア特徴抽出は非自明にします。畳み込みニューラルネットワーク(CNNs)収率 『「フラット』フィルタ、まだ360°画像が大きな歪みなしに単一の平面に投影することができない視点カメラからの画像に訓練されました。繰り返し、すべての接平面にビューイング球体を投影し素朴な解決策は正確ですが、あまりにも計算集約実際の問題のために。我々は、正距円筒図法で直接360°の画像を処理する平面CNNを変換球状畳み込みネットワークを学習することを提案します。我々のアプローチは、ビューイング球体間で様々な歪みの影響に敏感で360°のデータ、上に平らにフィルタ出力を再現することを学びます。主な利点は、360°の画像やビデオのための1)効率的な特徴抽出、および透視画像のために)一緒に大規模なラベルされた画像のトレーニングセットと(研究者は慎重に研ぎ澄まされてきた強力な事前訓練されたネットワークを活用する2)能力があります。我々は両方の生CNNの出力精度の観点からだけでなく、360度データに最先端の「フラット 『』オブジェクト検出器を適用することで、いくつかの代替の方法に比べて我々のアプローチを検証します。既存の正確な再投影ソリューション対計算に桁違いを保存しているときにこの方法は、最も正確な結果が得られます。
52 3D Shape Reconstruction via 2.5D SketchesMarrNet:2.5Dスケッチを経由して、3D形状復元3D object reconstruction from a single image is a highly under-determined problem, requiring strong prior knowledge of plausible 3D shapes. This introduces challenge for learning-based approaches, as 3D object annotations in real images are scarce. Previous work chose to train on synthetic data with ground truth 3D information, but suffered from the domain adaptation issue when tested on real data. In this work, we propose an end-to-end trainable framework, sequentially estimating 2.5D sketches and 3D object shapes. Our disentangled, two-step formulation has three advantages. First, compared to full 3D shape, 2.5D sketches are much easier to be recovered from a 2D image, and to transfer from synthetic to real data. Second, for 3D reconstruction from the 2.5D sketches, we can easily transfer the learned model on synthetic data to real images, as rendered 2.5D sketches are invariant to object appearance variations in real images, including lighting, texture, etc. This further relieves the domain adaptation problem. Third, we derive differentiable projective functions from 3D shape to 2.5D sketches, making the framework end-to-end trainable on real images, requiring no real-image annotations. Our framework achieves state-of-the-art performance on 3D shape reconstruction.単一画像から3Dオブジェクト再構成は、妥当な3D形状の強力な予備知識を必要とする、高度にアンダー決定問題です。実画像での3Dオブジェクトの注釈が不足しているように、これは、学習ベースのアプローチのための課題を紹介します。以前の研究は、地上真実の3D情報と合成データを養成することを選んだが、実際のデータでテストする場合、ドメイン適応の問題に苦しみました。本研究では、順次2.5次元スケッチと3Dオブジェクトの形状を推定し、エンド・ツー・エンドの訓練可能なフレームワークを提案します。私たちのほぐれ、二段階の製剤は、3つの利点があります。まず、完全な3D形状に比べて、2.5次元スケッチは、2D画像から回収することがはるかに容易であり、実際のデータに合成から転送します。レンダリングされた2.5次元スケッチ等これさらにレリーフライティング、テクスチャ、を含む実画像における外観変化をオブジェクトに対して不変であるように、第2、2.5次元スケッチから3D再構成のために、我々は簡単に、実際の画像に合成データに学習されたモデルを転送することができドメイン適応の問題。第三に、我々は、フレームワーク、エンドツーエンドの実像に訓練可能な、本当の画像注釈を必要としないを行う、スケッチを2.5Dする3次元形状から微分射影関数を導出します。私たちのフレームワークは、3次元形状復元に最先端の性能を実現します。
53 Learning and Reasoning for Visual Question Answeringマルチモーダル学習とビジュアル質問応答のための推論Reasoning about entities and their relationships from multimodal data is a key goal of Artificial General Intelligence. The visual question answering (VQA) problem is an excellent way to test such reasoning capabilities of an AI model and its multimodal representation learning. However, the current VQA models are over-simplified deep neural networks, comprised of a long short-term memory (LSTM) unit for question comprehension and a convolutional neural network (CNN) for learning single image representation. We argue that the single visual representation contains a limited and general information about the image contents and thus limits the model reasoning capabilities. In this work we introduce a modular neural network model that learns a multimodal and multifaceted representation of the image and the question. The proposed model learns to use the multimodal representation to reason about the image entities and achieves a new state-of-the-art performance on both VQA benchmark datasets, VQA v1.0 and v2.0, by a wide margin.エンティティとマルチモーダルデータから、それらの関係についての推論は、人工知能の一般の重要な目標です。視覚的な質問応答(VQA)の問題は、AIのモデルとそのマルチモーダル表現学習の、このような推論能力をテストするための優れた方法です。しかし、現在のVQAモデルは、質問の理解と、単一の画像表現を学習するための畳み込みニューラルネットワーク(CNN)のために長期、短期記憶(LSTM)単位で構成される深いニューラルネットワークを、過剰に簡略化されています。我々は、単一の視覚的表現は、画像内容について限られたと一般的な情報が含まれており、したがって、モデルの推論能力を制限することを主張します。本研究では、画像や質問のマルチモーダルと多面的な表現を学習モジュラーニューラルネットワークモデルをご紹介します。提案モデルは、画像の実体について推論するマルチモーダルな表現を使用するように学習し、広いマージンによって、VQAのベンチマークデータセット、VQA v1.0のとv2.0の両方に新しい最先端の性能を実現します。
54 Surrogate Losses for Ordinal Regression順序回帰分析のための敵対サロゲート損失Ordinal regression seeks class label predictions when the penalty incurred for mistakes increases according to an ordering over the labels. The absolute error is a canonical example. Many existing methods for this task reduce to binary classification problems and employ surrogate losses, such as the hinge loss. We instead derive uniquely defined surrogate ordinal regression loss functions by seeking the predictor that is robust to the worst-case approximations of training data labels, subject to matching certain provided training data statistics. We demonstrate the advantages of our approach over other surrogate losses based on hinge loss approximations using UCI ordinal prediction tasks.順序回帰分析は、ミスを被るペナルティがラベルの上に順序に従って上昇した場合にクラスラベルの予測を目指しています。絶対誤差は、標準的な例です。このタスクのための多くの既存の方法は、バイナリ分類問題に削減し、このようなヒンジ損失として代理損失を採用します。私たちは、代わりに、特定の提供トレーニングデータの統計情報を照合の対象とトレーニングデータラベルの最悪の場合の近似値に対してロバストな予測因子を求めることにより、独自に定義された代理順序回帰損失関数を導出します。私たちは、UCI序予測タスクを使用して、ヒンジ損失の近似値に基づいて、他の代理損失を超える我々のアプローチの利点を実証します。
55 Transfer Learning via Transformation Functions変換機能を経由して学習仮説転送We consider the Hypothesis Transfer Learning (HTL) problem where one incorporates a hypothesis trained on the source domain into the learning procedure of the target domain. Existing theoretical analysis either only studies specific algorithms or only presents upper bounds on the generalization error but not on the excess risk. In this paper, we propose a unified algorithm-dependent framework for HTL through a novel notion of transformation functions, which characterizes the relation between the source and the target domains. We conduct a general risk analysis of this framework and in particular, we show for the first time, if two domains are related, HTL enjoys faster convergence rates of excess risks for Kernel Smoothing and Kernel Ridge Regression than those of the classical non-transfer learning settings. We accompany this framework with an analysis of cross-validation for HTL to search for the best transfer technique and gracefully reduce to non-transfer learning when HTL is not helpful. Experiments on robotics and neural imaging data demonstrate the effectiveness of our framework.我々は1つがターゲットドメインの学習手順に元ドメインに訓練された仮説を組み込んだ(HTL)問題を学習仮説移転を検討してください。いずれかの理論的な分析を既存の唯一の特定のアルゴリズムを研究のみ汎化誤差ではなく、過剰リスクの上限を提示します。この論文では、ソースとターゲットドメインの間の関係を特徴づける変換関数の新規な概念を通じてHTLのための統一されたアルゴリズムに依存するフレームワークを提案します。二つのドメインが関係している場合は、私たちは、このフレームワークの一般的なリスク分析を行い、具体的には、我々が最初に表示され、HTLは、古典的な非転写学習よりもカーネル平滑化とカーネルリッジ回帰のための過剰なリスクのより速い収束速度を楽しんでいます設定。私たちは、HTLは最高転送技術を検索し、優雅HTLは役に立ちないときに非転移学習に低減するためのクロスバリデーションの解析でこのフレームワークを伴います。ロボット工学と神経イメージングデータの実験は、我々の枠組みの有効性を示します。
56 Invariance through Adversarial Feature Learning敵対機能の学習によって制御不変性Learning meaningful representations that maintain the content necessary for a particular task while filtering away detrimental variations is a problem of great interest in machine learning. In this paper, we tackle the problem of learning representations invariant to a specific factor or trait of data. The representation learning process is formulated as an adversarial minimax game. We analyze the optimal equilibrium of such a game and find that it amounts to maximizing the uncertainty of inferring the detrimental factor given the representation while maximizing the certainty of making task-specific predictions. On three benchmark tasks, namely fair and bias-free classification, language-independent generation, and lighting-independent image classification, we show that the proposed framework induces an invariant representation, and leads to better generalization evidenced by the improved performance.有害なバリエーションを離れてフィルタリングしながら、特定のタスクのために必要なコンテンツを維持する意味のある表現を学ぶことは、機械学習に大きな関心の問題です。本稿では、データの特定の因子または形質に不変な表現を学習の問題に取り組みます。表現の学習プロセスは、敵対的ミニマックスゲームとして定式化されます。私たちは、このようなゲームの最適な均衡を分析し、それがタスク固有の予測を行うの確実性を最大化しながら表現を与え、有害な要因を推測の不確実性を最大になることがわかります。 3つのベンチマーク作業、すなわち公正で偏りのない分類、言語に依存しない世代、および照明に依存しない画像分類では、提案フレームワークは不変の表現を誘導することを示し、およびパフォーマンスの向上によって証明良く一般化につながります。
57 Analysis of Two-layer Neural Networks with ReLU ActivationReLUアクティベーションとの二層構造のニューラルネットワークの収束解析In recent years, stochastic gradient descent (SGD) based techniques has become the standard tools for training neural networks. However, formal theoretical understanding of why SGD can train neural networks in practice is largely missing. In this paper, we make progress on understanding this mystery by providing a convergence analysis for SGD on a rich subset of two-layer feedforward networks with ReLU activations. This subset is characterized by a special structure called ""identity mapping"". We prove that, if input follows from Gaussian distribution, with standard $O(1/\sqrt{d})$ initialization of the weights, SGD converges to the global minimum in polynomial number of steps. Unlike normal vanilla networks, the ""identity mapping"" makes our network asymmetric and thus the global minimum is unique. To complement our theory, we are also able to show experimentally that multi-layer networks with this mapping have better performance compared with normal vanilla networks. Our convergence theorem differs from traditional non-convex optimization techniques. We show that SGD converges to optimal in ""two phases"": In phase I, the gradient points to the wrong direction, however, a potential function $g$ gradually decreases. Then in phase II, SGD enters a nice one point convex region and converges. We also show that the identity mapping is necessary for convergence, as it moves the initial point to a better place for optimization. Experiment verifies our claims.近年では、確率的勾配降下法(SGD)ベースの技術は、トレーニングニューラルネットワークのための標準的なツールとなっています。しかし、SGDは実際にニューラルネットワークを訓練することができる理由の正式な理論的な理解が大幅に不足しています。本稿では、ReLUのアクティベーションとの二層フィードフォワードネットワークの豊富なサブセットにSGDの収束分析を提供することにより、この謎を理解する上で進捗状況を作ります。このサブセットは、「アイデンティティマッピング「」」と呼ばれる特殊な構造であることを特徴とします。我々は、入力が標準の$ O(1 / \ SQRT {D})重みの$初期化ガウス分布から次の場合、SGDは、ステップの多項式数が大域的最小値に収束することを証明します。通常のバニラ・ネットワークとは異なり、「」アイデンティティマッピングは、「」私たちのネットワークが非対称になり、したがって、大域的最小値はユニークです。私たちの理論を補完するために、我々はまた、このマッピングを持つマルチレイヤネットワークは、通常のバニラネットワークと比較してより優れた性能を持っていることを実験的に示すことができます。私たちの収束定理は、従来の非凸最適化手法とは異なります。私たちは、「SGD「は、2つのフェーズ」」で最適に収束することを示している:第I相、間違った方向に傾きポイントは、しかし、潜在的な関数$ G $は徐々に低下します。次いで、第II相で、SGDはいい一点の凸領域と収束に入ります。我々はまた、最適化のためのより良い場所への最初のポイントを移動するIDマッピングは、収束のために必要であることを示しています。実験は、私たちの主張を検証します。
58 Accelerated Stochastic Variance Reduced Dual Averaging Method for Regularized Empirical Risk Minimization正則実証的リスク最小化のための二重加速確率の差異の削減デュアル平均法We develop a new accelerated stochastic gradient method for efficiently solving the convex regularized empirical risk minimization problem in mini-batch settings. The use of mini-batches has become a golden standard in the machine learning community, because the mini-batch techniques stabilize the gradient estimate and can easily make good use of parallel computing. The core of our proposed method is the incorporation of our new ``double acceleration'' technique and variance reduction technique. We theoretically analyze our proposed method and show that our method much improves the mini-batch efficiencies of previous accelerated stochastic methods, and essentially only needs size $\sqrt{n}$ mini-batches for achieving the optimal iteration complexities for both non-strongly and strongly convex objectives, where $n$ is the training set size. Further, we show that even in non-mini-batch settings, our method achieves the best known convergence rate for non-strongly convex and strongly convex objectives.私たちは、効率的にミニバッチ設定で経験的リスクの最小化問題を正則凸を解決するための新しい加速確率的勾配法を開発します。ミニバッチ技術は、勾配推定値を安定させ、簡単に並列コンピューティングを駆使することができますので、ミニバッチの使用は、機械学習コミュニティの黄金の標準となっています。提案手法の核心は、私たちの新しい ``二重加速「」技術と分散低減技術の取り込みです。私たちは、理論的に提案手法を分析し、多くの私たちの方法は、以前の加速確率論的手法のミニバッチ効率を改善することを示している、と基本的にサイズのみの$ \のsqrtの両方の非を強くするための最適な反復の複雑さを達成するための{N} $ミニバッチを必要とします$ N $は、トレーニングセットのサイズであると強く凸の目標、。さらに、私たちも、非ミニバッチ設定で、私たちの方法は、非強く凸と強く凸の目的のために最もよく知られている収束率を達成していることを示しています。
59 Dynamics with Continuous Tempering for Training Deep Neural Networksトレーニングディープニューラルネットワークのための継続的な焼戻しとランジュバンダイナミクスMinimizing non-convex and high-dimensional objective functions is challenging, especially when training modern deep neural networks. In this paper, a novel approach is proposed which divides the training process into two consecutive phases to obtain better generalization performance: Bayesian sampling and stochastic optimization. The first phase is to explore the energy landscape and to capture the `fat'' modes; and the second one is to fine-tune the parameter learned from the first phase. In the Bayesian learning phase, we apply continuous tempering and stochastic approximation into the Langevin dynamics to create an efficient and effective sampler, in which the temperature is adjusted automatically according to the designed ``temperature dynamics''. These strategies can overcome the challenge of early trapping into bad local minima and have achieved remarkable improvements in various types of neural networks as shown in our theoretical analysis and empirical experiments.現代の深いニューラルネットワークを訓練する場合は特に非凸と高次元の目的関数を最小にすることは、困難です。ベイズサンプリングと確率論的な最適化:本論文では、新たなアプローチは、より良い汎化性能を得るために、2つの連続したフェーズにトレーニングプロセスを分割する提案されています。第一段階は、エネルギー地形を探索すると `脂肪「」モードをキャプチャすることです。 2つ目は、最初の段階から学んだのパラメータを微調整することです。ベイズ学習段階では、温度が設計 `温度ダイナミクス「」に応じて自動的に調整された効率的かつ効果的なサンプラーを作成するランジュバンダイナミクスに連続焼戻し及び確率的近似を適用します。これらの戦略は、悪い極小値に初期のトラップの課題を克服することができますし、私たちの理論解析と実証実験で示したように、ニューラルネットワークの様々なタイプの著しい改善を達成しています。
60 Online Linear Optimization with Approximation Algorithms近似アルゴリズムによる効率的なオンライン線形最適化We revisit the problem of Online Linear Optimization in case the set of feasible actions is accessible through an approximated linear optimization oracle with a factor $\alpha$ multiplicative approximation guarantee. This setting is in particular interesting since it captures natural online extensions of well-studied offline linear optimization problems which are NP-hard, yet admit efficient approximation algorithms. The goal here is to minimize the $\alpha$-regret which is the natural extension of the standard regret in online learning to this setting. We present new algorithms with significantly improved oracle complexity for both the full information and bandit variants of the problem. Mainly, for both variants, we present $\alpha$-regret bounds of $O(T^{-1/3})$, were $T$ is the number of prediction rounds, using only $O(\log(T))$ calls to the approximation oracle per iteration, on average. These are the first results to obtain both average oracle complexity of $O(\log(T))$ (or even poly-logarithmic in $T$) and $\alpha$-regret bound $O(T^{-c})$ for a positive constant $c$, for both variants.私たちは、実現可能なアクションのセットは、因子の$ \アルファ$乗法近似保証付き近似線形最適化オラクルを介してアクセス可能である場合にはオンライン線形最適化の問題を再訪します。それはNP困難です、まだ効率的な近似アルゴリズムを認めるよく研究されたオフラインの線形最適化問題の自然のオンライン拡張をキャプチャするため、この設定は特に興味深いです。ここでの目標は、この設定にオンライン学習における標準後悔の自然な拡張である$ \ $アルファ-regretを最小限にすることです。私たちは、問題の完全な情報と山賊の変種の両方のために大幅に改善されたオラクルの複雑さと新しいアルゴリズムを提示します。主に、両方の変異体について、我々は$ O(T ^ { - 1/3})の\アルファ$ -regret境界$を提示$、$ T $は、$ O(\ログ(Tを使用して、予測ラウンド数であるました))、平均して、反復ごと近似オラクルへの呼び出しを$。これらは$ O(\ログ(T))の両方の平均オラクルの複雑さを得るために、最初の結果である$(または$ T $でさえポリ対数)と$ \アルファ$ -regret結合の$ O(T ^ { - C}両方の変形のための正の定数の$ C $に対する)$、。
61 Descent Method for Convex Composite Minimization凸コンポジット最小化のための幾何学的な降下方法In this paper, we extend the geometric descent method recently proposed by Bubeck, Lee and Singh to tackle nonsmooth and strongly convex composite problems. We prove that our proposed algorithm, dubbed geometric proximal gradient method (GeoPG), converges with a linear rate $(1-1/\sqrt{\kappa})$ and thus achieves the optimal rate among first-order methods, where $\kappa$ is the condition number of the problem. Numerical results on linear regression and logistic regression with elastic net regularization show that GeoPG compares favorably with Nesterov's accelerated proximal gradient method, especially when the problem is ill-conditioned.本稿では、最近、滑らかで強く凸状の複合問題に取り組むためにBubeck、リーとシンによって提案された幾何学的な降下法を拡張します。我々は、我々の提案したアルゴリズム、ダビング幾何近位勾配法(のgeopg)は、線形速度$(1-1 / \ SQRT {\カッパ})で収束することを証明$、従って一次方法のうち、最適な速度を達成する場合$ \カッパ$は、問題の条件数です。線形回帰とのgeopgは問題が悪条件された場合は特に、ネステロフの加速近位勾配法と比較して有利で弾性ネット正則ショーとロジスティック回帰に関する数値結果。
62 Approximations for Online Principal Component Estimation and Global Convergenceオンライン主成分推定とグローバル・コンバージェンスのための拡散近似In this paper, we propose to adopt the diffusion approximation tools to study the dynamics of Oja's iteration which is an online stochastic gradient method for the principal component analysis. Oja's iteration maintains a running estimate of the true principal component from streaming data and enjoys less temporal and spatial complexities. We show that the Oja's iteration for the top eigenvector generates a continuous-state discrete-time Markov chain over the unit sphere. We characterize the Oja's iteration in three phases using diffusion approximation and weak convergence tools. Our three-phase analysis further provides a finite-sample error bound for the running estimate, which matches the minimax information lower bound for PCA under the additional assumption of bounded samples.本稿では、主成分分析のためのオンライン確率的勾配法である王者の反復のダイナミクスを研究するために拡散近似ツールを採用することを提案します。オヤの反復は、ストリーミングデータから真の主要なコンポーネントの実行中の推定値を維持し、より少ない時間的、空間的な複雑さを楽しんでいます。我々はトップ固有ベクトルのための王者の反復は単位球面にわたって連続状態離散時間マルコフ連鎖を生成することを示しています。私たちは、拡散近似と弱い収束ツールを使用して、3つのフェーズで王者の反復を特徴づけます。私たちの三相分析がさらに制限されたサンプルの追加的な仮定の下PCAのために下界ミニマックスの情報と一致して実行している見積もり、行き有限サンプルエラーを提供します。
63 Discrimination through Causal Reasoning因果推論による差別を回避Recent work on fairness in machine learning has focused on various statistical discrimination criteria and how they trade off. Most of these criteria are observational: They depend only on the joint distribution of predictor, protected attribute, features, and outcome. While convenient to work with, observational criteria have severe inherent limitations that prevent them from resolving matters of fairness conclusively. Going beyond observational criteria, we frame the problem of discrimination based on protected attributes in the language of causal reasoning. This viewpoint shifts attention from ""What is the right fairness criterion?"" to ""What do we want to assume about our model of the causal data generating process?"" Through the lens of causality, we make several contributions. First, we crisply articulate why and when observational criteria fail, thus formalizing what was before a matter of opinion. Second, our approach exposes previously ignored subtleties and why they are fundamental to the problem. Finally, we put forward natural causal non-discrimination criteria and develop algorithms that satisfy them.機械学習における公正性に関する最近の仕事は、様々な統計的な判別基準とそれらがどのようにトレードオフに焦点を当てています。これらの基準のほとんどは、観測されている:彼らは唯一の予測因子の結合分布、保護された属性、機能、および結果に依存しています。で動作するように便利な一方で、観測の基準が決定的に公正の問題を解決することを防ぐ厳しい固有の制限があります。観測の基準にとどまらず、私たちは因果推論の言語で保護された属性に基づいて差別の問題をフレーム。この視点は、「から注意をシフト」何が右の公平性基準である?「」「に」何が私たちは因果データ生成処理の我々のモデルについて仮定したいですか?「」因果関係のレンズを通して、我々はいくつかの貢献をしています。まず、我々はカリッ明確なぜ、観測の基準が失敗したときに、このように意見の問題の前にあったものを正式なもの。第二に、我々のアプローチは、以前の機微を無視し、なぜ彼らは問題の基本で公開されています。最後に、我々は前進自然の因果非差別基準を置き、それらを満たすアルゴリズムを開発します。
64 Online Regression while Learning the Metricノンパラメトリック回帰オンラインメトリックを学びながらWe study algorithms for online nonparametric regression that learn the directions along which the regression function is smoother. Our algorithm learns the Mahalanobis metric based on the gradient outer product matrix $\boldsymbol{G}$ of the regression function (automatically adapting to the effective rank of this matrix), while simultaneously bounding the regret ---on the same data sequence--- in terms of the spectrum of $\boldsymbol{G}$. As a preliminary step in our analysis, we extend a nonparametric online learning algorithm by Hazan and Megiddo enabling it to compete against functions whose Lipschitzness is measured with respect to an arbitrary Mahalanobis metric.私たちは、回帰関数が滑らかで、それに沿って方向を学ぶオンラインノンパラメトリック回帰のためのアルゴリズムを研究しています。同時に同じデータを、配列上---後悔境界ながら、我々のアルゴリズムは、勾配外積マトリックスの$ \のboldsymbol(自動的にこの行列の有効なランクに適応)回帰関数の{G} $に基づいてマハラノビス基準を学習します - $ \ boldsymbol {G} $のスペクトルの点で好ましいです。我々の分析における予備段階として、我々は、そのLipschitzness任意マハラノビスメトリックに対して測定された機能に対抗することを可能Hazanとメギドでノンパラメトリックオンライン学習アルゴリズムを拡張します。
65 Privileged Learning and Distribution Matching for Fairnessリサイクル特権学習と公正のための分布マッチングEquipping machine learning models with ethical and legal constraints is a serious issue; without this, the future of machine learning is at risk. This paper takes a step forward in this direction and focuses on ensuring machine learning models deliver fair decisions. In legal scholarships, the notion of fairness itself is evolving and multi-faceted. We set an overarching goal to develop a unified machine learning framework that is able to handle any definitions of fairness, their combinations, and also new definitions that might be stipulated in the future. To achieve our goal, we recycle two well-established machine learning techniques, privileged learning and distribution matching, and harmonize them for satisfying multi-faceted fairness definitions. We consider protected characteristics such as race and gender as privileged information that is available at training but not at test time; this accelerates model training and delivers fairness through unawareness. Further, we cast demographic parity, equalized odds, and equality of opportunity as a classical two-sample problem of conditional distributions, which can be solved in a general form by using distance measures in Hilbert Space. We show several existing models are special cases of ours. Finally, we advocate returning the Pareto frontier of multi-objective minimization of error and unfairness in predictions. This will facilitate decision makers to select an operating point and to be accountable for it.倫理的、法的制約と機械学習モデルを装備することは深刻な問題です。このずに、機械学習の未来は危険にさらされています。本論文では、この方向に一歩を取り、機械学習モデルが公正な意思決定を実現し確保することに重点を置いています。法的奨学金には、公正自体の概念が進化して、多面的な。私たちは、将来的に規定される可能性があります任意の公正性、その組み合わせの定義、およびまた新しい定義を扱うことができる統一された機械学習フレームワークを開発するための包括的な目標を設定します。私たちの目標を達成するために、我々は2つのよく確立機械学習技術、特権学習や分布マッチングをリサイクルし、満足のいく多面的な公平性の定義のためにそれらを調和します。私たちは、このような訓練ではなく、テスト時に利用できる特権的な情報として、人種や性別などの保護特性を考慮し、これは、モデルの訓練を加速し、無自覚を通じて公平性を実現します。さらに、我々は、人口統計パリティをキャストオッズを均等化し、ヒルベルト空間における距離尺度を使用して一般的な形で解決することができる条件付き分布の古典二標本問題、などの機会の平等。私たちは、いくつかの既存のモデルは、私たちの特別な場合であることを示しています。最後に、我々は予測に誤りや不公平の多目的最小化のパレートフロンティアを返す提唱します。これは、動作点を選択するようにし、そのための責任であることを意思決定者が容易になります。
66 and Nested Subgame Solving for Imperfect-Information Games安全でネストされたサブゲームは不完全-情報ゲームを解きますIn imperfect-information games, the optimal strategy in a subgame may depend on the strategy in other, unreached subgames. Thus a subgame cannot be solved in isolation and must instead consider the strategy for the entire game as a whole, unlike perfect-information games. Nevertheless, it is possible to first approximate a solution for the whole game and then improve it by solving individual subgames. This is referred to as subgame solving. We introduce subgame-solving techniques that outperform prior methods both in theory and practice. We also show how to adapt them, and past subgame-solving techniques, to respond to opponent actions that are outside the original action abstraction; this significantly outperforms the prior state-of-the-art approach, action translation. Finally, we show that subgame solving can be repeated as the game progresses down the game tree, leading to far lower exploitability. These techniques were a key component of Libratus, the first AI to defeat top humans in heads-up no-limit Texas hold'em poker.不完全情報ゲームでは、サブゲームにおける最適な戦略は、他の、未到達subgamesにおける戦略に依存してもよいです。したがって、サブゲームは、単独では解決できない、その代わりに、完全な情報ゲームとは異なり、全体として全体のゲームのための戦略を検討する必要があります。それにもかかわらず、最初のゲーム全体のためのソリューションを近似して、個々のsubgamesを解くことによって、それを向上させることが可能です。これは、副ゲーム解決と呼ばれています。私たちは、理論と実践の両方で従来の方法を上回る部分ゲーム解決の技術を紹介します。我々はまた、それらを適合させるために、過去の部分ゲーム解決の技術を、オリジナルのアクションの抽象化の外にある相手のアクションに応答する方法を示しています。これはかなり前に、最先端のアプローチ、行動の翻訳よりも性能が優れています。最後に、我々はゲームがはるかに低い悪用の可能性につながる、ゲームツリーの下進むにつれて副ゲーム解決を繰り返すことができることを示しています。これらの技術は、ヘッドアップノーリミットテキサスホールデムポーカーでトップの人間を倒すためLibratus、最初のAIの重要な要素でした。
67 Image-to-Image Translation Networks教師なし画像間の翻訳ネットワークUnsupervised image-to-image translation aims at learning a joint distribution of images in different domains by using images from the marginal distributions in individual domains. Since there exists an infinite set of joint distributions that can arrive the given marginal distributions, one could infer nothing about the joint distribution from the marginal distributions without additional assumptions. To address the problem, we make a shared-latent space assumption and propose an unsupervised image-to-image translation framework based on Coupled GANs. We compare the proposed framework with competing approaches and present high quality image translation results on various challenging unsupervised image translation tasks, including street scene image translation, animal image translation, and face image translation. We also apply the proposed framework to domain adaptation and achieve state-of-the-art performance on benchmark datasets. Code and additional results are available in教師なし画像間の変換は、個々のドメイン内の周辺分布からの画像を使用して、異なるドメイン内の画像の同時分布を学習することを目的とします。所与の周辺分布に到着することができ、関節分布の無限集合が存在するので、一つは追加の仮定なしに周辺分布から関節分布について何も推測できませんでした。問題に対処するために、我々は共有潜在空間仮定を作り、カップリングされたガンズに基づく教師なし画像間の変換の枠組みを提案します。私たちは、ストリートシーンの画像変換、動物の画像の変換、および顔画像の翻訳を含む様々な挑戦的な教師なし画像変換タスク、上の競合のアプローチと現在の高品質な画像変換の結果と提案したフレームワークを比較します。我々はまた、ドメイン適応に提案されたフレームワークを適用し、ベンチマークデータセットに最先端の性能を実現します。コードと追加の結果はでご利用いただけます。
68 Distributed Computing for Inverse Problems逆問題のためにコード化された分散コンピューティングComputationally intensive distributed and parallel computing is often bottlenecked by a small set of slow workers known as stragglers. In this paper, we utilize the emerging idea of ``coded computation'' to design a novel error-correcting-code inspired technique for solving linear inverse problems under specific iterative methods in a parallelized implementation affected by stragglers. Example machine-learning applications include inverse problems such as personalized PageRank and sampling on graphs. We provably show that our coded-computation technique can reduce the mean-squared error under a computational deadline constraint. In fact, the ratio of mean-squared error of replication-based and coded techniques diverges to infinity as the deadline increases. Our experiments for personalized PageRank performed on real systems and real social networks show that this ratio can be as large as $10^4$. Further, unlike coded-computation techniques proposed thus far, our strategy combines outputs of all workers, including the stragglers, to produce more accurate estimates at the computational deadline. This also ensures that the accuracy degrades ``gracefully'' in the event that the number of stragglers is large.計算集約は、分散と並列コンピューティングは、多くの場合、落伍者として知ら遅い労働者の小さな集合によってボトルネックれます。本稿では、落伍者により影響を受ける並列実装で特定の反復法の下で線形逆問題を解決する技術を触発新規な誤り訂正符号を設計するために ``符号化演算 'の新たなアイデアを利用します。例機械学習アプリケーションでは、このようなグラフ上のパーソナライズページランクやサンプリングなどの逆の問題が含まれます。私たちは、証明可能たちのコード化され、計算手法は、計算期限の制約の下で平均二乗誤差を低減できることを示しています。実際には、複製ベースの符号化技術の平均二乗誤差の比は、期限が増加するにつれて無限大に発散します。実際のシステムと実際のソーシャルネットワーク上で行われ、パーソナライズPageRankのための我々の実験では、この比率は$ 10 ^ 4 $のように大きくなる可能性があることを示しています。さらに、これまでに提案されているコード化され、計算技術とは異なり、我々の戦略は、計算の締め切りで、より正確な推定値を生成するために、落伍者を含むすべての労働者の出力を兼ね備えています。これはまた、精度は落伍者の数が多いという場合には、 ``優雅「」低下することを保証します。
69 Screening Rule for l1-Regularized Ising Model EstimationL1-正則イジングモデル推定のためのスクリーニング規則We discover a screening rule for l1-regularized Ising model estimation. The simple closed-form screening rule is a necessary and sufficient condition for exactly recovering the blockwise structure of a solution under any given regularization parameters. With enough sparsity, the screening rule can be combined with various optimization procedures to deliver solutions efficiently in practice. The screening rule is especially suitable for large-scale exploratory data analysis, where the number of variables in the dataset can be thousands while we are only interested in the relationship among a handful of variables within moderate-size clusters for interpretability. Experimental results on various datasets demonstrate the efficiency and insights gained from the introduction of the screening rule.我々は、L1正則イジングモデル推定のためのスクリーニング規則を発見します。単純な閉じた形のスクリーニング規則を正確に任意の正則化パラメータの下で溶液のブロック状構造を回復するための必要十分条件です。十分スパースでは、スクリーニング規則は、実際には、効率的なソリューションを提供するために、様々な最適化手順と組み合わせることができます。スクリーニング規則は、我々が判読のための適度なサイズのクラスタ内の変数の一握りの関係にのみ関心があるが、データセット内の変数の数は数千とすることができる大規模な探索データ解析、特に適しています。様々なデータセットに関する実験結果は、スクリーニング規則の導入から得られる効率性と洞察力を発揮します。
70 Dynamic Regret for Non-degenerate Functions非縮退関数の改良された動的リグレットRecently, there has been a growing research interest in the analysis of dynamic regret, which measures the performance of an online learner against a sequence of local minimizers. By exploiting the strong convexity, previous studies have shown that the dynamic regret can be upper bounded by the path-length of the comparator sequence. In this paper, we illustrate that the dynamic regret can be further improved by allowing the learner to query the gradient of the function multiple times, and meanwhile the strong convexity can be weakened to other non-degenerate conditions. Specifically, we introduce the squared path-length, which could be much smaller than the path-length, as a new regularity of the comparator sequence. When multiple gradients are accessible to the learner, we first demonstrate that the dynamic regret of strongly convex functions can be upper bounded by the minimum of the path-length and the squared path-length. We then extend our theoretical guarantee to functions that are semi-strongly convex or self-concordant. To the best of our knowledge, this is the first time that semi-strong convexity and self-concordance are utilized to tighten the dynamic regret.最近、地元minimizersの配列に対するオンライン学習者のパフォーマンスを測定し、動的後悔の分析、で成長している研究の関心が集まっています。強い凸面を利用することによって、以前の研究では、動的後悔は、上部比較配列の経路長によって境界され得ることを示しています。本稿では、動的な後悔は、さらに学習者が関数の勾配を複数回照会することを可能にすることによって向上させることができ、一方、強い凸面は、他の非縮退状態に弱めることができることを示します。具体的には、コンパレータシーケンスの新しい規則として、経路長よりもはるかに小さくすることができ二乗経路長を、ご紹介します。複数の勾配が学習者にアクセス可能である場合、まず強く凸関数のダイナミックな後悔は、上部経路長と二乗経路長の最小値によって境界され得ることを実証しています。私たちは、その後、半強く凸または自己一致している機能に私たちの理論的な保証を延長します。我々の知る限り、これは半強い凸部と自己一致がダイナミック遺憾の意を締めるために利用されるのは初めてのことです。
71 Efficient Object Detection Models with Knowledge Distillation知識蒸留で効率的な物体検出モデルを学習Despite significant accuracy improvement in convolutional neural networks (CNN) based object detectors, they often require prohibitive runtimes to process an image for real-time applications. State-of-the-art models often use very deep networks with a large number of floating point operations. Efforts such as model compression learn compact models with fewer number of parameters, but with much reduced accuracy. In this work, we propose a new framework to learn compact and fast ob- ject detection networks with improved accuracy using knowledge distillation [20] and hint learning [34]. Although knowledge distillation has demonstrated excellent improvements for simpler classification setups, the complexity of detection poses new challenges in the form of regression, region proposals and less voluminous la- bels. We address this through several innovations such as a weighted cross-entropy loss to address class imbalance, a teacher bounded loss to handle the regression component and adaptation layers to better learn from intermediate teacher distribu- tions. We conduct comprehensive empirical evaluation with different distillation configurations over multiple datasets including PASCAL, KITTI, ILSVRC and MS-COCO. Our results show consistent improvement in accuracy-speed trade-offs for modern multi-class detection models.畳み込みニューラルネットワーク(CNN)ベースのオブジェクト検出器の大幅な精度向上にもかかわらず、彼らはしばしばリアルタイムアプリケーションのための画像を処理するために法外なランタイムが必要です。最先端のモデルは、多くの場合、浮動小数点演算の数が多いと非常に深いネットワークを使用しています。このようなモデルの圧縮などの取り組みは、パラメータの数が少ないとのコンパクトモデルを学ぶが、はるかに精度低下と。本研究では、[34] [20]知識蒸留を使用して改善された精度でコンパクトかつ高速OB- JECT検出ネットワークを学習するための新しい枠組みを提案し、学習ヒント。知識蒸留は単純分類セットアップのための優れた改善を示しているが、検出の複雑さは、回帰、領域提案少ない膨大LA-ベルの形で新たな課題を提起します。私たちは、先生が良い先生中間distribu-ションから学ぶために回帰コンポーネントとアダプテーション層を処理するために損失を囲まれ、そのようなクラスの不均衡に対処するための加重クロスエントロピー損失などのいくつかの技術革新を通じてこの問題に対処します。私たちは、PASCAL、キティ、ILSVRCおよびMS-COCOを含む複数のデータセットを超える異なる蒸留構成を持つ総合的な実証的な評価を行います。我々の結果は、現代のマルチクラス検出モデルの精度、スピードのトレードオフで一貫性の改善を示します。
72 Unsupervised Domain Mapping片面教師なしドメインマッピングIn unsupervised domain mapping, the learner is given two unmatched datasets $A$ and $B$. The goal is to learn a mapping $G_{AB}$ that translates a sample in $A$ to the analog sample in $B$. Recent approaches have shown that when learning simultaneously both $G_{AB}$ and the inverse mapping $G_{BA}$, convincing mappings are obtained. In this work, we present a method of learning $G_{AB}$ without learning $G_{BA}$. This is done by learning a mapping that maintains the distance between a pair of samples. Moreover, good mappings are obtained, even by maintaining the distance between different parts of the same sample before and after mapping. We present experimental results that the new method not only allows for one sided mapping learning, but also leads to preferable numerical results over the existing circularity-based constraint. Our entire code is made publicly available at~\url{}.教師なしドメインマッピングでは、学習者は、二つの比類のないデータ集合$ A $と$ B $を与えています。目標は、$ B $のアナログサンプルに$ A $のサンプルを変換マッピングの$ G_ {AB} $を学習することです。最近のアプローチは、同時に$ G_ {AB} $と逆マッピングの$ G_ {BA} $の両方を学習するとき、納得マッピングが得られることを示しています。この作品では、我々は、$ G_ {BA} $を学習することなく、$ G_ {AB} $の学習方法を提示します。これは、サンプルの対の間の距離を維持するマッピングを学習することによって行われます。また、良好なマッピングがあってもマッピングの前と後の同じサンプルの異なる部分の間の距離を維持することによって、得られます。私たちは、新しい方法だけではなく、片側マッピング学習を可能にすることの実験結果を提示するだけでなく、既存の真円度ベースの制約を超える好ましい数値結果につながります。私たちの全体のコードは、URL {} \〜で公開されています。
73 Mean-Shift Priors for Image Restoration画像復元のためのディープ平均シフト事前確率In this paper we introduce a natural image prior that directly represents a Gaussian-smoothed version of the natural image distribution. We include our prior in a formulation of image restoration as a Bayes estimator that also allows us to solve noise-blind image restoration problems. We show that the gradient of our prior corresponds to the mean-shift vector on the natural image distribution. In addition, we learn the mean-shift vector field using denoising autoencoders, and use it in a gradient descent approach to perform Bayes risk minimization. We demonstrate competitive results for noise-blind deblurring, super-resolution, and demosaicing.本論文では、直接、自然な画像配信のガウス平滑化バージョンを表し前に自然な画像をご紹介します。我々はまた、私たちは、ノイズ・ブラインド画像復元問題を解決することを可能にするベイズ推定などの画像復元の製剤中に私たちの前にあります。私たちは、自然画像の分布上の平均値シフトベクトルに私たちの前に対応の勾配ことを示しています。また、当社は、ノイズ除去のオートエンコーダを使用して平均値シフトベクトル場を学び、ベイズリスク最小化を実行するために勾配降下アプローチでそれを使用しています。私たちは、ノイズブラインドぼけ修正、超解像、およびデモザイク処理のために競争力のある結果を示しています。
74 Algorithms for Cone Constrained Optimization with Convergence Guarantees収束保証付きコーン制約最適化のための貪欲法Greedy optimization methods such as Matching Pursuit (MP) and Frank-Wolfe (FW) algorithms regained popularity in recent years due to their simplicity, effectiveness and theoretical guarantees. MP and FW address optimization over the linear span and the convex hull of a set of atoms, respectively. In this paper, we consider the intermediate case of optimization over the convex cone, parametrized as the conic hull of a generic atom set, leading to the first principled definitions of non-negative MP algorithms for which we give explicit convergence rates and demonstrate excellent empirical performance. In particular, we derive sublinear (O(1/t)) convergence on general smooth and convex objectives, and linear convergence (O(e^{-t})) on strongly convex objectives, in both cases for general sets of atoms. Furthermore, we establish a clear correspondence of our algorithms to known algorithms from the MP and FW literature. Our novel algorithms and analyses target general atom sets and general objective functions, and hence are directly applicable to a large variety of learning settings.このよう追求(MP)とフランク・ウルフ(FW)のアルゴリズムをマッチングなど貪欲な最適化手法は、そのシンプルさ、有効性と理論的な保証に近年の人気を取り戻しました。 MPとFWアドレスリニアスパンでの最適化と、それぞれの原子の集合の凸包。本稿では、我々は、明示的な収束率を与え、優れた経験を実証しているため、負でないMPアルゴリズムの最初の原則的な定義につながる、一般的な原子の集合の円錐船体としてパラメータ化凸コーン、オーバー最適化の中間ケースを考えますパフォーマンス。原子の一般的なセットの両方の場合において、強い凸面目的に - 特に、我々は、(O(1 / T))は、一般に滑らかで凸目標に収束し、線形収束(){T} O(E ^)サブリニアを導出します。さらに、我々は、MPとFW文献から知られているアルゴリズムに、当社のアルゴリズムの明確な対応を確立します。私たちの新しいアルゴリズムおよびターゲットの一般的な原子の集合と一般的な目的関数を分析し、ひいては学習設定の多種多様に直接適用されています。
75 New Theory for Matrix Completionマトリックスの完成のための新しい理論Prevalent matrix completion theories reply on an assumption that the locations of the missing data are distributed uniformly and randomly (i.e., uniform sampling). Nevertheless, the reason for observations being missing often depends on the unseen observations themselves, and thus the missing data in practice usually occurs in a nonuniform and deterministic fashion rather than randomly. To break through the limits of random sampling, this paper introduces a new hypothesis called \emph{isomeric condition}, which is provably weaker than the assumption of uniform sampling and arguably holds even when the missing data is placed irregularly. Equipped with this new tool, we prove a series of theorems for missing data recovery and matrix completion. In particular, we prove that the exact solutions that identify the target matrix are included as critical points by the commonly used nonconvex programs. Unlike the existing theories for nonconvex matrix completion, which are built upon the same condition as convex programs, our theory shows that nonconvex programs have the potential to work with a much weaker condition. Comparing to the existing studies on nonuniform sampling, our setup is more general.優勢行列完了理論はランダムに失われたデータの位置が均一に分布していることを前提と(すなわち、均一なサンプリング)に返信。それにもかかわらず、多くの場合、不足しているという観測した理由は、目に見えないの観測そのものに依存し、したがって、実際に失われたデータは、通常は不均一かつランダムに決定論的なやり方ではなくで発生します。ランダムサンプリングの限界を打破するために、本論文では、均一なサンプリングの仮定よりも証明可能弱く、間違いなく欠けているデータが不規則に配置された場合でも保持しているの\ EMPH {異性条件}と呼ばれる新しい仮説を、紹介します。この新しいツールを搭載し、我々はデータ復旧と行列補完を欠落しているため定理のシリーズを証明します。特に、我々はターゲット行列を識別厳密解が一般的に使用される非凸のプログラムによって、重要なポイントとして含まれていることを証明します。凸のプログラムと同じ条件に基づいて構築されている非凸行列補完のための既存の理論とは異なり、私たちの理論は非凸のプログラムは非常に弱い状態で動作する可能性があることを示しています。不均一サンプリングの既存研究と比較して、私たちのセットアップは、より一般的です。
76 Hypothesis Test for Nonlinear Effect with Gaussian Processesガウスプロセスでの非線形効果のための堅牢な仮説検定This work constructs a hypothesis test for detecting whether an data-generating function $h: \real^p \rightarrow \real$ belongs to a specific reproducing kernel Hilbert space $\mathcal{H}_0$, where the structure of $\mathcal{H}_0$ is only partially known. Utilizing the theory of reproducing kernels, we reduce this hypothesis to a simple one-sided score test for a scalar parameter, develop a testing procedure that is robust against the mis-specification of kernel functions, and also propose an ensemble-based estimator for the null model to guarantee test performance in small samples. To demonstrate the utility of the proposed method, we apply our test to the problem of detecting nonlinear interaction between groups of continuous features. We evaluate the finite-sample performance of our test under different data-generating functions and estimation strategies for the null model. Our results revealed interesting connection between notions in machine learning (model underfit/overfit) and those in statistical inference (i.e. Type I error/power of hypothesis test), and also highlighted unexpected consequences of common model estimating strategies (e.g. estimating kernel hyperparameters using maximum likelihood estimation) on model inference.この作業には、データ生成関数$ Hか否かを検出するための仮説検定を構築:実^ Pの\のRIGHTARROW \実$ \特定再生核ヒルベルト空間の$の\ mathcal {H} _0 $、$ \ mathcalの構造に属し{H} _0の$は、部分的にしか知られています。カーネルを再生する理論を利用して、我々は、スカラーパラメータのための簡単な一方的なスコア試験にこの仮説を減らすカーネル関数の誤仕様に対してロバストな試験手順を開発し、またのためのアンサンブルベースの推定量を提案します少量のサンプルで試験性能を保証するために、ヌルモデル。提案手法の有用性を実証するために、我々は継続的な機能のグループ間の非線形相互作用を検出する問題に我々のテストを適用します。私たちは、ヌルモデルごとに異なるデータ生成機能と推定戦略の下で、我々のテストの有限サンプルの性能を評価します。我々の結果は、機械学習における概念(モデルunderfit /オーバーフィット)と統計的推論のもの(仮説検定のすなわちタイプIエラー/電源)との間に興味深いの接続を明らかにし、また、例えば最大値を使用してカーネルのハイパーを推定(一般的なモデルを推定戦略の予期しない結果を強調しましたモデル推論の尤推定)。
77 bounds on the robustness to adversarial perturbations敵対摂動に対するロバスト性の下限The input-output mappings learned by state-of-the-art neural networks are significantly discontinuous. It is possible to cause a neural network used for image recognition to misclassify its input by applying very specific, hardly perceptible perturbations to the input, called adversarial perturbations. Many hypotheses have been proposed to explain the existence of these peculiar samples as well as several methods to mitigate them. A proven explanation remains elusive, however. In this work, we take steps towards a formal characterization of adversarial perturbations by deriving lower bounds on the magnitudes of perturbations necessary to change the classification of neural networks. The bounds are experimentally verified on the MNIST and CIFAR-10 data sets.最先端のニューラルネットワークによって学習された入出力マッピングが大幅に不連続です。敵対的摂動と呼ばれる入力、非常に具体的な、ほとんど知覚摂動を適用することによって、その入力を誤分類する画像認識のために使用されたニューラルネットワークを引き起こすことが可能です。多くの仮説は、それらを軽減するために、これらの特有のサンプルだけでなく、いくつかの方法が存在することを説明するために提案されています。実績のある説明は、しかし、とらえどころのないまま。本研究では、ニューラルネットワークの分類を変更する必要が摂動の大きさの下限を導出することにより、敵対摂動の正式な特性評価に向けた措置をとります。境界は、実験的にMNISTとCIFAR-10のデータセットに検証されています。
78 a Submodular Function from Samplesサンプルからの劣モジュラ関数を最小化しますIn this paper we consider the problem of minimizing a submodular function from training data. Submodular functions can be efficiently minimized and are conse- quently heavily applied in machine learning. There are many cases, however, in which we do not know the function we aim to optimize, but rather have access to training data that is used to learn the function. In this paper we consider the question of whether submodular functions can be minimized in such cases. We show that even learnable submodular functions cannot be minimized within any non-trivial approximation when given access to polynomially-many samples. Specifically, we show that there is a class of submodular functions with range in [0, 1] such that, despite being PAC-learnable and minimizable in polynomial-time, no algorithm can obtain an approximation strictly better than 1/2 - o(1) using polynomially-many samples drawn from any distribution. Furthermore, we show that this bound is tight using a trivial algorithm that obtains an approximation of 1/2.本論文では、学習データから、劣モジュラ関数を最小化する問題を考えます。劣モジュラ関数は、効率的に最小化することができ、conse- quently重く機械学習に適用されます。多くの場合は、我々は、最適化することを目指して機能を知っているのではなく、機能を学ぶために使用されるトレーニングデータへのアクセス権を持たないで、しかし、があります。本論文では、劣モジュラ関数は、このような場合に最小化することができるかどうかの問題を検討します。私たちは、多項式、多くのサンプルへのアクセス権を与えられた場合でも学習可能劣モジュラ関数は、任意の非自明な近似の中に最小化することができないことを示しています。 (O - 具体的には、範囲の劣モジュラ関数のクラスは、[0、1] PAC-学習可能と多項式時間で最小化可能であることにもかかわらず、アルゴリズムが1/2より厳密に良好な近似を得ることができない、ようであることを示し1)任意の分布から引き出された多項式、多くのサンプルを使用して。さらに、我々は、このバウンドは1/2の近似値を取得し、些細なアルゴリズムを使用して、タイトであることを示しています。
79 Classification with Convolutional Netsたたみ込みネットで内省的分類We propose introspective convolutional networks (ICN) that emphasize the importance of having convolutional neural networks empowered with generative capabilities. We employ a reclassification-by-synthesis algorithm to perform training using a formulation stemmed from the Bayes theory. Our ICN tries to iteratively: (1) synthesize pseudo-negative samples; and (2) enhance itself by improving the classification. The single CNN classifier learned is at the same time generative --- being able to directly synthesize new samples within its own discriminative model. We conduct experiments on benchmark datasets including MNIST, CIFAR-10, and SVHN using state-of-the-art CNN architectures, and observe improved classification results.私たちは、生成的な機能と権限を与え畳み込みニューラルネットワークを持つことの重要性を強調内省畳み込みネットワーク(ICN)を提案します。私たちは、製剤を使用してトレーニングを行うために再分類、合成によるアルゴリズムはベイズ理論から茎採用します。 (1)擬似陰性サンプルを合成する;私達のICNを反復しようとします(2)分類を改善することによって自分自身を向上させます。学んだ単一CNN分類器は、直接、独自の差別的モデル内の新しいサンプルを合成することができるという---同じ時間生成的です。私たちは、最先端のCNNのアーキテクチャを使用してMNIST、CIFAR-10、およびSVHNなどのベンチマークデータセットでの実験を実施し、改善分類結果を観察します。
80 Distribution Learning Forestsラベル配布学習の森Label distribution learning (LDL) is a general learning framework, which assigns to an instance a distribution over a set of labels rather than a single label or multiple labels. Current LDL methods have either restricted assumptions on the expression form of the label distribution or limitations in representation learning, e.g., to learn deep features in an end-to-end manner. This paper presents label distribution learning forests (LDLFs) - a novel label distribution learning algorithm based on differentiable decision trees, which have several advantages: 1) Decision trees have the potential to model any general form of label distributions by a mixture of leaf node predictions. 2) The learning of differentiable decision trees can be combined with representation learning. We define a distribution-based loss function for a forest, enabling all the trees to be learned jointly, and show that an update function for leaf node predictions, which guarantees a strict decrease of the loss function, can be derived by variational bounding. The effectiveness of the proposed LDLFs is verified on several LDL tasks and a computer vision application, showing significant improvements to the state-of-the-art LDL methods.ラベル分配学習(LDL)がインスタンスにラベルではなく、単一のラベル又は複数のラベルのセットにわたって分布を割り当てる一般的な学習フレームワークです。現在のLDL方法は、エンド・ツー・エンドで深い機能を学ぶために、例えば、表現学習におけるラベルの分布や制限の表現形式上の制限された仮定のいずれかを持っています。本論文では、森林(LDLFs)を学習ラベル配布を提示 - いくつかの利点を持っている微分決定木、に基づく新規ラベル配布学習アルゴリズムを:1)決定木は、リーフノードの予測の混合物でラベル分布のいずれかの一般的な形式をモデル化する可​​能性を秘めています。 2)微分決定木の学習は、表現の学習と組み合わせることができます。私たちは共同で学習するすべての木を有効にする、フォレストの分布に基づく損失関数を定義し、損失関数の厳密な減少を保証リーフノードの予測のための更新機能は、変境界によって導出できることを示しています。提案LDLFsの有効性は、最先端のLDLの方法に大幅な改善を示し、いくつかのLDLタスクとコンピュータビジョンアプリケーションに検証されます。
81 learning of object frames by dense equivariant image labelling密equivariant画像標識によるオブジェクトフレームの教師なし学習One of the key challenges of visual perception is to extract abstract models of 3D objects and object categories from visual measurements, which are affected by complex nuisance factors such as viewpoint, occlusion, motion, and deformations. Starting from the recent idea of viewpoint factorization, we propose a new approach that, given a large number of images of an object and no other supervision, can extract a dense object-centric coordinate frame. This coordinate frame is invariant to deformations of the images and comes with a dense equivariant labelling neural network that can map image pixels to their corresponding object coordinates. We demonstrate the applicability of this method to simple articulated objects and deformable objects such as human faces, learning embeddings from random synthetic transformations or optical flow correspondences, all without any manual supervision.視覚認知の重要な課題の一つは、このような観点から、オクルージョン、モーション、および変形のような複雑な迷惑な要因によって影響される視覚的測定値から3Dオブジェクトとオブジェクトカテゴリの抽象モデルを抽出することです。視点分解の最近の考えから出発して、我々は、オブジェクトおよびなし他の監督の多数の画像を考えると、緻密な物体中心座標フレームを抽出することができ、新たなアプローチを提案します。この座標フレームは、画像の変形に対して不変であり、それに対応するオブジェクトの座標に画像ピクセルをマッピングすることができ、緻密equivariant標識ニューラルネットワークが付属しています。我々は、すべての手動監視することなく、ランダム合成変換又はオプティカルフローの対応から埋め込み学習、単純な多関節オブジェクトとそのような人間の顔のような変形可能なオブジェクトには、この方法の適用可能性を実証します。
82 Training of Deep Networksディープ・ネットワークの圧縮を意識したトレーニングIn recent years, great progress has been made in a variety of application domains thanks to the development of increasingly deeper neural networks. Unfortunately, the huge number of units of these networks makes them expensive both computationally and memory-wise. To overcome this, exploiting the fact that deep networks are over-parametrized, several compression strategies have been proposed. These methods, however, typically start from a network that has been trained in a standard manner, without considering such a future compression. In this paper, we propose to explicitly account for compression in the training process. To this end, we introduce a regularizer that encourages the parameter matrix of each layer to have low rank during training. We show that accounting for compression during training allows us to learn much more compact, yet at least as effective, models than state-of-the-art compression techniques.近年では、大きな進歩は、アプリケーションドメインの様々なますます深くニューラルネットワークの発達のおかげで行われています。残念ながら、これらのネットワークの単位の膨大な数は、それらが高価で、計算とメモリワイズます。これを克服するために、深いネットワークを介して、パラメータ化されているという事実を利用、いくつかの圧縮戦略が提案されています。しかし、これらの方法は、一般的に、このような将来の圧縮を考慮せずに、標準的な方法で訓練されたネットワークから開始します。本稿では、明示的にトレーニングプロセスの圧縮を考慮して提案しています。この目的のために、我々はトレーニング中に低いランクを持つように、各レイヤのパラメータ行列を奨励正則をご紹介します。私たちは、トレーニング中に圧縮を占めることは、私たちは、最先端の圧縮技術よりもはるかにコンパクトで、まだ少なくともとして有効な、モデルを学ぶことを可能にすることを示しています。
83 Semi-Markov Dynamics for Intracortical Brain-Computer Interfaces皮質内ブレインコンピュータインターフェイスのマルチスケールセミマルコフダイナミクスIntracortical brain-computer interfaces (iBCIs) have allowed people with tetraplegia to control a computer cursor by imagining the movement of their paralyzed arm or hand. State-of-the-art decoders deployed in human iBCIs are derived from a Kalman filter that assumes Markov dynamics on the angle of intended movement, and a unimodal dependence on intended angle for each channel of neural activity. Due to errors made in the decoding of noisy neural data, as a user attempts to move the cursor to a goal, the angle between cursor and goal positions may change rapidly. We propose a dynamic Bayesian network that includes the on-screen goal position as part of its latent state, and thus allows the person’s intended angle of movement to be aggregated over a much longer history of neural activity. This multiscale model explicitly captures the relationship between instantaneous angles of motion and long-term goals, and incorporates semi-Markov dynamics for motion trajectories. We also introduce a multimodal likelihood model for recordings of neural populations which can be rapidly calibrated for clinical applications. In offline experiments with recorded neural data, we demonstrate significantly improved prediction of motion directions compared to the Kalman filter. We derive an efficient online inference algorithm, enabling a clinical trial participant with tetraplegia to control a computer cursor with neural activity in real time. The observed kinematics of cursor movement are objectively straighter and smoother than prior iBCI decoding models without loss of responsiveness.皮質内脳コンピュータインタフェース(iBCIs)四肢麻痺を持つ人々が麻痺腕又は手の動きを想像することにより、コンピュータのカーソルを制御することができました。ヒトiBCIsに配備最先端のデコーダは意図運動の角度にマルコフダイナミクスを想定カルマンフィルタ、及び神経活動の各チャネルのために意図角に単峰依存性から導出されます。ユーザが目標にカーソルを移動しようとして、ノイズの多い神経データの復号になさ誤差による、カーソルと目標位置の間の角度が急激に変化してもよいです。私たちは、その潜伏状態の一部として、画面上の目標位置を含むので、動きの人の意図角度は、神経活動のはるかに長い歴史の上に集約することを可能にするダイナミックベイジアンネットワークを提案します。このマルチスケールモデルは、明示的に運動し、長期的な目標の瞬間角度との関係を取得し、運動軌跡のためのセミマルコフダイナミクスを搭載しています。我々はまた、急速に臨床応用のためにキャリブレーションすることができ、神経集団の録音のためのマルチモーダル尤度モデルをご紹介します。記録された神経のデータをオフラインでの実験では、我々は、カルマン・フィルタに比べて運動方向の有意な改善予測を示しています。私たちは、リアルタイムでの神経活動とコンピュータのカーソルを制御するために四肢麻痺と臨床試験の参加者を有効にする、効率的なオンライン推論アルゴリズムを導出します。カーソル移動の観察された運動は、応答性を損なうことなく前iBCI復号化モデルより客観まっすぐで滑らかです。
84 Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMsPredRNN:予測学習のためのリカレントニューラルネットワーク時空LSTMsを使用してThe predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical frames, where spatial appearances and temporal variations are two crucial structures. This paper models these structures by presenting a predictive recurrent neural network (PredRNN). This architecture is enlightened by the idea that spatiotemporal predictive learning should memorize both spatial appearances and temporal variations in a unified memory pool. Concretely, memory states are no longer constrained inside each LSTM unit. Instead, they are allowed to zigzag in two directions: across stacked RNN layers vertically and through all RNN states horizontally. The core of this network is a new Spatiotemporal LSTM (ST-LSTM) unit that extracts and memorizes spatial and temporal representations simultaneously. PredRNN achieves the state-of-the-art prediction performance on three video prediction datasets and is a more general framework, that can be easily extended to other predictive learning tasks by integrating with other architectures.時空間の配列の予測学習は、空間外観と時間的変化は、2つの重要な構造である過去フレームから学習することによって、将来の画像を生成することを目的とします。予測リカレントニューラルネットワーク(PredRNN)を提示することにより、本論文では、モデルのこれらの構造を。このアーキテクチャは、時空間予測学習が統合メモリ・プールに空間出演し、時間的変化の両方を暗記すべきであるという考えによって啓発されます。具体的には、メモリ状態はもはや各LSTMユニット内に拘束されていません。積み重ねられたRNN層全体で縦、RNNが水平に述べているすべてを通して:その代わりに、彼らは二つの方向にジグザグが許可されています。このネットワークのコアが同時に空間的および時間的な表現を抽出し、記憶する新たな時空間LSTM(ST-LSTM)単位です。 PredRNNは、3つのビデオ予測データセットに最先端の予測性能を達成し、簡単に他のアーキテクチャに統合することにより、他の予測学習タスクに拡張することができる、より一般的なフレームワークです。
85 Partial Cross Correlation for Brain Connectivity Analysis脳の接続性分析のためのトレンド除去部分相互相関Brain connectivity analysis is a critical component of ongoing human connectome projects to decipher the healthy and diseased brain. Recent work has highlighted the power-law (multi-time scale) properties of brain signals; however, there remains a lack of methods to specifically quantify short- vs. long- time range brain connections. In this paper, using detrended partial cross-correlation analysis (DPCCA), we propose a novel functional connectivity measure to delineate brain interactions at multiple time scales, while controlling for covariates. We use a rich simulated fMRI dataset to validate the proposed method, and apply it to a real fMRI dataset in a cocaine dependence prediction task. We show that, compared to extant methods, the DPCCA-based approach not only distinguishes short and long memory functional connectivity but also improves feature extraction and enhances classification accuracy. Together, this paper contributes broadly to new computational methodologies in understanding neural information processing.脳の接続性の分析、健康と病気の脳を解読するための継続的な人間コネクトームプロジェクトの重要なコンポーネントです。最近の研究は、脳信号のべき乗則(マルチタイムスケール)の性質を強調しています。しかし、特に短期対長期の時間帯脳の接続を定量化するための方法の欠如が残っています。共変量のために制御しながら、この論文では、トレンド除去部分相互相関解析(DPCCA)を使用して、我々は、複数の時間スケールで脳の相互作用を記述するための新規機能の接続手段を提案します。私たちは、提案手法を検証し、コカイン依存予測タスクで実際のfMRIのデータセットに適用する豊富なシミュレートされたfMRIのデータセットを使用します。我々は、現存の方法に比べ、DPCCAベースのアプローチは、短期および長期記憶の機能的接続性を区別なく、特徴抽出を改善し、分類精度を向上させるだけでなく、ことを示しています。一緒に、この論文は、神経情報処理を理解する上で新しい計算手法に広く貢献しています。
86 Learning for Image Captioning画像のキャプションのための対照学習Image captioning, a popular topic in computer vision, has achieved substantial progress in recent years. However, the distinctiveness of natural descriptions is often overlooked in previous work. It is closely related to the quality of captions, as distinctive captions are more likely to describe images with their unique aspects. In this work, we propose a new learning method, Contrastive Learning (CL), for image captioning. Specifically, via two constraints formulated on top of a reference model, the proposed method can encourage distinctiveness, while maintaining the overall quality of the generated captions. We tested our method on two challenging datasets, where it improves the baseline model by significant margins. We also showed in our studies that the proposed method is generic and can be used for models with various structures.画像のキャプション、コンピュータビジョンで人気のトピックは、近年では実質的な進展を達成しています。しかし、自然な説明の特殊性は、多くの場合、前作で見過ごされています。独特のキャプションが彼らのユニークな側面で画像を記述する可能性が高いように、それは、キャプションの品質に密接に関連しています。本研究では、画像のキャプションのための新しい学習方法、対照ラーニング(CL)を、提案しています。生成された字幕の全体的な品質を維持しながら具体的には、参照モデルの上に処方2つの制約を介して、提案された方法は、識別性を促進することができます。私たちは、それが大きなマージンによって、ベースラインモデルを改善し2つの挑戦のデータセット、上の私たちの方法をテストしました。また、提案手法が一般的であり、様々な構造を持つモデルのために使用することができることを、私たちの研究で示されました。
87 Model-based Reinforcement Learning with Stability Guarantees安定性の保証と安全モデルベース強化学習Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.強化学習は実験データから最適な政策を学習するための強力なパラダイムです。しかし、最適な政策を見つけるために、ほとんどの強化学習アルゴリズムは、現実世界のシステムのために有害かもしれないすべての可能なアクションを、探ります。その結果、学習アルゴリズムはめったに現実の世界でセーフティクリティカルなシステムに適用されません。本稿では、安定性の保証の観点で定義され、明示的に安全性を考慮した学習アルゴリズムを提示します。具体的には、リアプノフの安定性の検証上の制御理論的な結果を拡張し、証明可能な安定性を証明した高性能制御ポリシーを得るために、ダイナミクスの統計モデルを使用する方法を示しています。さらに、従来のガウス過程の観点で追加の規則性の仮定の下で、我々は1つが効果的かつ安全ダイナミクスについて学ぶために、データを収集するため、両方の制御性能を向上させ、状態空間の安全な地域を拡大することができることを証明します。我々の実験では、我々は結果のアルゴリズムが安全に振り子が今まで落下せずに、シミュレートされた倒立振子のニューラルネットワークポリシーを最適化する方法を示しています。
88 multiclass boostingオンラインマルチクラス後押しRecent work has extended the theoretical analysis of boosting algorithms to multiclass problems and to online settings. However, the multiclass extension is in the batch setting and the online extensions only consider binary classification. We fill this gap in the literature by defining, and justifying, a weak learning condition for online multiclass boosting. This condition leads to an optimal boosting algorithm that requires the minimal number of weak learners to achieve a certain accuracy. Additionally, we propose an adaptive algorithm which is near optimal and enjoys an excellent performance on real data due to its adaptive property.最近の研究では、マルチクラス問題にし、オンライン設定にアルゴリズムを押し上げるの理論的分析を拡張しました。しかし、マルチクラス拡張は、一括設定であり、オンラインの拡張機能は、バイナリ分類を検討してください。私たちは、定義、およびオンラインマルチクラスを昇圧する、弱い学習条件を正当化することにより、文献では、このギャップを埋めます。この条件は、特定の精度を達成するために弱識別器の最小数を必要とする最適なブースティングアルゴリズムにつながります。さらに、当社は、その適応財産に最適の近くにあり、実際のデータに優れた性能を楽しんで適応アルゴリズムを提案します。
89 on Balanced Nonlinear Representations for Treatment Effects Estimation治療効果評価のためのバランスのとれた非線形表現のマッチングEstimating treatment effects from observational data is challenging due to the missing counterfactuals. Matching is an effective strategy to tackle this problem. The widely used matching estimators such as nearest neighbor matching (NNM) pair the treated units with the most similar control units in terms of covariates, and then estimate treatment effects accordingly. However, the existing matching estimators have poor performance when the distributions of control and treatment groups are unbalanced. Moreover, theoretical analysis suggests that the bias of causal effect estimation would increase with the dimension of covariates. In this paper, we aim to address these problems by learning low-dimensional balanced and nonlinear representations (BNR) for observational data. In particular, we convert counterfactual prediction as a classification problem, develop a kernel learning model with domain adaptation constraint, and design a novel matching estimator. The dimension of covariates will be significantly reduced after projecting data to a low-dimensional subspace. Experiments on several synthetic and real-world datasets demonstrate the effectiveness of our approach.観測データから、治療効果を推定することにより、欠落した反実への挑戦です。マッチングは、この問題に取り組むための効果的な戦略です。このような最近傍マッチング(NNM)として広く使用されている整合推定器は、共変量の点で最も類似した制御ユニットで処理されたユニットをペア、それに応じて治療効果を推定します。対照群と処置群の分布がアンバランスしているときしかし、既存の一致推定量は、パフォーマンスの低下を持っています。また、理論的な分析は、因果影響推定のバイアスは共変量の寸法に増加することを示唆しています。本稿では、観測データのための低次元のバランスのとれた非線形表現(BNR)を学習することによって、これらの問題に対処することを目指しています。特に、我々は、ドメイン適応制約とカーネル学習モデルを開発し、分類問題として反事実予測変換、および新規照合推定器を設計します。共変量の寸法は著しく低次元部分空間にデータを投影した後に減少するであろう。いくつかの合成と実世界のデータセットの実験は、我々のアプローチの有効性を示します。
90 Overcomplete HMMsオーバーコンプリートのHMMを学習We study the basic problem of learning overcomplete HMMs---those that have many hidden states but a small output alphabet. Despite having significant practical importance, such HMMs are poorly understood with no known positive or negative results for efficient learning. In this paper, we present several new results---both positive and negative---which help define the boundaries between the tractable-learning setting and the intractable setting. We show positive results for a large subclass of HMMs whose transition matrices are sparse, well-conditioned and have small probability mass on short cycles. We also show that learning is impossible given only a polynomial number of samples for HMMs with a small output alphabet and whose transition matrices are random regular graphs with large degree. We also discuss these results in the context of learning HMMs which can capture long-term dependencies.私たちは、過完備のHMM ---多くの隠れ状態が、小さな出力アルファベットを有するものを学習の基本的な問題を検討します。重要な実用的な重要性を持つにもかかわらず、そのようなHMMには不十分、効率的な学習のための既知の陽性または陰性の結果がないと理解されています。本稿では、扱いやすい学習設定と難治設定間の境界を定義する助け正と負の両方のいくつかの新しい結果を--- ---提示します。私たちは、遷移行列が良条件、スパースであり、短い周期の小さな確率質量を持つ隠れマルコフモデルの大規模なサブクラスのための肯定的な結果を示しました。また、学習が小さな出力アルファベットと遷移行列をかなりの程度のランダム定期的なグラフであるとのHMMのためのサンプルのみ多項式番号を指定することは不可能であることを示しています。また、長期的な依存関係をキャプチャすることができます学習のHMMのコンテキストでこれらの結果を議論します。
91 CaKe: Effective brain connectivity with causal kernelsGPケーキ:因果カーネルで効果的な脳の接続A fundamental goal in network neuroscience is to understand how activity in one brain region drives activity elsewhere, a process referred to as effective connectivity. Here we propose to model this causal interaction using integro-differential equations and causal kernels that allow for a rich analysis of effective connectivity. The approach combines the tractability and flexibility of autoregressive modeling with the biophysical interpretability of dynamic causal modeling. The causal kernels are learned nonparametrically using Gaussian process regression, yielding an efficient framework for causal inference. We construct a novel class of causal covariance functions that enforce the desired properties of the causal kernels, an approach which we call GP CaKe. By construction, the model and its hyperparameters have biophysical meaning and are therefore easily interpretable. We demonstrate the efficacy of GP CaKe on a number of simulations and give an example of a realistic application on magnetoencephalography (MEG) data.ネットワークの神経科学の基本的な目標は、他の場所で1つの脳領域のドライブ活動でどのように活動を理解することである、プロセスは、有効な接続性に言及しました。ここでは、効果的な接続性の豊富な分析を可能微積分方程式との因果カーネルを使用して、この因果の相互作用をモデル化することを提案します。アプローチは、動的な因果モデリングの生物物理学的判読して自己回帰モデルの取り扱いやすさと柔軟性を兼ね備えました。因果カーネルはnonparametrically因果推論のための効率的なフレームワークを得、ガウス過程回帰を使用して学習されます。私たちは、因果カーネルの所望の特性、我々はGPケーキを呼び出すアプローチを強制因果共分散機能の新規クラスを構築します。建設することにより、モデルとそのハイパーは、生物物理学的な意味を持っているので、容易に解釈されています。私たちは、シミュレーションの数にGPケーキの有効性を実証し、脳磁図(MEG)データの現実的なアプリケーションの例を与えます。
92 "when to update" from "how to update"デカップリング"更新&QUOTする場合、 QUOT&から;更新&QUOTする方法。Deep learning requires data. A useful approach to obtain data is to be creative and mine data from various sources, that were created for different purposes. Unfortunately, this approach often leads to noisy labels. In this paper, we propose a meta algorithm for tackling the noisy labels problem. The key idea is to decouple ``when to update'' from ``how to update''. We demonstrate the effectiveness of our algorithm by mining data for gender classification by combining the Labeled Faces in the Wild (LFW) face recognition dataset with a textual genderizing service, which leads to a noisy dataset. While our approach is very simple to implement, it leads to state-of-the-art results. We analyze some convergence properties of the proposed algorithm.ディープ学習は、データを必要とします。データを得るための有用なアプローチは、異なる目的のために作成されたさまざまなソースからのクリエイティブと鉱山データであることがあります。残念ながら、このアプローチは、多くの場合、ノイズの多いラベルにつながります。本稿では、ノイズの多いラベルの問題に取り組むためのメタアルゴリズムを提案します。キーアイデアは、「「どのように更新する ``から」」更新する際に ``切り離すことです。私たちは、ノイズの多いデータセットにつながるテキストgenderizingサービスとワイルド(LFW)顔認識データセット内の標識の顔を組み合わせることにより、性別分類のためのデータをマイニングすることにより、当社のアルゴリズムの有効性を示します。我々のアプローチは、実装が非常に簡単であるが、それは最先端の結果につながります。私たちは、提案したアルゴリズムのいくつかの収束特性を解析します。
93 Neural Networks自己正規化ニューラルネットワークDeep Learning has revolutionized vision via convolutional neural networks (CNNs) and natural language processing via recurrent neural networks (RNNs). However, success stories of Deep Learning with standard feed-forward neural networks (FNNs) are rare. FNNs that perform well are typically shallow and, therefore cannot exploit many levels of abstract representations. We introduce self-normalizing neural networks (SNNs) to enable high-level abstract representations. While batch normalization requires explicit normalization, neuron activations of SNNs automatically converge towards zero mean and unit variance. The activation function of SNNs are ""scaled exponential linear units"" (SELUs), which induce self-normalizing properties. Using the Banach fixed-point theorem, we prove that activations close to zero mean and unit variance that are propagated through many network layers will converge towards zero mean and unit variance -- even under the presence of noise and perturbations. This convergence property of SNNs allows to (1) train deep networks with many layers, (2) employ strong regularization, and (3) to make learning highly robust. Furthermore, for activations not close to unit variance, we prove an upper and lower bound on the variance, thus, vanishing and exploding gradients are impossible. We compared SNNs on (a) 121 tasks from the UCI machine learning repository, on (b) drug discovery benchmarks, and on (c) astronomy tasks with standard FNNs and other machine learning methods such as random forests and support vector machines. For FNNs we considered (i) ReLU networks without normalization, (ii) batch normalization, (iii) layer normalization, (iv) weight normalization, (v) highway networks, (vi) residual networks. SNNs significantly outperformed all competing FNN methods at 121 UCI tasks, outperformed all competing methods at the Tox21 dataset, and set a new record at an astronomy data set. The winning SNN architectures are often very deep.ディープラーニングは、リカレントニューラルネットワーク(のRNN)を介して畳み込みニューラルネットワーク(CNNs)と自然言語処理を介したビジョンに革命をもたらしました。しかし、標準のフィードフォワードニューラルネットワーク(FNNs)との深い学習の成功事例はまれです。ウェルを行うFNNsは、典型的には浅く、したがって抽象表現の多くのレベルを利用することができません。我々は、高レベルの抽象表現を可能にするために、自己正規化ニューラルネットワーク(SNNS)を導入します。バッチの正規化は、明示的な正規化を必要とするが、SNNSのニューロンの活性化は自動的にゼロ平均及び単位分散に向かって収束します。 SNNSの活性化機能は、「自己正規化特性を誘導する(SELUs)」、「指数関数の線形単位をスケーリング」です。ノイズ及び摂動の存在下で - バナッハの不動点定理を用いて、我々は多くのネットワーク層を介して伝播され、ゼロ平均及び単位分散に近い活性化は、ゼロ平均及び単位分散に向かって収束することを証明します。 SNNSのこの収束性は、(1)、多くの層との深いネットワークを訓練(2)強力な正則を採用し、そして(3)非常に堅牢な学習にすることができます。さらに、単位分散に近くないアクティベーションのために、我々はこのように、消失して爆発勾配は不可能な、分散にバインドされた上部および下部を証明します。我々は、UCI機械学習リポジトリから、(b)は、創薬ベンチマークに、そのようなランダムフォレスト、サポートベクターマシンなどの標準FNNs及び他の機械学習方法と(c)の天文学のタスクに(A)121のタスクSNNSを比較しました。 FNNsために、我々は、(ii)はバッチの正規化、(iii)の正規化層、(iv)の重量正規化、(V)高速道路ネットワーク、(VI)残留ネットワーク、正規化なし(I)ReLUネットワークを検討しました。 SNNSは大幅に、121回のUCIの作業ですべての競合FNNの方法を上回っTox21データセットでは、すべての競合する方法よりも優れていた、と天文学のデータセットで新しいレコードを設定します。受賞SNNアーキテクチャは、多くの場合、非常に深いです。
94 to Pivot with Adversarial Networks敵対ネットワークで旋回するように学びますSeveral techniques for domain adaptation have been proposed to account for differences in the distribution of the data used for training and testing. The majority of this work focuses on a binary domain label. Similar problems occur in a scientific context where there may be a continuous family of plausible data generation processes associated to the presence of systematic uncertainties. Robust inference is possible if it is based on a pivot -- a quantity whose distribution does not depend on the unknown values of the nuisance parameters that parametrize this family of data generation processes. In this work, we introduce and derive theoretical results for a training procedure based on adversarial networks for enforcing the pivotal property (or, equivalently, fairness with respect to continuous attributes) on a predictive model. The method includes a hyperparameter to control the trade-off between accuracy and robustness. We demonstrate the effectiveness of this approach with a toy example and examples from particle physics.ドメイン適応のためのいくつかの技術は、トレーニングとテストのために使用されるデータの分布の違いを説明するために提案されてきました。この作品の大半は、バイナリードメインラベルに焦点を当てています。同様の問題は、体系的な不確実性の存在に関連した妥当なデータ生成プロセスの継続的な家族があるかもしれない科学的なコンテキストで発生します。その配信データ生成処理のこのファミリーをパラメータ迷惑パラメータの未知の値に依存しない量 - それはピボットに基づいている場合ロバスト推定が可能です。本研究では、導入した予測モデルに(連続属性に関して、同等に、公平性をか)極めて重要な財産を強制するために敵対ネットワークに基づいたトレーニング手順のための理論的な結果を導き出します。この方法は、精度とロバスト性の間のトレードオフを制御するためのハイパーパラメータを含みます。私たちは、素粒子物理学のおもちゃの例と例と、このアプローチの有効性を実証します。
95 A continuous-filter convolutional neural network for modeling quantum interactionsSchNet:量子相互作用をモデル化するための継続的なフィルタの畳み込みニューラルネットワークDeep learning has the potential to revolutionize quantum chemistry as it is ideally suited to learn representations for structured data and speed up the exploration of chemical space. While convolutional neural networks have proven to be the first choice for images, audio and video data, the atoms in molecules are not restricted to a grid. Instead, their precise locations contain essential physical information, that would get lost if discretized. Thus, we propose to use continuous-filter convolutional layers to be able to model local correlations without requiring the data to lie on a grid. We apply those layers in SchNet: a novel deep learning architecture modeling quantum interactions in molecules. We obtain a joint model for the total energy and interatomic forces that follows fundamental quantum-chemical principles. Our architecture achieves state-of-the-art performance for benchmarks of equilibrium molecules and molecular dynamics trajectories. Finally, we introduce a more challenging benchmark with chemical and structural variations that suggests the path for further work.ディープ学習は、理想的な構造化データのための表現を学び、化学空間の探査をスピードアップするために適しているとして、量子化学に革命をもたらす可能性を秘めています。畳み込みニューラルネットワークは、イメージ、オーディオおよびビデオデータのための最初の選択肢であることが証明されているが、分子内の原子は、グリッドに限定されるものではありません。代わりに、彼らの正確な位置は、離散化した場合に迷子になり不可欠な物理的な情報が含まれています。したがって、我々は、グリッド上に存在するデータを必要とすることなく、ローカル相関関係をモデル化することができるように、連続フィルタの畳み込み層を使用することを提案します。分子における新規深い学習アーキテクチャモデリング量子相互作用:我々はSchNetでこれらの層を適用します。私たちは、基本的な量子化学の原則を次の総エネルギーや原子間力のための共同モデルを得ま​​す。私たちのアーキテクチャは、平衡分子と分子動力学軌道のベンチマークのための最先端の性能を実現します。最後に、我々は今後の作業のパスを示唆して化学的および構造的なバリエーションで、より挑戦的なベンチマークを紹介します。
96 Bias: Training More Accurate Neural Networks by Emphasizing High Variance Samplesアクティブ・バイアス:高分散サンプルを強調することで、より正確なニューラルネットワークをトレーニングSelf-paced learning and hard example mining re-weight training instances to improve learning accuracy. This paper presents two improved alternatives based on lightweight estimates of sample uncertainty in stochastic gradient descent (SGD): the variance in predicted probability of the correct class across iterations of mini-batch SGD, and the proximity of the correct class probability to the decision threshold. Extensive experimental results on six datasets show that our methods reliably improve accuracy in various network architectures, including additional gains on top of other popular training techniques, such as residual learning, momentum, ADAM, batch normalization, dropout, and distillation.学習精度向上のために自分のペースで学習し、ハード例マイニング再ウェイトトレーニングインスタンス。ミニバッチSGDの反復の間で正しいクラスの予測確率の分散、および決定閾値に正しいクラス確率の近接:本論文では、確率的勾配降下法(SGD)におけるサンプルの不確実性の軽量な見積もりに基づいて2つの改善の代替案を提示します。 6つのデータセットに関する広範囲の実験結果は、我々の方法が確実な残留学習、勢い、ADAM、バッチの正規化、ドロップアウト、および蒸留などの他の人気のトレーニング技術、の上に追加の利益を含むさまざまなネットワークアーキテクチャ、精度を向上することを示しています。
97 Learning of Submodular Functions劣モジュラ関数の微分学習Can we incorporate discrete optimization algorithms within modern machine learning models? For example, is it possible to use in deep architectures a layer whose output is the minimal cut of a parametrized graph? Given that these models are trained end-to-end by leveraging gradient information, the introduction of such layers seems very challenging due to their non-continuous output. In this paper we focus on the problem of submodular minimization, for which we show that such layers are indeed possible. The key idea is that we can continuously relax the output without sacrificing guarantees. We provide an easily computable approximation to the Jacobian complemented with a complete theoretical analysis. Finally, these contributions let us experimentally learn probabilistic log-supermodular models via a bi-level variational inference formulation.私たちは、現代の機械学習モデル内の離散最適化アルゴリズムを組み込むことができますか?例えば、それは深いアーキテクチャでその出力パラメータ化グラフの最小カットである層を使用することが可能ですか?これらのモデルは勾配情報を活用することによって、エンドツーエンドの訓練を受けていることを考えると、このような層の導入は、その非連続出力に非常に困難と思われます。本論文では、我々はそのような層が実際に可能であることを示しているため、劣モジュラ最小化の問題に焦点を当てます。キーアイデアは、我々は継続的に保証を犠牲にすることなく、出力を緩和することができるということです。私たちは、完全な理論的解析で補完ヤコビアンに簡単に計算可能な近似を提供しています。最後に、これらの貢献は、私たちは実験的にバイレベル変分推論製剤を経由して、確率の対数優モジュラモデルを学習してみましょう。
98 Representation Learning on Large Graphs大きいグラフ上での学習の誘導表現Low-dimensional embeddings of nodes in large graphs have proved extremely useful in a variety of prediction tasks, from content recommendation to identifying protein functions. However, most existing approaches require that all nodes in the graph are present during training of the embeddings; these previous approaches are inherently transductive and do not naturally generalize to unseen nodes. Here we present GraphSAGE, a general, inductive framework that leverages node feature information (e.g., text attributes) to efficiently generate node embeddings. Instead of training individual embeddings for each node, we learn a function that generates embeddings by sampling and aggregating features from a node's local neighborhood. Our algorithm outperforms strong baselines on three inductive node-classification benchmarks: we classify the category of unseen nodes in evolving information graphs based on citation and Reddit post data, and we show that our algorithm generalizes to completely unseen graphs using a multi-graph dataset of protein-protein interactions.大きいグラフのノードの低次元埋め込みコンテンツ推薦からのタンパク質の機能を同定すること、予測タスクの様々な非常に有用なことが証明されています。しかし、ほとんどの既存のアプローチは、グラフ内のすべてのノードが埋め込みのトレーニング中に存在していることが必要です。これらの従来のアプローチは、本質的にトランスダクティブであり、自然に目に見えないノードに一般化していません。ここではGraphSAGE、効率よくノード埋め込みを生成するために(例えば、テキスト属性)ノードの機能情報を活用し、一般的な、誘導性の枠組みを提示します。代わりに、各ノードに対して個別の埋め込みを訓練し、我々は、サンプリングし、ノードの局所近傍からの機能を集約することにより、埋め込みを生成する関数を学習します。当社のアルゴリズムは3誘導ノード分類ベンチマークに強いベースラインを上回る性能:我々は引用とRedditのポストデータに基づいて情報のグラフを進化における目に見えないノードのカテゴリを分類し、我々は我々のアルゴリズムがのマルチグラフのデータセットを使用して、完全に目に見えないグラフに一般ことを示していますタンパク質間相互作用。
99 Selection and Summarization in Sequential Data順次データにおけるサブセットの選択および集約Subset selection, which is the task of finding a small subset of representative items from a large ground set, finds numerous applications in different areas. Sequential data, including time-series and ordered data, contain important structural relationships among items, imposed by underlying dynamic models of data, that should play a vital role in the selection of representatives. However, nearly all existing subset selection techniques ignore underlying dynamics of data and treat items independently, leading to incompatible sets of representatives. In this paper, we develop a new framework for sequential subset selection that finds a set of representatives compatible with the dynamic models of data. To do so, we equip items with transition dynamic models and pose the problem as an integer binary optimization over assignments of sequential items to representatives, that leads to high encoding, diversity and transition potentials. Our formulation generalizes the well-known facility location objective to deal with sequential data, incorporating transition dynamics among facilities. As the proposed formulation is non-convex, we derive a max-sum message passing algorithm to solve the problem efficiently. Experiments on synthetic and real data, including instructional video summarization, show that our sequential subset selection framework not only achieves better encoding and diversity than the state of the art, but also successfully incorporates dynamics of data, leading to compatible representatives.大きなグランドセットからの代表アイテムの小さなサブセットを見つけるタスクであるサブセット選択は、さまざまな分野で多数の用途を見出します。時系列データを命じ含むシーケンシャルデータは、代表者の選択に重要な役割を果たすべきデータの基本的な動的なモデルによって課される項目間の重要な構造的関係を、含まれています。しかし、ほぼすべての既存のサブセットの選択技術は、データの基本的なダイナミクスを無視して、独立してアイテムを扱う、代表者の互換性のないセットにつながります。本稿では、データの動的モデルと互換性の代表のセットを見つけ、順次サブセット選択のための新しいフレームワークを開発しています。そうするために、我々は、移行ダイナミックなモデルを持つアイテムを装備し、高いエンコーディング、多様性と移行電位につながる代表者へのシーケンシャル項目の割り当てを超える整数バイナリ最適化、などの問題を提起します。我々の製剤は、施設間の遷移ダイナミクスを組み込んだ、シーケンシャルデータに対処するため、周知の施設位置目標を一般化します。提案された製剤は非凸であるように、我々は、効率的に問題を解決するためのアルゴリズムを渡して、最大和メッセージを導き出します。教育ビデオの要約を含む合成し、実際のデータの実験では、私たちのシーケンシャルなサブセット選択フレームワークは、芸術の状態よりも良いエンコーディングと多様性を実現するだけでなく、成功した互換性のある代表につながる、データのダイナミクスを組み込んでいないだけであることを示しています。