SAFE public projects git trees. - safe/jmp/linux-2.6/blob - net/ipv4/ipmr.c

   1 /*
   2  *      IP multicast routing support for mrouted 3.6/3.8
   3  *
   4  *              (c) 1995 Alan Cox, <alan@lxorguk.ukuu.org.uk>
   5  *        Linux Consultancy and Custom Driver Development
   6  *
   7  *      This program is free software; you can redistribute it and/or
   8  *      modify it under the terms of the GNU General Public License
   9  *      as published by the Free Software Foundation; either version
  10  *      2 of the License, or (at your option) any later version.
  11  *
  12  *      Fixes:
  13  *      Michael Chastain        :       Incorrect size of copying.
  14  *      Alan Cox                :       Added the cache manager code
  15  *      Alan Cox                :       Fixed the clone/copy bug and device race.
  16  *      Mike McLagan            :       Routing by source
  17  *      Malcolm Beattie         :       Buffer handling fixes.
  18  *      Alexey Kuznetsov        :       Double buffer free and other fixes.
  19  *      SVR Anand               :       Fixed several multicast bugs and problems.
  20  *      Alexey Kuznetsov        :       Status, optimisations and more.
  21  *      Brad Parker             :       Better behaviour on mrouted upcall
  22  *                                      overflow.
  23  *      Carlos Picoto           :       PIMv1 Support
  24  *      Pavlin Ivanov Radoslavov:       PIMv2 Registers must checksum only PIM header
  25  *                                      Relax this requrement to work with older peers.
  26  *
  27  */
  28
  29 #include <asm/system.h>
  30 #include <asm/uaccess.h>
  31 #include <linux/types.h>
  32 #include <linux/capability.h>
  33 #include <linux/errno.h>
  34 #include <linux/timer.h>
  35 #include <linux/mm.h>
  36 #include <linux/kernel.h>
  37 #include <linux/fcntl.h>
  38 #include <linux/stat.h>
  39 #include <linux/socket.h>
  40 #include <linux/in.h>
  41 #include <linux/inet.h>
  42 #include <linux/netdevice.h>
  43 #include <linux/inetdevice.h>
  44 #include <linux/igmp.h>
  45 #include <linux/proc_fs.h>
  46 #include <linux/seq_file.h>
  47 #include <linux/mroute.h>
  48 #include <linux/init.h>
  49 #include <linux/if_ether.h>
  50 #include <linux/slab.h>
  51 #include <net/net_namespace.h>
  52 #include <net/ip.h>
  53 #include <net/protocol.h>
  54 #include <linux/skbuff.h>
  55 #include <net/route.h>
  56 #include <net/sock.h>
  57 #include <net/icmp.h>
  58 #include <net/udp.h>
  59 #include <net/raw.h>
  60 #include <linux/notifier.h>
  61 #include <linux/if_arp.h>
  62 #include <linux/netfilter_ipv4.h>
  63 #include <net/ipip.h>
  64 #include <net/checksum.h>
  65 #include <net/netlink.h>
  66 #include <net/fib_rules.h>
  67
  68 #if defined(CONFIG_IP_PIMSM_V1) || defined(CONFIG_IP_PIMSM_V2)
  69 #define CONFIG_IP_PIMSM 1
  70 #endif
  71
  72 struct mr_table {
  73         struct list_head        list;
  74 #ifdef CONFIG_NET_NS
  75         struct net              *net;
  76 #endif
  77         u32                     id;
  78         struct sock             *mroute_sk;
  79         struct timer_list       ipmr_expire_timer;
  80         struct list_head        mfc_unres_queue;
  81         struct list_head        mfc_cache_array[MFC_LINES];
  82         struct vif_device       vif_table[MAXVIFS];
  83         int                     maxvif;
  84         atomic_t                cache_resolve_queue_len;
  85         int                     mroute_do_assert;
  86         int                     mroute_do_pim;
  87 #if defined(CONFIG_IP_PIMSM_V1) || defined(CONFIG_IP_PIMSM_V2)
  88         int                     mroute_reg_vif_num;
  89 #endif
  90 };
  91
  92 struct ipmr_rule {
  93         struct fib_rule         common;
  94 };
  95
  96 struct ipmr_result {
  97         struct mr_table         *mrt;
  98 };
  99
 100 /* Big lock, protecting vif table, mrt cache and mroute socket state.
 101    Note that the changes are semaphored via rtnl_lock.
 102  */
 103
 104 static DEFINE_RWLOCK(mrt_lock);
 105
 106 /*
 107  *      Multicast router control variables
 108  */
 109
 110 #define VIF_EXISTS(_mrt, _idx) ((_mrt)->vif_table[_idx].dev != NULL)
 111
 112 /* Special spinlock for queue of unresolved entries */
 113 static DEFINE_SPINLOCK(mfc_unres_lock);
 114
 115 /* We return to original Alan's scheme. Hash table of resolved
 116    entries is changed only in process context and protected
 117    with weak lock mrt_lock. Queue of unresolved entries is protected
 118    with strong spinlock mfc_unres_lock.
 119
 120    In this case data path is free of exclusive locks at all.
 121  */
 122
 123 static struct kmem_cache *mrt_cachep __read_mostly;
 124
 125 static struct mr_table *ipmr_new_table(struct net *net, u32 id);
 126 static int ip_mr_forward(struct net *net, struct mr_table *mrt,
 127                          struct sk_buff *skb, struct mfc_cache *cache,
 128                          int local);
 129 static int ipmr_cache_report(struct mr_table *mrt,
 130                              struct sk_buff *pkt, vifi_t vifi, int assert);
 131 static int __ipmr_fill_mroute(struct mr_table *mrt, struct sk_buff *skb,
 132                               struct mfc_cache *c, struct rtmsg *rtm);
 133 static void ipmr_expire_process(unsigned long arg);
 134
 135 #ifdef CONFIG_IP_MROUTE_MULTIPLE_TABLES
 136 #define ipmr_for_each_table(mrt, net) \
 137         list_for_each_entry_rcu(mrt, &net->ipv4.mr_tables, list)
 138
 139 static struct mr_table *ipmr_get_table(struct net *net, u32 id)
 140 {
 141         struct mr_table *mrt;
 142
 143         ipmr_for_each_table(mrt, net) {
 144                 if (mrt->id == id)
 145                         return mrt;
 146         }
 147         return NULL;
 148 }
 149
 150 static int ipmr_fib_lookup(struct net *net, struct flowi *flp,
 151                            struct mr_table **mrt)
 152 {
 153         struct ipmr_result res;
 154         struct fib_lookup_arg arg = { .result = &res, };
 155         int err;
 156
 157         err = fib_rules_lookup(net->ipv4.mr_rules_ops, flp, 0, &arg);
 158         if (err < 0)
 159                 return err;
 160         *mrt = res.mrt;
 161         return 0;
 162 }
 163
 164 static int ipmr_rule_action(struct fib_rule *rule, struct flowi *flp,
 165                             int flags, struct fib_lookup_arg *arg)
 166 {
 167         struct ipmr_result *res = arg->result;
 168         struct mr_table *mrt;
 169
 170         switch (rule->action) {
 171         case FR_ACT_TO_TBL:
 172                 break;
 173         case FR_ACT_UNREACHABLE:
 174                 return -ENETUNREACH;
 175         case FR_ACT_PROHIBIT:
 176                 return -EACCES;
 177         case FR_ACT_BLACKHOLE:
 178         default:
 179                 return -EINVAL;
 180         }
 181
 182         mrt = ipmr_get_table(rule->fr_net, rule->table);
 183         if (mrt == NULL)
 184                 return -EAGAIN;
 185         res->mrt = mrt;
 186         return 0;
 187 }
 188
 189 static int ipmr_rule_match(struct fib_rule *rule, struct flowi *fl, int flags)
 190 {
 191         return 1;
 192 }
 193
 194 static const struct nla_policy ipmr_rule_policy[FRA_MAX + 1] = {
 195         FRA_GENERIC_POLICY,
 196 };
 197
 198 static int ipmr_rule_configure(struct fib_rule *rule, struct sk_buff *skb,
 199                                struct fib_rule_hdr *frh, struct nlattr **tb)
 200 {
 201         return 0;
 202 }
 203
 204 static int ipmr_rule_compare(struct fib_rule *rule, struct fib_rule_hdr *frh,
 205                              struct nlattr **tb)
 206 {
 207         return 1;
 208 }
 209
 210 static int ipmr_rule_fill(struct fib_rule *rule, struct sk_buff *skb,
 211                           struct fib_rule_hdr *frh)
 212 {
 213         frh->dst_len = 0;
 214         frh->src_len = 0;
 215         frh->tos     = 0;
 216         return 0;
 217 }
 218
 219 static const struct fib_rules_ops __net_initdata ipmr_rules_ops_template = {
 220         .family         = RTNL_FAMILY_IPMR,
 221         .rule_size      = sizeof(struct ipmr_rule),
 222         .addr_size      = sizeof(u32),
 223         .action         = ipmr_rule_action,
 224         .match          = ipmr_rule_match,
 225         .configure      = ipmr_rule_configure,
 226         .compare        = ipmr_rule_compare,
 227         .default_pref   = fib_default_rule_pref,
 228         .fill           = ipmr_rule_fill,
 229         .nlgroup        = RTNLGRP_IPV4_RULE,
 230         .policy         = ipmr_rule_policy,
 231         .owner          = THIS_MODULE,
 232 };
 233
 234 static int __net_init ipmr_rules_init(struct net *net)
 235 {
 236         struct fib_rules_ops *ops;
 237         struct mr_table *mrt;
 238         int err;
 239
 240         ops = fib_rules_register(&ipmr_rules_ops_template, net);
 241         if (IS_ERR(ops))
 242                 return PTR_ERR(ops);
 243
 244         INIT_LIST_HEAD(&net->ipv4.mr_tables);
 245
 246         mrt = ipmr_new_table(net, RT_TABLE_DEFAULT);
 247         if (mrt == NULL) {
 248                 err = -ENOMEM;
 249                 goto err1;
 250         }
 251
 252         err = fib_default_rule_add(ops, 0x7fff, RT_TABLE_DEFAULT, 0);
 253         if (err < 0)
 254                 goto err2;
 255
 256         net->ipv4.mr_rules_ops = ops;
 257         return 0;
 258
 259 err2:
 260         kfree(mrt);
 261 err1:
 262         fib_rules_unregister(ops);
 263         return err;
 264 }
 265
 266 static void __net_exit ipmr_rules_exit(struct net *net)
 267 {
 268         struct mr_table *mrt, *next;
 269
 270         list_for_each_entry_safe(mrt, next, &net->ipv4.mr_tables, list)
 271                 kfree(mrt);
 272         fib_rules_unregister(net->ipv4.mr_rules_ops);
 273 }
 274 #else
 275 #define ipmr_for_each_table(mrt, net) \
 276         for (mrt = net->ipv4.mrt; mrt; mrt = NULL)
 277
 278 static struct mr_table *ipmr_get_table(struct net *net, u32 id)
 279 {
 280         return net->ipv4.mrt;
 281 }
 282
 283 static int ipmr_fib_lookup(struct net *net, struct flowi *flp,
 284                            struct mr_table **mrt)
 285 {
 286         *mrt = net->ipv4.mrt;
 287         return 0;
 288 }
 289
 290 static int __net_init ipmr_rules_init(struct net *net)
 291 {
 292         net->ipv4.mrt = ipmr_new_table(net, RT_TABLE_DEFAULT);
 293         return net->ipv4.mrt ? 0 : -ENOMEM;
 294 }
 295
 296 static void __net_exit ipmr_rules_exit(struct net *net)
 297 {
 298         kfree(net->ipv4.mrt);
 299 }
 300 #endif
 301
 302 static struct mr_table *ipmr_new_table(struct net *net, u32 id)
 303 {
 304         struct mr_table *mrt;
 305         unsigned int i;
 306
 307         mrt = ipmr_get_table(net, id);
 308         if (mrt != NULL)
 309                 return mrt;
 310
 311         mrt = kzalloc(sizeof(*mrt), GFP_KERNEL);
 312         if (mrt == NULL)
 313                 return NULL;
 314         write_pnet(&mrt->net, net);
 315         mrt->id = id;
 316
 317         /* Forwarding cache */
 318         for (i = 0; i < MFC_LINES; i++)
 319                 INIT_LIST_HEAD(&mrt->mfc_cache_array[i]);
 320
 321         INIT_LIST_HEAD(&mrt->mfc_unres_queue);
 322
 323         setup_timer(&mrt->ipmr_expire_timer, ipmr_expire_process,
 324                     (unsigned long)mrt);
 325
 326 #ifdef CONFIG_IP_PIMSM
 327         mrt->mroute_reg_vif_num = -1;
 328 #endif
 329 #ifdef CONFIG_IP_MROUTE_MULTIPLE_TABLES
 330         list_add_tail_rcu(&mrt->list, &net->ipv4.mr_tables);
 331 #endif
 332         return mrt;
 333 }
 334
 335 /* Service routines creating virtual interfaces: DVMRP tunnels and PIMREG */
 336
 337 static void ipmr_del_tunnel(struct net_device *dev, struct vifctl *v)
 338 {
 339         struct net *net = dev_net(dev);
 340
 341         dev_close(dev);
 342
 343         dev = __dev_get_by_name(net, "tunl0");
 344         if (dev) {
 345                 const struct net_device_ops *ops = dev->netdev_ops;
 346                 struct ifreq ifr;
 347                 struct ip_tunnel_parm p;
 348
 349                 memset(&p, 0, sizeof(p));
 350                 p.iph.daddr = v->vifc_rmt_addr.s_addr;
 351                 p.iph.saddr = v->vifc_lcl_addr.s_addr;
 352                 p.iph.version = 4;
 353                 p.iph.ihl = 5;
 354                 p.iph.protocol = IPPROTO_IPIP;
 355                 sprintf(p.name, "dvmrp%d", v->vifc_vifi);
 356                 ifr.ifr_ifru.ifru_data = (__force void __user *)&p;
 357
 358                 if (ops->ndo_do_ioctl) {
 359                         mm_segment_t oldfs = get_fs();
 360
 361                         set_fs(KERNEL_DS);
 362                         ops->ndo_do_ioctl(dev, &ifr, SIOCDELTUNNEL);
 363                         set_fs(oldfs);
 364                 }
 365         }
 366 }
 367
 368 static
 369 struct net_device *ipmr_new_tunnel(struct net *net, struct vifctl *v)
 370 {
 371         struct net_device  *dev;
 372
 373         dev = __dev_get_by_name(net, "tunl0");
 374
 375         if (dev) {
 376                 const struct net_device_ops *ops = dev->netdev_ops;
 377                 int err;
 378                 struct ifreq ifr;
 379                 struct ip_tunnel_parm p;
 380                 struct in_device  *in_dev;
 381
 382                 memset(&p, 0, sizeof(p));
 383                 p.iph.daddr = v->vifc_rmt_addr.s_addr;
 384                 p.iph.saddr = v->vifc_lcl_addr.s_addr;
 385                 p.iph.version = 4;
 386                 p.iph.ihl = 5;
 387                 p.iph.protocol = IPPROTO_IPIP;
 388                 sprintf(p.name, "dvmrp%d", v->vifc_vifi);
 389                 ifr.ifr_ifru.ifru_data = (__force void __user *)&p;
 390
 391                 if (ops->ndo_do_ioctl) {
 392                         mm_segment_t oldfs = get_fs();
 393
 394                         set_fs(KERNEL_DS);
 395                         err = ops->ndo_do_ioctl(dev, &ifr, SIOCADDTUNNEL);
 396                         set_fs(oldfs);
 397                 } else
 398                         err = -EOPNOTSUPP;
 399
 400                 dev = NULL;
 401
 402                 if (err == 0 &&
 403                     (dev = __dev_get_by_name(net, p.name)) != NULL) {
 404                         dev->flags |= IFF_MULTICAST;
 405
 406                         in_dev = __in_dev_get_rtnl(dev);
 407                         if (in_dev == NULL)
 408                                 goto failure;
 409
 410                         ipv4_devconf_setall(in_dev);
 411                         IPV4_DEVCONF(in_dev->cnf, RP_FILTER) = 0;
 412
 413                         if (dev_open(dev))
 414                                 goto failure;
 415                         dev_hold(dev);
 416                 }
 417         }
 418         return dev;
 419
 420 failure:
 421         /* allow the register to be completed before unregistering. */
 422         rtnl_unlock();
 423         rtnl_lock();
 424
 425         unregister_netdevice(dev);
 426         return NULL;
 427 }
 428
 429 #ifdef CONFIG_IP_PIMSM
 430
 431 static netdev_tx_t reg_vif_xmit(struct sk_buff *skb, struct net_device *dev)
 432 {
 433         struct net *net = dev_net(dev);
 434         struct mr_table *mrt;
 435         struct flowi fl = {
 436                 .oif            = dev->ifindex,
 437                 .iif            = skb->skb_iif,
 438                 .mark           = skb->mark,
 439         };
 440         int err;
 441
 442         err = ipmr_fib_lookup(net, &fl, &mrt);
 443         if (err < 0)
 444                 return err;
 445
 446         read_lock(&mrt_lock);
 447         dev->stats.tx_bytes += skb->len;
 448         dev->stats.tx_packets++;
 449         ipmr_cache_report(mrt, skb, mrt->mroute_reg_vif_num, IGMPMSG_WHOLEPKT);
 450         read_unlock(&mrt_lock);
 451         kfree_skb(skb);
 452         return NETDEV_TX_OK;
 453 }
 454
 455 static const struct net_device_ops reg_vif_netdev_ops = {
 456         .ndo_start_xmit = reg_vif_xmit,
 457 };
 458
 459 static void reg_vif_setup(struct net_device *dev)
 460 {
 461         dev->type               = ARPHRD_PIMREG;
 462         dev->mtu                = ETH_DATA_LEN - sizeof(struct iphdr) - 8;
 463         dev->flags              = IFF_NOARP;
 464         dev->netdev_ops         = &reg_vif_netdev_ops,
 465         dev->destructor         = free_netdev;
 466         dev->features           |= NETIF_F_NETNS_LOCAL;
 467 }
 468
 469 static struct net_device *ipmr_reg_vif(struct net *net, struct mr_table *mrt)
 470 {
 471         struct net_device *dev;
 472         struct in_device *in_dev;
 473         char name[IFNAMSIZ];
 474
 475         if (mrt->id == RT_TABLE_DEFAULT)
 476                 sprintf(name, "pimreg");
 477         else
 478                 sprintf(name, "pimreg%u", mrt->id);
 479
 480         dev = alloc_netdev(0, name, reg_vif_setup);
 481
 482         if (dev == NULL)
 483                 return NULL;
 484
 485         dev_net_set(dev, net);
 486
 487         if (register_netdevice(dev)) {
 488                 free_netdev(dev);
 489                 return NULL;
 490         }
 491         dev->iflink = 0;
 492
 493         rcu_read_lock();
 494         if ((in_dev = __in_dev_get_rcu(dev)) == NULL) {
 495                 rcu_read_unlock();
 496                 goto failure;
 497         }
 498
 499         ipv4_devconf_setall(in_dev);
 500         IPV4_DEVCONF(in_dev->cnf, RP_FILTER) = 0;
 501         rcu_read_unlock();
 502
 503         if (dev_open(dev))
 504                 goto failure;
 505
 506         dev_hold(dev);
 507
 508         return dev;
 509
 510 failure:
 511         /* allow the register to be completed before unregistering. */
 512         rtnl_unlock();
 513         rtnl_lock();
 514
 515         unregister_netdevice(dev);
 516         return NULL;
 517 }
 518 #endif
 519
 520 /*
 521  *      Delete a VIF entry
 522  *      @notify: Set to 1, if the caller is a notifier_call
 523  */
 524
 525 static int vif_delete(struct mr_table *mrt, int vifi, int notify,
 526                       struct list_head *head)
 527 {
 528         struct vif_device *v;
 529         struct net_device *dev;
 530         struct in_device *in_dev;
 531
 532         if (vifi < 0 || vifi >= mrt->maxvif)
 533                 return -EADDRNOTAVAIL;
 534
 535         v = &mrt->vif_table[vifi];
 536
 537         write_lock_bh(&mrt_lock);
 538         dev = v->dev;
 539         v->dev = NULL;
 540
 541         if (!dev) {
 542                 write_unlock_bh(&mrt_lock);
 543                 return -EADDRNOTAVAIL;
 544         }
 545
 546 #ifdef CONFIG_IP_PIMSM
 547         if (vifi == mrt->mroute_reg_vif_num)
 548                 mrt->mroute_reg_vif_num = -1;
 549 #endif
 550
 551         if (vifi+1 == mrt->maxvif) {
 552                 int tmp;
 553                 for (tmp=vifi-1; tmp>=0; tmp--) {
 554                         if (VIF_EXISTS(mrt, tmp))
 555                                 break;
 556                 }
 557                 mrt->maxvif = tmp+1;
 558         }
 559
 560         write_unlock_bh(&mrt_lock);
 561
 562         dev_set_allmulti(dev, -1);
 563
 564         if ((in_dev = __in_dev_get_rtnl(dev)) != NULL) {
 565                 IPV4_DEVCONF(in_dev->cnf, MC_FORWARDING)--;
 566                 ip_rt_multicast_event(in_dev);
 567         }
 568
 569         if (v->flags&(VIFF_TUNNEL|VIFF_REGISTER) && !notify)
 570                 unregister_netdevice_queue(dev, head);
 571
 572         dev_put(dev);
 573         return 0;
 574 }
 575
 576 static inline void ipmr_cache_free(struct mfc_cache *c)
 577 {
 578         kmem_cache_free(mrt_cachep, c);
 579 }
 580
 581 /* Destroy an unresolved cache entry, killing queued skbs
 582    and reporting error to netlink readers.
 583  */
 584
 585 static void ipmr_destroy_unres(struct mr_table *mrt, struct mfc_cache *c)
 586 {
 587         struct net *net = read_pnet(&mrt->net);
 588         struct sk_buff *skb;
 589         struct nlmsgerr *e;
 590
 591         atomic_dec(&mrt->cache_resolve_queue_len);
 592
 593         while ((skb = skb_dequeue(&c->mfc_un.unres.unresolved))) {
 594                 if (ip_hdr(skb)->version == 0) {
 595                         struct nlmsghdr *nlh = (struct nlmsghdr *)skb_pull(skb, sizeof(struct iphdr));
 596                         nlh->nlmsg_type = NLMSG_ERROR;
 597                         nlh->nlmsg_len = NLMSG_LENGTH(sizeof(struct nlmsgerr));
 598                         skb_trim(skb, nlh->nlmsg_len);
 599                         e = NLMSG_DATA(nlh);
 600                         e->error = -ETIMEDOUT;
 601                         memset(&e->msg, 0, sizeof(e->msg));
 602
 603                         rtnl_unicast(skb, net, NETLINK_CB(skb).pid);
 604                 } else
 605                         kfree_skb(skb);
 606         }
 607
 608         ipmr_cache_free(c);
 609 }
 610
 611
 612 /* Timer process for the unresolved queue. */
 613
 614 static void ipmr_expire_process(unsigned long arg)
 615 {
 616         struct mr_table *mrt = (struct mr_table *)arg;
 617         unsigned long now;
 618         unsigned long expires;
 619         struct mfc_cache *c, *next;
 620
 621         if (!spin_trylock(&mfc_unres_lock)) {
 622                 mod_timer(&mrt->ipmr_expire_timer, jiffies+HZ/10);
 623                 return;
 624         }
 625
 626         if (list_empty(&mrt->mfc_unres_queue))
 627                 goto out;
 628
 629         now = jiffies;
 630         expires = 10*HZ;
 631
 632         list_for_each_entry_safe(c, next, &mrt->mfc_unres_queue, list) {
 633                 if (time_after(c->mfc_un.unres.expires, now)) {
 634                         unsigned long interval = c->mfc_un.unres.expires - now;
 635                         if (interval < expires)
 636                                 expires = interval;
 637                         continue;
 638                 }
 639
 640                 list_del(&c->list);
 641                 ipmr_destroy_unres(mrt, c);
 642         }
 643
 644         if (!list_empty(&mrt->mfc_unres_queue))
 645                 mod_timer(&mrt->ipmr_expire_timer, jiffies + expires);
 646
 647 out:
 648         spin_unlock(&mfc_unres_lock);
 649 }
 650
 651 /* Fill oifs list. It is called under write locked mrt_lock. */
 652
 653 static void ipmr_update_thresholds(struct mr_table *mrt, struct mfc_cache *cache,
 654                                    unsigned char *ttls)
 655 {
 656         int vifi;
 657
 658         cache->mfc_un.res.minvif = MAXVIFS;
 659         cache->mfc_un.res.maxvif = 0;
 660         memset(cache->mfc_un.res.ttls, 255, MAXVIFS);
 661
 662         for (vifi = 0; vifi < mrt->maxvif; vifi++) {
 663                 if (VIF_EXISTS(mrt, vifi) &&
 664                     ttls[vifi] && ttls[vifi] < 255) {
 665                         cache->mfc_un.res.ttls[vifi] = ttls[vifi];
 666                         if (cache->mfc_un.res.minvif > vifi)
 667                                 cache->mfc_un.res.minvif = vifi;
 668                         if (cache->mfc_un.res.maxvif <= vifi)
 669                                 cache->mfc_un.res.maxvif = vifi + 1;
 670                 }
 671         }
 672 }
 673
 674 static int vif_add(struct net *net, struct mr_table *mrt,
 675                    struct vifctl *vifc, int mrtsock)
 676 {
 677         int vifi = vifc->vifc_vifi;
 678         struct vif_device *v = &mrt->vif_table[vifi];
 679         struct net_device *dev;
 680         struct in_device *in_dev;
 681         int err;
 682
 683         /* Is vif busy ? */
 684         if (VIF_EXISTS(mrt, vifi))
 685                 return -EADDRINUSE;
 686
 687         switch (vifc->vifc_flags) {
 688 #ifdef CONFIG_IP_PIMSM
 689         case VIFF_REGISTER:
 690                 /*
 691                  * Special Purpose VIF in PIM
 692                  * All the packets will be sent to the daemon
 693                  */
 694                 if (mrt->mroute_reg_vif_num >= 0)
 695                         return -EADDRINUSE;
 696                 dev = ipmr_reg_vif(net, mrt);
 697                 if (!dev)
 698                         return -ENOBUFS;
 699                 err = dev_set_allmulti(dev, 1);
 700                 if (err) {
 701                         unregister_netdevice(dev);
 702                         dev_put(dev);
 703                         return err;
 704                 }
 705                 break;
 706 #endif
 707         case VIFF_TUNNEL:
 708                 dev = ipmr_new_tunnel(net, vifc);
 709                 if (!dev)
 710                         return -ENOBUFS;
 711                 err = dev_set_allmulti(dev, 1);
 712                 if (err) {
 713                         ipmr_del_tunnel(dev, vifc);
 714                         dev_put(dev);
 715                         return err;
 716                 }
 717                 break;
 718
 719         case VIFF_USE_IFINDEX:
 720         case 0:
 721                 if (vifc->vifc_flags == VIFF_USE_IFINDEX) {
 722                         dev = dev_get_by_index(net, vifc->vifc_lcl_ifindex);
 723                         if (dev && dev->ip_ptr == NULL) {
 724                                 dev_put(dev);
 725                                 return -EADDRNOTAVAIL;
 726                         }
 727                 } else
 728                         dev = ip_dev_find(net, vifc->vifc_lcl_addr.s_addr);
 729
 730                 if (!dev)
 731                         return -EADDRNOTAVAIL;
 732                 err = dev_set_allmulti(dev, 1);
 733                 if (err) {
 734                         dev_put(dev);
 735                         return err;
 736                 }
 737                 break;
 738         default:
 739                 return -EINVAL;
 740         }
 741
 742         if ((in_dev = __in_dev_get_rtnl(dev)) == NULL) {
 743                 dev_put(dev);
 744                 return -EADDRNOTAVAIL;
 745         }
 746         IPV4_DEVCONF(in_dev->cnf, MC_FORWARDING)++;
 747         ip_rt_multicast_event(in_dev);
 748
 749         /*
 750          *      Fill in the VIF structures
 751          */
 752         v->rate_limit = vifc->vifc_rate_limit;
 753         v->local = vifc->vifc_lcl_addr.s_addr;
 754         v->remote = vifc->vifc_rmt_addr.s_addr;
 755         v->flags = vifc->vifc_flags;
 756         if (!mrtsock)
 757                 v->flags |= VIFF_STATIC;
 758         v->threshold = vifc->vifc_threshold;
 759         v->bytes_in = 0;
 760         v->bytes_out = 0;
 761         v->pkt_in = 0;
 762         v->pkt_out = 0;
 763         v->link = dev->ifindex;
 764         if (v->flags&(VIFF_TUNNEL|VIFF_REGISTER))
 765                 v->link = dev->iflink;
 766
 767         /* And finish update writing critical data */
 768         write_lock_bh(&mrt_lock);
 769         v->dev = dev;
 770 #ifdef CONFIG_IP_PIMSM
 771         if (v->flags&VIFF_REGISTER)
 772                 mrt->mroute_reg_vif_num = vifi;
 773 #endif
 774         if (vifi+1 > mrt->maxvif)
 775                 mrt->maxvif = vifi+1;
 776         write_unlock_bh(&mrt_lock);
 777         return 0;
 778 }
 779
 780 static struct mfc_cache *ipmr_cache_find(struct mr_table *mrt,
 781                                          __be32 origin,
 782                                          __be32 mcastgrp)
 783 {
 784         int line = MFC_HASH(mcastgrp, origin);
 785         struct mfc_cache *c;
 786
 787         list_for_each_entry(c, &mrt->mfc_cache_array[line], list) {
 788                 if (c->mfc_origin == origin && c->mfc_mcastgrp == mcastgrp)
 789                         return c;
 790         }
 791         return NULL;
 792 }
 793
 794 /*
 795  *      Allocate a multicast cache entry
 796  */
 797 static struct mfc_cache *ipmr_cache_alloc(void)
 798 {
 799         struct mfc_cache *c = kmem_cache_zalloc(mrt_cachep, GFP_KERNEL);
 800         if (c == NULL)
 801                 return NULL;
 802         c->mfc_un.res.minvif = MAXVIFS;
 803         return c;
 804 }
 805
 806 static struct mfc_cache *ipmr_cache_alloc_unres(void)
 807 {
 808         struct mfc_cache *c = kmem_cache_zalloc(mrt_cachep, GFP_ATOMIC);
 809         if (c == NULL)
 810                 return NULL;
 811         skb_queue_head_init(&c->mfc_un.unres.unresolved);
 812         c->mfc_un.unres.expires = jiffies + 10*HZ;
 813         return c;
 814 }
 815
 816 /*
 817  *      A cache entry has gone into a resolved state from queued
 818  */
 819
 820 static void ipmr_cache_resolve(struct net *net, struct mr_table *mrt,
 821                                struct mfc_cache *uc, struct mfc_cache *c)
 822 {
 823         struct sk_buff *skb;
 824         struct nlmsgerr *e;
 825
 826         /*
 827          *      Play the pending entries through our router
 828          */
 829
 830         while ((skb = __skb_dequeue(&uc->mfc_un.unres.unresolved))) {
 831                 if (ip_hdr(skb)->version == 0) {
 832                         struct nlmsghdr *nlh = (struct nlmsghdr *)skb_pull(skb, sizeof(struct iphdr));
 833
 834                         if (__ipmr_fill_mroute(mrt, skb, c, NLMSG_DATA(nlh)) > 0) {
 835                                 nlh->nlmsg_len = (skb_tail_pointer(skb) -
 836                                                   (u8 *)nlh);
 837                         } else {
 838                                 nlh->nlmsg_type = NLMSG_ERROR;
 839                                 nlh->nlmsg_len = NLMSG_LENGTH(sizeof(struct nlmsgerr));
 840                                 skb_trim(skb, nlh->nlmsg_len);
 841                                 e = NLMSG_DATA(nlh);
 842                                 e->error = -EMSGSIZE;
 843                                 memset(&e->msg, 0, sizeof(e->msg));
 844                         }
 845
 846                         rtnl_unicast(skb, net, NETLINK_CB(skb).pid);
 847                 } else
 848                         ip_mr_forward(net, mrt, skb, c, 0);
 849         }
 850 }
 851
 852 /*
 853  *      Bounce a cache query up to mrouted. We could use netlink for this but mrouted
 854  *      expects the following bizarre scheme.
 855  *
 856  *      Called under mrt_lock.
 857  */
 858
 859 static int ipmr_cache_report(struct mr_table *mrt,
 860                              struct sk_buff *pkt, vifi_t vifi, int assert)
 861 {
 862         struct sk_buff *skb;
 863         const int ihl = ip_hdrlen(pkt);
 864         struct igmphdr *igmp;
 865         struct igmpmsg *msg;
 866         int ret;
 867
 868 #ifdef CONFIG_IP_PIMSM
 869         if (assert == IGMPMSG_WHOLEPKT)
 870                 skb = skb_realloc_headroom(pkt, sizeof(struct iphdr));
 871         else
 872 #endif
 873                 skb = alloc_skb(128, GFP_ATOMIC);
 874
 875         if (!skb)
 876                 return -ENOBUFS;
 877
 878 #ifdef CONFIG_IP_PIMSM
 879         if (assert == IGMPMSG_WHOLEPKT) {
 880                 /* Ugly, but we have no choice with this interface.
 881                    Duplicate old header, fix ihl, length etc.
 882                    And all this only to mangle msg->im_msgtype and
 883                    to set msg->im_mbz to "mbz" :-)
 884                  */
 885                 skb_push(skb, sizeof(struct iphdr));
 886                 skb_reset_network_header(skb);
 887                 skb_reset_transport_header(skb);
 888                 msg = (struct igmpmsg *)skb_network_header(skb);
 889                 memcpy(msg, skb_network_header(pkt), sizeof(struct iphdr));
 890                 msg->im_msgtype = IGMPMSG_WHOLEPKT;
 891                 msg->im_mbz = 0;
 892                 msg->im_vif = mrt->mroute_reg_vif_num;
 893                 ip_hdr(skb)->ihl = sizeof(struct iphdr) >> 2;
 894                 ip_hdr(skb)->tot_len = htons(ntohs(ip_hdr(pkt)->tot_len) +
 895                                              sizeof(struct iphdr));
 896         } else
 897 #endif
 898         {
 899
 900         /*
 901          *      Copy the IP header
 902          */
 903
 904         skb->network_header = skb->tail;
 905         skb_put(skb, ihl);
 906         skb_copy_to_linear_data(skb, pkt->data, ihl);
 907         ip_hdr(skb)->protocol = 0;                      /* Flag to the kernel this is a route add */
 908         msg = (struct igmpmsg *)skb_network_header(skb);
 909         msg->im_vif = vifi;
 910         skb_dst_set(skb, dst_clone(skb_dst(pkt)));
 911
 912         /*
 913          *      Add our header
 914          */
 915
 916         igmp=(struct igmphdr *)skb_put(skb, sizeof(struct igmphdr));
 917         igmp->type      =
 918         msg->im_msgtype = assert;
 919         igmp->code      =       0;
 920         ip_hdr(skb)->tot_len = htons(skb->len);                 /* Fix the length */
 921         skb->transport_header = skb->network_header;
 922         }
 923
 924         if (mrt->mroute_sk == NULL) {
 925                 kfree_skb(skb);
 926                 return -EINVAL;
 927         }
 928
 929         /*
 930          *      Deliver to mrouted
 931          */
 932         ret = sock_queue_rcv_skb(mrt->mroute_sk, skb);
 933         if (ret < 0) {
 934                 if (net_ratelimit())
 935                         printk(KERN_WARNING "mroute: pending queue full, dropping entries.\n");
 936                 kfree_skb(skb);
 937         }
 938
 939         return ret;
 940 }
 941
 942 /*
 943  *      Queue a packet for resolution. It gets locked cache entry!
 944  */
 945
 946 static int
 947 ipmr_cache_unresolved(struct mr_table *mrt, vifi_t vifi, struct sk_buff *skb)
 948 {
 949         bool found = false;
 950         int err;
 951         struct mfc_cache *c;
 952         const struct iphdr *iph = ip_hdr(skb);
 953
 954         spin_lock_bh(&mfc_unres_lock);
 955         list_for_each_entry(c, &mrt->mfc_unres_queue, list) {
 956                 if (c->mfc_mcastgrp == iph->daddr &&
 957                     c->mfc_origin == iph->saddr) {
 958                         found = true;
 959                         break;
 960                 }
 961         }
 962
 963         if (!found) {
 964                 /*
 965                  *      Create a new entry if allowable
 966                  */
 967
 968                 if (atomic_read(&mrt->cache_resolve_queue_len) >= 10 ||
 969                     (c = ipmr_cache_alloc_unres()) == NULL) {
 970                         spin_unlock_bh(&mfc_unres_lock);
 971
 972                         kfree_skb(skb);
 973                         return -ENOBUFS;
 974                 }
 975
 976                 /*
 977                  *      Fill in the new cache entry
 978                  */
 979                 c->mfc_parent   = -1;
 980                 c->mfc_origin   = iph->saddr;
 981                 c->mfc_mcastgrp = iph->daddr;
 982
 983                 /*
 984                  *      Reflect first query at mrouted.
 985                  */
 986                 err = ipmr_cache_report(mrt, skb, vifi, IGMPMSG_NOCACHE);
 987                 if (err < 0) {
 988                         /* If the report failed throw the cache entry
 989                            out - Brad Parker
 990                          */
 991                         spin_unlock_bh(&mfc_unres_lock);
 992
 993                         ipmr_cache_free(c);
 994                         kfree_skb(skb);
 995                         return err;
 996                 }
 997
 998                 atomic_inc(&mrt->cache_resolve_queue_len);
 999                 list_add(&c->list, &mrt->mfc_unres_queue);
1000
1001                 if (atomic_read(&mrt->cache_resolve_queue_len) == 1)
1002                         mod_timer(&mrt->ipmr_expire_timer, c->mfc_un.unres.expires);
1003         }
1004
1005         /*
1006          *      See if we can append the packet
1007          */
1008         if (c->mfc_un.unres.unresolved.qlen>3) {
1009                 kfree_skb(skb);
1010                 err = -ENOBUFS;
1011         } else {
1012                 skb_queue_tail(&c->mfc_un.unres.unresolved, skb);
1013                 err = 0;
1014         }
1015
1016         spin_unlock_bh(&mfc_unres_lock);
1017         return err;
1018 }
1019
1020 /*
1021  *      MFC cache manipulation by user space mroute daemon
1022  */
1023
1024 static int ipmr_mfc_delete(struct mr_table *mrt, struct mfcctl *mfc)
1025 {
1026         int line;
1027         struct mfc_cache *c, *next;
1028
1029         line = MFC_HASH(mfc->mfcc_mcastgrp.s_addr, mfc->mfcc_origin.s_addr);
1030
1031         list_for_each_entry_safe(c, next, &mrt->mfc_cache_array[line], list) {
1032                 if (c->mfc_origin == mfc->mfcc_origin.s_addr &&
1033                     c->mfc_mcastgrp == mfc->mfcc_mcastgrp.s_addr) {
1034                         write_lock_bh(&mrt_lock);
1035                         list_del(&c->list);
1036                         write_unlock_bh(&mrt_lock);
1037
1038                         ipmr_cache_free(c);
1039                         return 0;
1040                 }
1041         }
1042         return -ENOENT;
1043 }
1044
1045 static int ipmr_mfc_add(struct net *net, struct mr_table *mrt,
1046                         struct mfcctl *mfc, int mrtsock)
1047 {
1048         bool found = false;
1049         int line;
1050         struct mfc_cache *uc, *c;
1051
1052         if (mfc->mfcc_parent >= MAXVIFS)
1053                 return -ENFILE;
1054
1055         line = MFC_HASH(mfc->mfcc_mcastgrp.s_addr, mfc->mfcc_origin.s_addr);
1056
1057         list_for_each_entry(c, &mrt->mfc_cache_array[line], list) {
1058                 if (c->mfc_origin == mfc->mfcc_origin.s_addr &&
1059                     c->mfc_mcastgrp == mfc->mfcc_mcastgrp.s_addr) {
1060                         found = true;
1061                         break;
1062                 }
1063         }
1064
1065         if (found) {
1066                 write_lock_bh(&mrt_lock);
1067                 c->mfc_parent = mfc->mfcc_parent;
1068                 ipmr_update_thresholds(mrt, c, mfc->mfcc_ttls);
1069                 if (!mrtsock)
1070                         c->mfc_flags |= MFC_STATIC;
1071                 write_unlock_bh(&mrt_lock);
1072                 return 0;
1073         }
1074
1075         if (!ipv4_is_multicast(mfc->mfcc_mcastgrp.s_addr))
1076                 return -EINVAL;
1077
1078         c = ipmr_cache_alloc();
1079         if (c == NULL)
1080                 return -ENOMEM;
1081
1082         c->mfc_origin = mfc->mfcc_origin.s_addr;
1083         c->mfc_mcastgrp = mfc->mfcc_mcastgrp.s_addr;
1084         c->mfc_parent = mfc->mfcc_parent;
1085         ipmr_update_thresholds(mrt, c, mfc->mfcc_ttls);
1086         if (!mrtsock)
1087                 c->mfc_flags |= MFC_STATIC;
1088
1089         write_lock_bh(&mrt_lock);
1090         list_add(&c->list, &mrt->mfc_cache_array[line]);
1091         write_unlock_bh(&mrt_lock);
1092
1093         /*
1094          *      Check to see if we resolved a queued list. If so we
1095          *      need to send on the frames and tidy up.
1096          */
1097         found = false;
1098         spin_lock_bh(&mfc_unres_lock);
1099         list_for_each_entry(uc, &mrt->mfc_unres_queue, list) {
1100                 if (uc->mfc_origin == c->mfc_origin &&
1101                     uc->mfc_mcastgrp == c->mfc_mcastgrp) {
1102                         list_del(&uc->list);
1103                         atomic_dec(&mrt->cache_resolve_queue_len);
1104                         found = true;
1105                         break;
1106                 }
1107         }
1108         if (list_empty(&mrt->mfc_unres_queue))
1109                 del_timer(&mrt->ipmr_expire_timer);
1110         spin_unlock_bh(&mfc_unres_lock);
1111
1112         if (found) {
1113                 ipmr_cache_resolve(net, mrt, uc, c);
1114                 ipmr_cache_free(uc);
1115         }
1116         return 0;
1117 }
1118
1119 /*
1120  *      Close the multicast socket, and clear the vif tables etc
1121  */
1122
1123 static void mroute_clean_tables(struct mr_table *mrt)
1124 {
1125         int i;
1126         LIST_HEAD(list);
1127         struct mfc_cache *c, *next;
1128
1129         /*
1130          *      Shut down all active vif entries
1131          */
1132         for (i = 0; i < mrt->maxvif; i++) {
1133                 if (!(mrt->vif_table[i].flags&VIFF_STATIC))
1134                         vif_delete(mrt, i, 0, &list);
1135         }
1136         unregister_netdevice_many(&list);
1137
1138         /*
1139          *      Wipe the cache
1140          */
1141         for (i = 0; i < MFC_LINES; i++) {
1142                 list_for_each_entry_safe(c, next, &mrt->mfc_cache_array[i], list) {
1143                         if (c->mfc_flags&MFC_STATIC)
1144                                 continue;
1145                         write_lock_bh(&mrt_lock);
1146                         list_del(&c->list);
1147                         write_unlock_bh(&mrt_lock);
1148
1149                         ipmr_cache_free(c);
1150                 }
1151         }
1152
1153         if (atomic_read(&mrt->cache_resolve_queue_len) != 0) {
1154                 spin_lock_bh(&mfc_unres_lock);
1155                 list_for_each_entry_safe(c, next, &mrt->mfc_unres_queue, list) {
1156                         list_del(&c->list);
1157                         ipmr_destroy_unres(mrt, c);
1158                 }
1159                 spin_unlock_bh(&mfc_unres_lock);
1160         }
1161 }
1162
1163 static void mrtsock_destruct(struct sock *sk)
1164 {
1165         struct net *net = sock_net(sk);
1166         struct mr_table *mrt;
1167
1168         rtnl_lock();
1169         ipmr_for_each_table(mrt, net) {
1170                 if (sk == mrt->mroute_sk) {
1171                         IPV4_DEVCONF_ALL(net, MC_FORWARDING)--;
1172
1173                         write_lock_bh(&mrt_lock);
1174                         mrt->mroute_sk = NULL;
1175                         write_unlock_bh(&mrt_lock);
1176
1177                         mroute_clean_tables(mrt);
1178                 }
1179         }
1180         rtnl_unlock();
1181 }
1182
1183 /*
1184  *      Socket options and virtual interface manipulation. The whole
1185  *      virtual interface system is a complete heap, but unfortunately
1186  *      that's how BSD mrouted happens to think. Maybe one day with a proper
1187  *      MOSPF/PIM router set up we can clean this up.
1188  */
1189
1190 int ip_mroute_setsockopt(struct sock *sk, int optname, char __user *optval, unsigned int optlen)
1191 {
1192         int ret;
1193         struct vifctl vif;
1194         struct mfcctl mfc;
1195         struct net *net = sock_net(sk);
1196         struct mr_table *mrt;
1197
1198         mrt = ipmr_get_table(net, raw_sk(sk)->ipmr_table ? : RT_TABLE_DEFAULT);
1199         if (mrt == NULL)
1200                 return -ENOENT;
1201
1202         if (optname != MRT_INIT) {
1203                 if (sk != mrt->mroute_sk && !capable(CAP_NET_ADMIN))
1204                         return -EACCES;
1205         }
1206
1207         switch (optname) {
1208         case MRT_INIT:
1209                 if (sk->sk_type != SOCK_RAW ||
1210                     inet_sk(sk)->inet_num != IPPROTO_IGMP)
1211                         return -EOPNOTSUPP;
1212                 if (optlen != sizeof(int))
1213                         return -ENOPROTOOPT;
1214
1215                 rtnl_lock();
1216                 if (mrt->mroute_sk) {
1217                         rtnl_unlock();
1218                         return -EADDRINUSE;
1219                 }
1220
1221                 ret = ip_ra_control(sk, 1, mrtsock_destruct);
1222                 if (ret == 0) {
1223                         write_lock_bh(&mrt_lock);
1224                         mrt->mroute_sk = sk;
1225                         write_unlock_bh(&mrt_lock);
1226
1227                         IPV4_DEVCONF_ALL(net, MC_FORWARDING)++;
1228                 }
1229                 rtnl_unlock();
1230                 return ret;
1231         case MRT_DONE:
1232                 if (sk != mrt->mroute_sk)
1233                         return -EACCES;
1234                 return ip_ra_control(sk, 0, NULL);
1235         case MRT_ADD_VIF:
1236         case MRT_DEL_VIF:
1237                 if (optlen != sizeof(vif))
1238                         return -EINVAL;
1239                 if (copy_from_user(&vif, optval, sizeof(vif)))
1240                         return -EFAULT;
1241                 if (vif.vifc_vifi >= MAXVIFS)
1242                         return -ENFILE;
1243                 rtnl_lock();
1244                 if (optname == MRT_ADD_VIF) {
1245                         ret = vif_add(net, mrt, &vif, sk == mrt->mroute_sk);
1246                 } else {
1247                         ret = vif_delete(mrt, vif.vifc_vifi, 0, NULL);
1248                 }
1249                 rtnl_unlock();
1250                 return ret;
1251
1252                 /*
1253                  *      Manipulate the forwarding caches. These live
1254                  *      in a sort of kernel/user symbiosis.
1255                  */
1256         case MRT_ADD_MFC:
1257         case MRT_DEL_MFC:
1258                 if (optlen != sizeof(mfc))
1259                         return -EINVAL;
1260                 if (copy_from_user(&mfc, optval, sizeof(mfc)))
1261                         return -EFAULT;
1262                 rtnl_lock();
1263                 if (optname == MRT_DEL_MFC)
1264                         ret = ipmr_mfc_delete(mrt, &mfc);
1265                 else
1266                         ret = ipmr_mfc_add(net, mrt, &mfc, sk == mrt->mroute_sk);
1267                 rtnl_unlock();
1268                 return ret;
1269                 /*
1270                  *      Control PIM assert.
1271                  */
1272         case MRT_ASSERT:
1273         {
1274                 int v;
1275                 if (get_user(v,(int __user *)optval))
1276                         return -EFAULT;
1277                 mrt->mroute_do_assert = (v) ? 1 : 0;
1278                 return 0;
1279         }
1280 #ifdef CONFIG_IP_PIMSM
1281         case MRT_PIM:
1282         {
1283                 int v;
1284
1285                 if (get_user(v,(int __user *)optval))
1286                         return -EFAULT;
1287                 v = (v) ? 1 : 0;
1288
1289                 rtnl_lock();
1290                 ret = 0;
1291                 if (v != mrt->mroute_do_pim) {
1292                         mrt->mroute_do_pim = v;
1293                         mrt->mroute_do_assert = v;
1294                 }
1295                 rtnl_unlock();
1296                 return ret;
1297         }
1298 #endif
1299 #ifdef CONFIG_IP_MROUTE_MULTIPLE_TABLES
1300         case MRT_TABLE:
1301         {
1302                 u32 v;
1303
1304                 if (optlen != sizeof(u32))
1305                         return -EINVAL;
1306                 if (get_user(v, (u32 __user *)optval))
1307                         return -EFAULT;
1308                 if (sk == mrt->mroute_sk)
1309                         return -EBUSY;
1310
1311                 rtnl_lock();
1312                 ret = 0;
1313                 if (!ipmr_new_table(net, v))
1314                         ret = -ENOMEM;
1315                 raw_sk(sk)->ipmr_table = v;
1316                 rtnl_unlock();
1317                 return ret;
1318         }
1319 #endif
1320         /*
1321          *      Spurious command, or MRT_VERSION which you cannot
1322          *      set.
1323          */
1324         default:
1325                 return -ENOPROTOOPT;
1326         }
1327 }
1328
1329 /*
1330  *      Getsock opt support for the multicast routing system.
1331  */
1332
1333 int ip_mroute_getsockopt(struct sock *sk, int optname, char __user *optval, int __user *optlen)
1334 {
1335         int olr;
1336         int val;
1337         struct net *net = sock_net(sk);
1338         struct mr_table *mrt;
1339
1340         mrt = ipmr_get_table(net, raw_sk(sk)->ipmr_table ? : RT_TABLE_DEFAULT);
1341         if (mrt == NULL)
1342                 return -ENOENT;
1343
1344         if (optname != MRT_VERSION &&
1345 #ifdef CONFIG_IP_PIMSM
1346            optname!=MRT_PIM &&
1347 #endif
1348            optname!=MRT_ASSERT)
1349                 return -ENOPROTOOPT;
1350
1351         if (get_user(olr, optlen))
1352                 return -EFAULT;
1353
1354         olr = min_t(unsigned int, olr, sizeof(int));
1355         if (olr < 0)
1356                 return -EINVAL;
1357
1358         if (put_user(olr, optlen))
1359                 return -EFAULT;
1360         if (optname == MRT_VERSION)
1361                 val = 0x0305;
1362 #ifdef CONFIG_IP_PIMSM
1363         else if (optname == MRT_PIM)
1364                 val = mrt->mroute_do_pim;
1365 #endif
1366         else
1367                 val = mrt->mroute_do_assert;
1368         if (copy_to_user(optval, &val, olr))
1369                 return -EFAULT;
1370         return 0;
1371 }
1372
1373 /*
1374  *      The IP multicast ioctl support routines.
1375  */
1376
1377 int ipmr_ioctl(struct sock *sk, int cmd, void __user *arg)
1378 {
1379         struct sioc_sg_req sr;
1380         struct sioc_vif_req vr;
1381         struct vif_device *vif;
1382         struct mfc_cache *c;
1383         struct net *net = sock_net(sk);
1384         struct mr_table *mrt;
1385
1386         mrt = ipmr_get_table(net, raw_sk(sk)->ipmr_table ? : RT_TABLE_DEFAULT);
1387         if (mrt == NULL)
1388                 return -ENOENT;
1389
1390         switch (cmd) {
1391         case SIOCGETVIFCNT:
1392                 if (copy_from_user(&vr, arg, sizeof(vr)))
1393                         return -EFAULT;
1394                 if (vr.vifi >= mrt->maxvif)
1395                         return -EINVAL;
1396                 read_lock(&mrt_lock);
1397                 vif = &mrt->vif_table[vr.vifi];
1398                 if (VIF_EXISTS(mrt, vr.vifi)) {
1399                         vr.icount = vif->pkt_in;
1400                         vr.ocount = vif->pkt_out;
1401                         vr.ibytes = vif->bytes_in;
1402                         vr.obytes = vif->bytes_out;
1403                         read_unlock(&mrt_lock);
1404
1405                         if (copy_to_user(arg, &vr, sizeof(vr)))
1406                                 return -EFAULT;
1407                         return 0;
1408                 }
1409                 read_unlock(&mrt_lock);
1410                 return -EADDRNOTAVAIL;
1411         case SIOCGETSGCNT:
1412                 if (copy_from_user(&sr, arg, sizeof(sr)))
1413                         return -EFAULT;
1414
1415                 read_lock(&mrt_lock);
1416                 c = ipmr_cache_find(mrt, sr.src.s_addr, sr.grp.s_addr);
1417                 if (c) {
1418                         sr.pktcnt = c->mfc_un.res.pkt;
1419                         sr.bytecnt = c->mfc_un.res.bytes;
1420                         sr.wrong_if = c->mfc_un.res.wrong_if;
1421                         read_unlock(&mrt_lock);
1422
1423                         if (copy_to_user(arg, &sr, sizeof(sr)))
1424                                 return -EFAULT;
1425                         return 0;
1426                 }
1427                 read_unlock(&mrt_lock);
1428                 return -EADDRNOTAVAIL;
1429         default:
1430                 return -ENOIOCTLCMD;
1431         }
1432 }
1433
1434
1435 static int ipmr_device_event(struct notifier_block *this, unsigned long event, void *ptr)
1436 {
1437         struct net_device *dev = ptr;
1438         struct net *net = dev_net(dev);
1439         struct mr_table *mrt;
1440         struct vif_device *v;
1441         int ct;
1442         LIST_HEAD(list);
1443
1444         if (event != NETDEV_UNREGISTER)
1445                 return NOTIFY_DONE;
1446
1447         ipmr_for_each_table(mrt, net) {
1448                 v = &mrt->vif_table[0];
1449                 for (ct = 0; ct < mrt->maxvif; ct++, v++) {
1450                         if (v->dev == dev)
1451                                 vif_delete(mrt, ct, 1, &list);
1452                 }
1453         }
1454         unregister_netdevice_many(&list);
1455         return NOTIFY_DONE;
1456 }
1457
1458
1459 static struct notifier_block ip_mr_notifier = {
1460         .notifier_call = ipmr_device_event,
1461 };
1462
1463 /*
1464  *      Encapsulate a packet by attaching a valid IPIP header to it.
1465  *      This avoids tunnel drivers and other mess and gives us the speed so
1466  *      important for multicast video.
1467  */
1468
1469 static void ip_encap(struct sk_buff *skb, __be32 saddr, __be32 daddr)
1470 {
1471         struct iphdr *iph;
1472         struct iphdr *old_iph = ip_hdr(skb);
1473
1474         skb_push(skb, sizeof(struct iphdr));
1475         skb->transport_header = skb->network_header;
1476         skb_reset_network_header(skb);
1477         iph = ip_hdr(skb);
1478
1479         iph->version    =       4;
1480         iph->tos        =       old_iph->tos;
1481         iph->ttl        =       old_iph->ttl;
1482         iph->frag_off   =       0;
1483         iph->daddr      =       daddr;
1484         iph->saddr      =       saddr;
1485         iph->protocol   =       IPPROTO_IPIP;
1486         iph->ihl        =       5;
1487         iph->tot_len    =       htons(skb->len);
1488         ip_select_ident(iph, skb_dst(skb), NULL);
1489         ip_send_check(iph);
1490
1491         memset(&(IPCB(skb)->opt), 0, sizeof(IPCB(skb)->opt));
1492         nf_reset(skb);
1493 }
1494
1495 static inline int ipmr_forward_finish(struct sk_buff *skb)
1496 {
1497         struct ip_options * opt = &(IPCB(skb)->opt);
1498
1499         IP_INC_STATS_BH(dev_net(skb_dst(skb)->dev), IPSTATS_MIB_OUTFORWDATAGRAMS);
1500
1501         if (unlikely(opt->optlen))
1502                 ip_forward_options(skb);
1503
1504         return dst_output(skb);
1505 }
1506
1507 /*
1508  *      Processing handlers for ipmr_forward
1509  */
1510
1511 static void ipmr_queue_xmit(struct net *net, struct mr_table *mrt,
1512                             struct sk_buff *skb, struct mfc_cache *c, int vifi)
1513 {
1514         const struct iphdr *iph = ip_hdr(skb);
1515         struct vif_device *vif = &mrt->vif_table[vifi];
1516         struct net_device *dev;
1517         struct rtable *rt;
1518         int    encap = 0;
1519
1520         if (vif->dev == NULL)
1521                 goto out_free;
1522
1523 #ifdef CONFIG_IP_PIMSM
1524         if (vif->flags & VIFF_REGISTER) {
1525                 vif->pkt_out++;
1526                 vif->bytes_out += skb->len;
1527                 vif->dev->stats.tx_bytes += skb->len;
1528                 vif->dev->stats.tx_packets++;
1529                 ipmr_cache_report(mrt, skb, vifi, IGMPMSG_WHOLEPKT);
1530                 goto out_free;
1531         }
1532 #endif
1533
1534         if (vif->flags&VIFF_TUNNEL) {
1535                 struct flowi fl = { .oif = vif->link,
1536                                     .nl_u = { .ip4_u =
1537                                               { .daddr = vif->remote,
1538                                                 .saddr = vif->local,
1539                                                 .tos = RT_TOS(iph->tos) } },
1540                                     .proto = IPPROTO_IPIP };
1541                 if (ip_route_output_key(net, &rt, &fl))
1542                         goto out_free;
1543                 encap = sizeof(struct iphdr);
1544         } else {
1545                 struct flowi fl = { .oif = vif->link,
1546                                     .nl_u = { .ip4_u =
1547                                               { .daddr = iph->daddr,
1548                                                 .tos = RT_TOS(iph->tos) } },
1549                                     .proto = IPPROTO_IPIP };
1550                 if (ip_route_output_key(net, &rt, &fl))
1551                         goto out_free;
1552         }
1553
1554         dev = rt->u.dst.dev;
1555
1556         if (skb->len+encap > dst_mtu(&rt->u.dst) && (ntohs(iph->frag_off) & IP_DF)) {
1557                 /* Do not fragment multicasts. Alas, IPv4 does not
1558                    allow to send ICMP, so that packets will disappear
1559                    to blackhole.
1560                  */
1561
1562                 IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_FRAGFAILS);
1563                 ip_rt_put(rt);
1564                 goto out_free;
1565         }
1566
1567         encap += LL_RESERVED_SPACE(dev) + rt->u.dst.header_len;
1568
1569         if (skb_cow(skb, encap)) {
1570                 ip_rt_put(rt);
1571                 goto out_free;
1572         }
1573
1574         vif->pkt_out++;
1575         vif->bytes_out += skb->len;
1576
1577         skb_dst_drop(skb);
1578         skb_dst_set(skb, &rt->u.dst);
1579         ip_decrease_ttl(ip_hdr(skb));
1580
1581         /* FIXME: forward and output firewalls used to be called here.
1582          * What do we do with netfilter? -- RR */
1583         if (vif->flags & VIFF_TUNNEL) {
1584                 ip_encap(skb, vif->local, vif->remote);
1585                 /* FIXME: extra output firewall step used to be here. --RR */
1586                 vif->dev->stats.tx_packets++;
1587                 vif->dev->stats.tx_bytes += skb->len;
1588         }
1589
1590         IPCB(skb)->flags |= IPSKB_FORWARDED;
1591
1592         /*
1593          * RFC1584 teaches, that DVMRP/PIM router must deliver packets locally
1594          * not only before forwarding, but after forwarding on all output
1595          * interfaces. It is clear, if mrouter runs a multicasting
1596          * program, it should receive packets not depending to what interface
1597          * program is joined.
1598          * If we will not make it, the program will have to join on all
1599          * interfaces. On the other hand, multihoming host (or router, but
1600          * not mrouter) cannot join to more than one interface - it will
1601          * result in receiving multiple packets.
1602          */
1603         NF_HOOK(NFPROTO_IPV4, NF_INET_FORWARD, skb, skb->dev, dev,
1604                 ipmr_forward_finish);
1605         return;
1606
1607 out_free:
1608         kfree_skb(skb);
1609         return;
1610 }
1611
1612 static int ipmr_find_vif(struct mr_table *mrt, struct net_device *dev)
1613 {
1614         int ct;
1615
1616         for (ct = mrt->maxvif-1; ct >= 0; ct--) {
1617                 if (mrt->vif_table[ct].dev == dev)
1618                         break;
1619         }
1620         return ct;
1621 }
1622
1623 /* "local" means that we should preserve one skb (for local delivery) */
1624
1625 static int ip_mr_forward(struct net *net, struct mr_table *mrt,
1626                          struct sk_buff *skb, struct mfc_cache *cache,
1627                          int local)
1628 {
1629         int psend = -1;
1630         int vif, ct;
1631
1632         vif = cache->mfc_parent;
1633         cache->mfc_un.res.pkt++;
1634         cache->mfc_un.res.bytes += skb->len;
1635
1636         /*
1637          * Wrong interface: drop packet and (maybe) send PIM assert.
1638          */
1639         if (mrt->vif_table[vif].dev != skb->dev) {
1640                 int true_vifi;
1641
1642                 if (skb_rtable(skb)->fl.iif == 0) {
1643                         /* It is our own packet, looped back.
1644                            Very complicated situation...
1645
1646                            The best workaround until routing daemons will be
1647                            fixed is not to redistribute packet, if it was
1648                            send through wrong interface. It means, that
1649                            multicast applications WILL NOT work for
1650                            (S,G), which have default multicast route pointing
1651                            to wrong oif. In any case, it is not a good
1652                            idea to use multicasting applications on router.
1653                          */
1654                         goto dont_forward;
1655                 }
1656
1657                 cache->mfc_un.res.wrong_if++;
1658                 true_vifi = ipmr_find_vif(mrt, skb->dev);
1659
1660                 if (true_vifi >= 0 && mrt->mroute_do_assert &&
1661                     /* pimsm uses asserts, when switching from RPT to SPT,
1662                        so that we cannot check that packet arrived on an oif.
1663                        It is bad, but otherwise we would need to move pretty
1664                        large chunk of pimd to kernel. Ough... --ANK
1665                      */
1666                     (mrt->mroute_do_pim ||
1667                      cache->mfc_un.res.ttls[true_vifi] < 255) &&
1668                     time_after(jiffies,
1669                                cache->mfc_un.res.last_assert + MFC_ASSERT_THRESH)) {
1670                         cache->mfc_un.res.last_assert = jiffies;
1671                         ipmr_cache_report(mrt, skb, true_vifi, IGMPMSG_WRONGVIF);
1672                 }
1673                 goto dont_forward;
1674         }
1675
1676         mrt->vif_table[vif].pkt_in++;
1677         mrt->vif_table[vif].bytes_in += skb->len;
1678
1679         /*
1680          *      Forward the frame
1681          */
1682         for (ct = cache->mfc_un.res.maxvif-1; ct >= cache->mfc_un.res.minvif; ct--) {
1683                 if (ip_hdr(skb)->ttl > cache->mfc_un.res.ttls[ct]) {
1684                         if (psend != -1) {
1685                                 struct sk_buff *skb2 = skb_clone(skb, GFP_ATOMIC);
1686                                 if (skb2)
1687                                         ipmr_queue_xmit(net, mrt, skb2, cache,
1688                                                         psend);
1689                         }
1690                         psend = ct;
1691                 }
1692         }
1693         if (psend != -1) {
1694                 if (local) {
1695                         struct sk_buff *skb2 = skb_clone(skb, GFP_ATOMIC);
1696                         if (skb2)
1697                                 ipmr_queue_xmit(net, mrt, skb2, cache, psend);
1698                 } else {
1699                         ipmr_queue_xmit(net, mrt, skb, cache, psend);
1700                         return 0;
1701                 }
1702         }
1703
1704 dont_forward:
1705         if (!local)
1706                 kfree_skb(skb);
1707         return 0;
1708 }
1709
1710
1711 /*
1712  *      Multicast packets for forwarding arrive here
1713  */
1714
1715 int ip_mr_input(struct sk_buff *skb)
1716 {
1717         struct mfc_cache *cache;
1718         struct net *net = dev_net(skb->dev);
1719         int local = skb_rtable(skb)->rt_flags & RTCF_LOCAL;
1720         struct mr_table *mrt;
1721         int err;
1722
1723         /* Packet is looped back after forward, it should not be
1724            forwarded second time, but still can be delivered locally.
1725          */
1726         if (IPCB(skb)->flags&IPSKB_FORWARDED)
1727                 goto dont_forward;
1728
1729         err = ipmr_fib_lookup(net, &skb_rtable(skb)->fl, &mrt);
1730         if (err < 0)
1731                 return err;
1732
1733         if (!local) {
1734                     if (IPCB(skb)->opt.router_alert) {
1735                             if (ip_call_ra_chain(skb))
1736                                     return 0;
1737                     } else if (ip_hdr(skb)->protocol == IPPROTO_IGMP){
1738                             /* IGMPv1 (and broken IGMPv2 implementations sort of
1739                                Cisco IOS <= 11.2(8)) do not put router alert
1740                                option to IGMP packets destined to routable
1741                                groups. It is very bad, because it means
1742                                that we can forward NO IGMP messages.
1743                              */
1744                             read_lock(&mrt_lock);
1745                             if (mrt->mroute_sk) {
1746                                     nf_reset(skb);
1747                                     raw_rcv(mrt->mroute_sk, skb);
1748                                     read_unlock(&mrt_lock);
1749                                     return 0;
1750                             }
1751                             read_unlock(&mrt_lock);
1752                     }
1753         }
1754
1755         read_lock(&mrt_lock);
1756         cache = ipmr_cache_find(mrt, ip_hdr(skb)->saddr, ip_hdr(skb)->daddr);
1757
1758         /*
1759          *      No usable cache entry
1760          */
1761         if (cache == NULL) {
1762                 int vif;
1763
1764                 if (local) {
1765                         struct sk_buff *skb2 = skb_clone(skb, GFP_ATOMIC);
1766                         ip_local_deliver(skb);
1767                         if (skb2 == NULL) {
1768                                 read_unlock(&mrt_lock);
1769                                 return -ENOBUFS;
1770                         }
1771                         skb = skb2;
1772                 }
1773
1774                 vif = ipmr_find_vif(mrt, skb->dev);
1775                 if (vif >= 0) {
1776                         int err2 = ipmr_cache_unresolved(mrt, vif, skb);
1777                         read_unlock(&mrt_lock);
1778
1779                         return err2;
1780                 }
1781                 read_unlock(&mrt_lock);
1782                 kfree_skb(skb);
1783                 return -ENODEV;
1784         }
1785
1786         ip_mr_forward(net, mrt, skb, cache, local);
1787
1788         read_unlock(&mrt_lock);
1789
1790         if (local)
1791                 return ip_local_deliver(skb);
1792
1793         return 0;
1794
1795 dont_forward:
1796         if (local)
1797                 return ip_local_deliver(skb);
1798         kfree_skb(skb);
1799         return 0;
1800 }
1801
1802 #ifdef CONFIG_IP_PIMSM
1803 static int __pim_rcv(struct mr_table *mrt, struct sk_buff *skb,
1804                      unsigned int pimlen)
1805 {
1806         struct net_device *reg_dev = NULL;
1807         struct iphdr *encap;
1808
1809         encap = (struct iphdr *)(skb_transport_header(skb) + pimlen);
1810         /*
1811            Check that:
1812            a. packet is really destinted to a multicast group
1813            b. packet is not a NULL-REGISTER
1814            c. packet is not truncated
1815          */
1816         if (!ipv4_is_multicast(encap->daddr) ||
1817             encap->tot_len == 0 ||
1818             ntohs(encap->tot_len) + pimlen > skb->len)
1819                 return 1;
1820
1821         read_lock(&mrt_lock);
1822         if (mrt->mroute_reg_vif_num >= 0)
1823                 reg_dev = mrt->vif_table[mrt->mroute_reg_vif_num].dev;
1824         if (reg_dev)
1825                 dev_hold(reg_dev);
1826         read_unlock(&mrt_lock);
1827
1828         if (reg_dev == NULL)
1829                 return 1;
1830
1831         skb->mac_header = skb->network_header;
1832         skb_pull(skb, (u8*)encap - skb->data);
1833         skb_reset_network_header(skb);
1834         skb->protocol = htons(ETH_P_IP);
1835         skb->ip_summed = 0;
1836         skb->pkt_type = PACKET_HOST;
1837
1838         skb_tunnel_rx(skb, reg_dev);
1839
1840         netif_rx(skb);
1841         dev_put(reg_dev);
1842
1843         return 0;
1844 }
1845 #endif
1846
1847 #ifdef CONFIG_IP_PIMSM_V1
1848 /*
1849  * Handle IGMP messages of PIMv1
1850  */
1851
1852 int pim_rcv_v1(struct sk_buff * skb)
1853 {
1854         struct igmphdr *pim;
1855         struct net *net = dev_net(skb->dev);
1856         struct mr_table *mrt;
1857
1858         if (!pskb_may_pull(skb, sizeof(*pim) + sizeof(struct iphdr)))
1859                 goto drop;
1860
1861         pim = igmp_hdr(skb);
1862
1863         if (ipmr_fib_lookup(net, &skb_rtable(skb)->fl, &mrt) < 0)
1864                 goto drop;
1865
1866         if (!mrt->mroute_do_pim ||
1867             pim->group != PIM_V1_VERSION || pim->code != PIM_V1_REGISTER)
1868                 goto drop;
1869
1870         if (__pim_rcv(mrt, skb, sizeof(*pim))) {
1871 drop:
1872                 kfree_skb(skb);
1873         }
1874         return 0;
1875 }
1876 #endif
1877
1878 #ifdef CONFIG_IP_PIMSM_V2
1879 static int pim_rcv(struct sk_buff * skb)
1880 {
1881         struct pimreghdr *pim;
1882         struct net *net = dev_net(skb->dev);
1883         struct mr_table *mrt;
1884
1885         if (!pskb_may_pull(skb, sizeof(*pim) + sizeof(struct iphdr)))
1886                 goto drop;
1887
1888         pim = (struct pimreghdr *)skb_transport_header(skb);
1889         if (pim->type != ((PIM_VERSION<<4)|(PIM_REGISTER)) ||
1890             (pim->flags&PIM_NULL_REGISTER) ||
1891             (ip_compute_csum((void *)pim, sizeof(*pim)) != 0 &&
1892              csum_fold(skb_checksum(skb, 0, skb->len, 0))))
1893                 goto drop;
1894
1895         if (ipmr_fib_lookup(net, &skb_rtable(skb)->fl, &mrt) < 0)
1896                 goto drop;
1897
1898         if (__pim_rcv(mrt, skb, sizeof(*pim))) {
1899 drop:
1900                 kfree_skb(skb);
1901         }
1902         return 0;
1903 }
1904 #endif
1905
1906 static int __ipmr_fill_mroute(struct mr_table *mrt, struct sk_buff *skb,
1907                               struct mfc_cache *c, struct rtmsg *rtm)
1908 {
1909         int ct;
1910         struct rtnexthop *nhp;
1911         u8 *b = skb_tail_pointer(skb);
1912         struct rtattr *mp_head;
1913
1914         /* If cache is unresolved, don't try to parse IIF and OIF */
1915         if (c->mfc_parent > MAXVIFS)
1916                 return -ENOENT;
1917
1918         if (VIF_EXISTS(mrt, c->mfc_parent))
1919                 RTA_PUT(skb, RTA_IIF, 4, &mrt->vif_table[c->mfc_parent].dev->ifindex);
1920
1921         mp_head = (struct rtattr *)skb_put(skb, RTA_LENGTH(0));
1922
1923         for (ct = c->mfc_un.res.minvif; ct < c->mfc_un.res.maxvif; ct++) {
1924                 if (VIF_EXISTS(mrt, ct) && c->mfc_un.res.ttls[ct] < 255) {
1925                         if (skb_tailroom(skb) < RTA_ALIGN(RTA_ALIGN(sizeof(*nhp)) + 4))
1926                                 goto rtattr_failure;
1927                         nhp = (struct rtnexthop *)skb_put(skb, RTA_ALIGN(sizeof(*nhp)));
1928                         nhp->rtnh_flags = 0;
1929                         nhp->rtnh_hops = c->mfc_un.res.ttls[ct];
1930                         nhp->rtnh_ifindex = mrt->vif_table[ct].dev->ifindex;
1931                         nhp->rtnh_len = sizeof(*nhp);
1932                 }
1933         }
1934         mp_head->rta_type = RTA_MULTIPATH;
1935         mp_head->rta_len = skb_tail_pointer(skb) - (u8 *)mp_head;
1936         rtm->rtm_type = RTN_MULTICAST;
1937         return 1;
1938
1939 rtattr_failure:
1940         nlmsg_trim(skb, b);
1941         return -EMSGSIZE;
1942 }
1943
1944 int ipmr_get_route(struct net *net,
1945                    struct sk_buff *skb, struct rtmsg *rtm, int nowait)
1946 {
1947         int err;
1948         struct mr_table *mrt;
1949         struct mfc_cache *cache;
1950         struct rtable *rt = skb_rtable(skb);
1951
1952         mrt = ipmr_get_table(net, RT_TABLE_DEFAULT);
1953         if (mrt == NULL)
1954                 return -ENOENT;
1955
1956         read_lock(&mrt_lock);
1957         cache = ipmr_cache_find(mrt, rt->rt_src, rt->rt_dst);
1958
1959         if (cache == NULL) {
1960                 struct sk_buff *skb2;
1961                 struct iphdr *iph;
1962                 struct net_device *dev;
1963                 int vif;
1964
1965                 if (nowait) {
1966                         read_unlock(&mrt_lock);
1967                         return -EAGAIN;
1968                 }
1969
1970                 dev = skb->dev;
1971                 if (dev == NULL || (vif = ipmr_find_vif(mrt, dev)) < 0) {
1972                         read_unlock(&mrt_lock);
1973                         return -ENODEV;
1974                 }
1975                 skb2 = skb_clone(skb, GFP_ATOMIC);
1976                 if (!skb2) {
1977                         read_unlock(&mrt_lock);
1978                         return -ENOMEM;
1979                 }
1980
1981                 skb_push(skb2, sizeof(struct iphdr));
1982                 skb_reset_network_header(skb2);
1983                 iph = ip_hdr(skb2);
1984                 iph->ihl = sizeof(struct iphdr) >> 2;
1985                 iph->saddr = rt->rt_src;
1986                 iph->daddr = rt->rt_dst;
1987                 iph->version = 0;
1988                 err = ipmr_cache_unresolved(mrt, vif, skb2);
1989                 read_unlock(&mrt_lock);
1990                 return err;
1991         }
1992
1993         if (!nowait && (rtm->rtm_flags&RTM_F_NOTIFY))
1994                 cache->mfc_flags |= MFC_NOTIFY;
1995         err = __ipmr_fill_mroute(mrt, skb, cache, rtm);
1996         read_unlock(&mrt_lock);
1997         return err;
1998 }
1999
2000 static int ipmr_fill_mroute(struct mr_table *mrt, struct sk_buff *skb,
2001                             u32 pid, u32 seq, struct mfc_cache *c)
2002 {
2003         struct nlmsghdr *nlh;
2004         struct rtmsg *rtm;
2005
2006         nlh = nlmsg_put(skb, pid, seq, RTM_NEWROUTE, sizeof(*rtm), NLM_F_MULTI);
2007         if (nlh == NULL)
2008                 return -EMSGSIZE;
2009
2010         rtm = nlmsg_data(nlh);
2011         rtm->rtm_family   = RTNL_FAMILY_IPMR;
2012         rtm->rtm_dst_len  = 32;
2013         rtm->rtm_src_len  = 32;
2014         rtm->rtm_tos      = 0;
2015         rtm->rtm_table    = mrt->id;
2016         NLA_PUT_U32(skb, RTA_TABLE, mrt->id);
2017         rtm->rtm_type     = RTN_MULTICAST;
2018         rtm->rtm_scope    = RT_SCOPE_UNIVERSE;
2019         rtm->rtm_protocol = RTPROT_UNSPEC;
2020         rtm->rtm_flags    = 0;
2021
2022         NLA_PUT_BE32(skb, RTA_SRC, c->mfc_origin);
2023         NLA_PUT_BE32(skb, RTA_DST, c->mfc_mcastgrp);
2024
2025         if (__ipmr_fill_mroute(mrt, skb, c, rtm) < 0)
2026                 goto nla_put_failure;
2027
2028         return nlmsg_end(skb, nlh);
2029
2030 nla_put_failure:
2031         nlmsg_cancel(skb, nlh);
2032         return -EMSGSIZE;
2033 }
2034
2035 static int ipmr_rtm_dumproute(struct sk_buff *skb, struct netlink_callback *cb)
2036 {
2037         struct net *net = sock_net(skb->sk);
2038         struct mr_table *mrt;
2039         struct mfc_cache *mfc;
2040         unsigned int t = 0, s_t;
2041         unsigned int h = 0, s_h;
2042         unsigned int e = 0, s_e;
2043
2044         s_t = cb->args[0];
2045         s_h = cb->args[1];
2046         s_e = cb->args[2];
2047
2048         read_lock(&mrt_lock);
2049         ipmr_for_each_table(mrt, net) {
2050                 if (t < s_t)
2051                         goto next_table;
2052                 if (t > s_t)
2053                         s_h = 0;
2054                 for (h = s_h; h < MFC_LINES; h++) {
2055                         list_for_each_entry(mfc, &mrt->mfc_cache_array[h], list) {
2056                                 if (e < s_e)
2057                                         goto next_entry;
2058                                 if (ipmr_fill_mroute(mrt, skb,
2059                                                      NETLINK_CB(cb->skb).pid,
2060                                                      cb->nlh->nlmsg_seq,
2061                                                      mfc) < 0)
2062                                         goto done;
2063 next_entry:
2064                                 e++;
2065                         }
2066                         e = s_e = 0;
2067                 }
2068                 s_h = 0;
2069 next_table:
2070                 t++;
2071         }
2072 done:
2073         read_unlock(&mrt_lock);
2074
2075         cb->args[2] = e;
2076         cb->args[1] = h;
2077         cb->args[0] = t;
2078
2079         return skb->len;
2080 }
2081
2082 #ifdef CONFIG_PROC_FS
2083 /*
2084  *      The /proc interfaces to multicast routing /proc/ip_mr_cache /proc/ip_mr_vif
2085  */
2086 struct ipmr_vif_iter {
2087         struct seq_net_private p;
2088         struct mr_table *mrt;
2089         int ct;
2090 };
2091
2092 static struct vif_device *ipmr_vif_seq_idx(struct net *net,
2093                                            struct ipmr_vif_iter *iter,
2094                                            loff_t pos)
2095 {
2096         struct mr_table *mrt = iter->mrt;
2097
2098         for (iter->ct = 0; iter->ct < mrt->maxvif; ++iter->ct) {
2099                 if (!VIF_EXISTS(mrt, iter->ct))
2100                         continue;
2101                 if (pos-- == 0)
2102                         return &mrt->vif_table[iter->ct];
2103         }
2104         return NULL;
2105 }
2106
2107 static void *ipmr_vif_seq_start(struct seq_file *seq, loff_t *pos)
2108         __acquires(mrt_lock)
2109 {
2110         struct ipmr_vif_iter *iter = seq->private;
2111         struct net *net = seq_file_net(seq);
2112         struct mr_table *mrt;
2113
2114         mrt = ipmr_get_table(net, RT_TABLE_DEFAULT);
2115         if (mrt == NULL)
2116                 return ERR_PTR(-ENOENT);
2117
2118         iter->mrt = mrt;
2119
2120         read_lock(&mrt_lock);
2121         return *pos ? ipmr_vif_seq_idx(net, seq->private, *pos - 1)
2122                 : SEQ_START_TOKEN;
2123 }
2124
2125 static void *ipmr_vif_seq_next(struct seq_file *seq, void *v, loff_t *pos)
2126 {
2127         struct ipmr_vif_iter *iter = seq->private;
2128         struct net *net = seq_file_net(seq);
2129         struct mr_table *mrt = iter->mrt;
2130
2131         ++*pos;
2132         if (v == SEQ_START_TOKEN)
2133                 return ipmr_vif_seq_idx(net, iter, 0);
2134
2135         while (++iter->ct < mrt->maxvif) {
2136                 if (!VIF_EXISTS(mrt, iter->ct))
2137                         continue;
2138                 return &mrt->vif_table[iter->ct];
2139         }
2140         return NULL;
2141 }
2142
2143 static void ipmr_vif_seq_stop(struct seq_file *seq, void *v)
2144         __releases(mrt_lock)
2145 {
2146         read_unlock(&mrt_lock);
2147 }
2148
2149 static int ipmr_vif_seq_show(struct seq_file *seq, void *v)
2150 {
2151         struct ipmr_vif_iter *iter = seq->private;
2152         struct mr_table *mrt = iter->mrt;
2153
2154         if (v == SEQ_START_TOKEN) {
2155                 seq_puts(seq,
2156                          "Interface      BytesIn  PktsIn  BytesOut PktsOut Flags Local    Remote\n");
2157         } else {
2158                 const struct vif_device *vif = v;
2159                 const char *name =  vif->dev ? vif->dev->name : "none";
2160
2161                 seq_printf(seq,
2162                            "%2Zd %-10s %8ld %7ld  %8ld %7ld %05X %08X %08X\n",
2163                            vif - mrt->vif_table,
2164                            name, vif->bytes_in, vif->pkt_in,
2165                            vif->bytes_out, vif->pkt_out,
2166                            vif->flags, vif->local, vif->remote);
2167         }
2168         return 0;
2169 }
2170
2171 static const struct seq_operations ipmr_vif_seq_ops = {
2172         .start = ipmr_vif_seq_start,
2173         .next  = ipmr_vif_seq_next,
2174         .stop  = ipmr_vif_seq_stop,
2175         .show  = ipmr_vif_seq_show,
2176 };
2177
2178 static int ipmr_vif_open(struct inode *inode, struct file *file)
2179 {
2180         return seq_open_net(inode, file, &ipmr_vif_seq_ops,
2181                             sizeof(struct ipmr_vif_iter));
2182 }
2183
2184 static const struct file_operations ipmr_vif_fops = {
2185         .owner   = THIS_MODULE,
2186         .open    = ipmr_vif_open,
2187         .read    = seq_read,
2188         .llseek  = seq_lseek,
2189         .release = seq_release_net,
2190 };
2191
2192 struct ipmr_mfc_iter {
2193         struct seq_net_private p;
2194         struct mr_table *mrt;
2195         struct list_head *cache;
2196         int ct;
2197 };
2198
2199
2200 static struct mfc_cache *ipmr_mfc_seq_idx(struct net *net,
2201                                           struct ipmr_mfc_iter *it, loff_t pos)
2202 {
2203         struct mr_table *mrt = it->mrt;
2204         struct mfc_cache *mfc;
2205
2206         read_lock(&mrt_lock);
2207         for (it->ct = 0; it->ct < MFC_LINES; it->ct++) {
2208                 it->cache = &mrt->mfc_cache_array[it->ct];
2209                 list_for_each_entry(mfc, it->cache, list)
2210                         if (pos-- == 0)
2211                                 return mfc;
2212         }
2213         read_unlock(&mrt_lock);
2214
2215         spin_lock_bh(&mfc_unres_lock);
2216         it->cache = &mrt->mfc_unres_queue;
2217         list_for_each_entry(mfc, it->cache, list)
2218                 if (pos-- == 0)
2219                         return mfc;
2220         spin_unlock_bh(&mfc_unres_lock);
2221
2222         it->cache = NULL;
2223         return NULL;
2224 }
2225
2226
2227 static void *ipmr_mfc_seq_start(struct seq_file *seq, loff_t *pos)
2228 {
2229         struct ipmr_mfc_iter *it = seq->private;
2230         struct net *net = seq_file_net(seq);
2231         struct mr_table *mrt;
2232
2233         mrt = ipmr_get_table(net, RT_TABLE_DEFAULT);
2234         if (mrt == NULL)
2235                 return ERR_PTR(-ENOENT);
2236
2237         it->mrt = mrt;
2238         it->cache = NULL;
2239         it->ct = 0;
2240         return *pos ? ipmr_mfc_seq_idx(net, seq->private, *pos - 1)
2241                 : SEQ_START_TOKEN;
2242 }
2243
2244 static void *ipmr_mfc_seq_next(struct seq_file *seq, void *v, loff_t *pos)
2245 {
2246         struct mfc_cache *mfc = v;
2247         struct ipmr_mfc_iter *it = seq->private;
2248         struct net *net = seq_file_net(seq);
2249         struct mr_table *mrt = it->mrt;
2250
2251         ++*pos;
2252
2253         if (v == SEQ_START_TOKEN)
2254                 return ipmr_mfc_seq_idx(net, seq->private, 0);
2255
2256         if (mfc->list.next != it->cache)
2257                 return list_entry(mfc->list.next, struct mfc_cache, list);
2258
2259         if (it->cache == &mrt->mfc_unres_queue)
2260                 goto end_of_list;
2261
2262         BUG_ON(it->cache != &mrt->mfc_cache_array[it->ct]);
2263
2264         while (++it->ct < MFC_LINES) {
2265                 it->cache = &mrt->mfc_cache_array[it->ct];
2266                 if (list_empty(it->cache))
2267                         continue;
2268                 return list_first_entry(it->cache, struct mfc_cache, list);
2269         }
2270
2271         /* exhausted cache_array, show unresolved */
2272         read_unlock(&mrt_lock);
2273         it->cache = &mrt->mfc_unres_queue;
2274         it->ct = 0;
2275
2276         spin_lock_bh(&mfc_unres_lock);
2277         if (!list_empty(it->cache))
2278                 return list_first_entry(it->cache, struct mfc_cache, list);
2279
2280  end_of_list:
2281         spin_unlock_bh(&mfc_unres_lock);
2282         it->cache = NULL;
2283
2284         return NULL;
2285 }
2286
2287 static void ipmr_mfc_seq_stop(struct seq_file *seq, void *v)
2288 {
2289         struct ipmr_mfc_iter *it = seq->private;
2290         struct mr_table *mrt = it->mrt;
2291
2292         if (it->cache == &mrt->mfc_unres_queue)
2293                 spin_unlock_bh(&mfc_unres_lock);
2294         else if (it->cache == &mrt->mfc_cache_array[it->ct])
2295                 read_unlock(&mrt_lock);
2296 }
2297
2298 static int ipmr_mfc_seq_show(struct seq_file *seq, void *v)
2299 {
2300         int n;
2301
2302         if (v == SEQ_START_TOKEN) {
2303                 seq_puts(seq,
2304                  "Group    Origin   Iif     Pkts    Bytes    Wrong Oifs\n");
2305         } else {
2306                 const struct mfc_cache *mfc = v;
2307                 const struct ipmr_mfc_iter *it = seq->private;
2308                 const struct mr_table *mrt = it->mrt;
2309
2310                 seq_printf(seq, "%08X %08X %-3hd",
2311                            (__force u32) mfc->mfc_mcastgrp,
2312                            (__force u32) mfc->mfc_origin,
2313                            mfc->mfc_parent);
2314
2315                 if (it->cache != &mrt->mfc_unres_queue) {
2316                         seq_printf(seq, " %8lu %8lu %8lu",
2317                                    mfc->mfc_un.res.pkt,
2318                                    mfc->mfc_un.res.bytes,
2319                                    mfc->mfc_un.res.wrong_if);
2320                         for (n = mfc->mfc_un.res.minvif;
2321                              n < mfc->mfc_un.res.maxvif; n++ ) {
2322                                 if (VIF_EXISTS(mrt, n) &&
2323                                     mfc->mfc_un.res.ttls[n] < 255)
2324                                         seq_printf(seq,
2325                                            " %2d:%-3d",
2326                                            n, mfc->mfc_un.res.ttls[n]);
2327                         }
2328                 } else {
2329                         /* unresolved mfc_caches don't contain
2330                          * pkt, bytes and wrong_if values
2331                          */
2332                         seq_printf(seq, " %8lu %8lu %8lu", 0ul, 0ul, 0ul);
2333                 }
2334                 seq_putc(seq, '\n');
2335         }
2336         return 0;
2337 }
2338
2339 static const struct seq_operations ipmr_mfc_seq_ops = {
2340         .start = ipmr_mfc_seq_start,
2341         .next  = ipmr_mfc_seq_next,
2342         .stop  = ipmr_mfc_seq_stop,
2343         .show  = ipmr_mfc_seq_show,
2344 };
2345
2346 static int ipmr_mfc_open(struct inode *inode, struct file *file)
2347 {
2348         return seq_open_net(inode, file, &ipmr_mfc_seq_ops,
2349                             sizeof(struct ipmr_mfc_iter));
2350 }
2351
2352 static const struct file_operations ipmr_mfc_fops = {
2353         .owner   = THIS_MODULE,
2354         .open    = ipmr_mfc_open,
2355         .read    = seq_read,
2356         .llseek  = seq_lseek,
2357         .release = seq_release_net,
2358 };
2359 #endif
2360
2361 #ifdef CONFIG_IP_PIMSM_V2
2362 static const struct net_protocol pim_protocol = {
2363         .handler        =       pim_rcv,
2364         .netns_ok       =       1,
2365 };
2366 #endif
2367
2368
2369 /*
2370  *      Setup for IP multicast routing
2371  */
2372 static int __net_init ipmr_net_init(struct net *net)
2373 {
2374         int err;
2375
2376         err = ipmr_rules_init(net);
2377         if (err < 0)
2378                 goto fail;
2379
2380 #ifdef CONFIG_PROC_FS
2381         err = -ENOMEM;
2382         if (!proc_net_fops_create(net, "ip_mr_vif", 0, &ipmr_vif_fops))
2383                 goto proc_vif_fail;
2384         if (!proc_net_fops_create(net, "ip_mr_cache", 0, &ipmr_mfc_fops))
2385                 goto proc_cache_fail;
2386 #endif
2387         return 0;
2388
2389 #ifdef CONFIG_PROC_FS
2390 proc_cache_fail:
2391         proc_net_remove(net, "ip_mr_vif");
2392 proc_vif_fail:
2393         ipmr_rules_exit(net);
2394 #endif
2395 fail:
2396         return err;
2397 }
2398
2399 static void __net_exit ipmr_net_exit(struct net *net)
2400 {
2401 #ifdef CONFIG_PROC_FS
2402         proc_net_remove(net, "ip_mr_cache");
2403         proc_net_remove(net, "ip_mr_vif");
2404 #endif
2405         ipmr_rules_exit(net);
2406 }
2407
2408 static struct pernet_operations ipmr_net_ops = {
2409         .init = ipmr_net_init,
2410         .exit = ipmr_net_exit,
2411 };
2412
2413 int __init ip_mr_init(void)
2414 {
2415         int err;
2416
2417         mrt_cachep = kmem_cache_create("ip_mrt_cache",
2418                                        sizeof(struct mfc_cache),
2419                                        0, SLAB_HWCACHE_ALIGN|SLAB_PANIC,
2420                                        NULL);
2421         if (!mrt_cachep)
2422                 return -ENOMEM;
2423
2424         err = register_pernet_subsys(&ipmr_net_ops);
2425         if (err)
2426                 goto reg_pernet_fail;
2427
2428         err = register_netdevice_notifier(&ip_mr_notifier);
2429         if (err)
2430                 goto reg_notif_fail;
2431 #ifdef CONFIG_IP_PIMSM_V2
2432         if (inet_add_protocol(&pim_protocol, IPPROTO_PIM) < 0) {
2433                 printk(KERN_ERR "ip_mr_init: can't add PIM protocol\n");
2434                 err = -EAGAIN;
2435                 goto add_proto_fail;
2436         }
2437 #endif
2438         rtnl_register(RTNL_FAMILY_IPMR, RTM_GETROUTE, NULL, ipmr_rtm_dumproute);
2439         return 0;
2440
2441 #ifdef CONFIG_IP_PIMSM_V2
2442 add_proto_fail:
2443         unregister_netdevice_notifier(&ip_mr_notifier);
2444 #endif
2445 reg_notif_fail:
2446         unregister_pernet_subsys(&ipmr_net_ops);
2447 reg_pernet_fail:
2448         kmem_cache_destroy(mrt_cachep);
2449         return err;
2450 }