Merge branch 'linux-next' of git://git.kernel.org/pub/scm/linux/kernel/git/jbarnes...
authorLinus Torvalds <torvalds@linux-foundation.org>
Wed, 1 Apr 2009 16:47:12 +0000 (09:47 -0700)
committerLinus Torvalds <torvalds@linux-foundation.org>
Wed, 1 Apr 2009 16:47:12 +0000 (09:47 -0700)
* 'linux-next' of git://git.kernel.org/pub/scm/linux/kernel/git/jbarnes/pci-2.6: (88 commits)
  PCI: fix HT MSI mapping fix
  PCI: don't enable too much HT MSI mapping
  x86/PCI: make pci=lastbus=255 work when acpi is on
  PCI: save and restore PCIe 2.0 registers
  PCI: update fakephp for bus_id removal
  PCI: fix kernel oops on bridge removal
  PCI: fix conflict between SR-IOV and config space sizing
  powerpc/PCI: include pci.h in powerpc MSI implementation
  PCI Hotplug: schedule fakephp for feature removal
  PCI Hotplug: rename legacy_fakephp to fakephp
  PCI Hotplug: restore fakephp interface with complete reimplementation
  PCI: Introduce /sys/bus/pci/devices/.../rescan
  PCI: Introduce /sys/bus/pci/devices/.../remove
  PCI: Introduce /sys/bus/pci/rescan
  PCI: Introduce pci_rescan_bus()
  PCI: do not enable bridges more than once
  PCI: do not initialize bridges more than once
  PCI: always scan child buses
  PCI: pci_scan_slot() returns newly found devices
  PCI: don't scan existing devices
  ...

Fix trivial append-only conflict in Documentation/feature-removal-schedule.txt

12 files changed:
1  2 
Documentation/feature-removal-schedule.txt
Documentation/kernel-parameters.txt
arch/x86/kernel/apic/io_apic.c
arch/x86/kernel/pci-dma.c
arch/x86/pci/fixup.c
drivers/pci/intel-iommu.c
drivers/pci/pci-driver.c
drivers/pci/pci.c
drivers/pci/pci.h
include/linux/acpi.h
include/linux/pci.h
include/linux/pci_ids.h

@@@ -6,47 -6,20 +6,47 @@@ be removed from this file
  
  ---------------------------
  
 -What: old static regulatory information and ieee80211_regdom module parameter
 -When: 2.6.29
 +What: The ieee80211_regdom module parameter
 +When: March 2010 / desktop catchup
 +
 +Why:  This was inherited by the CONFIG_WIRELESS_OLD_REGULATORY code,
 +      and currently serves as an option for users to define an
 +      ISO / IEC 3166 alpha2 code for the country they are currently
 +      present in. Although there are userspace API replacements for this
 +      through nl80211 distributions haven't yet caught up with implementing
 +      decent alternatives through standard GUIs. Although available as an
 +      option through iw or wpa_supplicant its just a matter of time before
 +      distributions pick up good GUI options for this. The ideal solution
 +      would actually consist of intelligent designs which would do this for
 +      the user automatically even when travelling through different countries.
 +      Until then we leave this module parameter as a compromise.
 +
 +      When userspace improves with reasonable widely-available alternatives for
 +      this we will no longer need this module parameter. This entry hopes that
 +      by the super-futuristically looking date of "March 2010" we will have
 +      such replacements widely available.
 +
 +Who:  Luis R. Rodriguez <lrodriguez@atheros.com>
 +
 +---------------------------
 +
 +What: CONFIG_WIRELESS_OLD_REGULATORY - old static regulatory information
 +When: March 2010 / desktop catchup
 +
  Why:  The old regulatory infrastructure has been replaced with a new one
        which does not require statically defined regulatory domains. We do
        not want to keep static regulatory domains in the kernel due to the
        the dynamic nature of regulatory law and localization. We kept around
        the old static definitions for the regulatory domains of:
 +
                * US
                * JP
                * EU
 +
        and used by default the US when CONFIG_WIRELESS_OLD_REGULATORY was
 -      set. We also kept around the ieee80211_regdom module parameter in case
 -      some applications were relying on it. Changing regulatory domains
 -      can now be done instead by using nl80211, as is done with iw.
 +      set. We will remove this option once the standard Linux desktop catches
 +      up with the new userspace APIs we have implemented.
 +
  Who:  Luis R. Rodriguez <lrodriguez@atheros.com>
  
  ---------------------------
@@@ -64,10 -37,10 +64,10 @@@ Who:       Pavel Machek <pavel@suse.cz
  
  ---------------------------
  
 -What: Video4Linux API 1 ioctls and video_decoder.h from Video devices.
 -When: December 2008
 -Files:        include/linux/video_decoder.h include/linux/videodev.h
 -Check:        include/linux/video_decoder.h include/linux/videodev.h
 +What: Video4Linux API 1 ioctls and from Video devices.
 +When: July 2009
 +Files:        include/linux/videodev.h
 +Check:        include/linux/videodev.h
  Why:  V4L1 AP1 was replaced by V4L2 API during migration from 2.4 to 2.6
        series. The old API have lots of drawbacks and don't provide enough
        means to work with all video and audio standards. The newer API is
@@@ -256,9 -229,7 +256,9 @@@ Who:       Jan Engelhardt <jengelh@computergm
  ---------------------------
  
  What: b43 support for firmware revision < 410
 -When: July 2008
 +When: The schedule was July 2008, but it was decided that we are going to keep the
 +        code as long as there are no major maintanance headaches.
 +      So it _could_ be removed _any_ time now, if it conflicts with something new.
  Why:  The support code for the old firmware hurts code readability/maintainability
        and slightly hurts runtime performance. Bugfixes for the old firmware
        are not provided by Broadcom anymore.
@@@ -311,18 -282,6 +311,18 @@@ Who:     Vlad Yasevich <vladislav.yasevich@
  
  ---------------------------
  
 +What: Ability for non root users to shm_get hugetlb pages based on mlock
 +      resource limits
 +When: 2.6.31
 +Why:  Non root users need to be part of /proc/sys/vm/hugetlb_shm_group or
 +      have CAP_IPC_LOCK to be able to allocate shm segments backed by
 +      huge pages.  The mlock based rlimit check to allow shm hugetlb is
 +      inconsistent with mmap based allocations.  Hence it is being
 +      deprecated.
 +Who:  Ravikiran Thirumalai <kiran@scalex86.org>
 +
 +---------------------------
 +
  What: CONFIG_THERMAL_HWMON
  When: January 2009
  Why:  This option was introduced just to allow older lm-sensors userspace
@@@ -352,8 -311,7 +352,8 @@@ Who:  Krzysztof Piotr Oledzki <ole@ans.
  ---------------------------
  
  What: i2c_attach_client(), i2c_detach_client(), i2c_driver->detach_client()
 -When: 2.6.29 (ideally) or 2.6.30 (more likely)
 +When: 2.6.30
 +Check:        i2c_attach_client i2c_detach_client
  Why:  Deprecated by the new (standard) device driver binding model. Use
        i2c_driver->probe() and ->remove() instead.
  Who:  Jean Delvare <khali@linux-fr.org>
@@@ -368,6 -326,18 +368,6 @@@ Who:      Hans de Goede <hdegoede@redhat.com
  
  ---------------------------
  
 -What: SELinux "compat_net" functionality
 -When: 2.6.30 at the earliest
 -Why:  In 2.6.18 the Secmark concept was introduced to replace the "compat_net"
 -      network access control functionality of SELinux.  Secmark offers both
 -      better performance and greater flexibility than the "compat_net"
 -      mechanism.  Now that the major Linux distributions have moved to
 -      Secmark, it is time to deprecate the older mechanism and start the
 -      process of removing the old code.
 -Who:  Paul Moore <paul.moore@hp.com>
 -
 ----------------------------
 -
  What: sysfs ui for changing p4-clockmod parameters
  When: September 2009
  Why:  See commits 129f8ae9b1b5be94517da76009ea956e89104ce8 and
        cause the thermal throttling not to happen at the right time.
  Who:  Dave Jones <davej@redhat.com>, Matthew Garrett <mjg@redhat.com>
  
 +-----------------------------
 +
 +What: __do_IRQ all in one fits nothing interrupt handler
 +When: 2.6.32
 +Why:  __do_IRQ was kept for easy migration to the type flow handlers.
 +      More than two years of migration time is enough.
 +Who:  Thomas Gleixner <tglx@linutronix.de>
 +
 +-----------------------------
 +
 +What: obsolete generic irq defines and typedefs
 +When: 2.6.30
 +Why:  The defines and typedefs (hw_interrupt_type, no_irq_type, irq_desc_t)
 +      have been kept around for migration reasons. After more than two years
 +      it's time to remove them finally
 +Who:  Thomas Gleixner <tglx@linutronix.de>
++
+ ---------------------------
+ What: fakephp and associated sysfs files in /sys/bus/pci/slots/
+ When: 2011
+ Why:  In 2.6.27, the semantics of /sys/bus/pci/slots was redefined to
+       represent a machine's physical PCI slots. The change in semantics
+       had userspace implications, as the hotplug core no longer allowed
+       drivers to create multiple sysfs files per physical slot (required
+       for multi-function devices, e.g.). fakephp was seen as a developer's
+       tool only, and its interface changed. Too late, we learned that
+       there were some users of the fakephp interface.
+       In 2.6.30, the original fakephp interface was restored. At the same
+       time, the PCI core gained the ability that fakephp provided, namely
+       function-level hot-remove and hot-add.
+       Since the PCI core now provides the same functionality, exposed in:
+               /sys/bus/pci/rescan
+               /sys/bus/pci/devices/.../remove
+               /sys/bus/pci/devices/.../rescan
+       there is no functional reason to maintain fakephp as well.
+       We will keep the existing module so that 'modprobe fakephp' will
+       present the old /sys/bus/pci/slots/... interface for compatibility,
+       but users are urged to migrate their applications to the API above.
+       After a reasonable transition period, we will remove the legacy
+       fakephp interface.
+ Who:  Alex Chiang <achiang@hp.com>
@@@ -44,7 -44,6 +44,7 @@@ parameter is applicable
        FB      The frame buffer device is enabled.
        HW      Appropriate hardware is enabled.
        IA-64   IA-64 architecture is enabled.
 +      IMA     Integrity measurement architecture is enabled.
        IOSCHED More than one I/O scheduler is enabled.
        IP_PNP  IP DHCP, BOOTP, or RARP is enabled.
        ISAPNP  ISA PnP code is enabled.
@@@ -492,23 -491,11 +492,23 @@@ and is between 256 and 4096 characters
                        Range: 0 - 8192
                        Default: 64
  
 +      dma_debug=off   If the kernel is compiled with DMA_API_DEBUG support
 +                      this option disables the debugging code at boot.
 +
 +      dma_debug_entries=<number>
 +                      This option allows to tune the number of preallocated
 +                      entries for DMA-API debugging code. One entry is
 +                      required per DMA-API allocation. Use this if the
 +                      DMA-API debugging code disables itself because the
 +                      architectural default is too low.
 +
        hpet=           [X86-32,HPET] option to control HPET usage
 -                      Format: { enable (default) | disable | force }
 +                      Format: { enable (default) | disable | force |
 +                              verbose }
                        disable: disable HPET and use PIT instead
                        force: allow force enabled of undocumented chips (ICH4,
                        VIA, nVidia)
 +                      verbose: show contents of HPET registers during setup
  
        com20020=       [HW,NET] ARCnet - COM20020 chipset
                        Format:
  
        hvc_iucv=       [S390] Number of z/VM IUCV hypervisor console (HVC)
                               terminal devices. Valid values: 0..8
 +      hvc_iucv_allow= [S390] Comma-separated list of z/VM user IDs.
 +                             If specified, z/VM IUCV HVC accepts connections
 +                             from listed z/VM user IDs only.
 +
 +      i2c_bus=        [HW] Override the default board specific I2C bus speed
 +                           or register an additional I2C bus that is not
 +                           registered from board initialization code.
 +                           Format:
 +                           <bus_id>,<clkrate>
  
        i8042.debug     [HW] Toggle i8042 debug mode
        i8042.direct    [HW] Put keyboard port into non-translated mode
        ihash_entries=  [KNL]
                        Set number of hash buckets for inode cache.
  
 +      ima_audit=      [IMA]
 +                      Format: { "0" | "1" }
 +                      0 -- integrity auditing messages. (Default)
 +                      1 -- enable informational integrity auditing messages.
 +
 +      ima_hash=       [IMA]
 +                      Formt: { "sha1" | "md5" }
 +                      default: "sha1"
 +
        in2000=         [HW,SCSI]
                        See header of drivers/scsi/in2000.c.
  
  
        memtest=        [KNL,X86] Enable memtest
                        Format: <integer>
 -                      range: 0,4 : pattern number
                        default : 0 <disable>
 +                      Specifies the number of memtest passes to be
 +                      performed. Each pass selects another test
 +                      pattern from a given set of patterns. Memtest
 +                      fills the memory with this pattern, validates
 +                      memory contents and reserves bad memory
 +                      regions that are detected.
  
        meye.*=         [HW] Set MotionEye Camera parameters
                        See Documentation/video4linux/meye.txt.
                        See also Documentation/blockdev/paride.txt.
  
        pci=option[,option...]  [PCI] various PCI subsystem options:
+               earlydump       [X86] dump PCI config space before the kernel
+                               changes anything
                off             [X86] don't probe for the PCI bus
                bios            [X86-32] force use of PCI BIOS, don't access
                                the hardware directly. Use this if your machine
                cbmemsize=nn[KMG]       The fixed amount of bus space which is
                                reserved for the CardBus bridge's memory
                                window. The default value is 64 megabytes.
+               resource_alignment=
+                               Format:
+                               [<order of align>@][<domain>:]<bus>:<slot>.<func>[; ...]
+                               Specifies alignment and device to reassign
+                               aligned memory resources.
+                               If <order of align> is not specified,
+                               PAGE_SIZE is used as alignment.
+                               PCI-PCI bridge can be specified, if resource
+                               windows need to be expanded.
  
        pcie_aspm=      [PCIE] Forcibly enable or disable PCIe Active State Power
                        Management.
                        autoconfiguration.
                        Ranges are in pairs (memory base and size).
  
 -      dynamic_printk  Enables pr_debug()/dev_dbg() calls if
 -                      CONFIG_DYNAMIC_PRINTK_DEBUG has been enabled.
 -                      These can also be switched on/off via
 -                      <debugfs>/dynamic_printk/modules
 -
        print-fatal-signals=
                        [KNL] debug: print fatal signals
                        print-fatal-signals=1: print segfault info to
                        If enabled at boot time, /selinux/disable can be used
                        later to disable prior to initial policy load.
  
 -      selinux_compat_net =
 -                      [SELINUX] Set initial selinux_compat_net flag value.
 -                        Format: { "0" | "1" }
 -                        0 -- use new secmark-based packet controls
 -                        1 -- use legacy packet controls
 -                        Default value is 0 (preferred).
 -                        Value can be changed at runtime via
 -                        /selinux/compat_net.
 -
        serialnumber    [BUGS=X86-32]
  
        shapers=        [NET]
index da99ffc,0000000..1bb5c6c
mode 100644,000000..100644
--- /dev/null
@@@ -1,4152 -1,0 +1,4156 @@@
 +/*
 + *    Intel IO-APIC support for multi-Pentium hosts.
 + *
 + *    Copyright (C) 1997, 1998, 1999, 2000, 2009 Ingo Molnar, Hajnalka Szabo
 + *
 + *    Many thanks to Stig Venaas for trying out countless experimental
 + *    patches and reporting/debugging problems patiently!
 + *
 + *    (c) 1999, Multiple IO-APIC support, developed by
 + *    Ken-ichi Yaku <yaku@css1.kbnes.nec.co.jp> and
 + *      Hidemi Kishimoto <kisimoto@css1.kbnes.nec.co.jp>,
 + *    further tested and cleaned up by Zach Brown <zab@redhat.com>
 + *    and Ingo Molnar <mingo@redhat.com>
 + *
 + *    Fixes
 + *    Maciej W. Rozycki       :       Bits for genuine 82489DX APICs;
 + *                                    thanks to Eric Gilmore
 + *                                    and Rolf G. Tews
 + *                                    for testing these extensively
 + *    Paul Diefenbaugh        :       Added full ACPI support
 + */
 +
 +#include <linux/mm.h>
 +#include <linux/interrupt.h>
 +#include <linux/init.h>
 +#include <linux/delay.h>
 +#include <linux/sched.h>
 +#include <linux/pci.h>
 +#include <linux/mc146818rtc.h>
 +#include <linux/compiler.h>
 +#include <linux/acpi.h>
 +#include <linux/module.h>
 +#include <linux/sysdev.h>
 +#include <linux/msi.h>
 +#include <linux/htirq.h>
 +#include <linux/freezer.h>
 +#include <linux/kthread.h>
 +#include <linux/jiffies.h>    /* time_after() */
 +#ifdef CONFIG_ACPI
 +#include <acpi/acpi_bus.h>
 +#endif
 +#include <linux/bootmem.h>
 +#include <linux/dmar.h>
 +#include <linux/hpet.h>
 +
 +#include <asm/idle.h>
 +#include <asm/io.h>
 +#include <asm/smp.h>
 +#include <asm/cpu.h>
 +#include <asm/desc.h>
 +#include <asm/proto.h>
 +#include <asm/acpi.h>
 +#include <asm/dma.h>
 +#include <asm/timer.h>
 +#include <asm/i8259.h>
 +#include <asm/nmi.h>
 +#include <asm/msidef.h>
 +#include <asm/hypertransport.h>
 +#include <asm/setup.h>
 +#include <asm/irq_remapping.h>
 +#include <asm/hpet.h>
 +#include <asm/uv/uv_hub.h>
 +#include <asm/uv/uv_irq.h>
 +
 +#include <asm/apic.h>
 +
 +#define __apicdebuginit(type) static type __init
 +
 +/*
 + *      Is the SiS APIC rmw bug present ?
 + *      -1 = don't know, 0 = no, 1 = yes
 + */
 +int sis_apic_bug = -1;
 +
 +static DEFINE_SPINLOCK(ioapic_lock);
 +static DEFINE_SPINLOCK(vector_lock);
 +
 +/*
 + * # of IRQ routing registers
 + */
 +int nr_ioapic_registers[MAX_IO_APICS];
 +
 +/* I/O APIC entries */
 +struct mpc_ioapic mp_ioapics[MAX_IO_APICS];
 +int nr_ioapics;
 +
 +/* MP IRQ source entries */
 +struct mpc_intsrc mp_irqs[MAX_IRQ_SOURCES];
 +
 +/* # of MP IRQ source entries */
 +int mp_irq_entries;
 +
 +#if defined (CONFIG_MCA) || defined (CONFIG_EISA)
 +int mp_bus_id_to_type[MAX_MP_BUSSES];
 +#endif
 +
 +DECLARE_BITMAP(mp_bus_not_pci, MAX_MP_BUSSES);
 +
 +int skip_ioapic_setup;
 +
 +void arch_disable_smp_support(void)
 +{
 +#ifdef CONFIG_PCI
 +      noioapicquirk = 1;
 +      noioapicreroute = -1;
 +#endif
 +      skip_ioapic_setup = 1;
 +}
 +
 +static int __init parse_noapic(char *str)
 +{
 +      /* disable IO-APIC */
 +      arch_disable_smp_support();
 +      return 0;
 +}
 +early_param("noapic", parse_noapic);
 +
 +struct irq_pin_list;
 +
 +/*
 + * This is performance-critical, we want to do it O(1)
 + *
 + * the indexing order of this array favors 1:1 mappings
 + * between pins and IRQs.
 + */
 +
 +struct irq_pin_list {
 +      int apic, pin;
 +      struct irq_pin_list *next;
 +};
 +
 +static struct irq_pin_list *get_one_free_irq_2_pin(int cpu)
 +{
 +      struct irq_pin_list *pin;
 +      int node;
 +
 +      node = cpu_to_node(cpu);
 +
 +      pin = kzalloc_node(sizeof(*pin), GFP_ATOMIC, node);
 +
 +      return pin;
 +}
 +
 +struct irq_cfg {
 +      struct irq_pin_list *irq_2_pin;
 +      cpumask_var_t domain;
 +      cpumask_var_t old_domain;
 +      unsigned move_cleanup_count;
 +      u8 vector;
 +      u8 move_in_progress : 1;
 +#ifdef CONFIG_NUMA_MIGRATE_IRQ_DESC
 +      u8 move_desc_pending : 1;
 +#endif
 +};
 +
 +/* irq_cfg is indexed by the sum of all RTEs in all I/O APICs. */
 +#ifdef CONFIG_SPARSE_IRQ
 +static struct irq_cfg irq_cfgx[] = {
 +#else
 +static struct irq_cfg irq_cfgx[NR_IRQS] = {
 +#endif
 +      [0]  = { .vector = IRQ0_VECTOR,  },
 +      [1]  = { .vector = IRQ1_VECTOR,  },
 +      [2]  = { .vector = IRQ2_VECTOR,  },
 +      [3]  = { .vector = IRQ3_VECTOR,  },
 +      [4]  = { .vector = IRQ4_VECTOR,  },
 +      [5]  = { .vector = IRQ5_VECTOR,  },
 +      [6]  = { .vector = IRQ6_VECTOR,  },
 +      [7]  = { .vector = IRQ7_VECTOR,  },
 +      [8]  = { .vector = IRQ8_VECTOR,  },
 +      [9]  = { .vector = IRQ9_VECTOR,  },
 +      [10] = { .vector = IRQ10_VECTOR, },
 +      [11] = { .vector = IRQ11_VECTOR, },
 +      [12] = { .vector = IRQ12_VECTOR, },
 +      [13] = { .vector = IRQ13_VECTOR, },
 +      [14] = { .vector = IRQ14_VECTOR, },
 +      [15] = { .vector = IRQ15_VECTOR, },
 +};
 +
 +int __init arch_early_irq_init(void)
 +{
 +      struct irq_cfg *cfg;
 +      struct irq_desc *desc;
 +      int count;
 +      int i;
 +
 +      cfg = irq_cfgx;
 +      count = ARRAY_SIZE(irq_cfgx);
 +
 +      for (i = 0; i < count; i++) {
 +              desc = irq_to_desc(i);
 +              desc->chip_data = &cfg[i];
 +              alloc_bootmem_cpumask_var(&cfg[i].domain);
 +              alloc_bootmem_cpumask_var(&cfg[i].old_domain);
 +              if (i < NR_IRQS_LEGACY)
 +                      cpumask_setall(cfg[i].domain);
 +      }
 +
 +      return 0;
 +}
 +
 +#ifdef CONFIG_SPARSE_IRQ
 +static struct irq_cfg *irq_cfg(unsigned int irq)
 +{
 +      struct irq_cfg *cfg = NULL;
 +      struct irq_desc *desc;
 +
 +      desc = irq_to_desc(irq);
 +      if (desc)
 +              cfg = desc->chip_data;
 +
 +      return cfg;
 +}
 +
 +static struct irq_cfg *get_one_free_irq_cfg(int cpu)
 +{
 +      struct irq_cfg *cfg;
 +      int node;
 +
 +      node = cpu_to_node(cpu);
 +
 +      cfg = kzalloc_node(sizeof(*cfg), GFP_ATOMIC, node);
 +      if (cfg) {
 +              if (!alloc_cpumask_var_node(&cfg->domain, GFP_ATOMIC, node)) {
 +                      kfree(cfg);
 +                      cfg = NULL;
 +              } else if (!alloc_cpumask_var_node(&cfg->old_domain,
 +                                                        GFP_ATOMIC, node)) {
 +                      free_cpumask_var(cfg->domain);
 +                      kfree(cfg);
 +                      cfg = NULL;
 +              } else {
 +                      cpumask_clear(cfg->domain);
 +                      cpumask_clear(cfg->old_domain);
 +              }
 +      }
 +
 +      return cfg;
 +}
 +
 +int arch_init_chip_data(struct irq_desc *desc, int cpu)
 +{
 +      struct irq_cfg *cfg;
 +
 +      cfg = desc->chip_data;
 +      if (!cfg) {
 +              desc->chip_data = get_one_free_irq_cfg(cpu);
 +              if (!desc->chip_data) {
 +                      printk(KERN_ERR "can not alloc irq_cfg\n");
 +                      BUG_ON(1);
 +              }
 +      }
 +
 +      return 0;
 +}
 +
 +#ifdef CONFIG_NUMA_MIGRATE_IRQ_DESC
 +
 +static void
 +init_copy_irq_2_pin(struct irq_cfg *old_cfg, struct irq_cfg *cfg, int cpu)
 +{
 +      struct irq_pin_list *old_entry, *head, *tail, *entry;
 +
 +      cfg->irq_2_pin = NULL;
 +      old_entry = old_cfg->irq_2_pin;
 +      if (!old_entry)
 +              return;
 +
 +      entry = get_one_free_irq_2_pin(cpu);
 +      if (!entry)
 +              return;
 +
 +      entry->apic     = old_entry->apic;
 +      entry->pin      = old_entry->pin;
 +      head            = entry;
 +      tail            = entry;
 +      old_entry       = old_entry->next;
 +      while (old_entry) {
 +              entry = get_one_free_irq_2_pin(cpu);
 +              if (!entry) {
 +                      entry = head;
 +                      while (entry) {
 +                              head = entry->next;
 +                              kfree(entry);
 +                              entry = head;
 +                      }
 +                      /* still use the old one */
 +                      return;
 +              }
 +              entry->apic     = old_entry->apic;
 +              entry->pin      = old_entry->pin;
 +              tail->next      = entry;
 +              tail            = entry;
 +              old_entry       = old_entry->next;
 +      }
 +
 +      tail->next = NULL;
 +      cfg->irq_2_pin = head;
 +}
 +
 +static void free_irq_2_pin(struct irq_cfg *old_cfg, struct irq_cfg *cfg)
 +{
 +      struct irq_pin_list *entry, *next;
 +
 +      if (old_cfg->irq_2_pin == cfg->irq_2_pin)
 +              return;
 +
 +      entry = old_cfg->irq_2_pin;
 +
 +      while (entry) {
 +              next = entry->next;
 +              kfree(entry);
 +              entry = next;
 +      }
 +      old_cfg->irq_2_pin = NULL;
 +}
 +
 +void arch_init_copy_chip_data(struct irq_desc *old_desc,
 +                               struct irq_desc *desc, int cpu)
 +{
 +      struct irq_cfg *cfg;
 +      struct irq_cfg *old_cfg;
 +
 +      cfg = get_one_free_irq_cfg(cpu);
 +
 +      if (!cfg)
 +              return;
 +
 +      desc->chip_data = cfg;
 +
 +      old_cfg = old_desc->chip_data;
 +
 +      memcpy(cfg, old_cfg, sizeof(struct irq_cfg));
 +
 +      init_copy_irq_2_pin(old_cfg, cfg, cpu);
 +}
 +
 +static void free_irq_cfg(struct irq_cfg *old_cfg)
 +{
 +      kfree(old_cfg);
 +}
 +
 +void arch_free_chip_data(struct irq_desc *old_desc, struct irq_desc *desc)
 +{
 +      struct irq_cfg *old_cfg, *cfg;
 +
 +      old_cfg = old_desc->chip_data;
 +      cfg = desc->chip_data;
 +
 +      if (old_cfg == cfg)
 +              return;
 +
 +      if (old_cfg) {
 +              free_irq_2_pin(old_cfg, cfg);
 +              free_irq_cfg(old_cfg);
 +              old_desc->chip_data = NULL;
 +      }
 +}
 +
 +static void
 +set_extra_move_desc(struct irq_desc *desc, const struct cpumask *mask)
 +{
 +      struct irq_cfg *cfg = desc->chip_data;
 +
 +      if (!cfg->move_in_progress) {
 +              /* it means that domain is not changed */
 +              if (!cpumask_intersects(desc->affinity, mask))
 +                      cfg->move_desc_pending = 1;
 +      }
 +}
 +#endif
 +
 +#else
 +static struct irq_cfg *irq_cfg(unsigned int irq)
 +{
 +      return irq < nr_irqs ? irq_cfgx + irq : NULL;
 +}
 +
 +#endif
 +
 +#ifndef CONFIG_NUMA_MIGRATE_IRQ_DESC
 +static inline void
 +set_extra_move_desc(struct irq_desc *desc, const struct cpumask *mask)
 +{
 +}
 +#endif
 +
 +struct io_apic {
 +      unsigned int index;
 +      unsigned int unused[3];
 +      unsigned int data;
 +      unsigned int unused2[11];
 +      unsigned int eoi;
 +};
 +
 +static __attribute_const__ struct io_apic __iomem *io_apic_base(int idx)
 +{
 +      return (void __iomem *) __fix_to_virt(FIX_IO_APIC_BASE_0 + idx)
 +              + (mp_ioapics[idx].apicaddr & ~PAGE_MASK);
 +}
 +
 +static inline void io_apic_eoi(unsigned int apic, unsigned int vector)
 +{
 +      struct io_apic __iomem *io_apic = io_apic_base(apic);
 +      writel(vector, &io_apic->eoi);
 +}
 +
 +static inline unsigned int io_apic_read(unsigned int apic, unsigned int reg)
 +{
 +      struct io_apic __iomem *io_apic = io_apic_base(apic);
 +      writel(reg, &io_apic->index);
 +      return readl(&io_apic->data);
 +}
 +
 +static inline void io_apic_write(unsigned int apic, unsigned int reg, unsigned int value)
 +{
 +      struct io_apic __iomem *io_apic = io_apic_base(apic);
 +      writel(reg, &io_apic->index);
 +      writel(value, &io_apic->data);
 +}
 +
 +/*
 + * Re-write a value: to be used for read-modify-write
 + * cycles where the read already set up the index register.
 + *
 + * Older SiS APIC requires we rewrite the index register
 + */
 +static inline void io_apic_modify(unsigned int apic, unsigned int reg, unsigned int value)
 +{
 +      struct io_apic __iomem *io_apic = io_apic_base(apic);
 +
 +      if (sis_apic_bug)
 +              writel(reg, &io_apic->index);
 +      writel(value, &io_apic->data);
 +}
 +
 +static bool io_apic_level_ack_pending(struct irq_cfg *cfg)
 +{
 +      struct irq_pin_list *entry;
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      entry = cfg->irq_2_pin;
 +      for (;;) {
 +              unsigned int reg;
 +              int pin;
 +
 +              if (!entry)
 +                      break;
 +              pin = entry->pin;
 +              reg = io_apic_read(entry->apic, 0x10 + pin*2);
 +              /* Is the remote IRR bit set? */
 +              if (reg & IO_APIC_REDIR_REMOTE_IRR) {
 +                      spin_unlock_irqrestore(&ioapic_lock, flags);
 +                      return true;
 +              }
 +              if (!entry->next)
 +                      break;
 +              entry = entry->next;
 +      }
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      return false;
 +}
 +
 +union entry_union {
 +      struct { u32 w1, w2; };
 +      struct IO_APIC_route_entry entry;
 +};
 +
 +static struct IO_APIC_route_entry ioapic_read_entry(int apic, int pin)
 +{
 +      union entry_union eu;
 +      unsigned long flags;
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      eu.w1 = io_apic_read(apic, 0x10 + 2 * pin);
 +      eu.w2 = io_apic_read(apic, 0x11 + 2 * pin);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +      return eu.entry;
 +}
 +
 +/*
 + * When we write a new IO APIC routing entry, we need to write the high
 + * word first! If the mask bit in the low word is clear, we will enable
 + * the interrupt, and we need to make sure the entry is fully populated
 + * before that happens.
 + */
 +static void
 +__ioapic_write_entry(int apic, int pin, struct IO_APIC_route_entry e)
 +{
 +      union entry_union eu;
 +      eu.entry = e;
 +      io_apic_write(apic, 0x11 + 2*pin, eu.w2);
 +      io_apic_write(apic, 0x10 + 2*pin, eu.w1);
 +}
 +
 +void ioapic_write_entry(int apic, int pin, struct IO_APIC_route_entry e)
 +{
 +      unsigned long flags;
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      __ioapic_write_entry(apic, pin, e);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +/*
 + * When we mask an IO APIC routing entry, we need to write the low
 + * word first, in order to set the mask bit before we change the
 + * high bits!
 + */
 +static void ioapic_mask_entry(int apic, int pin)
 +{
 +      unsigned long flags;
 +      union entry_union eu = { .entry.mask = 1 };
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      io_apic_write(apic, 0x10 + 2*pin, eu.w1);
 +      io_apic_write(apic, 0x11 + 2*pin, eu.w2);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +#ifdef CONFIG_SMP
 +static void send_cleanup_vector(struct irq_cfg *cfg)
 +{
 +      cpumask_var_t cleanup_mask;
 +
 +      if (unlikely(!alloc_cpumask_var(&cleanup_mask, GFP_ATOMIC))) {
 +              unsigned int i;
 +              cfg->move_cleanup_count = 0;
 +              for_each_cpu_and(i, cfg->old_domain, cpu_online_mask)
 +                      cfg->move_cleanup_count++;
 +              for_each_cpu_and(i, cfg->old_domain, cpu_online_mask)
 +                      apic->send_IPI_mask(cpumask_of(i), IRQ_MOVE_CLEANUP_VECTOR);
 +      } else {
 +              cpumask_and(cleanup_mask, cfg->old_domain, cpu_online_mask);
 +              cfg->move_cleanup_count = cpumask_weight(cleanup_mask);
 +              apic->send_IPI_mask(cleanup_mask, IRQ_MOVE_CLEANUP_VECTOR);
 +              free_cpumask_var(cleanup_mask);
 +      }
 +      cfg->move_in_progress = 0;
 +}
 +
 +static void __target_IO_APIC_irq(unsigned int irq, unsigned int dest, struct irq_cfg *cfg)
 +{
 +      int apic, pin;
 +      struct irq_pin_list *entry;
 +      u8 vector = cfg->vector;
 +
 +      entry = cfg->irq_2_pin;
 +      for (;;) {
 +              unsigned int reg;
 +
 +              if (!entry)
 +                      break;
 +
 +              apic = entry->apic;
 +              pin = entry->pin;
 +              /*
 +               * With interrupt-remapping, destination information comes
 +               * from interrupt-remapping table entry.
 +               */
 +              if (!irq_remapped(irq))
 +                      io_apic_write(apic, 0x11 + pin*2, dest);
 +              reg = io_apic_read(apic, 0x10 + pin*2);
 +              reg &= ~IO_APIC_REDIR_VECTOR_MASK;
 +              reg |= vector;
 +              io_apic_modify(apic, 0x10 + pin*2, reg);
 +              if (!entry->next)
 +                      break;
 +              entry = entry->next;
 +      }
 +}
 +
 +static int
 +assign_irq_vector(int irq, struct irq_cfg *cfg, const struct cpumask *mask);
 +
 +/*
 + * Either sets desc->affinity to a valid value, and returns
 + * ->cpu_mask_to_apicid of that, or returns BAD_APICID and
 + * leaves desc->affinity untouched.
 + */
 +static unsigned int
 +set_desc_affinity(struct irq_desc *desc, const struct cpumask *mask)
 +{
 +      struct irq_cfg *cfg;
 +      unsigned int irq;
 +
 +      if (!cpumask_intersects(mask, cpu_online_mask))
 +              return BAD_APICID;
 +
 +      irq = desc->irq;
 +      cfg = desc->chip_data;
 +      if (assign_irq_vector(irq, cfg, mask))
 +              return BAD_APICID;
 +
 +      /* check that before desc->addinity get updated */
 +      set_extra_move_desc(desc, mask);
 +
 +      cpumask_copy(desc->affinity, mask);
 +
 +      return apic->cpu_mask_to_apicid_and(desc->affinity, cfg->domain);
 +}
 +
 +static void
 +set_ioapic_affinity_irq_desc(struct irq_desc *desc, const struct cpumask *mask)
 +{
 +      struct irq_cfg *cfg;
 +      unsigned long flags;
 +      unsigned int dest;
 +      unsigned int irq;
 +
 +      irq = desc->irq;
 +      cfg = desc->chip_data;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest != BAD_APICID) {
 +              /* Only the high 8 bits are valid. */
 +              dest = SET_APIC_LOGICAL_ID(dest);
 +              __target_IO_APIC_irq(irq, dest, cfg);
 +      }
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +static void
 +set_ioapic_affinity_irq(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc;
 +
 +      desc = irq_to_desc(irq);
 +
 +      set_ioapic_affinity_irq_desc(desc, mask);
 +}
 +#endif /* CONFIG_SMP */
 +
 +/*
 + * The common case is 1:1 IRQ<->pin mappings. Sometimes there are
 + * shared ISA-space IRQs, so we have to support them. We are super
 + * fast in the common case, and fast for shared ISA-space IRQs.
 + */
 +static void add_pin_to_irq_cpu(struct irq_cfg *cfg, int cpu, int apic, int pin)
 +{
 +      struct irq_pin_list *entry;
 +
 +      entry = cfg->irq_2_pin;
 +      if (!entry) {
 +              entry = get_one_free_irq_2_pin(cpu);
 +              if (!entry) {
 +                      printk(KERN_ERR "can not alloc irq_2_pin to add %d - %d\n",
 +                                      apic, pin);
 +                      return;
 +              }
 +              cfg->irq_2_pin = entry;
 +              entry->apic = apic;
 +              entry->pin = pin;
 +              return;
 +      }
 +
 +      while (entry->next) {
 +              /* not again, please */
 +              if (entry->apic == apic && entry->pin == pin)
 +                      return;
 +
 +              entry = entry->next;
 +      }
 +
 +      entry->next = get_one_free_irq_2_pin(cpu);
 +      entry = entry->next;
 +      entry->apic = apic;
 +      entry->pin = pin;
 +}
 +
 +/*
 + * Reroute an IRQ to a different pin.
 + */
 +static void __init replace_pin_at_irq_cpu(struct irq_cfg *cfg, int cpu,
 +                                    int oldapic, int oldpin,
 +                                    int newapic, int newpin)
 +{
 +      struct irq_pin_list *entry = cfg->irq_2_pin;
 +      int replaced = 0;
 +
 +      while (entry) {
 +              if (entry->apic == oldapic && entry->pin == oldpin) {
 +                      entry->apic = newapic;
 +                      entry->pin = newpin;
 +                      replaced = 1;
 +                      /* every one is different, right? */
 +                      break;
 +              }
 +              entry = entry->next;
 +      }
 +
 +      /* why? call replace before add? */
 +      if (!replaced)
 +              add_pin_to_irq_cpu(cfg, cpu, newapic, newpin);
 +}
 +
 +static inline void io_apic_modify_irq(struct irq_cfg *cfg,
 +                              int mask_and, int mask_or,
 +                              void (*final)(struct irq_pin_list *entry))
 +{
 +      int pin;
 +      struct irq_pin_list *entry;
 +
 +      for (entry = cfg->irq_2_pin; entry != NULL; entry = entry->next) {
 +              unsigned int reg;
 +              pin = entry->pin;
 +              reg = io_apic_read(entry->apic, 0x10 + pin * 2);
 +              reg &= mask_and;
 +              reg |= mask_or;
 +              io_apic_modify(entry->apic, 0x10 + pin * 2, reg);
 +              if (final)
 +                      final(entry);
 +      }
 +}
 +
 +static void __unmask_IO_APIC_irq(struct irq_cfg *cfg)
 +{
 +      io_apic_modify_irq(cfg, ~IO_APIC_REDIR_MASKED, 0, NULL);
 +}
 +
 +#ifdef CONFIG_X86_64
 +static void io_apic_sync(struct irq_pin_list *entry)
 +{
 +      /*
 +       * Synchronize the IO-APIC and the CPU by doing
 +       * a dummy read from the IO-APIC
 +       */
 +      struct io_apic __iomem *io_apic;
 +      io_apic = io_apic_base(entry->apic);
 +      readl(&io_apic->data);
 +}
 +
 +static void __mask_IO_APIC_irq(struct irq_cfg *cfg)
 +{
 +      io_apic_modify_irq(cfg, ~0, IO_APIC_REDIR_MASKED, &io_apic_sync);
 +}
 +#else /* CONFIG_X86_32 */
 +static void __mask_IO_APIC_irq(struct irq_cfg *cfg)
 +{
 +      io_apic_modify_irq(cfg, ~0, IO_APIC_REDIR_MASKED, NULL);
 +}
 +
 +static void __mask_and_edge_IO_APIC_irq(struct irq_cfg *cfg)
 +{
 +      io_apic_modify_irq(cfg, ~IO_APIC_REDIR_LEVEL_TRIGGER,
 +                      IO_APIC_REDIR_MASKED, NULL);
 +}
 +
 +static void __unmask_and_level_IO_APIC_irq(struct irq_cfg *cfg)
 +{
 +      io_apic_modify_irq(cfg, ~IO_APIC_REDIR_MASKED,
 +                      IO_APIC_REDIR_LEVEL_TRIGGER, NULL);
 +}
 +#endif /* CONFIG_X86_32 */
 +
 +static void mask_IO_APIC_irq_desc(struct irq_desc *desc)
 +{
 +      struct irq_cfg *cfg = desc->chip_data;
 +      unsigned long flags;
 +
 +      BUG_ON(!cfg);
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      __mask_IO_APIC_irq(cfg);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +static void unmask_IO_APIC_irq_desc(struct irq_desc *desc)
 +{
 +      struct irq_cfg *cfg = desc->chip_data;
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      __unmask_IO_APIC_irq(cfg);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +static void mask_IO_APIC_irq(unsigned int irq)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +
 +      mask_IO_APIC_irq_desc(desc);
 +}
 +static void unmask_IO_APIC_irq(unsigned int irq)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +
 +      unmask_IO_APIC_irq_desc(desc);
 +}
 +
 +static void clear_IO_APIC_pin(unsigned int apic, unsigned int pin)
 +{
 +      struct IO_APIC_route_entry entry;
 +
 +      /* Check delivery_mode to be sure we're not clearing an SMI pin */
 +      entry = ioapic_read_entry(apic, pin);
 +      if (entry.delivery_mode == dest_SMI)
 +              return;
 +      /*
 +       * Disable it in the IO-APIC irq-routing table:
 +       */
 +      ioapic_mask_entry(apic, pin);
 +}
 +
 +static void clear_IO_APIC (void)
 +{
 +      int apic, pin;
 +
 +      for (apic = 0; apic < nr_ioapics; apic++)
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++)
 +                      clear_IO_APIC_pin(apic, pin);
 +}
 +
 +#ifdef CONFIG_X86_32
 +/*
 + * support for broken MP BIOSs, enables hand-redirection of PIRQ0-7 to
 + * specific CPU-side IRQs.
 + */
 +
 +#define MAX_PIRQS 8
 +static int pirq_entries[MAX_PIRQS] = {
 +      [0 ... MAX_PIRQS - 1] = -1
 +};
 +
 +static int __init ioapic_pirq_setup(char *str)
 +{
 +      int i, max;
 +      int ints[MAX_PIRQS+1];
 +
 +      get_options(str, ARRAY_SIZE(ints), ints);
 +
 +      apic_printk(APIC_VERBOSE, KERN_INFO
 +                      "PIRQ redirection, working around broken MP-BIOS.\n");
 +      max = MAX_PIRQS;
 +      if (ints[0] < MAX_PIRQS)
 +              max = ints[0];
 +
 +      for (i = 0; i < max; i++) {
 +              apic_printk(APIC_VERBOSE, KERN_DEBUG
 +                              "... PIRQ%d -> IRQ %d\n", i, ints[i+1]);
 +              /*
 +               * PIRQs are mapped upside down, usually.
 +               */
 +              pirq_entries[MAX_PIRQS-i-1] = ints[i+1];
 +      }
 +      return 1;
 +}
 +
 +__setup("pirq=", ioapic_pirq_setup);
 +#endif /* CONFIG_X86_32 */
 +
 +#ifdef CONFIG_INTR_REMAP
 +/* I/O APIC RTE contents at the OS boot up */
 +static struct IO_APIC_route_entry *early_ioapic_entries[MAX_IO_APICS];
 +
 +/*
 + * Saves all the IO-APIC RTE's
 + */
 +int save_IO_APIC_setup(void)
 +{
 +      union IO_APIC_reg_01 reg_01;
 +      unsigned long flags;
 +      int apic, pin;
 +
 +      /*
 +       * The number of IO-APIC IRQ registers (== #pins):
 +       */
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              reg_01.raw = io_apic_read(apic, 1);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +              nr_ioapic_registers[apic] = reg_01.bits.entries+1;
 +      }
 +
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              early_ioapic_entries[apic] =
 +                      kzalloc(sizeof(struct IO_APIC_route_entry) *
 +                              nr_ioapic_registers[apic], GFP_KERNEL);
 +              if (!early_ioapic_entries[apic])
 +                      goto nomem;
 +      }
 +
 +      for (apic = 0; apic < nr_ioapics; apic++)
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++)
 +                      early_ioapic_entries[apic][pin] =
 +                              ioapic_read_entry(apic, pin);
 +
 +      return 0;
 +
 +nomem:
 +      while (apic >= 0)
 +              kfree(early_ioapic_entries[apic--]);
 +      memset(early_ioapic_entries, 0,
 +              ARRAY_SIZE(early_ioapic_entries));
 +
 +      return -ENOMEM;
 +}
 +
 +void mask_IO_APIC_setup(void)
 +{
 +      int apic, pin;
 +
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              if (!early_ioapic_entries[apic])
 +                      break;
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++) {
 +                      struct IO_APIC_route_entry entry;
 +
 +                      entry = early_ioapic_entries[apic][pin];
 +                      if (!entry.mask) {
 +                              entry.mask = 1;
 +                              ioapic_write_entry(apic, pin, entry);
 +                      }
 +              }
 +      }
 +}
 +
 +void restore_IO_APIC_setup(void)
 +{
 +      int apic, pin;
 +
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              if (!early_ioapic_entries[apic])
 +                      break;
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++)
 +                      ioapic_write_entry(apic, pin,
 +                                         early_ioapic_entries[apic][pin]);
 +              kfree(early_ioapic_entries[apic]);
 +              early_ioapic_entries[apic] = NULL;
 +      }
 +}
 +
 +void reinit_intr_remapped_IO_APIC(int intr_remapping)
 +{
 +      /*
 +       * for now plain restore of previous settings.
 +       * TBD: In the case of OS enabling interrupt-remapping,
 +       * IO-APIC RTE's need to be setup to point to interrupt-remapping
 +       * table entries. for now, do a plain restore, and wait for
 +       * the setup_IO_APIC_irqs() to do proper initialization.
 +       */
 +      restore_IO_APIC_setup();
 +}
 +#endif
 +
 +/*
 + * Find the IRQ entry number of a certain pin.
 + */
 +static int find_irq_entry(int apic, int pin, int type)
 +{
 +      int i;
 +
 +      for (i = 0; i < mp_irq_entries; i++)
 +              if (mp_irqs[i].irqtype == type &&
 +                  (mp_irqs[i].dstapic == mp_ioapics[apic].apicid ||
 +                   mp_irqs[i].dstapic == MP_APIC_ALL) &&
 +                  mp_irqs[i].dstirq == pin)
 +                      return i;
 +
 +      return -1;
 +}
 +
 +/*
 + * Find the pin to which IRQ[irq] (ISA) is connected
 + */
 +static int __init find_isa_irq_pin(int irq, int type)
 +{
 +      int i;
 +
 +      for (i = 0; i < mp_irq_entries; i++) {
 +              int lbus = mp_irqs[i].srcbus;
 +
 +              if (test_bit(lbus, mp_bus_not_pci) &&
 +                  (mp_irqs[i].irqtype == type) &&
 +                  (mp_irqs[i].srcbusirq == irq))
 +
 +                      return mp_irqs[i].dstirq;
 +      }
 +      return -1;
 +}
 +
 +static int __init find_isa_irq_apic(int irq, int type)
 +{
 +      int i;
 +
 +      for (i = 0; i < mp_irq_entries; i++) {
 +              int lbus = mp_irqs[i].srcbus;
 +
 +              if (test_bit(lbus, mp_bus_not_pci) &&
 +                  (mp_irqs[i].irqtype == type) &&
 +                  (mp_irqs[i].srcbusirq == irq))
 +                      break;
 +      }
 +      if (i < mp_irq_entries) {
 +              int apic;
 +              for(apic = 0; apic < nr_ioapics; apic++) {
 +                      if (mp_ioapics[apic].apicid == mp_irqs[i].dstapic)
 +                              return apic;
 +              }
 +      }
 +
 +      return -1;
 +}
 +
 +/*
 + * Find a specific PCI IRQ entry.
 + * Not an __init, possibly needed by modules
 + */
 +static int pin_2_irq(int idx, int apic, int pin);
 +
 +int IO_APIC_get_PCI_irq_vector(int bus, int slot, int pin)
 +{
 +      int apic, i, best_guess = -1;
 +
 +      apic_printk(APIC_DEBUG, "querying PCI -> IRQ mapping bus:%d, slot:%d, pin:%d.\n",
 +              bus, slot, pin);
 +      if (test_bit(bus, mp_bus_not_pci)) {
 +              apic_printk(APIC_VERBOSE, "PCI BIOS passed nonexistent PCI bus %d!\n", bus);
 +              return -1;
 +      }
 +      for (i = 0; i < mp_irq_entries; i++) {
 +              int lbus = mp_irqs[i].srcbus;
 +
 +              for (apic = 0; apic < nr_ioapics; apic++)
 +                      if (mp_ioapics[apic].apicid == mp_irqs[i].dstapic ||
 +                          mp_irqs[i].dstapic == MP_APIC_ALL)
 +                              break;
 +
 +              if (!test_bit(lbus, mp_bus_not_pci) &&
 +                  !mp_irqs[i].irqtype &&
 +                  (bus == lbus) &&
 +                  (slot == ((mp_irqs[i].srcbusirq >> 2) & 0x1f))) {
 +                      int irq = pin_2_irq(i, apic, mp_irqs[i].dstirq);
 +
 +                      if (!(apic || IO_APIC_IRQ(irq)))
 +                              continue;
 +
 +                      if (pin == (mp_irqs[i].srcbusirq & 3))
 +                              return irq;
 +                      /*
 +                       * Use the first all-but-pin matching entry as a
 +                       * best-guess fuzzy result for broken mptables.
 +                       */
 +                      if (best_guess < 0)
 +                              best_guess = irq;
 +              }
 +      }
 +      return best_guess;
 +}
 +
 +EXPORT_SYMBOL(IO_APIC_get_PCI_irq_vector);
 +
 +#if defined(CONFIG_EISA) || defined(CONFIG_MCA)
 +/*
 + * EISA Edge/Level control register, ELCR
 + */
 +static int EISA_ELCR(unsigned int irq)
 +{
 +      if (irq < NR_IRQS_LEGACY) {
 +              unsigned int port = 0x4d0 + (irq >> 3);
 +              return (inb(port) >> (irq & 7)) & 1;
 +      }
 +      apic_printk(APIC_VERBOSE, KERN_INFO
 +                      "Broken MPtable reports ISA irq %d\n", irq);
 +      return 0;
 +}
 +
 +#endif
 +
 +/* ISA interrupts are always polarity zero edge triggered,
 + * when listed as conforming in the MP table. */
 +
 +#define default_ISA_trigger(idx)      (0)
 +#define default_ISA_polarity(idx)     (0)
 +
 +/* EISA interrupts are always polarity zero and can be edge or level
 + * trigger depending on the ELCR value.  If an interrupt is listed as
 + * EISA conforming in the MP table, that means its trigger type must
 + * be read in from the ELCR */
 +
 +#define default_EISA_trigger(idx)     (EISA_ELCR(mp_irqs[idx].srcbusirq))
 +#define default_EISA_polarity(idx)    default_ISA_polarity(idx)
 +
 +/* PCI interrupts are always polarity one level triggered,
 + * when listed as conforming in the MP table. */
 +
 +#define default_PCI_trigger(idx)      (1)
 +#define default_PCI_polarity(idx)     (1)
 +
 +/* MCA interrupts are always polarity zero level triggered,
 + * when listed as conforming in the MP table. */
 +
 +#define default_MCA_trigger(idx)      (1)
 +#define default_MCA_polarity(idx)     default_ISA_polarity(idx)
 +
 +static int MPBIOS_polarity(int idx)
 +{
 +      int bus = mp_irqs[idx].srcbus;
 +      int polarity;
 +
 +      /*
 +       * Determine IRQ line polarity (high active or low active):
 +       */
 +      switch (mp_irqs[idx].irqflag & 3)
 +      {
 +              case 0: /* conforms, ie. bus-type dependent polarity */
 +                      if (test_bit(bus, mp_bus_not_pci))
 +                              polarity = default_ISA_polarity(idx);
 +                      else
 +                              polarity = default_PCI_polarity(idx);
 +                      break;
 +              case 1: /* high active */
 +              {
 +                      polarity = 0;
 +                      break;
 +              }
 +              case 2: /* reserved */
 +              {
 +                      printk(KERN_WARNING "broken BIOS!!\n");
 +                      polarity = 1;
 +                      break;
 +              }
 +              case 3: /* low active */
 +              {
 +                      polarity = 1;
 +                      break;
 +              }
 +              default: /* invalid */
 +              {
 +                      printk(KERN_WARNING "broken BIOS!!\n");
 +                      polarity = 1;
 +                      break;
 +              }
 +      }
 +      return polarity;
 +}
 +
 +static int MPBIOS_trigger(int idx)
 +{
 +      int bus = mp_irqs[idx].srcbus;
 +      int trigger;
 +
 +      /*
 +       * Determine IRQ trigger mode (edge or level sensitive):
 +       */
 +      switch ((mp_irqs[idx].irqflag>>2) & 3)
 +      {
 +              case 0: /* conforms, ie. bus-type dependent */
 +                      if (test_bit(bus, mp_bus_not_pci))
 +                              trigger = default_ISA_trigger(idx);
 +                      else
 +                              trigger = default_PCI_trigger(idx);
 +#if defined(CONFIG_EISA) || defined(CONFIG_MCA)
 +                      switch (mp_bus_id_to_type[bus]) {
 +                              case MP_BUS_ISA: /* ISA pin */
 +                              {
 +                                      /* set before the switch */
 +                                      break;
 +                              }
 +                              case MP_BUS_EISA: /* EISA pin */
 +                              {
 +                                      trigger = default_EISA_trigger(idx);
 +                                      break;
 +                              }
 +                              case MP_BUS_PCI: /* PCI pin */
 +                              {
 +                                      /* set before the switch */
 +                                      break;
 +                              }
 +                              case MP_BUS_MCA: /* MCA pin */
 +                              {
 +                                      trigger = default_MCA_trigger(idx);
 +                                      break;
 +                              }
 +                              default:
 +                              {
 +                                      printk(KERN_WARNING "broken BIOS!!\n");
 +                                      trigger = 1;
 +                                      break;
 +                              }
 +                      }
 +#endif
 +                      break;
 +              case 1: /* edge */
 +              {
 +                      trigger = 0;
 +                      break;
 +              }
 +              case 2: /* reserved */
 +              {
 +                      printk(KERN_WARNING "broken BIOS!!\n");
 +                      trigger = 1;
 +                      break;
 +              }
 +              case 3: /* level */
 +              {
 +                      trigger = 1;
 +                      break;
 +              }
 +              default: /* invalid */
 +              {
 +                      printk(KERN_WARNING "broken BIOS!!\n");
 +                      trigger = 0;
 +                      break;
 +              }
 +      }
 +      return trigger;
 +}
 +
 +static inline int irq_polarity(int idx)
 +{
 +      return MPBIOS_polarity(idx);
 +}
 +
 +static inline int irq_trigger(int idx)
 +{
 +      return MPBIOS_trigger(idx);
 +}
 +
 +int (*ioapic_renumber_irq)(int ioapic, int irq);
 +static int pin_2_irq(int idx, int apic, int pin)
 +{
 +      int irq, i;
 +      int bus = mp_irqs[idx].srcbus;
 +
 +      /*
 +       * Debugging check, we are in big trouble if this message pops up!
 +       */
 +      if (mp_irqs[idx].dstirq != pin)
 +              printk(KERN_ERR "broken BIOS or MPTABLE parser, ayiee!!\n");
 +
 +      if (test_bit(bus, mp_bus_not_pci)) {
 +              irq = mp_irqs[idx].srcbusirq;
 +      } else {
 +              /*
 +               * PCI IRQs are mapped in order
 +               */
 +              i = irq = 0;
 +              while (i < apic)
 +                      irq += nr_ioapic_registers[i++];
 +              irq += pin;
 +              /*
 +                 * For MPS mode, so far only needed by ES7000 platform
 +                 */
 +              if (ioapic_renumber_irq)
 +                      irq = ioapic_renumber_irq(apic, irq);
 +      }
 +
 +#ifdef CONFIG_X86_32
 +      /*
 +       * PCI IRQ command line redirection. Yes, limits are hardcoded.
 +       */
 +      if ((pin >= 16) && (pin <= 23)) {
 +              if (pirq_entries[pin-16] != -1) {
 +                      if (!pirq_entries[pin-16]) {
 +                              apic_printk(APIC_VERBOSE, KERN_DEBUG
 +                                              "disabling PIRQ%d\n", pin-16);
 +                      } else {
 +                              irq = pirq_entries[pin-16];
 +                              apic_printk(APIC_VERBOSE, KERN_DEBUG
 +                                              "using PIRQ%d -> IRQ %d\n",
 +                                              pin-16, irq);
 +                      }
 +              }
 +      }
 +#endif
 +
 +      return irq;
 +}
 +
 +void lock_vector_lock(void)
 +{
 +      /* Used to the online set of cpus does not change
 +       * during assign_irq_vector.
 +       */
 +      spin_lock(&vector_lock);
 +}
 +
 +void unlock_vector_lock(void)
 +{
 +      spin_unlock(&vector_lock);
 +}
 +
 +static int
 +__assign_irq_vector(int irq, struct irq_cfg *cfg, const struct cpumask *mask)
 +{
 +      /*
 +       * NOTE! The local APIC isn't very good at handling
 +       * multiple interrupts at the same interrupt level.
 +       * As the interrupt level is determined by taking the
 +       * vector number and shifting that right by 4, we
 +       * want to spread these out a bit so that they don't
 +       * all fall in the same interrupt level.
 +       *
 +       * Also, we've got to be careful not to trash gate
 +       * 0x80, because int 0x80 is hm, kind of importantish. ;)
 +       */
 +      static int current_vector = FIRST_DEVICE_VECTOR, current_offset = 0;
 +      unsigned int old_vector;
 +      int cpu, err;
 +      cpumask_var_t tmp_mask;
 +
 +      if ((cfg->move_in_progress) || cfg->move_cleanup_count)
 +              return -EBUSY;
 +
 +      if (!alloc_cpumask_var(&tmp_mask, GFP_ATOMIC))
 +              return -ENOMEM;
 +
 +      old_vector = cfg->vector;
 +      if (old_vector) {
 +              cpumask_and(tmp_mask, mask, cpu_online_mask);
 +              cpumask_and(tmp_mask, cfg->domain, tmp_mask);
 +              if (!cpumask_empty(tmp_mask)) {
 +                      free_cpumask_var(tmp_mask);
 +                      return 0;
 +              }
 +      }
 +
 +      /* Only try and allocate irqs on cpus that are present */
 +      err = -ENOSPC;
 +      for_each_cpu_and(cpu, mask, cpu_online_mask) {
 +              int new_cpu;
 +              int vector, offset;
 +
 +              apic->vector_allocation_domain(cpu, tmp_mask);
 +
 +              vector = current_vector;
 +              offset = current_offset;
 +next:
 +              vector += 8;
 +              if (vector >= first_system_vector) {
 +                      /* If out of vectors on large boxen, must share them. */
 +                      offset = (offset + 1) % 8;
 +                      vector = FIRST_DEVICE_VECTOR + offset;
 +              }
 +              if (unlikely(current_vector == vector))
 +                      continue;
 +
 +              if (test_bit(vector, used_vectors))
 +                      goto next;
 +
 +              for_each_cpu_and(new_cpu, tmp_mask, cpu_online_mask)
 +                      if (per_cpu(vector_irq, new_cpu)[vector] != -1)
 +                              goto next;
 +              /* Found one! */
 +              current_vector = vector;
 +              current_offset = offset;
 +              if (old_vector) {
 +                      cfg->move_in_progress = 1;
 +                      cpumask_copy(cfg->old_domain, cfg->domain);
 +              }
 +              for_each_cpu_and(new_cpu, tmp_mask, cpu_online_mask)
 +                      per_cpu(vector_irq, new_cpu)[vector] = irq;
 +              cfg->vector = vector;
 +              cpumask_copy(cfg->domain, tmp_mask);
 +              err = 0;
 +              break;
 +      }
 +      free_cpumask_var(tmp_mask);
 +      return err;
 +}
 +
 +static int
 +assign_irq_vector(int irq, struct irq_cfg *cfg, const struct cpumask *mask)
 +{
 +      int err;
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&vector_lock, flags);
 +      err = __assign_irq_vector(irq, cfg, mask);
 +      spin_unlock_irqrestore(&vector_lock, flags);
 +      return err;
 +}
 +
 +static void __clear_irq_vector(int irq, struct irq_cfg *cfg)
 +{
 +      int cpu, vector;
 +
 +      BUG_ON(!cfg->vector);
 +
 +      vector = cfg->vector;
 +      for_each_cpu_and(cpu, cfg->domain, cpu_online_mask)
 +              per_cpu(vector_irq, cpu)[vector] = -1;
 +
 +      cfg->vector = 0;
 +      cpumask_clear(cfg->domain);
 +
 +      if (likely(!cfg->move_in_progress))
 +              return;
 +      for_each_cpu_and(cpu, cfg->old_domain, cpu_online_mask) {
 +              for (vector = FIRST_EXTERNAL_VECTOR; vector < NR_VECTORS;
 +                                                              vector++) {
 +                      if (per_cpu(vector_irq, cpu)[vector] != irq)
 +                              continue;
 +                      per_cpu(vector_irq, cpu)[vector] = -1;
 +                      break;
 +              }
 +      }
 +      cfg->move_in_progress = 0;
 +}
 +
 +void __setup_vector_irq(int cpu)
 +{
 +      /* Initialize vector_irq on a new cpu */
 +      /* This function must be called with vector_lock held */
 +      int irq, vector;
 +      struct irq_cfg *cfg;
 +      struct irq_desc *desc;
 +
 +      /* Mark the inuse vectors */
 +      for_each_irq_desc(irq, desc) {
 +              cfg = desc->chip_data;
 +              if (!cpumask_test_cpu(cpu, cfg->domain))
 +                      continue;
 +              vector = cfg->vector;
 +              per_cpu(vector_irq, cpu)[vector] = irq;
 +      }
 +      /* Mark the free vectors */
 +      for (vector = 0; vector < NR_VECTORS; ++vector) {
 +              irq = per_cpu(vector_irq, cpu)[vector];
 +              if (irq < 0)
 +                      continue;
 +
 +              cfg = irq_cfg(irq);
 +              if (!cpumask_test_cpu(cpu, cfg->domain))
 +                      per_cpu(vector_irq, cpu)[vector] = -1;
 +      }
 +}
 +
 +static struct irq_chip ioapic_chip;
 +static struct irq_chip ir_ioapic_chip;
 +
 +#define IOAPIC_AUTO     -1
 +#define IOAPIC_EDGE     0
 +#define IOAPIC_LEVEL    1
 +
 +#ifdef CONFIG_X86_32
 +static inline int IO_APIC_irq_trigger(int irq)
 +{
 +      int apic, idx, pin;
 +
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++) {
 +                      idx = find_irq_entry(apic, pin, mp_INT);
 +                      if ((idx != -1) && (irq == pin_2_irq(idx, apic, pin)))
 +                              return irq_trigger(idx);
 +              }
 +      }
 +      /*
 +         * nonexistent IRQs are edge default
 +         */
 +      return 0;
 +}
 +#else
 +static inline int IO_APIC_irq_trigger(int irq)
 +{
 +      return 1;
 +}
 +#endif
 +
 +static void ioapic_register_intr(int irq, struct irq_desc *desc, unsigned long trigger)
 +{
 +
 +      if ((trigger == IOAPIC_AUTO && IO_APIC_irq_trigger(irq)) ||
 +          trigger == IOAPIC_LEVEL)
 +              desc->status |= IRQ_LEVEL;
 +      else
 +              desc->status &= ~IRQ_LEVEL;
 +
 +      if (irq_remapped(irq)) {
 +              desc->status |= IRQ_MOVE_PCNTXT;
 +              if (trigger)
 +                      set_irq_chip_and_handler_name(irq, &ir_ioapic_chip,
 +                                                    handle_fasteoi_irq,
 +                                                   "fasteoi");
 +              else
 +                      set_irq_chip_and_handler_name(irq, &ir_ioapic_chip,
 +                                                    handle_edge_irq, "edge");
 +              return;
 +      }
 +
 +      if ((trigger == IOAPIC_AUTO && IO_APIC_irq_trigger(irq)) ||
 +          trigger == IOAPIC_LEVEL)
 +              set_irq_chip_and_handler_name(irq, &ioapic_chip,
 +                                            handle_fasteoi_irq,
 +                                            "fasteoi");
 +      else
 +              set_irq_chip_and_handler_name(irq, &ioapic_chip,
 +                                            handle_edge_irq, "edge");
 +}
 +
 +int setup_ioapic_entry(int apic_id, int irq,
 +                     struct IO_APIC_route_entry *entry,
 +                     unsigned int destination, int trigger,
 +                     int polarity, int vector, int pin)
 +{
 +      /*
 +       * add it to the IO-APIC irq-routing table:
 +       */
 +      memset(entry,0,sizeof(*entry));
 +
 +      if (intr_remapping_enabled) {
 +              struct intel_iommu *iommu = map_ioapic_to_ir(apic_id);
 +              struct irte irte;
 +              struct IR_IO_APIC_route_entry *ir_entry =
 +                      (struct IR_IO_APIC_route_entry *) entry;
 +              int index;
 +
 +              if (!iommu)
 +                      panic("No mapping iommu for ioapic %d\n", apic_id);
 +
 +              index = alloc_irte(iommu, irq, 1);
 +              if (index < 0)
 +                      panic("Failed to allocate IRTE for ioapic %d\n", apic_id);
 +
 +              memset(&irte, 0, sizeof(irte));
 +
 +              irte.present = 1;
 +              irte.dst_mode = apic->irq_dest_mode;
 +              /*
 +               * Trigger mode in the IRTE will always be edge, and the
 +               * actual level or edge trigger will be setup in the IO-APIC
 +               * RTE. This will help simplify level triggered irq migration.
 +               * For more details, see the comments above explainig IO-APIC
 +               * irq migration in the presence of interrupt-remapping.
 +               */
 +              irte.trigger_mode = 0;
 +              irte.dlvry_mode = apic->irq_delivery_mode;
 +              irte.vector = vector;
 +              irte.dest_id = IRTE_DEST(destination);
 +
 +              modify_irte(irq, &irte);
 +
 +              ir_entry->index2 = (index >> 15) & 0x1;
 +              ir_entry->zero = 0;
 +              ir_entry->format = 1;
 +              ir_entry->index = (index & 0x7fff);
 +              /*
 +               * IO-APIC RTE will be configured with virtual vector.
 +               * irq handler will do the explicit EOI to the io-apic.
 +               */
 +              ir_entry->vector = pin;
 +      } else {
 +              entry->delivery_mode = apic->irq_delivery_mode;
 +              entry->dest_mode = apic->irq_dest_mode;
 +              entry->dest = destination;
 +              entry->vector = vector;
 +      }
 +
 +      entry->mask = 0;                                /* enable IRQ */
 +      entry->trigger = trigger;
 +      entry->polarity = polarity;
 +
 +      /* Mask level triggered irqs.
 +       * Use IRQ_DELAYED_DISABLE for edge triggered irqs.
 +       */
 +      if (trigger)
 +              entry->mask = 1;
 +      return 0;
 +}
 +
 +static void setup_IO_APIC_irq(int apic_id, int pin, unsigned int irq, struct irq_desc *desc,
 +                            int trigger, int polarity)
 +{
 +      struct irq_cfg *cfg;
 +      struct IO_APIC_route_entry entry;
 +      unsigned int dest;
 +
 +      if (!IO_APIC_IRQ(irq))
 +              return;
 +
 +      cfg = desc->chip_data;
 +
 +      if (assign_irq_vector(irq, cfg, apic->target_cpus()))
 +              return;
 +
 +      dest = apic->cpu_mask_to_apicid_and(cfg->domain, apic->target_cpus());
 +
 +      apic_printk(APIC_VERBOSE,KERN_DEBUG
 +                  "IOAPIC[%d]: Set routing entry (%d-%d -> 0x%x -> "
 +                  "IRQ %d Mode:%i Active:%i)\n",
 +                  apic_id, mp_ioapics[apic_id].apicid, pin, cfg->vector,
 +                  irq, trigger, polarity);
 +
 +
 +      if (setup_ioapic_entry(mp_ioapics[apic_id].apicid, irq, &entry,
 +                             dest, trigger, polarity, cfg->vector, pin)) {
 +              printk("Failed to setup ioapic entry for ioapic  %d, pin %d\n",
 +                     mp_ioapics[apic_id].apicid, pin);
 +              __clear_irq_vector(irq, cfg);
 +              return;
 +      }
 +
 +      ioapic_register_intr(irq, desc, trigger);
 +      if (irq < NR_IRQS_LEGACY)
 +              disable_8259A_irq(irq);
 +
 +      ioapic_write_entry(apic_id, pin, entry);
 +}
 +
 +static void __init setup_IO_APIC_irqs(void)
 +{
 +      int apic_id, pin, idx, irq;
 +      int notcon = 0;
 +      struct irq_desc *desc;
 +      struct irq_cfg *cfg;
 +      int cpu = boot_cpu_id;
 +
 +      apic_printk(APIC_VERBOSE, KERN_DEBUG "init IO_APIC IRQs\n");
 +
 +      for (apic_id = 0; apic_id < nr_ioapics; apic_id++) {
 +              for (pin = 0; pin < nr_ioapic_registers[apic_id]; pin++) {
 +
 +                      idx = find_irq_entry(apic_id, pin, mp_INT);
 +                      if (idx == -1) {
 +                              if (!notcon) {
 +                                      notcon = 1;
 +                                      apic_printk(APIC_VERBOSE,
 +                                              KERN_DEBUG " %d-%d",
 +                                              mp_ioapics[apic_id].apicid, pin);
 +                              } else
 +                                      apic_printk(APIC_VERBOSE, " %d-%d",
 +                                              mp_ioapics[apic_id].apicid, pin);
 +                              continue;
 +                      }
 +                      if (notcon) {
 +                              apic_printk(APIC_VERBOSE,
 +                                      " (apicid-pin) not connected\n");
 +                              notcon = 0;
 +                      }
 +
 +                      irq = pin_2_irq(idx, apic_id, pin);
 +
 +                      /*
 +                       * Skip the timer IRQ if there's a quirk handler
 +                       * installed and if it returns 1:
 +                       */
 +                      if (apic->multi_timer_check &&
 +                                      apic->multi_timer_check(apic_id, irq))
 +                              continue;
 +
 +                      desc = irq_to_desc_alloc_cpu(irq, cpu);
 +                      if (!desc) {
 +                              printk(KERN_INFO "can not get irq_desc for %d\n", irq);
 +                              continue;
 +                      }
 +                      cfg = desc->chip_data;
 +                      add_pin_to_irq_cpu(cfg, cpu, apic_id, pin);
 +
 +                      setup_IO_APIC_irq(apic_id, pin, irq, desc,
 +                                      irq_trigger(idx), irq_polarity(idx));
 +              }
 +      }
 +
 +      if (notcon)
 +              apic_printk(APIC_VERBOSE,
 +                      " (apicid-pin) not connected\n");
 +}
 +
 +/*
 + * Set up the timer pin, possibly with the 8259A-master behind.
 + */
 +static void __init setup_timer_IRQ0_pin(unsigned int apic_id, unsigned int pin,
 +                                      int vector)
 +{
 +      struct IO_APIC_route_entry entry;
 +
 +      if (intr_remapping_enabled)
 +              return;
 +
 +      memset(&entry, 0, sizeof(entry));
 +
 +      /*
 +       * We use logical delivery to get the timer IRQ
 +       * to the first CPU.
 +       */
 +      entry.dest_mode = apic->irq_dest_mode;
 +      entry.mask = 0;                 /* don't mask IRQ for edge */
 +      entry.dest = apic->cpu_mask_to_apicid(apic->target_cpus());
 +      entry.delivery_mode = apic->irq_delivery_mode;
 +      entry.polarity = 0;
 +      entry.trigger = 0;
 +      entry.vector = vector;
 +
 +      /*
 +       * The timer IRQ doesn't have to know that behind the
 +       * scene we may have a 8259A-master in AEOI mode ...
 +       */
 +      set_irq_chip_and_handler_name(0, &ioapic_chip, handle_edge_irq, "edge");
 +
 +      /*
 +       * Add it to the IO-APIC irq-routing table:
 +       */
 +      ioapic_write_entry(apic_id, pin, entry);
 +}
 +
 +
 +__apicdebuginit(void) print_IO_APIC(void)
 +{
 +      int apic, i;
 +      union IO_APIC_reg_00 reg_00;
 +      union IO_APIC_reg_01 reg_01;
 +      union IO_APIC_reg_02 reg_02;
 +      union IO_APIC_reg_03 reg_03;
 +      unsigned long flags;
 +      struct irq_cfg *cfg;
 +      struct irq_desc *desc;
 +      unsigned int irq;
 +
 +      if (apic_verbosity == APIC_QUIET)
 +              return;
 +
 +      printk(KERN_DEBUG "number of MP IRQ sources: %d.\n", mp_irq_entries);
 +      for (i = 0; i < nr_ioapics; i++)
 +              printk(KERN_DEBUG "number of IO-APIC #%d registers: %d.\n",
 +                     mp_ioapics[i].apicid, nr_ioapic_registers[i]);
 +
 +      /*
 +       * We are a bit conservative about what we expect.  We have to
 +       * know about every hardware change ASAP.
 +       */
 +      printk(KERN_INFO "testing the IO APIC.......................\n");
 +
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      reg_00.raw = io_apic_read(apic, 0);
 +      reg_01.raw = io_apic_read(apic, 1);
 +      if (reg_01.bits.version >= 0x10)
 +              reg_02.raw = io_apic_read(apic, 2);
 +      if (reg_01.bits.version >= 0x20)
 +              reg_03.raw = io_apic_read(apic, 3);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      printk("\n");
 +      printk(KERN_DEBUG "IO APIC #%d......\n", mp_ioapics[apic].apicid);
 +      printk(KERN_DEBUG ".... register #00: %08X\n", reg_00.raw);
 +      printk(KERN_DEBUG ".......    : physical APIC id: %02X\n", reg_00.bits.ID);
 +      printk(KERN_DEBUG ".......    : Delivery Type: %X\n", reg_00.bits.delivery_type);
 +      printk(KERN_DEBUG ".......    : LTS          : %X\n", reg_00.bits.LTS);
 +
 +      printk(KERN_DEBUG ".... register #01: %08X\n", *(int *)&reg_01);
 +      printk(KERN_DEBUG ".......     : max redirection entries: %04X\n", reg_01.bits.entries);
 +
 +      printk(KERN_DEBUG ".......     : PRQ implemented: %X\n", reg_01.bits.PRQ);
 +      printk(KERN_DEBUG ".......     : IO APIC version: %04X\n", reg_01.bits.version);
 +
 +      /*
 +       * Some Intel chipsets with IO APIC VERSION of 0x1? don't have reg_02,
 +       * but the value of reg_02 is read as the previous read register
 +       * value, so ignore it if reg_02 == reg_01.
 +       */
 +      if (reg_01.bits.version >= 0x10 && reg_02.raw != reg_01.raw) {
 +              printk(KERN_DEBUG ".... register #02: %08X\n", reg_02.raw);
 +              printk(KERN_DEBUG ".......     : arbitration: %02X\n", reg_02.bits.arbitration);
 +      }
 +
 +      /*
 +       * Some Intel chipsets with IO APIC VERSION of 0x2? don't have reg_02
 +       * or reg_03, but the value of reg_0[23] is read as the previous read
 +       * register value, so ignore it if reg_03 == reg_0[12].
 +       */
 +      if (reg_01.bits.version >= 0x20 && reg_03.raw != reg_02.raw &&
 +          reg_03.raw != reg_01.raw) {
 +              printk(KERN_DEBUG ".... register #03: %08X\n", reg_03.raw);
 +              printk(KERN_DEBUG ".......     : Boot DT    : %X\n", reg_03.bits.boot_DT);
 +      }
 +
 +      printk(KERN_DEBUG ".... IRQ redirection table:\n");
 +
 +      printk(KERN_DEBUG " NR Dst Mask Trig IRR Pol"
 +                        " Stat Dmod Deli Vect:   \n");
 +
 +      for (i = 0; i <= reg_01.bits.entries; i++) {
 +              struct IO_APIC_route_entry entry;
 +
 +              entry = ioapic_read_entry(apic, i);
 +
 +              printk(KERN_DEBUG " %02x %03X ",
 +                      i,
 +                      entry.dest
 +              );
 +
 +              printk("%1d    %1d    %1d   %1d   %1d    %1d    %1d    %02X\n",
 +                      entry.mask,
 +                      entry.trigger,
 +                      entry.irr,
 +                      entry.polarity,
 +                      entry.delivery_status,
 +                      entry.dest_mode,
 +                      entry.delivery_mode,
 +                      entry.vector
 +              );
 +      }
 +      }
 +      printk(KERN_DEBUG "IRQ to pin mappings:\n");
 +      for_each_irq_desc(irq, desc) {
 +              struct irq_pin_list *entry;
 +
 +              cfg = desc->chip_data;
 +              entry = cfg->irq_2_pin;
 +              if (!entry)
 +                      continue;
 +              printk(KERN_DEBUG "IRQ%d ", irq);
 +              for (;;) {
 +                      printk("-> %d:%d", entry->apic, entry->pin);
 +                      if (!entry->next)
 +                              break;
 +                      entry = entry->next;
 +              }
 +              printk("\n");
 +      }
 +
 +      printk(KERN_INFO ".................................... done.\n");
 +
 +      return;
 +}
 +
 +__apicdebuginit(void) print_APIC_bitfield(int base)
 +{
 +      unsigned int v;
 +      int i, j;
 +
 +      if (apic_verbosity == APIC_QUIET)
 +              return;
 +
 +      printk(KERN_DEBUG "0123456789abcdef0123456789abcdef\n" KERN_DEBUG);
 +      for (i = 0; i < 8; i++) {
 +              v = apic_read(base + i*0x10);
 +              for (j = 0; j < 32; j++) {
 +                      if (v & (1<<j))
 +                              printk("1");
 +                      else
 +                              printk("0");
 +              }
 +              printk("\n");
 +      }
 +}
 +
 +__apicdebuginit(void) print_local_APIC(void *dummy)
 +{
 +      unsigned int v, ver, maxlvt;
 +      u64 icr;
 +
 +      if (apic_verbosity == APIC_QUIET)
 +              return;
 +
 +      printk("\n" KERN_DEBUG "printing local APIC contents on CPU#%d/%d:\n",
 +              smp_processor_id(), hard_smp_processor_id());
 +      v = apic_read(APIC_ID);
 +      printk(KERN_INFO "... APIC ID:      %08x (%01x)\n", v, read_apic_id());
 +      v = apic_read(APIC_LVR);
 +      printk(KERN_INFO "... APIC VERSION: %08x\n", v);
 +      ver = GET_APIC_VERSION(v);
 +      maxlvt = lapic_get_maxlvt();
 +
 +      v = apic_read(APIC_TASKPRI);
 +      printk(KERN_DEBUG "... APIC TASKPRI: %08x (%02x)\n", v, v & APIC_TPRI_MASK);
 +
 +      if (APIC_INTEGRATED(ver)) {                     /* !82489DX */
 +              if (!APIC_XAPIC(ver)) {
 +                      v = apic_read(APIC_ARBPRI);
 +                      printk(KERN_DEBUG "... APIC ARBPRI: %08x (%02x)\n", v,
 +                             v & APIC_ARBPRI_MASK);
 +              }
 +              v = apic_read(APIC_PROCPRI);
 +              printk(KERN_DEBUG "... APIC PROCPRI: %08x\n", v);
 +      }
 +
 +      /*
 +       * Remote read supported only in the 82489DX and local APIC for
 +       * Pentium processors.
 +       */
 +      if (!APIC_INTEGRATED(ver) || maxlvt == 3) {
 +              v = apic_read(APIC_RRR);
 +              printk(KERN_DEBUG "... APIC RRR: %08x\n", v);
 +      }
 +
 +      v = apic_read(APIC_LDR);
 +      printk(KERN_DEBUG "... APIC LDR: %08x\n", v);
 +      if (!x2apic_enabled()) {
 +              v = apic_read(APIC_DFR);
 +              printk(KERN_DEBUG "... APIC DFR: %08x\n", v);
 +      }
 +      v = apic_read(APIC_SPIV);
 +      printk(KERN_DEBUG "... APIC SPIV: %08x\n", v);
 +
 +      printk(KERN_DEBUG "... APIC ISR field:\n");
 +      print_APIC_bitfield(APIC_ISR);
 +      printk(KERN_DEBUG "... APIC TMR field:\n");
 +      print_APIC_bitfield(APIC_TMR);
 +      printk(KERN_DEBUG "... APIC IRR field:\n");
 +      print_APIC_bitfield(APIC_IRR);
 +
 +      if (APIC_INTEGRATED(ver)) {             /* !82489DX */
 +              if (maxlvt > 3)         /* Due to the Pentium erratum 3AP. */
 +                      apic_write(APIC_ESR, 0);
 +
 +              v = apic_read(APIC_ESR);
 +              printk(KERN_DEBUG "... APIC ESR: %08x\n", v);
 +      }
 +
 +      icr = apic_icr_read();
 +      printk(KERN_DEBUG "... APIC ICR: %08x\n", (u32)icr);
 +      printk(KERN_DEBUG "... APIC ICR2: %08x\n", (u32)(icr >> 32));
 +
 +      v = apic_read(APIC_LVTT);
 +      printk(KERN_DEBUG "... APIC LVTT: %08x\n", v);
 +
 +      if (maxlvt > 3) {                       /* PC is LVT#4. */
 +              v = apic_read(APIC_LVTPC);
 +              printk(KERN_DEBUG "... APIC LVTPC: %08x\n", v);
 +      }
 +      v = apic_read(APIC_LVT0);
 +      printk(KERN_DEBUG "... APIC LVT0: %08x\n", v);
 +      v = apic_read(APIC_LVT1);
 +      printk(KERN_DEBUG "... APIC LVT1: %08x\n", v);
 +
 +      if (maxlvt > 2) {                       /* ERR is LVT#3. */
 +              v = apic_read(APIC_LVTERR);
 +              printk(KERN_DEBUG "... APIC LVTERR: %08x\n", v);
 +      }
 +
 +      v = apic_read(APIC_TMICT);
 +      printk(KERN_DEBUG "... APIC TMICT: %08x\n", v);
 +      v = apic_read(APIC_TMCCT);
 +      printk(KERN_DEBUG "... APIC TMCCT: %08x\n", v);
 +      v = apic_read(APIC_TDCR);
 +      printk(KERN_DEBUG "... APIC TDCR: %08x\n", v);
 +      printk("\n");
 +}
 +
 +__apicdebuginit(void) print_all_local_APICs(void)
 +{
 +      int cpu;
 +
 +      preempt_disable();
 +      for_each_online_cpu(cpu)
 +              smp_call_function_single(cpu, print_local_APIC, NULL, 1);
 +      preempt_enable();
 +}
 +
 +__apicdebuginit(void) print_PIC(void)
 +{
 +      unsigned int v;
 +      unsigned long flags;
 +
 +      if (apic_verbosity == APIC_QUIET)
 +              return;
 +
 +      printk(KERN_DEBUG "\nprinting PIC contents\n");
 +
 +      spin_lock_irqsave(&i8259A_lock, flags);
 +
 +      v = inb(0xa1) << 8 | inb(0x21);
 +      printk(KERN_DEBUG "... PIC  IMR: %04x\n", v);
 +
 +      v = inb(0xa0) << 8 | inb(0x20);
 +      printk(KERN_DEBUG "... PIC  IRR: %04x\n", v);
 +
 +      outb(0x0b,0xa0);
 +      outb(0x0b,0x20);
 +      v = inb(0xa0) << 8 | inb(0x20);
 +      outb(0x0a,0xa0);
 +      outb(0x0a,0x20);
 +
 +      spin_unlock_irqrestore(&i8259A_lock, flags);
 +
 +      printk(KERN_DEBUG "... PIC  ISR: %04x\n", v);
 +
 +      v = inb(0x4d1) << 8 | inb(0x4d0);
 +      printk(KERN_DEBUG "... PIC ELCR: %04x\n", v);
 +}
 +
 +__apicdebuginit(int) print_all_ICs(void)
 +{
 +      print_PIC();
 +      print_all_local_APICs();
 +      print_IO_APIC();
 +
 +      return 0;
 +}
 +
 +fs_initcall(print_all_ICs);
 +
 +
 +/* Where if anywhere is the i8259 connect in external int mode */
 +static struct { int pin, apic; } ioapic_i8259 = { -1, -1 };
 +
 +void __init enable_IO_APIC(void)
 +{
 +      union IO_APIC_reg_01 reg_01;
 +      int i8259_apic, i8259_pin;
 +      int apic;
 +      unsigned long flags;
 +
 +      /*
 +       * The number of IO-APIC IRQ registers (== #pins):
 +       */
 +      for (apic = 0; apic < nr_ioapics; apic++) {
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              reg_01.raw = io_apic_read(apic, 1);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +              nr_ioapic_registers[apic] = reg_01.bits.entries+1;
 +      }
 +      for(apic = 0; apic < nr_ioapics; apic++) {
 +              int pin;
 +              /* See if any of the pins is in ExtINT mode */
 +              for (pin = 0; pin < nr_ioapic_registers[apic]; pin++) {
 +                      struct IO_APIC_route_entry entry;
 +                      entry = ioapic_read_entry(apic, pin);
 +
 +                      /* If the interrupt line is enabled and in ExtInt mode
 +                       * I have found the pin where the i8259 is connected.
 +                       */
 +                      if ((entry.mask == 0) && (entry.delivery_mode == dest_ExtINT)) {
 +                              ioapic_i8259.apic = apic;
 +                              ioapic_i8259.pin  = pin;
 +                              goto found_i8259;
 +                      }
 +              }
 +      }
 + found_i8259:
 +      /* Look to see what if the MP table has reported the ExtINT */
 +      /* If we could not find the appropriate pin by looking at the ioapic
 +       * the i8259 probably is not connected the ioapic but give the
 +       * mptable a chance anyway.
 +       */
 +      i8259_pin  = find_isa_irq_pin(0, mp_ExtINT);
 +      i8259_apic = find_isa_irq_apic(0, mp_ExtINT);
 +      /* Trust the MP table if nothing is setup in the hardware */
 +      if ((ioapic_i8259.pin == -1) && (i8259_pin >= 0)) {
 +              printk(KERN_WARNING "ExtINT not setup in hardware but reported by MP table\n");
 +              ioapic_i8259.pin  = i8259_pin;
 +              ioapic_i8259.apic = i8259_apic;
 +      }
 +      /* Complain if the MP table and the hardware disagree */
 +      if (((ioapic_i8259.apic != i8259_apic) || (ioapic_i8259.pin != i8259_pin)) &&
 +              (i8259_pin >= 0) && (ioapic_i8259.pin >= 0))
 +      {
 +              printk(KERN_WARNING "ExtINT in hardware and MP table differ\n");
 +      }
 +
 +      /*
 +       * Do not trust the IO-APIC being empty at bootup
 +       */
 +      clear_IO_APIC();
 +}
 +
 +/*
 + * Not an __init, needed by the reboot code
 + */
 +void disable_IO_APIC(void)
 +{
 +      /*
 +       * Clear the IO-APIC before rebooting:
 +       */
 +      clear_IO_APIC();
 +
 +      /*
 +       * If the i8259 is routed through an IOAPIC
 +       * Put that IOAPIC in virtual wire mode
 +       * so legacy interrupts can be delivered.
 +       *
 +       * With interrupt-remapping, for now we will use virtual wire A mode,
 +       * as virtual wire B is little complex (need to configure both
 +       * IOAPIC RTE aswell as interrupt-remapping table entry).
 +       * As this gets called during crash dump, keep this simple for now.
 +       */
 +      if (ioapic_i8259.pin != -1 && !intr_remapping_enabled) {
 +              struct IO_APIC_route_entry entry;
 +
 +              memset(&entry, 0, sizeof(entry));
 +              entry.mask            = 0; /* Enabled */
 +              entry.trigger         = 0; /* Edge */
 +              entry.irr             = 0;
 +              entry.polarity        = 0; /* High */
 +              entry.delivery_status = 0;
 +              entry.dest_mode       = 0; /* Physical */
 +              entry.delivery_mode   = dest_ExtINT; /* ExtInt */
 +              entry.vector          = 0;
 +              entry.dest            = read_apic_id();
 +
 +              /*
 +               * Add it to the IO-APIC irq-routing table:
 +               */
 +              ioapic_write_entry(ioapic_i8259.apic, ioapic_i8259.pin, entry);
 +      }
 +
 +      /*
 +       * Use virtual wire A mode when interrupt remapping is enabled.
 +       */
 +      disconnect_bsp_APIC(!intr_remapping_enabled && ioapic_i8259.pin != -1);
 +}
 +
 +#ifdef CONFIG_X86_32
 +/*
 + * function to set the IO-APIC physical IDs based on the
 + * values stored in the MPC table.
 + *
 + * by Matt Domsch <Matt_Domsch@dell.com>  Tue Dec 21 12:25:05 CST 1999
 + */
 +
 +static void __init setup_ioapic_ids_from_mpc(void)
 +{
 +      union IO_APIC_reg_00 reg_00;
 +      physid_mask_t phys_id_present_map;
 +      int apic_id;
 +      int i;
 +      unsigned char old_id;
 +      unsigned long flags;
 +
 +      if (x86_quirks->setup_ioapic_ids && x86_quirks->setup_ioapic_ids())
 +              return;
 +
 +      /*
 +       * Don't check I/O APIC IDs for xAPIC systems.  They have
 +       * no meaning without the serial APIC bus.
 +       */
 +      if (!(boot_cpu_data.x86_vendor == X86_VENDOR_INTEL)
 +              || APIC_XAPIC(apic_version[boot_cpu_physical_apicid]))
 +              return;
 +      /*
 +       * This is broken; anything with a real cpu count has to
 +       * circumvent this idiocy regardless.
 +       */
 +      phys_id_present_map = apic->ioapic_phys_id_map(phys_cpu_present_map);
 +
 +      /*
 +       * Set the IOAPIC ID to the value stored in the MPC table.
 +       */
 +      for (apic_id = 0; apic_id < nr_ioapics; apic_id++) {
 +
 +              /* Read the register 0 value */
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              reg_00.raw = io_apic_read(apic_id, 0);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +              old_id = mp_ioapics[apic_id].apicid;
 +
 +              if (mp_ioapics[apic_id].apicid >= get_physical_broadcast()) {
 +                      printk(KERN_ERR "BIOS bug, IO-APIC#%d ID is %d in the MPC table!...\n",
 +                              apic_id, mp_ioapics[apic_id].apicid);
 +                      printk(KERN_ERR "... fixing up to %d. (tell your hw vendor)\n",
 +                              reg_00.bits.ID);
 +                      mp_ioapics[apic_id].apicid = reg_00.bits.ID;
 +              }
 +
 +              /*
 +               * Sanity check, is the ID really free? Every APIC in a
 +               * system must have a unique ID or we get lots of nice
 +               * 'stuck on smp_invalidate_needed IPI wait' messages.
 +               */
 +              if (apic->check_apicid_used(phys_id_present_map,
 +                                      mp_ioapics[apic_id].apicid)) {
 +                      printk(KERN_ERR "BIOS bug, IO-APIC#%d ID %d is already used!...\n",
 +                              apic_id, mp_ioapics[apic_id].apicid);
 +                      for (i = 0; i < get_physical_broadcast(); i++)
 +                              if (!physid_isset(i, phys_id_present_map))
 +                                      break;
 +                      if (i >= get_physical_broadcast())
 +                              panic("Max APIC ID exceeded!\n");
 +                      printk(KERN_ERR "... fixing up to %d. (tell your hw vendor)\n",
 +                              i);
 +                      physid_set(i, phys_id_present_map);
 +                      mp_ioapics[apic_id].apicid = i;
 +              } else {
 +                      physid_mask_t tmp;
 +                      tmp = apic->apicid_to_cpu_present(mp_ioapics[apic_id].apicid);
 +                      apic_printk(APIC_VERBOSE, "Setting %d in the "
 +                                      "phys_id_present_map\n",
 +                                      mp_ioapics[apic_id].apicid);
 +                      physids_or(phys_id_present_map, phys_id_present_map, tmp);
 +              }
 +
 +
 +              /*
 +               * We need to adjust the IRQ routing table
 +               * if the ID changed.
 +               */
 +              if (old_id != mp_ioapics[apic_id].apicid)
 +                      for (i = 0; i < mp_irq_entries; i++)
 +                              if (mp_irqs[i].dstapic == old_id)
 +                                      mp_irqs[i].dstapic
 +                                              = mp_ioapics[apic_id].apicid;
 +
 +              /*
 +               * Read the right value from the MPC table and
 +               * write it into the ID register.
 +               */
 +              apic_printk(APIC_VERBOSE, KERN_INFO
 +                      "...changing IO-APIC physical APIC ID to %d ...",
 +                      mp_ioapics[apic_id].apicid);
 +
 +              reg_00.bits.ID = mp_ioapics[apic_id].apicid;
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              io_apic_write(apic_id, 0, reg_00.raw);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +              /*
 +               * Sanity check
 +               */
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              reg_00.raw = io_apic_read(apic_id, 0);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +              if (reg_00.bits.ID != mp_ioapics[apic_id].apicid)
 +                      printk("could not set ID!\n");
 +              else
 +                      apic_printk(APIC_VERBOSE, " ok.\n");
 +      }
 +}
 +#endif
 +
 +int no_timer_check __initdata;
 +
 +static int __init notimercheck(char *s)
 +{
 +      no_timer_check = 1;
 +      return 1;
 +}
 +__setup("no_timer_check", notimercheck);
 +
 +/*
 + * There is a nasty bug in some older SMP boards, their mptable lies
 + * about the timer IRQ. We do the following to work around the situation:
 + *
 + *    - timer IRQ defaults to IO-APIC IRQ
 + *    - if this function detects that timer IRQs are defunct, then we fall
 + *      back to ISA timer IRQs
 + */
 +static int __init timer_irq_works(void)
 +{
 +      unsigned long t1 = jiffies;
 +      unsigned long flags;
 +
 +      if (no_timer_check)
 +              return 1;
 +
 +      local_save_flags(flags);
 +      local_irq_enable();
 +      /* Let ten ticks pass... */
 +      mdelay((10 * 1000) / HZ);
 +      local_irq_restore(flags);
 +
 +      /*
 +       * Expect a few ticks at least, to be sure some possible
 +       * glue logic does not lock up after one or two first
 +       * ticks in a non-ExtINT mode.  Also the local APIC
 +       * might have cached one ExtINT interrupt.  Finally, at
 +       * least one tick may be lost due to delays.
 +       */
 +
 +      /* jiffies wrap? */
 +      if (time_after(jiffies, t1 + 4))
 +              return 1;
 +      return 0;
 +}
 +
 +/*
 + * In the SMP+IOAPIC case it might happen that there are an unspecified
 + * number of pending IRQ events unhandled. These cases are very rare,
 + * so we 'resend' these IRQs via IPIs, to the same CPU. It's much
 + * better to do it this way as thus we do not have to be aware of
 + * 'pending' interrupts in the IRQ path, except at this point.
 + */
 +/*
 + * Edge triggered needs to resend any interrupt
 + * that was delayed but this is now handled in the device
 + * independent code.
 + */
 +
 +/*
 + * Starting up a edge-triggered IO-APIC interrupt is
 + * nasty - we need to make sure that we get the edge.
 + * If it is already asserted for some reason, we need
 + * return 1 to indicate that is was pending.
 + *
 + * This is not complete - we should be able to fake
 + * an edge even if it isn't on the 8259A...
 + */
 +
 +static unsigned int startup_ioapic_irq(unsigned int irq)
 +{
 +      int was_pending = 0;
 +      unsigned long flags;
 +      struct irq_cfg *cfg;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      if (irq < NR_IRQS_LEGACY) {
 +              disable_8259A_irq(irq);
 +              if (i8259A_irq_pending(irq))
 +                      was_pending = 1;
 +      }
 +      cfg = irq_cfg(irq);
 +      __unmask_IO_APIC_irq(cfg);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      return was_pending;
 +}
 +
 +#ifdef CONFIG_X86_64
 +static int ioapic_retrigger_irq(unsigned int irq)
 +{
 +
 +      struct irq_cfg *cfg = irq_cfg(irq);
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&vector_lock, flags);
 +      apic->send_IPI_mask(cpumask_of(cpumask_first(cfg->domain)), cfg->vector);
 +      spin_unlock_irqrestore(&vector_lock, flags);
 +
 +      return 1;
 +}
 +#else
 +static int ioapic_retrigger_irq(unsigned int irq)
 +{
 +      apic->send_IPI_self(irq_cfg(irq)->vector);
 +
 +      return 1;
 +}
 +#endif
 +
 +/*
 + * Level and edge triggered IO-APIC interrupts need different handling,
 + * so we use two separate IRQ descriptors. Edge triggered IRQs can be
 + * handled with the level-triggered descriptor, but that one has slightly
 + * more overhead. Level-triggered interrupts cannot be handled with the
 + * edge-triggered handler, without risking IRQ storms and other ugly
 + * races.
 + */
 +
 +#ifdef CONFIG_SMP
 +
 +#ifdef CONFIG_INTR_REMAP
 +
 +/*
 + * Migrate the IO-APIC irq in the presence of intr-remapping.
 + *
 + * For both level and edge triggered, irq migration is a simple atomic
 + * update(of vector and cpu destination) of IRTE and flush the hardware cache.
 + *
 + * For level triggered, we eliminate the io-apic RTE modification (with the
 + * updated vector information), by using a virtual vector (io-apic pin number).
 + * Real vector that is used for interrupting cpu will be coming from
 + * the interrupt-remapping table entry.
 + */
 +static void
 +migrate_ioapic_irq_desc(struct irq_desc *desc, const struct cpumask *mask)
 +{
 +      struct irq_cfg *cfg;
 +      struct irte irte;
 +      unsigned int dest;
 +      unsigned int irq;
 +
 +      if (!cpumask_intersects(mask, cpu_online_mask))
 +              return;
 +
 +      irq = desc->irq;
 +      if (get_irte(irq, &irte))
 +              return;
 +
 +      cfg = desc->chip_data;
 +      if (assign_irq_vector(irq, cfg, mask))
 +              return;
 +
 +      set_extra_move_desc(desc, mask);
 +
 +      dest = apic->cpu_mask_to_apicid_and(cfg->domain, mask);
 +
 +      irte.vector = cfg->vector;
 +      irte.dest_id = IRTE_DEST(dest);
 +
 +      /*
 +       * Modified the IRTE and flushes the Interrupt entry cache.
 +       */
 +      modify_irte(irq, &irte);
 +
 +      if (cfg->move_in_progress)
 +              send_cleanup_vector(cfg);
 +
 +      cpumask_copy(desc->affinity, mask);
 +}
 +
 +/*
 + * Migrates the IRQ destination in the process context.
 + */
 +static void set_ir_ioapic_affinity_irq_desc(struct irq_desc *desc,
 +                                          const struct cpumask *mask)
 +{
 +      migrate_ioapic_irq_desc(desc, mask);
 +}
 +static void set_ir_ioapic_affinity_irq(unsigned int irq,
 +                                     const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +
 +      set_ir_ioapic_affinity_irq_desc(desc, mask);
 +}
 +#else
 +static inline void set_ir_ioapic_affinity_irq_desc(struct irq_desc *desc,
 +                                                 const struct cpumask *mask)
 +{
 +}
 +#endif
 +
 +asmlinkage void smp_irq_move_cleanup_interrupt(void)
 +{
 +      unsigned vector, me;
 +
 +      ack_APIC_irq();
 +      exit_idle();
 +      irq_enter();
 +
 +      me = smp_processor_id();
 +      for (vector = FIRST_EXTERNAL_VECTOR; vector < NR_VECTORS; vector++) {
 +              unsigned int irq;
 +              unsigned int irr;
 +              struct irq_desc *desc;
 +              struct irq_cfg *cfg;
 +              irq = __get_cpu_var(vector_irq)[vector];
 +
 +              if (irq == -1)
 +                      continue;
 +
 +              desc = irq_to_desc(irq);
 +              if (!desc)
 +                      continue;
 +
 +              cfg = irq_cfg(irq);
 +              spin_lock(&desc->lock);
 +              if (!cfg->move_cleanup_count)
 +                      goto unlock;
 +
 +              if (vector == cfg->vector && cpumask_test_cpu(me, cfg->domain))
 +                      goto unlock;
 +
 +              irr = apic_read(APIC_IRR + (vector / 32 * 0x10));
 +              /*
 +               * Check if the vector that needs to be cleanedup is
 +               * registered at the cpu's IRR. If so, then this is not
 +               * the best time to clean it up. Lets clean it up in the
 +               * next attempt by sending another IRQ_MOVE_CLEANUP_VECTOR
 +               * to myself.
 +               */
 +              if (irr  & (1 << (vector % 32))) {
 +                      apic->send_IPI_self(IRQ_MOVE_CLEANUP_VECTOR);
 +                      goto unlock;
 +              }
 +              __get_cpu_var(vector_irq)[vector] = -1;
 +              cfg->move_cleanup_count--;
 +unlock:
 +              spin_unlock(&desc->lock);
 +      }
 +
 +      irq_exit();
 +}
 +
 +static void irq_complete_move(struct irq_desc **descp)
 +{
 +      struct irq_desc *desc = *descp;
 +      struct irq_cfg *cfg = desc->chip_data;
 +      unsigned vector, me;
 +
 +      if (likely(!cfg->move_in_progress)) {
 +#ifdef CONFIG_NUMA_MIGRATE_IRQ_DESC
 +              if (likely(!cfg->move_desc_pending))
 +                      return;
 +
 +              /* domain has not changed, but affinity did */
 +              me = smp_processor_id();
 +              if (cpumask_test_cpu(me, desc->affinity)) {
 +                      *descp = desc = move_irq_desc(desc, me);
 +                      /* get the new one */
 +                      cfg = desc->chip_data;
 +                      cfg->move_desc_pending = 0;
 +              }
 +#endif
 +              return;
 +      }
 +
 +      vector = ~get_irq_regs()->orig_ax;
 +      me = smp_processor_id();
 +
 +      if (vector == cfg->vector && cpumask_test_cpu(me, cfg->domain)) {
 +#ifdef CONFIG_NUMA_MIGRATE_IRQ_DESC
 +              *descp = desc = move_irq_desc(desc, me);
 +              /* get the new one */
 +              cfg = desc->chip_data;
 +#endif
 +              send_cleanup_vector(cfg);
 +      }
 +}
 +#else
 +static inline void irq_complete_move(struct irq_desc **descp) {}
 +#endif
 +
 +#ifdef CONFIG_INTR_REMAP
 +static void __eoi_ioapic_irq(unsigned int irq, struct irq_cfg *cfg)
 +{
 +      int apic, pin;
 +      struct irq_pin_list *entry;
 +
 +      entry = cfg->irq_2_pin;
 +      for (;;) {
 +
 +              if (!entry)
 +                      break;
 +
 +              apic = entry->apic;
 +              pin = entry->pin;
 +              io_apic_eoi(apic, pin);
 +              entry = entry->next;
 +      }
 +}
 +
 +static void
 +eoi_ioapic_irq(struct irq_desc *desc)
 +{
 +      struct irq_cfg *cfg;
 +      unsigned long flags;
 +      unsigned int irq;
 +
 +      irq = desc->irq;
 +      cfg = desc->chip_data;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      __eoi_ioapic_irq(irq, cfg);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +}
 +
 +static void ack_x2apic_level(unsigned int irq)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      ack_x2APIC_irq();
 +      eoi_ioapic_irq(desc);
 +}
 +
 +static void ack_x2apic_edge(unsigned int irq)
 +{
 +      ack_x2APIC_irq();
 +}
 +
 +#endif
 +
 +static void ack_apic_edge(unsigned int irq)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +
 +      irq_complete_move(&desc);
 +      move_native_irq(irq);
 +      ack_APIC_irq();
 +}
 +
 +atomic_t irq_mis_count;
 +
 +static void ack_apic_level(unsigned int irq)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +
 +#ifdef CONFIG_X86_32
 +      unsigned long v;
 +      int i;
 +#endif
 +      struct irq_cfg *cfg;
 +      int do_unmask_irq = 0;
 +
 +      irq_complete_move(&desc);
 +#ifdef CONFIG_GENERIC_PENDING_IRQ
 +      /* If we are moving the irq we need to mask it */
 +      if (unlikely(desc->status & IRQ_MOVE_PENDING)) {
 +              do_unmask_irq = 1;
 +              mask_IO_APIC_irq_desc(desc);
 +      }
 +#endif
 +
 +#ifdef CONFIG_X86_32
 +      /*
 +      * It appears there is an erratum which affects at least version 0x11
 +      * of I/O APIC (that's the 82093AA and cores integrated into various
 +      * chipsets).  Under certain conditions a level-triggered interrupt is
 +      * erroneously delivered as edge-triggered one but the respective IRR
 +      * bit gets set nevertheless.  As a result the I/O unit expects an EOI
 +      * message but it will never arrive and further interrupts are blocked
 +      * from the source.  The exact reason is so far unknown, but the
 +      * phenomenon was observed when two consecutive interrupt requests
 +      * from a given source get delivered to the same CPU and the source is
 +      * temporarily disabled in between.
 +      *
 +      * A workaround is to simulate an EOI message manually.  We achieve it
 +      * by setting the trigger mode to edge and then to level when the edge
 +      * trigger mode gets detected in the TMR of a local APIC for a
 +      * level-triggered interrupt.  We mask the source for the time of the
 +      * operation to prevent an edge-triggered interrupt escaping meanwhile.
 +      * The idea is from Manfred Spraul.  --macro
 +      */
 +      cfg = desc->chip_data;
 +      i = cfg->vector;
 +
 +      v = apic_read(APIC_TMR + ((i & ~0x1f) >> 1));
 +#endif
 +
 +      /*
 +       * We must acknowledge the irq before we move it or the acknowledge will
 +       * not propagate properly.
 +       */
 +      ack_APIC_irq();
 +
 +      /* Now we can move and renable the irq */
 +      if (unlikely(do_unmask_irq)) {
 +              /* Only migrate the irq if the ack has been received.
 +               *
 +               * On rare occasions the broadcast level triggered ack gets
 +               * delayed going to ioapics, and if we reprogram the
 +               * vector while Remote IRR is still set the irq will never
 +               * fire again.
 +               *
 +               * To prevent this scenario we read the Remote IRR bit
 +               * of the ioapic.  This has two effects.
 +               * - On any sane system the read of the ioapic will
 +               *   flush writes (and acks) going to the ioapic from
 +               *   this cpu.
 +               * - We get to see if the ACK has actually been delivered.
 +               *
 +               * Based on failed experiments of reprogramming the
 +               * ioapic entry from outside of irq context starting
 +               * with masking the ioapic entry and then polling until
 +               * Remote IRR was clear before reprogramming the
 +               * ioapic I don't trust the Remote IRR bit to be
 +               * completey accurate.
 +               *
 +               * However there appears to be no other way to plug
 +               * this race, so if the Remote IRR bit is not
 +               * accurate and is causing problems then it is a hardware bug
 +               * and you can go talk to the chipset vendor about it.
 +               */
 +              cfg = desc->chip_data;
 +              if (!io_apic_level_ack_pending(cfg))
 +                      move_masked_irq(irq);
 +              unmask_IO_APIC_irq_desc(desc);
 +      }
 +
 +#ifdef CONFIG_X86_32
 +      if (!(v & (1 << (i & 0x1f)))) {
 +              atomic_inc(&irq_mis_count);
 +              spin_lock(&ioapic_lock);
 +              __mask_and_edge_IO_APIC_irq(cfg);
 +              __unmask_and_level_IO_APIC_irq(cfg);
 +              spin_unlock(&ioapic_lock);
 +      }
 +#endif
 +}
 +
 +static struct irq_chip ioapic_chip __read_mostly = {
 +      .name           = "IO-APIC",
 +      .startup        = startup_ioapic_irq,
 +      .mask           = mask_IO_APIC_irq,
 +      .unmask         = unmask_IO_APIC_irq,
 +      .ack            = ack_apic_edge,
 +      .eoi            = ack_apic_level,
 +#ifdef CONFIG_SMP
 +      .set_affinity   = set_ioapic_affinity_irq,
 +#endif
 +      .retrigger      = ioapic_retrigger_irq,
 +};
 +
 +static struct irq_chip ir_ioapic_chip __read_mostly = {
 +      .name           = "IR-IO-APIC",
 +      .startup        = startup_ioapic_irq,
 +      .mask           = mask_IO_APIC_irq,
 +      .unmask         = unmask_IO_APIC_irq,
 +#ifdef CONFIG_INTR_REMAP
 +      .ack            = ack_x2apic_edge,
 +      .eoi            = ack_x2apic_level,
 +#ifdef CONFIG_SMP
 +      .set_affinity   = set_ir_ioapic_affinity_irq,
 +#endif
 +#endif
 +      .retrigger      = ioapic_retrigger_irq,
 +};
 +
 +static inline void init_IO_APIC_traps(void)
 +{
 +      int irq;
 +      struct irq_desc *desc;
 +      struct irq_cfg *cfg;
 +
 +      /*
 +       * NOTE! The local APIC isn't very good at handling
 +       * multiple interrupts at the same interrupt level.
 +       * As the interrupt level is determined by taking the
 +       * vector number and shifting that right by 4, we
 +       * want to spread these out a bit so that they don't
 +       * all fall in the same interrupt level.
 +       *
 +       * Also, we've got to be careful not to trash gate
 +       * 0x80, because int 0x80 is hm, kind of importantish. ;)
 +       */
 +      for_each_irq_desc(irq, desc) {
 +              cfg = desc->chip_data;
 +              if (IO_APIC_IRQ(irq) && cfg && !cfg->vector) {
 +                      /*
 +                       * Hmm.. We don't have an entry for this,
 +                       * so default to an old-fashioned 8259
 +                       * interrupt if we can..
 +                       */
 +                      if (irq < NR_IRQS_LEGACY)
 +                              make_8259A_irq(irq);
 +                      else
 +                              /* Strange. Oh, well.. */
 +                              desc->chip = &no_irq_chip;
 +              }
 +      }
 +}
 +
 +/*
 + * The local APIC irq-chip implementation:
 + */
 +
 +static void mask_lapic_irq(unsigned int irq)
 +{
 +      unsigned long v;
 +
 +      v = apic_read(APIC_LVT0);
 +      apic_write(APIC_LVT0, v | APIC_LVT_MASKED);
 +}
 +
 +static void unmask_lapic_irq(unsigned int irq)
 +{
 +      unsigned long v;
 +
 +      v = apic_read(APIC_LVT0);
 +      apic_write(APIC_LVT0, v & ~APIC_LVT_MASKED);
 +}
 +
 +static void ack_lapic_irq(unsigned int irq)
 +{
 +      ack_APIC_irq();
 +}
 +
 +static struct irq_chip lapic_chip __read_mostly = {
 +      .name           = "local-APIC",
 +      .mask           = mask_lapic_irq,
 +      .unmask         = unmask_lapic_irq,
 +      .ack            = ack_lapic_irq,
 +};
 +
 +static void lapic_register_intr(int irq, struct irq_desc *desc)
 +{
 +      desc->status &= ~IRQ_LEVEL;
 +      set_irq_chip_and_handler_name(irq, &lapic_chip, handle_edge_irq,
 +                                    "edge");
 +}
 +
 +static void __init setup_nmi(void)
 +{
 +      /*
 +       * Dirty trick to enable the NMI watchdog ...
 +       * We put the 8259A master into AEOI mode and
 +       * unmask on all local APICs LVT0 as NMI.
 +       *
 +       * The idea to use the 8259A in AEOI mode ('8259A Virtual Wire')
 +       * is from Maciej W. Rozycki - so we do not have to EOI from
 +       * the NMI handler or the timer interrupt.
 +       */
 +      apic_printk(APIC_VERBOSE, KERN_INFO "activating NMI Watchdog ...");
 +
 +      enable_NMI_through_LVT0();
 +
 +      apic_printk(APIC_VERBOSE, " done.\n");
 +}
 +
 +/*
 + * This looks a bit hackish but it's about the only one way of sending
 + * a few INTA cycles to 8259As and any associated glue logic.  ICR does
 + * not support the ExtINT mode, unfortunately.  We need to send these
 + * cycles as some i82489DX-based boards have glue logic that keeps the
 + * 8259A interrupt line asserted until INTA.  --macro
 + */
 +static inline void __init unlock_ExtINT_logic(void)
 +{
 +      int apic, pin, i;
 +      struct IO_APIC_route_entry entry0, entry1;
 +      unsigned char save_control, save_freq_select;
 +
 +      pin  = find_isa_irq_pin(8, mp_INT);
 +      if (pin == -1) {
 +              WARN_ON_ONCE(1);
 +              return;
 +      }
 +      apic = find_isa_irq_apic(8, mp_INT);
 +      if (apic == -1) {
 +              WARN_ON_ONCE(1);
 +              return;
 +      }
 +
 +      entry0 = ioapic_read_entry(apic, pin);
 +      clear_IO_APIC_pin(apic, pin);
 +
 +      memset(&entry1, 0, sizeof(entry1));
 +
 +      entry1.dest_mode = 0;                   /* physical delivery */
 +      entry1.mask = 0;                        /* unmask IRQ now */
 +      entry1.dest = hard_smp_processor_id();
 +      entry1.delivery_mode = dest_ExtINT;
 +      entry1.polarity = entry0.polarity;
 +      entry1.trigger = 0;
 +      entry1.vector = 0;
 +
 +      ioapic_write_entry(apic, pin, entry1);
 +
 +      save_control = CMOS_READ(RTC_CONTROL);
 +      save_freq_select = CMOS_READ(RTC_FREQ_SELECT);
 +      CMOS_WRITE((save_freq_select & ~RTC_RATE_SELECT) | 0x6,
 +                 RTC_FREQ_SELECT);
 +      CMOS_WRITE(save_control | RTC_PIE, RTC_CONTROL);
 +
 +      i = 100;
 +      while (i-- > 0) {
 +              mdelay(10);
 +              if ((CMOS_READ(RTC_INTR_FLAGS) & RTC_PF) == RTC_PF)
 +                      i -= 10;
 +      }
 +
 +      CMOS_WRITE(save_control, RTC_CONTROL);
 +      CMOS_WRITE(save_freq_select, RTC_FREQ_SELECT);
 +      clear_IO_APIC_pin(apic, pin);
 +
 +      ioapic_write_entry(apic, pin, entry0);
 +}
 +
 +static int disable_timer_pin_1 __initdata;
 +/* Actually the next is obsolete, but keep it for paranoid reasons -AK */
 +static int __init disable_timer_pin_setup(char *arg)
 +{
 +      disable_timer_pin_1 = 1;
 +      return 0;
 +}
 +early_param("disable_timer_pin_1", disable_timer_pin_setup);
 +
 +int timer_through_8259 __initdata;
 +
 +/*
 + * This code may look a bit paranoid, but it's supposed to cooperate with
 + * a wide range of boards and BIOS bugs.  Fortunately only the timer IRQ
 + * is so screwy.  Thanks to Brian Perkins for testing/hacking this beast
 + * fanatically on his truly buggy board.
 + *
 + * FIXME: really need to revamp this for all platforms.
 + */
 +static inline void __init check_timer(void)
 +{
 +      struct irq_desc *desc = irq_to_desc(0);
 +      struct irq_cfg *cfg = desc->chip_data;
 +      int cpu = boot_cpu_id;
 +      int apic1, pin1, apic2, pin2;
 +      unsigned long flags;
 +      int no_pin1 = 0;
 +
 +      local_irq_save(flags);
 +
 +      /*
 +       * get/set the timer IRQ vector:
 +       */
 +      disable_8259A_irq(0);
 +      assign_irq_vector(0, cfg, apic->target_cpus());
 +
 +      /*
 +       * As IRQ0 is to be enabled in the 8259A, the virtual
 +       * wire has to be disabled in the local APIC.  Also
 +       * timer interrupts need to be acknowledged manually in
 +       * the 8259A for the i82489DX when using the NMI
 +       * watchdog as that APIC treats NMIs as level-triggered.
 +       * The AEOI mode will finish them in the 8259A
 +       * automatically.
 +       */
 +      apic_write(APIC_LVT0, APIC_LVT_MASKED | APIC_DM_EXTINT);
 +      init_8259A(1);
 +#ifdef CONFIG_X86_32
 +      {
 +              unsigned int ver;
 +
 +              ver = apic_read(APIC_LVR);
 +              ver = GET_APIC_VERSION(ver);
 +              timer_ack = (nmi_watchdog == NMI_IO_APIC && !APIC_INTEGRATED(ver));
 +      }
 +#endif
 +
 +      pin1  = find_isa_irq_pin(0, mp_INT);
 +      apic1 = find_isa_irq_apic(0, mp_INT);
 +      pin2  = ioapic_i8259.pin;
 +      apic2 = ioapic_i8259.apic;
 +
 +      apic_printk(APIC_QUIET, KERN_INFO "..TIMER: vector=0x%02X "
 +                  "apic1=%d pin1=%d apic2=%d pin2=%d\n",
 +                  cfg->vector, apic1, pin1, apic2, pin2);
 +
 +      /*
 +       * Some BIOS writers are clueless and report the ExtINTA
 +       * I/O APIC input from the cascaded 8259A as the timer
 +       * interrupt input.  So just in case, if only one pin
 +       * was found above, try it both directly and through the
 +       * 8259A.
 +       */
 +      if (pin1 == -1) {
 +              if (intr_remapping_enabled)
 +                      panic("BIOS bug: timer not connected to IO-APIC");
 +              pin1 = pin2;
 +              apic1 = apic2;
 +              no_pin1 = 1;
 +      } else if (pin2 == -1) {
 +              pin2 = pin1;
 +              apic2 = apic1;
 +      }
 +
 +      if (pin1 != -1) {
 +              /*
 +               * Ok, does IRQ0 through the IOAPIC work?
 +               */
 +              if (no_pin1) {
 +                      add_pin_to_irq_cpu(cfg, cpu, apic1, pin1);
 +                      setup_timer_IRQ0_pin(apic1, pin1, cfg->vector);
 +              } else {
 +                      /* for edge trigger, setup_IO_APIC_irq already
 +                       * leave it unmasked.
 +                       * so only need to unmask if it is level-trigger
 +                       * do we really have level trigger timer?
 +                       */
 +                      int idx;
 +                      idx = find_irq_entry(apic1, pin1, mp_INT);
 +                      if (idx != -1 && irq_trigger(idx))
 +                              unmask_IO_APIC_irq_desc(desc);
 +              }
 +              if (timer_irq_works()) {
 +                      if (nmi_watchdog == NMI_IO_APIC) {
 +                              setup_nmi();
 +                              enable_8259A_irq(0);
 +                      }
 +                      if (disable_timer_pin_1 > 0)
 +                              clear_IO_APIC_pin(0, pin1);
 +                      goto out;
 +              }
 +              if (intr_remapping_enabled)
 +                      panic("timer doesn't work through Interrupt-remapped IO-APIC");
 +              local_irq_disable();
 +              clear_IO_APIC_pin(apic1, pin1);
 +              if (!no_pin1)
 +                      apic_printk(APIC_QUIET, KERN_ERR "..MP-BIOS bug: "
 +                                  "8254 timer not connected to IO-APIC\n");
 +
 +              apic_printk(APIC_QUIET, KERN_INFO "...trying to set up timer "
 +                          "(IRQ0) through the 8259A ...\n");
 +              apic_printk(APIC_QUIET, KERN_INFO
 +                          "..... (found apic %d pin %d) ...\n", apic2, pin2);
 +              /*
 +               * legacy devices should be connected to IO APIC #0
 +               */
 +              replace_pin_at_irq_cpu(cfg, cpu, apic1, pin1, apic2, pin2);
 +              setup_timer_IRQ0_pin(apic2, pin2, cfg->vector);
 +              enable_8259A_irq(0);
 +              if (timer_irq_works()) {
 +                      apic_printk(APIC_QUIET, KERN_INFO "....... works.\n");
 +                      timer_through_8259 = 1;
 +                      if (nmi_watchdog == NMI_IO_APIC) {
 +                              disable_8259A_irq(0);
 +                              setup_nmi();
 +                              enable_8259A_irq(0);
 +                      }
 +                      goto out;
 +              }
 +              /*
 +               * Cleanup, just in case ...
 +               */
 +              local_irq_disable();
 +              disable_8259A_irq(0);
 +              clear_IO_APIC_pin(apic2, pin2);
 +              apic_printk(APIC_QUIET, KERN_INFO "....... failed.\n");
 +      }
 +
 +      if (nmi_watchdog == NMI_IO_APIC) {
 +              apic_printk(APIC_QUIET, KERN_WARNING "timer doesn't work "
 +                          "through the IO-APIC - disabling NMI Watchdog!\n");
 +              nmi_watchdog = NMI_NONE;
 +      }
 +#ifdef CONFIG_X86_32
 +      timer_ack = 0;
 +#endif
 +
 +      apic_printk(APIC_QUIET, KERN_INFO
 +                  "...trying to set up timer as Virtual Wire IRQ...\n");
 +
 +      lapic_register_intr(0, desc);
 +      apic_write(APIC_LVT0, APIC_DM_FIXED | cfg->vector);     /* Fixed mode */
 +      enable_8259A_irq(0);
 +
 +      if (timer_irq_works()) {
 +              apic_printk(APIC_QUIET, KERN_INFO "..... works.\n");
 +              goto out;
 +      }
 +      local_irq_disable();
 +      disable_8259A_irq(0);
 +      apic_write(APIC_LVT0, APIC_LVT_MASKED | APIC_DM_FIXED | cfg->vector);
 +      apic_printk(APIC_QUIET, KERN_INFO "..... failed.\n");
 +
 +      apic_printk(APIC_QUIET, KERN_INFO
 +                  "...trying to set up timer as ExtINT IRQ...\n");
 +
 +      init_8259A(0);
 +      make_8259A_irq(0);
 +      apic_write(APIC_LVT0, APIC_DM_EXTINT);
 +
 +      unlock_ExtINT_logic();
 +
 +      if (timer_irq_works()) {
 +              apic_printk(APIC_QUIET, KERN_INFO "..... works.\n");
 +              goto out;
 +      }
 +      local_irq_disable();
 +      apic_printk(APIC_QUIET, KERN_INFO "..... failed :(.\n");
 +      panic("IO-APIC + timer doesn't work!  Boot with apic=debug and send a "
 +              "report.  Then try booting with the 'noapic' option.\n");
 +out:
 +      local_irq_restore(flags);
 +}
 +
 +/*
 + * Traditionally ISA IRQ2 is the cascade IRQ, and is not available
 + * to devices.  However there may be an I/O APIC pin available for
 + * this interrupt regardless.  The pin may be left unconnected, but
 + * typically it will be reused as an ExtINT cascade interrupt for
 + * the master 8259A.  In the MPS case such a pin will normally be
 + * reported as an ExtINT interrupt in the MP table.  With ACPI
 + * there is no provision for ExtINT interrupts, and in the absence
 + * of an override it would be treated as an ordinary ISA I/O APIC
 + * interrupt, that is edge-triggered and unmasked by default.  We
 + * used to do this, but it caused problems on some systems because
 + * of the NMI watchdog and sometimes IRQ0 of the 8254 timer using
 + * the same ExtINT cascade interrupt to drive the local APIC of the
 + * bootstrap processor.  Therefore we refrain from routing IRQ2 to
 + * the I/O APIC in all cases now.  No actual device should request
 + * it anyway.  --macro
 + */
 +#define PIC_IRQS      (1 << PIC_CASCADE_IR)
 +
 +void __init setup_IO_APIC(void)
 +{
 +
 +      /*
 +       * calling enable_IO_APIC() is moved to setup_local_APIC for BP
 +       */
 +
 +      io_apic_irqs = ~PIC_IRQS;
 +
 +      apic_printk(APIC_VERBOSE, "ENABLING IO-APIC IRQs\n");
 +      /*
 +         * Set up IO-APIC IRQ routing.
 +         */
 +#ifdef CONFIG_X86_32
 +      if (!acpi_ioapic)
 +              setup_ioapic_ids_from_mpc();
 +#endif
 +      sync_Arb_IDs();
 +      setup_IO_APIC_irqs();
 +      init_IO_APIC_traps();
 +      check_timer();
 +}
 +
 +/*
 + *      Called after all the initialization is done. If we didnt find any
 + *      APIC bugs then we can allow the modify fast path
 + */
 +
 +static int __init io_apic_bug_finalize(void)
 +{
 +      if (sis_apic_bug == -1)
 +              sis_apic_bug = 0;
 +      return 0;
 +}
 +
 +late_initcall(io_apic_bug_finalize);
 +
 +struct sysfs_ioapic_data {
 +      struct sys_device dev;
 +      struct IO_APIC_route_entry entry[0];
 +};
 +static struct sysfs_ioapic_data * mp_ioapic_data[MAX_IO_APICS];
 +
 +static int ioapic_suspend(struct sys_device *dev, pm_message_t state)
 +{
 +      struct IO_APIC_route_entry *entry;
 +      struct sysfs_ioapic_data *data;
 +      int i;
 +
 +      data = container_of(dev, struct sysfs_ioapic_data, dev);
 +      entry = data->entry;
 +      for (i = 0; i < nr_ioapic_registers[dev->id]; i ++, entry ++ )
 +              *entry = ioapic_read_entry(dev->id, i);
 +
 +      return 0;
 +}
 +
 +static int ioapic_resume(struct sys_device *dev)
 +{
 +      struct IO_APIC_route_entry *entry;
 +      struct sysfs_ioapic_data *data;
 +      unsigned long flags;
 +      union IO_APIC_reg_00 reg_00;
 +      int i;
 +
 +      data = container_of(dev, struct sysfs_ioapic_data, dev);
 +      entry = data->entry;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      reg_00.raw = io_apic_read(dev->id, 0);
 +      if (reg_00.bits.ID != mp_ioapics[dev->id].apicid) {
 +              reg_00.bits.ID = mp_ioapics[dev->id].apicid;
 +              io_apic_write(dev->id, 0, reg_00.raw);
 +      }
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +      for (i = 0; i < nr_ioapic_registers[dev->id]; i++)
 +              ioapic_write_entry(dev->id, i, entry[i]);
 +
 +      return 0;
 +}
 +
 +static struct sysdev_class ioapic_sysdev_class = {
 +      .name = "ioapic",
 +      .suspend = ioapic_suspend,
 +      .resume = ioapic_resume,
 +};
 +
 +static int __init ioapic_init_sysfs(void)
 +{
 +      struct sys_device * dev;
 +      int i, size, error;
 +
 +      error = sysdev_class_register(&ioapic_sysdev_class);
 +      if (error)
 +              return error;
 +
 +      for (i = 0; i < nr_ioapics; i++ ) {
 +              size = sizeof(struct sys_device) + nr_ioapic_registers[i]
 +                      * sizeof(struct IO_APIC_route_entry);
 +              mp_ioapic_data[i] = kzalloc(size, GFP_KERNEL);
 +              if (!mp_ioapic_data[i]) {
 +                      printk(KERN_ERR "Can't suspend/resume IOAPIC %d\n", i);
 +                      continue;
 +              }
 +              dev = &mp_ioapic_data[i]->dev;
 +              dev->id = i;
 +              dev->cls = &ioapic_sysdev_class;
 +              error = sysdev_register(dev);
 +              if (error) {
 +                      kfree(mp_ioapic_data[i]);
 +                      mp_ioapic_data[i] = NULL;
 +                      printk(KERN_ERR "Can't suspend/resume IOAPIC %d\n", i);
 +                      continue;
 +              }
 +      }
 +
 +      return 0;
 +}
 +
 +device_initcall(ioapic_init_sysfs);
 +
 +static int nr_irqs_gsi = NR_IRQS_LEGACY;
 +/*
 + * Dynamic irq allocate and deallocation
 + */
 +unsigned int create_irq_nr(unsigned int irq_want)
 +{
 +      /* Allocate an unused irq */
 +      unsigned int irq;
 +      unsigned int new;
 +      unsigned long flags;
 +      struct irq_cfg *cfg_new = NULL;
 +      int cpu = boot_cpu_id;
 +      struct irq_desc *desc_new = NULL;
 +
 +      irq = 0;
 +      if (irq_want < nr_irqs_gsi)
 +              irq_want = nr_irqs_gsi;
 +
 +      spin_lock_irqsave(&vector_lock, flags);
 +      for (new = irq_want; new < nr_irqs; new++) {
 +              desc_new = irq_to_desc_alloc_cpu(new, cpu);
 +              if (!desc_new) {
 +                      printk(KERN_INFO "can not get irq_desc for %d\n", new);
 +                      continue;
 +              }
 +              cfg_new = desc_new->chip_data;
 +
 +              if (cfg_new->vector != 0)
 +                      continue;
 +              if (__assign_irq_vector(new, cfg_new, apic->target_cpus()) == 0)
 +                      irq = new;
 +              break;
 +      }
 +      spin_unlock_irqrestore(&vector_lock, flags);
 +
 +      if (irq > 0) {
 +              dynamic_irq_init(irq);
 +              /* restore it, in case dynamic_irq_init clear it */
 +              if (desc_new)
 +                      desc_new->chip_data = cfg_new;
 +      }
 +      return irq;
 +}
 +
 +int create_irq(void)
 +{
 +      unsigned int irq_want;
 +      int irq;
 +
 +      irq_want = nr_irqs_gsi;
 +      irq = create_irq_nr(irq_want);
 +
 +      if (irq == 0)
 +              irq = -1;
 +
 +      return irq;
 +}
 +
 +void destroy_irq(unsigned int irq)
 +{
 +      unsigned long flags;
 +      struct irq_cfg *cfg;
 +      struct irq_desc *desc;
 +
 +      /* store it, in case dynamic_irq_cleanup clear it */
 +      desc = irq_to_desc(irq);
 +      cfg = desc->chip_data;
 +      dynamic_irq_cleanup(irq);
 +      /* connect back irq_cfg */
 +      if (desc)
 +              desc->chip_data = cfg;
 +
 +      free_irte(irq);
 +      spin_lock_irqsave(&vector_lock, flags);
 +      __clear_irq_vector(irq, cfg);
 +      spin_unlock_irqrestore(&vector_lock, flags);
 +}
 +
 +/*
 + * MSI message composition
 + */
 +#ifdef CONFIG_PCI_MSI
 +static int msi_compose_msg(struct pci_dev *pdev, unsigned int irq, struct msi_msg *msg)
 +{
 +      struct irq_cfg *cfg;
 +      int err;
 +      unsigned dest;
 +
 +      if (disable_apic)
 +              return -ENXIO;
 +
 +      cfg = irq_cfg(irq);
 +      err = assign_irq_vector(irq, cfg, apic->target_cpus());
 +      if (err)
 +              return err;
 +
 +      dest = apic->cpu_mask_to_apicid_and(cfg->domain, apic->target_cpus());
 +
 +      if (irq_remapped(irq)) {
 +              struct irte irte;
 +              int ir_index;
 +              u16 sub_handle;
 +
 +              ir_index = map_irq_to_irte_handle(irq, &sub_handle);
 +              BUG_ON(ir_index == -1);
 +
 +              memset (&irte, 0, sizeof(irte));
 +
 +              irte.present = 1;
 +              irte.dst_mode = apic->irq_dest_mode;
 +              irte.trigger_mode = 0; /* edge */
 +              irte.dlvry_mode = apic->irq_delivery_mode;
 +              irte.vector = cfg->vector;
 +              irte.dest_id = IRTE_DEST(dest);
 +
 +              modify_irte(irq, &irte);
 +
 +              msg->address_hi = MSI_ADDR_BASE_HI;
 +              msg->data = sub_handle;
 +              msg->address_lo = MSI_ADDR_BASE_LO | MSI_ADDR_IR_EXT_INT |
 +                                MSI_ADDR_IR_SHV |
 +                                MSI_ADDR_IR_INDEX1(ir_index) |
 +                                MSI_ADDR_IR_INDEX2(ir_index);
 +      } else {
 +              if (x2apic_enabled())
 +                      msg->address_hi = MSI_ADDR_BASE_HI |
 +                                        MSI_ADDR_EXT_DEST_ID(dest);
 +              else
 +                      msg->address_hi = MSI_ADDR_BASE_HI;
 +
 +              msg->address_lo =
 +                      MSI_ADDR_BASE_LO |
 +                      ((apic->irq_dest_mode == 0) ?
 +                              MSI_ADDR_DEST_MODE_PHYSICAL:
 +                              MSI_ADDR_DEST_MODE_LOGICAL) |
 +                      ((apic->irq_delivery_mode != dest_LowestPrio) ?
 +                              MSI_ADDR_REDIRECTION_CPU:
 +                              MSI_ADDR_REDIRECTION_LOWPRI) |
 +                      MSI_ADDR_DEST_ID(dest);
 +
 +              msg->data =
 +                      MSI_DATA_TRIGGER_EDGE |
 +                      MSI_DATA_LEVEL_ASSERT |
 +                      ((apic->irq_delivery_mode != dest_LowestPrio) ?
 +                              MSI_DATA_DELIVERY_FIXED:
 +                              MSI_DATA_DELIVERY_LOWPRI) |
 +                      MSI_DATA_VECTOR(cfg->vector);
 +      }
 +      return err;
 +}
 +
 +#ifdef CONFIG_SMP
 +static void set_msi_irq_affinity(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      struct irq_cfg *cfg;
 +      struct msi_msg msg;
 +      unsigned int dest;
 +
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest == BAD_APICID)
 +              return;
 +
 +      cfg = desc->chip_data;
 +
 +      read_msi_msg_desc(desc, &msg);
 +
 +      msg.data &= ~MSI_DATA_VECTOR_MASK;
 +      msg.data |= MSI_DATA_VECTOR(cfg->vector);
 +      msg.address_lo &= ~MSI_ADDR_DEST_ID_MASK;
 +      msg.address_lo |= MSI_ADDR_DEST_ID(dest);
 +
 +      write_msi_msg_desc(desc, &msg);
 +}
 +#ifdef CONFIG_INTR_REMAP
 +/*
 + * Migrate the MSI irq to another cpumask. This migration is
 + * done in the process context using interrupt-remapping hardware.
 + */
 +static void
 +ir_set_msi_irq_affinity(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      struct irq_cfg *cfg = desc->chip_data;
 +      unsigned int dest;
 +      struct irte irte;
 +
 +      if (get_irte(irq, &irte))
 +              return;
 +
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest == BAD_APICID)
 +              return;
 +
 +      irte.vector = cfg->vector;
 +      irte.dest_id = IRTE_DEST(dest);
 +
 +      /*
 +       * atomically update the IRTE with the new destination and vector.
 +       */
 +      modify_irte(irq, &irte);
 +
 +      /*
 +       * After this point, all the interrupts will start arriving
 +       * at the new destination. So, time to cleanup the previous
 +       * vector allocation.
 +       */
 +      if (cfg->move_in_progress)
 +              send_cleanup_vector(cfg);
 +}
 +
 +#endif
 +#endif /* CONFIG_SMP */
 +
 +/*
 + * IRQ Chip for MSI PCI/PCI-X/PCI-Express Devices,
 + * which implement the MSI or MSI-X Capability Structure.
 + */
 +static struct irq_chip msi_chip = {
 +      .name           = "PCI-MSI",
 +      .unmask         = unmask_msi_irq,
 +      .mask           = mask_msi_irq,
 +      .ack            = ack_apic_edge,
 +#ifdef CONFIG_SMP
 +      .set_affinity   = set_msi_irq_affinity,
 +#endif
 +      .retrigger      = ioapic_retrigger_irq,
 +};
 +
 +static struct irq_chip msi_ir_chip = {
 +      .name           = "IR-PCI-MSI",
 +      .unmask         = unmask_msi_irq,
 +      .mask           = mask_msi_irq,
 +#ifdef CONFIG_INTR_REMAP
 +      .ack            = ack_x2apic_edge,
 +#ifdef CONFIG_SMP
 +      .set_affinity   = ir_set_msi_irq_affinity,
 +#endif
 +#endif
 +      .retrigger      = ioapic_retrigger_irq,
 +};
 +
 +/*
 + * Map the PCI dev to the corresponding remapping hardware unit
 + * and allocate 'nvec' consecutive interrupt-remapping table entries
 + * in it.
 + */
 +static int msi_alloc_irte(struct pci_dev *dev, int irq, int nvec)
 +{
 +      struct intel_iommu *iommu;
 +      int index;
 +
 +      iommu = map_dev_to_ir(dev);
 +      if (!iommu) {
 +              printk(KERN_ERR
 +                     "Unable to map PCI %s to iommu\n", pci_name(dev));
 +              return -ENOENT;
 +      }
 +
 +      index = alloc_irte(iommu, irq, nvec);
 +      if (index < 0) {
 +              printk(KERN_ERR
 +                     "Unable to allocate %d IRTE for PCI %s\n", nvec,
 +                     pci_name(dev));
 +              return -ENOSPC;
 +      }
 +      return index;
 +}
 +
 +static int setup_msi_irq(struct pci_dev *dev, struct msi_desc *msidesc, int irq)
 +{
 +      int ret;
 +      struct msi_msg msg;
 +
 +      ret = msi_compose_msg(dev, irq, &msg);
 +      if (ret < 0)
 +              return ret;
 +
 +      set_irq_msi(irq, msidesc);
 +      write_msi_msg(irq, &msg);
 +
 +      if (irq_remapped(irq)) {
 +              struct irq_desc *desc = irq_to_desc(irq);
 +              /*
 +               * irq migration in process context
 +               */
 +              desc->status |= IRQ_MOVE_PCNTXT;
 +              set_irq_chip_and_handler_name(irq, &msi_ir_chip, handle_edge_irq, "edge");
 +      } else
 +              set_irq_chip_and_handler_name(irq, &msi_chip, handle_edge_irq, "edge");
 +
 +      dev_printk(KERN_DEBUG, &dev->dev, "irq %d for MSI/MSI-X\n", irq);
 +
 +      return 0;
 +}
 +
 +int arch_setup_msi_irqs(struct pci_dev *dev, int nvec, int type)
 +{
 +      unsigned int irq;
 +      int ret, sub_handle;
 +      struct msi_desc *msidesc;
 +      unsigned int irq_want;
 +      struct intel_iommu *iommu = NULL;
 +      int index = 0;
 +
++      /* x86 doesn't support multiple MSI yet */
++      if (type == PCI_CAP_ID_MSI && nvec > 1)
++              return 1;
++
 +      irq_want = nr_irqs_gsi;
 +      sub_handle = 0;
 +      list_for_each_entry(msidesc, &dev->msi_list, list) {
 +              irq = create_irq_nr(irq_want);
 +              if (irq == 0)
 +                      return -1;
 +              irq_want = irq + 1;
 +              if (!intr_remapping_enabled)
 +                      goto no_ir;
 +
 +              if (!sub_handle) {
 +                      /*
 +                       * allocate the consecutive block of IRTE's
 +                       * for 'nvec'
 +                       */
 +                      index = msi_alloc_irte(dev, irq, nvec);
 +                      if (index < 0) {
 +                              ret = index;
 +                              goto error;
 +                      }
 +              } else {
 +                      iommu = map_dev_to_ir(dev);
 +                      if (!iommu) {
 +                              ret = -ENOENT;
 +                              goto error;
 +                      }
 +                      /*
 +                       * setup the mapping between the irq and the IRTE
 +                       * base index, the sub_handle pointing to the
 +                       * appropriate interrupt remap table entry.
 +                       */
 +                      set_irte_irq(irq, iommu, index, sub_handle);
 +              }
 +no_ir:
 +              ret = setup_msi_irq(dev, msidesc, irq);
 +              if (ret < 0)
 +                      goto error;
 +              sub_handle++;
 +      }
 +      return 0;
 +
 +error:
 +      destroy_irq(irq);
 +      return ret;
 +}
 +
 +void arch_teardown_msi_irq(unsigned int irq)
 +{
 +      destroy_irq(irq);
 +}
 +
 +#if defined (CONFIG_DMAR) || defined (CONFIG_INTR_REMAP)
 +#ifdef CONFIG_SMP
 +static void dmar_msi_set_affinity(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      struct irq_cfg *cfg;
 +      struct msi_msg msg;
 +      unsigned int dest;
 +
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest == BAD_APICID)
 +              return;
 +
 +      cfg = desc->chip_data;
 +
 +      dmar_msi_read(irq, &msg);
 +
 +      msg.data &= ~MSI_DATA_VECTOR_MASK;
 +      msg.data |= MSI_DATA_VECTOR(cfg->vector);
 +      msg.address_lo &= ~MSI_ADDR_DEST_ID_MASK;
 +      msg.address_lo |= MSI_ADDR_DEST_ID(dest);
 +
 +      dmar_msi_write(irq, &msg);
 +}
 +
 +#endif /* CONFIG_SMP */
 +
 +struct irq_chip dmar_msi_type = {
 +      .name = "DMAR_MSI",
 +      .unmask = dmar_msi_unmask,
 +      .mask = dmar_msi_mask,
 +      .ack = ack_apic_edge,
 +#ifdef CONFIG_SMP
 +      .set_affinity = dmar_msi_set_affinity,
 +#endif
 +      .retrigger = ioapic_retrigger_irq,
 +};
 +
 +int arch_setup_dmar_msi(unsigned int irq)
 +{
 +      int ret;
 +      struct msi_msg msg;
 +
 +      ret = msi_compose_msg(NULL, irq, &msg);
 +      if (ret < 0)
 +              return ret;
 +      dmar_msi_write(irq, &msg);
 +      set_irq_chip_and_handler_name(irq, &dmar_msi_type, handle_edge_irq,
 +              "edge");
 +      return 0;
 +}
 +#endif
 +
 +#ifdef CONFIG_HPET_TIMER
 +
 +#ifdef CONFIG_SMP
 +static void hpet_msi_set_affinity(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      struct irq_cfg *cfg;
 +      struct msi_msg msg;
 +      unsigned int dest;
 +
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest == BAD_APICID)
 +              return;
 +
 +      cfg = desc->chip_data;
 +
 +      hpet_msi_read(irq, &msg);
 +
 +      msg.data &= ~MSI_DATA_VECTOR_MASK;
 +      msg.data |= MSI_DATA_VECTOR(cfg->vector);
 +      msg.address_lo &= ~MSI_ADDR_DEST_ID_MASK;
 +      msg.address_lo |= MSI_ADDR_DEST_ID(dest);
 +
 +      hpet_msi_write(irq, &msg);
 +}
 +
 +#endif /* CONFIG_SMP */
 +
 +static struct irq_chip hpet_msi_type = {
 +      .name = "HPET_MSI",
 +      .unmask = hpet_msi_unmask,
 +      .mask = hpet_msi_mask,
 +      .ack = ack_apic_edge,
 +#ifdef CONFIG_SMP
 +      .set_affinity = hpet_msi_set_affinity,
 +#endif
 +      .retrigger = ioapic_retrigger_irq,
 +};
 +
 +int arch_setup_hpet_msi(unsigned int irq)
 +{
 +      int ret;
 +      struct msi_msg msg;
 +
 +      ret = msi_compose_msg(NULL, irq, &msg);
 +      if (ret < 0)
 +              return ret;
 +
 +      hpet_msi_write(irq, &msg);
 +      set_irq_chip_and_handler_name(irq, &hpet_msi_type, handle_edge_irq,
 +              "edge");
 +
 +      return 0;
 +}
 +#endif
 +
 +#endif /* CONFIG_PCI_MSI */
 +/*
 + * Hypertransport interrupt support
 + */
 +#ifdef CONFIG_HT_IRQ
 +
 +#ifdef CONFIG_SMP
 +
 +static void target_ht_irq(unsigned int irq, unsigned int dest, u8 vector)
 +{
 +      struct ht_irq_msg msg;
 +      fetch_ht_irq_msg(irq, &msg);
 +
 +      msg.address_lo &= ~(HT_IRQ_LOW_VECTOR_MASK | HT_IRQ_LOW_DEST_ID_MASK);
 +      msg.address_hi &= ~(HT_IRQ_HIGH_DEST_ID_MASK);
 +
 +      msg.address_lo |= HT_IRQ_LOW_VECTOR(vector) | HT_IRQ_LOW_DEST_ID(dest);
 +      msg.address_hi |= HT_IRQ_HIGH_DEST_ID(dest);
 +
 +      write_ht_irq_msg(irq, &msg);
 +}
 +
 +static void set_ht_irq_affinity(unsigned int irq, const struct cpumask *mask)
 +{
 +      struct irq_desc *desc = irq_to_desc(irq);
 +      struct irq_cfg *cfg;
 +      unsigned int dest;
 +
 +      dest = set_desc_affinity(desc, mask);
 +      if (dest == BAD_APICID)
 +              return;
 +
 +      cfg = desc->chip_data;
 +
 +      target_ht_irq(irq, dest, cfg->vector);
 +}
 +
 +#endif
 +
 +static struct irq_chip ht_irq_chip = {
 +      .name           = "PCI-HT",
 +      .mask           = mask_ht_irq,
 +      .unmask         = unmask_ht_irq,
 +      .ack            = ack_apic_edge,
 +#ifdef CONFIG_SMP
 +      .set_affinity   = set_ht_irq_affinity,
 +#endif
 +      .retrigger      = ioapic_retrigger_irq,
 +};
 +
 +int arch_setup_ht_irq(unsigned int irq, struct pci_dev *dev)
 +{
 +      struct irq_cfg *cfg;
 +      int err;
 +
 +      if (disable_apic)
 +              return -ENXIO;
 +
 +      cfg = irq_cfg(irq);
 +      err = assign_irq_vector(irq, cfg, apic->target_cpus());
 +      if (!err) {
 +              struct ht_irq_msg msg;
 +              unsigned dest;
 +
 +              dest = apic->cpu_mask_to_apicid_and(cfg->domain,
 +                                                  apic->target_cpus());
 +
 +              msg.address_hi = HT_IRQ_HIGH_DEST_ID(dest);
 +
 +              msg.address_lo =
 +                      HT_IRQ_LOW_BASE |
 +                      HT_IRQ_LOW_DEST_ID(dest) |
 +                      HT_IRQ_LOW_VECTOR(cfg->vector) |
 +                      ((apic->irq_dest_mode == 0) ?
 +                              HT_IRQ_LOW_DM_PHYSICAL :
 +                              HT_IRQ_LOW_DM_LOGICAL) |
 +                      HT_IRQ_LOW_RQEOI_EDGE |
 +                      ((apic->irq_delivery_mode != dest_LowestPrio) ?
 +                              HT_IRQ_LOW_MT_FIXED :
 +                              HT_IRQ_LOW_MT_ARBITRATED) |
 +                      HT_IRQ_LOW_IRQ_MASKED;
 +
 +              write_ht_irq_msg(irq, &msg);
 +
 +              set_irq_chip_and_handler_name(irq, &ht_irq_chip,
 +                                            handle_edge_irq, "edge");
 +
 +              dev_printk(KERN_DEBUG, &dev->dev, "irq %d for HT\n", irq);
 +      }
 +      return err;
 +}
 +#endif /* CONFIG_HT_IRQ */
 +
 +#ifdef CONFIG_X86_UV
 +/*
 + * Re-target the irq to the specified CPU and enable the specified MMR located
 + * on the specified blade to allow the sending of MSIs to the specified CPU.
 + */
 +int arch_enable_uv_irq(char *irq_name, unsigned int irq, int cpu, int mmr_blade,
 +                     unsigned long mmr_offset)
 +{
 +      const struct cpumask *eligible_cpu = cpumask_of(cpu);
 +      struct irq_cfg *cfg;
 +      int mmr_pnode;
 +      unsigned long mmr_value;
 +      struct uv_IO_APIC_route_entry *entry;
 +      unsigned long flags;
 +      int err;
 +
 +      cfg = irq_cfg(irq);
 +
 +      err = assign_irq_vector(irq, cfg, eligible_cpu);
 +      if (err != 0)
 +              return err;
 +
 +      spin_lock_irqsave(&vector_lock, flags);
 +      set_irq_chip_and_handler_name(irq, &uv_irq_chip, handle_percpu_irq,
 +                                    irq_name);
 +      spin_unlock_irqrestore(&vector_lock, flags);
 +
 +      mmr_value = 0;
 +      entry = (struct uv_IO_APIC_route_entry *)&mmr_value;
 +      BUG_ON(sizeof(struct uv_IO_APIC_route_entry) != sizeof(unsigned long));
 +
 +      entry->vector = cfg->vector;
 +      entry->delivery_mode = apic->irq_delivery_mode;
 +      entry->dest_mode = apic->irq_dest_mode;
 +      entry->polarity = 0;
 +      entry->trigger = 0;
 +      entry->mask = 0;
 +      entry->dest = apic->cpu_mask_to_apicid(eligible_cpu);
 +
 +      mmr_pnode = uv_blade_to_pnode(mmr_blade);
 +      uv_write_global_mmr64(mmr_pnode, mmr_offset, mmr_value);
 +
 +      return irq;
 +}
 +
 +/*
 + * Disable the specified MMR located on the specified blade so that MSIs are
 + * longer allowed to be sent.
 + */
 +void arch_disable_uv_irq(int mmr_blade, unsigned long mmr_offset)
 +{
 +      unsigned long mmr_value;
 +      struct uv_IO_APIC_route_entry *entry;
 +      int mmr_pnode;
 +
 +      mmr_value = 0;
 +      entry = (struct uv_IO_APIC_route_entry *)&mmr_value;
 +      BUG_ON(sizeof(struct uv_IO_APIC_route_entry) != sizeof(unsigned long));
 +
 +      entry->mask = 1;
 +
 +      mmr_pnode = uv_blade_to_pnode(mmr_blade);
 +      uv_write_global_mmr64(mmr_pnode, mmr_offset, mmr_value);
 +}
 +#endif /* CONFIG_X86_64 */
 +
 +int __init io_apic_get_redir_entries (int ioapic)
 +{
 +      union IO_APIC_reg_01    reg_01;
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      reg_01.raw = io_apic_read(ioapic, 1);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      return reg_01.bits.entries;
 +}
 +
 +void __init probe_nr_irqs_gsi(void)
 +{
 +      int nr = 0;
 +
 +      nr = acpi_probe_gsi();
 +      if (nr > nr_irqs_gsi) {
 +              nr_irqs_gsi = nr;
 +      } else {
 +              /* for acpi=off or acpi is not compiled in */
 +              int idx;
 +
 +              nr = 0;
 +              for (idx = 0; idx < nr_ioapics; idx++)
 +                      nr += io_apic_get_redir_entries(idx) + 1;
 +
 +              if (nr > nr_irqs_gsi)
 +                      nr_irqs_gsi = nr;
 +      }
 +
 +      printk(KERN_DEBUG "nr_irqs_gsi: %d\n", nr_irqs_gsi);
 +}
 +
 +#ifdef CONFIG_SPARSE_IRQ
 +int __init arch_probe_nr_irqs(void)
 +{
 +      int nr;
 +
 +      if (nr_irqs > (NR_VECTORS * nr_cpu_ids))
 +              nr_irqs = NR_VECTORS * nr_cpu_ids;
 +
 +      nr = nr_irqs_gsi + 8 * nr_cpu_ids;
 +#if defined(CONFIG_PCI_MSI) || defined(CONFIG_HT_IRQ)
 +      /*
 +       * for MSI and HT dyn irq
 +       */
 +      nr += nr_irqs_gsi * 16;
 +#endif
 +      if (nr < nr_irqs)
 +              nr_irqs = nr;
 +
 +      return 0;
 +}
 +#endif
 +
 +/* --------------------------------------------------------------------------
 +                          ACPI-based IOAPIC Configuration
 +   -------------------------------------------------------------------------- */
 +
 +#ifdef CONFIG_ACPI
 +
 +#ifdef CONFIG_X86_32
 +int __init io_apic_get_unique_id(int ioapic, int apic_id)
 +{
 +      union IO_APIC_reg_00 reg_00;
 +      static physid_mask_t apic_id_map = PHYSID_MASK_NONE;
 +      physid_mask_t tmp;
 +      unsigned long flags;
 +      int i = 0;
 +
 +      /*
 +       * The P4 platform supports up to 256 APIC IDs on two separate APIC
 +       * buses (one for LAPICs, one for IOAPICs), where predecessors only
 +       * supports up to 16 on one shared APIC bus.
 +       *
 +       * TBD: Expand LAPIC/IOAPIC support on P4-class systems to take full
 +       *      advantage of new APIC bus architecture.
 +       */
 +
 +      if (physids_empty(apic_id_map))
 +              apic_id_map = apic->ioapic_phys_id_map(phys_cpu_present_map);
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      reg_00.raw = io_apic_read(ioapic, 0);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      if (apic_id >= get_physical_broadcast()) {
 +              printk(KERN_WARNING "IOAPIC[%d]: Invalid apic_id %d, trying "
 +                      "%d\n", ioapic, apic_id, reg_00.bits.ID);
 +              apic_id = reg_00.bits.ID;
 +      }
 +
 +      /*
 +       * Every APIC in a system must have a unique ID or we get lots of nice
 +       * 'stuck on smp_invalidate_needed IPI wait' messages.
 +       */
 +      if (apic->check_apicid_used(apic_id_map, apic_id)) {
 +
 +              for (i = 0; i < get_physical_broadcast(); i++) {
 +                      if (!apic->check_apicid_used(apic_id_map, i))
 +                              break;
 +              }
 +
 +              if (i == get_physical_broadcast())
 +                      panic("Max apic_id exceeded!\n");
 +
 +              printk(KERN_WARNING "IOAPIC[%d]: apic_id %d already used, "
 +                      "trying %d\n", ioapic, apic_id, i);
 +
 +              apic_id = i;
 +      }
 +
 +      tmp = apic->apicid_to_cpu_present(apic_id);
 +      physids_or(apic_id_map, apic_id_map, tmp);
 +
 +      if (reg_00.bits.ID != apic_id) {
 +              reg_00.bits.ID = apic_id;
 +
 +              spin_lock_irqsave(&ioapic_lock, flags);
 +              io_apic_write(ioapic, 0, reg_00.raw);
 +              reg_00.raw = io_apic_read(ioapic, 0);
 +              spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +              /* Sanity check */
 +              if (reg_00.bits.ID != apic_id) {
 +                      printk("IOAPIC[%d]: Unable to change apic_id!\n", ioapic);
 +                      return -1;
 +              }
 +      }
 +
 +      apic_printk(APIC_VERBOSE, KERN_INFO
 +                      "IOAPIC[%d]: Assigned apic_id %d\n", ioapic, apic_id);
 +
 +      return apic_id;
 +}
 +
 +int __init io_apic_get_version(int ioapic)
 +{
 +      union IO_APIC_reg_01    reg_01;
 +      unsigned long flags;
 +
 +      spin_lock_irqsave(&ioapic_lock, flags);
 +      reg_01.raw = io_apic_read(ioapic, 1);
 +      spin_unlock_irqrestore(&ioapic_lock, flags);
 +
 +      return reg_01.bits.version;
 +}
 +#endif
 +
 +int io_apic_set_pci_routing (int ioapic, int pin, int irq, int triggering, int polarity)
 +{
 +      struct irq_desc *desc;
 +      struct irq_cfg *cfg;
 +      int cpu = boot_cpu_id;
 +
 +      if (!IO_APIC_IRQ(irq)) {
 +              apic_printk(APIC_QUIET,KERN_ERR "IOAPIC[%d]: Invalid reference to IRQ 0\n",
 +                      ioapic);
 +              return -EINVAL;
 +      }
 +
 +      desc = irq_to_desc_alloc_cpu(irq, cpu);
 +      if (!desc) {
 +              printk(KERN_INFO "can not get irq_desc %d\n", irq);
 +              return 0;
 +      }
 +
 +      /*
 +       * IRQs < 16 are already in the irq_2_pin[] map
 +       */
 +      if (irq >= NR_IRQS_LEGACY) {
 +              cfg = desc->chip_data;
 +              add_pin_to_irq_cpu(cfg, cpu, ioapic, pin);
 +      }
 +
 +      setup_IO_APIC_irq(ioapic, pin, irq, desc, triggering, polarity);
 +
 +      return 0;
 +}
 +
 +
 +int acpi_get_override_irq(int bus_irq, int *trigger, int *polarity)
 +{
 +      int i;
 +
 +      if (skip_ioapic_setup)
 +              return -1;
 +
 +      for (i = 0; i < mp_irq_entries; i++)
 +              if (mp_irqs[i].irqtype == mp_INT &&
 +                  mp_irqs[i].srcbusirq == bus_irq)
 +                      break;
 +      if (i >= mp_irq_entries)
 +              return -1;
 +
 +      *trigger = irq_trigger(i);
 +      *polarity = irq_polarity(i);
 +      return 0;
 +}
 +
 +#endif /* CONFIG_ACPI */
 +
 +/*
 + * This function currently is only a helper for the i386 smp boot process where
 + * we need to reprogram the ioredtbls to cater for the cpus which have come online
 + * so mask in all cases should simply be apic->target_cpus()
 + */
 +#ifdef CONFIG_SMP
 +void __init setup_ioapic_dest(void)
 +{
 +      int pin, ioapic, irq, irq_entry;
 +      struct irq_desc *desc;
 +      struct irq_cfg *cfg;
 +      const struct cpumask *mask;
 +
 +      if (skip_ioapic_setup == 1)
 +              return;
 +
 +      for (ioapic = 0; ioapic < nr_ioapics; ioapic++) {
 +              for (pin = 0; pin < nr_ioapic_registers[ioapic]; pin++) {
 +                      irq_entry = find_irq_entry(ioapic, pin, mp_INT);
 +                      if (irq_entry == -1)
 +                              continue;
 +                      irq = pin_2_irq(irq_entry, ioapic, pin);
 +
 +                      /* setup_IO_APIC_irqs could fail to get vector for some device
 +                       * when you have too many devices, because at that time only boot
 +                       * cpu is online.
 +                       */
 +                      desc = irq_to_desc(irq);
 +                      cfg = desc->chip_data;
 +                      if (!cfg->vector) {
 +                              setup_IO_APIC_irq(ioapic, pin, irq, desc,
 +                                                irq_trigger(irq_entry),
 +                                                irq_polarity(irq_entry));
 +                              continue;
 +
 +                      }
 +
 +                      /*
 +                       * Honour affinities which have been set in early boot
 +                       */
 +                      if (desc->status &
 +                          (IRQ_NO_BALANCING | IRQ_AFFINITY_SET))
 +                              mask = desc->affinity;
 +                      else
 +                              mask = apic->target_cpus();
 +
 +                      if (intr_remapping_enabled)
 +                              set_ir_ioapic_affinity_irq_desc(desc, mask);
 +                      else
 +                              set_ioapic_affinity_irq_desc(desc, mask);
 +              }
 +
 +      }
 +}
 +#endif
 +
 +#define IOAPIC_RESOURCE_NAME_SIZE 11
 +
 +static struct resource *ioapic_resources;
 +
 +static struct resource * __init ioapic_setup_resources(void)
 +{
 +      unsigned long n;
 +      struct resource *res;
 +      char *mem;
 +      int i;
 +
 +      if (nr_ioapics <= 0)
 +              return NULL;
 +
 +      n = IOAPIC_RESOURCE_NAME_SIZE + sizeof(struct resource);
 +      n *= nr_ioapics;
 +
 +      mem = alloc_bootmem(n);
 +      res = (void *)mem;
 +
 +      if (mem != NULL) {
 +              mem += sizeof(struct resource) * nr_ioapics;
 +
 +              for (i = 0; i < nr_ioapics; i++) {
 +                      res[i].name = mem;
 +                      res[i].flags = IORESOURCE_MEM | IORESOURCE_BUSY;
 +                      sprintf(mem,  "IOAPIC %u", i);
 +                      mem += IOAPIC_RESOURCE_NAME_SIZE;
 +              }
 +      }
 +
 +      ioapic_resources = res;
 +
 +      return res;
 +}
 +
 +void __init ioapic_init_mappings(void)
 +{
 +      unsigned long ioapic_phys, idx = FIX_IO_APIC_BASE_0;
 +      struct resource *ioapic_res;
 +      int i;
 +
 +      ioapic_res = ioapic_setup_resources();
 +      for (i = 0; i < nr_ioapics; i++) {
 +              if (smp_found_config) {
 +                      ioapic_phys = mp_ioapics[i].apicaddr;
 +#ifdef CONFIG_X86_32
 +                      if (!ioapic_phys) {
 +                              printk(KERN_ERR
 +                                     "WARNING: bogus zero IO-APIC "
 +                                     "address found in MPTABLE, "
 +                                     "disabling IO/APIC support!\n");
 +                              smp_found_config = 0;
 +                              skip_ioapic_setup = 1;
 +                              goto fake_ioapic_page;
 +                      }
 +#endif
 +              } else {
 +#ifdef CONFIG_X86_32
 +fake_ioapic_page:
 +#endif
 +                      ioapic_phys = (unsigned long)
 +                              alloc_bootmem_pages(PAGE_SIZE);
 +                      ioapic_phys = __pa(ioapic_phys);
 +              }
 +              set_fixmap_nocache(idx, ioapic_phys);
 +              apic_printk(APIC_VERBOSE,
 +                          "mapped IOAPIC to %08lx (%08lx)\n",
 +                          __fix_to_virt(idx), ioapic_phys);
 +              idx++;
 +
 +              if (ioapic_res != NULL) {
 +                      ioapic_res->start = ioapic_phys;
 +                      ioapic_res->end = ioapic_phys + (4 * 1024) - 1;
 +                      ioapic_res++;
 +              }
 +      }
 +}
 +
 +static int __init ioapic_insert_resources(void)
 +{
 +      int i;
 +      struct resource *r = ioapic_resources;
 +
 +      if (!r) {
 +              if (nr_ioapics > 0) {
 +                      printk(KERN_ERR
 +                              "IO APIC resources couldn't be allocated.\n");
 +                      return -1;
 +              }
 +              return 0;
 +      }
 +
 +      for (i = 0; i < nr_ioapics; i++) {
 +              insert_resource(&iomem_resource, r);
 +              r++;
 +      }
 +
 +      return 0;
 +}
 +
 +/* Insert the IO APIC resources after PCI initialization has occured to handle
 + * IO APICS that are mapped in on a BAR in PCI space. */
 +late_initcall(ioapic_insert_resources);
@@@ -1,5 -1,4 +1,5 @@@
  #include <linux/dma-mapping.h>
 +#include <linux/dma-debug.h>
  #include <linux/dmar.h>
  #include <linux/bootmem.h>
  #include <linux/pci.h>
@@@ -13,7 -12,7 +13,7 @@@
  
  static int forbid_dac __read_mostly;
  
 -struct dma_mapping_ops *dma_ops;
 +struct dma_map_ops *dma_ops;
  EXPORT_SYMBOL(dma_ops);
  
  static int iommu_sac_force __read_mostly;
@@@ -45,9 -44,6 +45,9 @@@ struct device x86_dma_fallback_dev = 
  };
  EXPORT_SYMBOL(x86_dma_fallback_dev);
  
 +/* Number of entries preallocated for DMA-API debugging */
 +#define PREALLOC_DMA_DEBUG_ENTRIES       32768
 +
  int dma_set_mask(struct device *dev, u64 mask)
  {
        if (!dev->dma_mask || !dma_supported(dev, mask))
@@@ -228,7 -224,7 +228,7 @@@ early_param("iommu", iommu_setup)
  
  int dma_supported(struct device *dev, u64 mask)
  {
 -      struct dma_mapping_ops *ops = get_dma_ops(dev);
 +      struct dma_map_ops *ops = get_dma_ops(dev);
  
  #ifdef CONFIG_PCI
        if (mask > 0xffffffff && forbid_dac > 0) {
@@@ -269,12 -265,6 +269,12 @@@ EXPORT_SYMBOL(dma_supported)
  
  static int __init pci_iommu_init(void)
  {
 +      dma_debug_init(PREALLOC_DMA_DEBUG_ENTRIES);
 +
 +#ifdef CONFIG_PCI
 +      dma_debug_add_bus(&pci_bus_type);
 +#endif
 +
        calgary_iommu_init();
  
        intel_iommu_init();
@@@ -300,8 -290,7 +300,7 @@@ fs_initcall(pci_iommu_init)
  static __devinit void via_no_dac(struct pci_dev *dev)
  {
        if ((dev->class >> 8) == PCI_CLASS_BRIDGE_PCI && forbid_dac == 0) {
-               printk(KERN_INFO
-                       "PCI: VIA PCI bridge detected. Disabling DAC.\n");
+               dev_info(&dev->dev, "disabling DAC on VIA PCI bridge\n");
                forbid_dac = 1;
        }
  }
diff --combined arch/x86/pci/fixup.c
@@@ -356,7 -356,7 +356,7 @@@ static void __devinit pci_fixup_video(s
  DECLARE_PCI_FIXUP_FINAL(PCI_ANY_ID, PCI_ANY_ID, pci_fixup_video);
  
  
 -static struct dmi_system_id __devinitdata msi_k8t_dmi_table[] = {
 +static const struct dmi_system_id __devinitconst msi_k8t_dmi_table[] = {
        {
                .ident = "MSI-K8T-Neo2Fir",
                .matches = {
@@@ -413,7 -413,7 +413,7 @@@ DECLARE_PCI_FIXUP_RESUME(PCI_VENDOR_ID_
   */
  static u16 toshiba_line_size;
  
 -static struct dmi_system_id __devinitdata toshiba_ohci1394_dmi_table[] = {
 +static const struct dmi_system_id __devinitconst toshiba_ohci1394_dmi_table[] = {
        {
                .ident = "Toshiba PS5 based laptop",
                .matches = {
@@@ -495,26 -495,6 +495,6 @@@ DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_
                          pci_siemens_interrupt_controller);
  
  /*
-  * Regular PCI devices have 256 bytes, but AMD Family 10h/11h CPUs have
-  * 4096 bytes configuration space for each function of their processor
-  * configuration space.
-  */
- static void amd_cpu_pci_cfg_space_size(struct pci_dev *dev)
- {
-       dev->cfg_size = pci_cfg_space_size_ext(dev);
- }
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1200, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1201, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1202, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1203, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1204, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1300, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1301, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1302, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1303, amd_cpu_pci_cfg_space_size);
- DECLARE_PCI_FIXUP_HEADER(PCI_VENDOR_ID_AMD, 0x1304, amd_cpu_pci_cfg_space_size);
- /*
   * SB600: Disable BAR1 on device 14.0 to avoid HPET resources from
   * confusing the PCI engine:
   */
@@@ -1004,6 -1004,194 +1004,6 @@@ static int iommu_disable_translation(st
        return 0;
  }
  
 -/* iommu interrupt handling. Most stuff are MSI-like. */
 -
 -static const char *fault_reason_strings[] =
 -{
 -      "Software",
 -      "Present bit in root entry is clear",
 -      "Present bit in context entry is clear",
 -      "Invalid context entry",
 -      "Access beyond MGAW",
 -      "PTE Write access is not set",
 -      "PTE Read access is not set",
 -      "Next page table ptr is invalid",
 -      "Root table address invalid",
 -      "Context table ptr is invalid",
 -      "non-zero reserved fields in RTP",
 -      "non-zero reserved fields in CTP",
 -      "non-zero reserved fields in PTE",
 -};
 -#define MAX_FAULT_REASON_IDX  (ARRAY_SIZE(fault_reason_strings) - 1)
 -
 -const char *dmar_get_fault_reason(u8 fault_reason)
 -{
 -      if (fault_reason > MAX_FAULT_REASON_IDX)
 -              return "Unknown";
 -      else
 -              return fault_reason_strings[fault_reason];
 -}
 -
 -void dmar_msi_unmask(unsigned int irq)
 -{
 -      struct intel_iommu *iommu = get_irq_data(irq);
 -      unsigned long flag;
 -
 -      /* unmask it */
 -      spin_lock_irqsave(&iommu->register_lock, flag);
 -      writel(0, iommu->reg + DMAR_FECTL_REG);
 -      /* Read a reg to force flush the post write */
 -      readl(iommu->reg + DMAR_FECTL_REG);
 -      spin_unlock_irqrestore(&iommu->register_lock, flag);
 -}
 -
 -void dmar_msi_mask(unsigned int irq)
 -{
 -      unsigned long flag;
 -      struct intel_iommu *iommu = get_irq_data(irq);
 -
 -      /* mask it */
 -      spin_lock_irqsave(&iommu->register_lock, flag);
 -      writel(DMA_FECTL_IM, iommu->reg + DMAR_FECTL_REG);
 -      /* Read a reg to force flush the post write */
 -      readl(iommu->reg + DMAR_FECTL_REG);
 -      spin_unlock_irqrestore(&iommu->register_lock, flag);
 -}
 -
 -void dmar_msi_write(int irq, struct msi_msg *msg)
 -{
 -      struct intel_iommu *iommu = get_irq_data(irq);
 -      unsigned long flag;
 -
 -      spin_lock_irqsave(&iommu->register_lock, flag);
 -      writel(msg->data, iommu->reg + DMAR_FEDATA_REG);
 -      writel(msg->address_lo, iommu->reg + DMAR_FEADDR_REG);
 -      writel(msg->address_hi, iommu->reg + DMAR_FEUADDR_REG);
 -      spin_unlock_irqrestore(&iommu->register_lock, flag);
 -}
 -
 -void dmar_msi_read(int irq, struct msi_msg *msg)
 -{
 -      struct intel_iommu *iommu = get_irq_data(irq);
 -      unsigned long flag;
 -
 -      spin_lock_irqsave(&iommu->register_lock, flag);
 -      msg->data = readl(iommu->reg + DMAR_FEDATA_REG);
 -      msg->address_lo = readl(iommu->reg + DMAR_FEADDR_REG);
 -      msg->address_hi = readl(iommu->reg + DMAR_FEUADDR_REG);
 -      spin_unlock_irqrestore(&iommu->register_lock, flag);
 -}
 -
 -static int iommu_page_fault_do_one(struct intel_iommu *iommu, int type,
 -              u8 fault_reason, u16 source_id, unsigned long long addr)
 -{
 -      const char *reason;
 -
 -      reason = dmar_get_fault_reason(fault_reason);
 -
 -      printk(KERN_ERR
 -              "DMAR:[%s] Request device [%02x:%02x.%d] "
 -              "fault addr %llx \n"
 -              "DMAR:[fault reason %02d] %s\n",
 -              (type ? "DMA Read" : "DMA Write"),
 -              (source_id >> 8), PCI_SLOT(source_id & 0xFF),
 -              PCI_FUNC(source_id & 0xFF), addr, fault_reason, reason);
 -      return 0;
 -}
 -
 -#define PRIMARY_FAULT_REG_LEN (16)
 -static irqreturn_t iommu_page_fault(int irq, void *dev_id)
 -{
 -      struct intel_iommu *iommu = dev_id;
 -      int reg, fault_index;
 -      u32 fault_status;
 -      unsigned long flag;
 -
 -      spin_lock_irqsave(&iommu->register_lock, flag);
 -      fault_status = readl(iommu->reg + DMAR_FSTS_REG);
 -
 -      /* TBD: ignore advanced fault log currently */
 -      if (!(fault_status & DMA_FSTS_PPF))
 -              goto clear_overflow;
 -
 -      fault_index = dma_fsts_fault_record_index(fault_status);
 -      reg = cap_fault_reg_offset(iommu->cap);
 -      while (1) {
 -              u8 fault_reason;
 -              u16 source_id;
 -              u64 guest_addr;
 -              int type;
 -              u32 data;
 -
 -              /* highest 32 bits */
 -              data = readl(iommu->reg + reg +
 -                              fault_index * PRIMARY_FAULT_REG_LEN + 12);
 -              if (!(data & DMA_FRCD_F))
 -                      break;
 -
 -              fault_reason = dma_frcd_fault_reason(data);
 -              type = dma_frcd_type(data);
 -
 -              data = readl(iommu->reg + reg +
 -                              fault_index * PRIMARY_FAULT_REG_LEN + 8);
 -              source_id = dma_frcd_source_id(data);
 -
 -              guest_addr = dmar_readq(iommu->reg + reg +
 -                              fault_index * PRIMARY_FAULT_REG_LEN);
 -              guest_addr = dma_frcd_page_addr(guest_addr);
 -              /* clear the fault */
 -              writel(DMA_FRCD_F, iommu->reg + reg +
 -                      fault_index * PRIMARY_FAULT_REG_LEN + 12);
 -
 -              spin_unlock_irqrestore(&iommu->register_lock, flag);
 -
 -              iommu_page_fault_do_one(iommu, type, fault_reason,
 -                              source_id, guest_addr);
 -
 -              fault_index++;
 -              if (fault_index > cap_num_fault_regs(iommu->cap))
 -                      fault_index = 0;
 -              spin_lock_irqsave(&iommu->register_lock, flag);
 -      }
 -clear_overflow:
 -      /* clear primary fault overflow */
 -      fault_status = readl(iommu->reg + DMAR_FSTS_REG);
 -      if (fault_status & DMA_FSTS_PFO)
 -              writel(DMA_FSTS_PFO, iommu->reg + DMAR_FSTS_REG);
 -
 -      spin_unlock_irqrestore(&iommu->register_lock, flag);
 -      return IRQ_HANDLED;
 -}
 -
 -int dmar_set_interrupt(struct intel_iommu *iommu)
 -{
 -      int irq, ret;
 -
 -      irq = create_irq();
 -      if (!irq) {
 -              printk(KERN_ERR "IOMMU: no free vectors\n");
 -              return -EINVAL;
 -      }
 -
 -      set_irq_data(irq, iommu);
 -      iommu->irq = irq;
 -
 -      ret = arch_setup_dmar_msi(irq);
 -      if (ret) {
 -              set_irq_data(irq, NULL);
 -              iommu->irq = 0;
 -              destroy_irq(irq);
 -              return 0;
 -      }
 -
 -      /* Force fault register is cleared */
 -      iommu_page_fault(irq, iommu);
 -
 -      ret = request_irq(irq, iommu_page_fault, 0, iommu->name, iommu);
 -      if (ret)
 -              printk(KERN_ERR "IOMMU: can't request irq\n");
 -      return ret;
 -}
  
  static int iommu_init_domains(struct intel_iommu *iommu)
  {
@@@ -1782,7 -1970,7 +1782,7 @@@ static inline void iommu_prepare_isa(vo
        ret = iommu_prepare_identity_map(pdev, 0, 16*1024*1024);
  
        if (ret)
-               printk("IOMMU: Failed to create 0-64M identity map, "
+               printk(KERN_ERR "IOMMU: Failed to create 0-64M identity map, "
                        "floppy might not work\n");
  
  }
@@@ -1799,7 -1987,7 +1799,7 @@@ static int __init init_dmars(void
        struct dmar_rmrr_unit *rmrr;
        struct pci_dev *pdev;
        struct intel_iommu *iommu;
 -      int i, ret, unit = 0;
 +      int i, ret;
  
        /*
         * for each drhd
                }
        }
  
 +      /*
 +       * Start from the sane iommu hardware state.
 +       */
        for_each_drhd_unit(drhd) {
                if (drhd->ignored)
                        continue;
  
                iommu = drhd->iommu;
 +
 +              /*
 +               * If the queued invalidation is already initialized by us
 +               * (for example, while enabling interrupt-remapping) then
 +               * we got the things already rolling from a sane state.
 +               */
 +              if (iommu->qi)
 +                      continue;
 +
 +              /*
 +               * Clear any previous faults.
 +               */
 +              dmar_fault(-1, iommu);
 +              /*
 +               * Disable queued invalidation if supported and already enabled
 +               * before OS handover.
 +               */
 +              dmar_disable_qi(iommu);
 +      }
 +
 +      for_each_drhd_unit(drhd) {
 +              if (drhd->ignored)
 +                      continue;
 +
 +              iommu = drhd->iommu;
 +
                if (dmar_enable_qi(iommu)) {
                        /*
                         * Queued Invalidate not enabled, use Register Based
                if (drhd->ignored)
                        continue;
                iommu = drhd->iommu;
 -              sprintf (iommu->name, "dmar%d", unit++);
  
                iommu_flush_write_buffer(iommu);
  
@@@ -2124,13 -2284,11 +2124,13 @@@ error
        return 0;
  }
  
 -dma_addr_t intel_map_single(struct device *hwdev, phys_addr_t paddr,
 -                          size_t size, int dir)
 +static dma_addr_t intel_map_page(struct device *dev, struct page *page,
 +                               unsigned long offset, size_t size,
 +                               enum dma_data_direction dir,
 +                               struct dma_attrs *attrs)
  {
 -      return __intel_map_single(hwdev, paddr, size, dir,
 -                                to_pci_dev(hwdev)->dma_mask);
 +      return __intel_map_single(dev, page_to_phys(page) + offset, size,
 +                                dir, to_pci_dev(dev)->dma_mask);
  }
  
  static void flush_unmaps(void)
@@@ -2194,9 -2352,8 +2194,9 @@@ static void add_unmap(struct dmar_domai
        spin_unlock_irqrestore(&async_umap_flush_lock, flags);
  }
  
 -void intel_unmap_single(struct device *dev, dma_addr_t dev_addr, size_t size,
 -                      int dir)
 +static void intel_unmap_page(struct device *dev, dma_addr_t dev_addr,
 +                           size_t size, enum dma_data_direction dir,
 +                           struct dma_attrs *attrs)
  {
        struct pci_dev *pdev = to_pci_dev(dev);
        struct dmar_domain *domain;
        }
  }
  
 -void *intel_alloc_coherent(struct device *hwdev, size_t size,
 -                         dma_addr_t *dma_handle, gfp_t flags)
 +static void intel_unmap_single(struct device *dev, dma_addr_t dev_addr, size_t size,
 +                             int dir)
 +{
 +      intel_unmap_page(dev, dev_addr, size, dir, NULL);
 +}
 +
 +static void *intel_alloc_coherent(struct device *hwdev, size_t size,
 +                                dma_addr_t *dma_handle, gfp_t flags)
  {
        void *vaddr;
        int order;
        return NULL;
  }
  
 -void intel_free_coherent(struct device *hwdev, size_t size, void *vaddr,
 -                       dma_addr_t dma_handle)
 +static void intel_free_coherent(struct device *hwdev, size_t size, void *vaddr,
 +                              dma_addr_t dma_handle)
  {
        int order;
  
  
  #define SG_ENT_VIRT_ADDRESS(sg)       (sg_virt((sg)))
  
 -void intel_unmap_sg(struct device *hwdev, struct scatterlist *sglist,
 -                  int nelems, int dir)
 +static void intel_unmap_sg(struct device *hwdev, struct scatterlist *sglist,
 +                         int nelems, enum dma_data_direction dir,
 +                         struct dma_attrs *attrs)
  {
        int i;
        struct pci_dev *pdev = to_pci_dev(hwdev);
@@@ -2343,8 -2493,8 +2343,8 @@@ static int intel_nontranslate_map_sg(st
        return nelems;
  }
  
 -int intel_map_sg(struct device *hwdev, struct scatterlist *sglist, int nelems,
 -               int dir)
 +static int intel_map_sg(struct device *hwdev, struct scatterlist *sglist, int nelems,
 +                      enum dma_data_direction dir, struct dma_attrs *attrs)
  {
        void *addr;
        int i;
        return nelems;
  }
  
 -static struct dma_mapping_ops intel_dma_ops = {
 +static int intel_mapping_error(struct device *dev, dma_addr_t dma_addr)
 +{
 +      return !dma_addr;
 +}
 +
 +struct dma_map_ops intel_dma_ops = {
        .alloc_coherent = intel_alloc_coherent,
        .free_coherent = intel_free_coherent,
 -      .map_single = intel_map_single,
 -      .unmap_single = intel_unmap_single,
        .map_sg = intel_map_sg,
        .unmap_sg = intel_unmap_sg,
 +      .map_page = intel_map_page,
 +      .unmap_page = intel_unmap_page,
 +      .mapping_error = intel_mapping_error,
  };
  
  static inline int iommu_domain_cache_init(void)
diff --combined drivers/pci/pci-driver.c
@@@ -99,6 -99,52 +99,52 @@@ store_new_id(struct device_driver *driv
  }
  static DRIVER_ATTR(new_id, S_IWUSR, NULL, store_new_id);
  
+ /**
+  * store_remove_id - remove a PCI device ID from this driver
+  * @driver: target device driver
+  * @buf: buffer for scanning device ID data
+  * @count: input size
+  *
+  * Removes a dynamic pci device ID to this driver.
+  */
+ static ssize_t
+ store_remove_id(struct device_driver *driver, const char *buf, size_t count)
+ {
+       struct pci_dynid *dynid, *n;
+       struct pci_driver *pdrv = to_pci_driver(driver);
+       __u32 vendor, device, subvendor = PCI_ANY_ID,
+               subdevice = PCI_ANY_ID, class = 0, class_mask = 0;
+       int fields = 0;
+       int retval = -ENODEV;
+       fields = sscanf(buf, "%x %x %x %x %x %x",
+                       &vendor, &device, &subvendor, &subdevice,
+                       &class, &class_mask);
+       if (fields < 2)
+               return -EINVAL;
+       spin_lock(&pdrv->dynids.lock);
+       list_for_each_entry_safe(dynid, n, &pdrv->dynids.list, node) {
+               struct pci_device_id *id = &dynid->id;
+               if ((id->vendor == vendor) &&
+                   (id->device == device) &&
+                   (subvendor == PCI_ANY_ID || id->subvendor == subvendor) &&
+                   (subdevice == PCI_ANY_ID || id->subdevice == subdevice) &&
+                   !((id->class ^ class) & class_mask)) {
+                       list_del(&dynid->node);
+                       kfree(dynid);
+                       retval = 0;
+                       break;
+               }
+       }
+       spin_unlock(&pdrv->dynids.lock);
+       if (retval)
+               return retval;
+       return count;
+ }
+ static DRIVER_ATTR(remove_id, S_IWUSR, NULL, store_remove_id);
  static void
  pci_free_dynids(struct pci_driver *drv)
  {
@@@ -125,6 -171,20 +171,20 @@@ static void pci_remove_newid_file(struc
  {
        driver_remove_file(&drv->driver, &driver_attr_new_id);
  }
+ static int
+ pci_create_removeid_file(struct pci_driver *drv)
+ {
+       int error = 0;
+       if (drv->probe != NULL)
+               error = driver_create_file(&drv->driver,&driver_attr_remove_id);
+       return error;
+ }
+ static void pci_remove_removeid_file(struct pci_driver *drv)
+ {
+       driver_remove_file(&drv->driver, &driver_attr_remove_id);
+ }
  #else /* !CONFIG_HOTPLUG */
  static inline void pci_free_dynids(struct pci_driver *drv) {}
  static inline int pci_create_newid_file(struct pci_driver *drv)
        return 0;
  }
  static inline void pci_remove_newid_file(struct pci_driver *drv) {}
+ static inline int pci_create_removeid_file(struct pci_driver *drv)
+ {
+       return 0;
+ }
+ static inline void pci_remove_removeid_file(struct pci_driver *drv) {}
  #endif
  
  /**
@@@ -352,60 -417,53 +417,60 @@@ static int pci_legacy_suspend(struct de
  {
        struct pci_dev * pci_dev = to_pci_dev(dev);
        struct pci_driver * drv = pci_dev->driver;
 -      int i = 0;
 +
 +      pci_dev->state_saved = false;
  
        if (drv && drv->suspend) {
                pci_power_t prev = pci_dev->current_state;
 +              int error;
  
 -              pci_dev->state_saved = false;
 -
 -              i = drv->suspend(pci_dev, state);
 -              suspend_report_result(drv->suspend, i);
 -              if (i)
 -                      return i;
 -
 -              if (pci_dev->state_saved)
 -                      goto Fixup;
 +              error = drv->suspend(pci_dev, state);
 +              suspend_report_result(drv->suspend, error);
 +              if (error)
 +                      return error;
  
 -              if (pci_dev->current_state != PCI_D0
 +              if (!pci_dev->state_saved && pci_dev->current_state != PCI_D0
                    && pci_dev->current_state != PCI_UNKNOWN) {
                        WARN_ONCE(pci_dev->current_state != prev,
                                "PCI PM: Device state not saved by %pF\n",
                                drv->suspend);
                }
        }
  
 -      pci_save_state(pci_dev);
 -      /*
 -       * This is for compatibility with existing code with legacy PM support.
 -       */
 -      pci_pm_set_unknown_state(pci_dev);
 -
 - Fixup:
        pci_fixup_device(pci_fixup_suspend, pci_dev);
  
 -      return i;
 +      return 0;
  }
  
  static int pci_legacy_suspend_late(struct device *dev, pm_message_t state)
  {
        struct pci_dev * pci_dev = to_pci_dev(dev);
        struct pci_driver * drv = pci_dev->driver;
 -      int i = 0;
  
        if (drv && drv->suspend_late) {
 -              i = drv->suspend_late(pci_dev, state);
 -              suspend_report_result(drv->suspend_late, i);
 +              pci_power_t prev = pci_dev->current_state;
 +              int error;
 +
 +              error = drv->suspend_late(pci_dev, state);
 +              suspend_report_result(drv->suspend_late, error);
 +              if (error)
 +                      return error;
 +
 +              if (!pci_dev->state_saved && pci_dev->current_state != PCI_D0
 +                  && pci_dev->current_state != PCI_UNKNOWN) {
 +                      WARN_ONCE(pci_dev->current_state != prev,
 +                              "PCI PM: Device state not saved by %pF\n",
 +                              drv->suspend_late);
 +                      return 0;
 +              }
        }
 -      return i;
 +
 +      if (!pci_dev->state_saved)
 +              pci_save_state(pci_dev);
 +
 +      pci_pm_set_unknown_state(pci_dev);
 +
 +      return 0;
  }
  
  static int pci_legacy_resume_early(struct device *dev)
@@@ -430,23 -488,6 +495,23 @@@ static int pci_legacy_resume(struct dev
  
  /* Auxiliary functions used by the new power management framework */
  
 +/**
 + * pci_restore_standard_config - restore standard config registers of PCI device
 + * @pci_dev: PCI device to handle
 + */
 +static int pci_restore_standard_config(struct pci_dev *pci_dev)
 +{
 +      pci_update_current_state(pci_dev, PCI_UNKNOWN);
 +
 +      if (pci_dev->current_state != PCI_D0) {
 +              int error = pci_set_power_state(pci_dev, PCI_D0);
 +              if (error)
 +                      return error;
 +      }
 +
 +      return pci_dev->state_saved ? pci_restore_state(pci_dev) : 0;
 +}
 +
  static void pci_pm_default_resume_noirq(struct pci_dev *pci_dev)
  {
        pci_restore_standard_config(pci_dev);
@@@ -467,6 -508,7 +532,6 @@@ static void pci_pm_default_suspend(stru
        /* Disable non-bridge devices without PM support */
        if (!pci_is_bridge(pci_dev))
                pci_disable_enabled_device(pci_dev);
 -      pci_save_state(pci_dev);
  }
  
  static bool pci_has_legacy_pm_support(struct pci_dev *pci_dev)
@@@ -516,13 -558,13 +581,13 @@@ static int pci_pm_suspend(struct devic
        if (pci_has_legacy_pm_support(pci_dev))
                return pci_legacy_suspend(dev, PMSG_SUSPEND);
  
 +      pci_dev->state_saved = false;
 +
        if (!pm) {
                pci_pm_default_suspend(pci_dev);
                goto Fixup;
        }
  
 -      pci_dev->state_saved = false;
 -
        if (pm->suspend) {
                pci_power_t prev = pci_dev->current_state;
                int error;
                if (error)
                        return error;
  
 -              if (pci_dev->state_saved)
 -                      goto Fixup;
 -
 -              if (pci_dev->current_state != PCI_D0
 +              if (!pci_dev->state_saved && pci_dev->current_state != PCI_D0
                    && pci_dev->current_state != PCI_UNKNOWN) {
                        WARN_ONCE(pci_dev->current_state != prev,
                                "PCI PM: State of device not saved by %pF\n",
                                pm->suspend);
                }
        }
  
 -      if (!pci_dev->state_saved) {
 -              pci_save_state(pci_dev);
 -              if (!pci_is_bridge(pci_dev))
 -                      pci_prepare_to_sleep(pci_dev);
 -      }
 -
   Fixup:
        pci_fixup_device(pci_fixup_suspend, pci_dev);
  
  static int pci_pm_suspend_noirq(struct device *dev)
  {
        struct pci_dev *pci_dev = to_pci_dev(dev);
 -      struct device_driver *drv = dev->driver;
 -      int error = 0;
 +      struct dev_pm_ops *pm = dev->driver ? dev->driver->pm : NULL;
  
        if (pci_has_legacy_pm_support(pci_dev))
                return pci_legacy_suspend_late(dev, PMSG_SUSPEND);
  
 -      if (drv && drv->pm && drv->pm->suspend_noirq) {
 -              error = drv->pm->suspend_noirq(dev);
 -              suspend_report_result(drv->pm->suspend_noirq, error);
 +      if (!pm) {
 +              pci_save_state(pci_dev);
 +              return 0;
        }
  
 -      if (!error)
 -              pci_pm_set_unknown_state(pci_dev);
 +      if (pm->suspend_noirq) {
 +              pci_power_t prev = pci_dev->current_state;
 +              int error;
  
 -      return error;
 +              error = pm->suspend_noirq(dev);
 +              suspend_report_result(pm->suspend_noirq, error);
 +              if (error)
 +                      return error;
 +
 +              if (!pci_dev->state_saved && pci_dev->current_state != PCI_D0
 +                  && pci_dev->current_state != PCI_UNKNOWN) {
 +                      WARN_ONCE(pci_dev->current_state != prev,
 +                              "PCI PM: State of device not saved by %pF\n",
 +                              pm->suspend_noirq);
 +                      return 0;
 +              }
 +      }
 +
 +      if (!pci_dev->state_saved) {
 +              pci_save_state(pci_dev);
 +              if (!pci_is_bridge(pci_dev))
 +                      pci_prepare_to_sleep(pci_dev);
 +      }
 +
 +      pci_pm_set_unknown_state(pci_dev);
 +
 +      return 0;
  }
  
  static int pci_pm_resume_noirq(struct device *dev)
@@@ -652,13 -682,13 +717,13 @@@ static int pci_pm_freeze(struct device 
        if (pci_has_legacy_pm_support(pci_dev))
                return pci_legacy_suspend(dev, PMSG_FREEZE);
  
 +      pci_dev->state_saved = false;
 +
        if (!pm) {
                pci_pm_default_suspend(pci_dev);
                return 0;
        }
  
 -      pci_dev->state_saved = false;
 -
        if (pm->freeze) {
                int error;
  
                        return error;
        }
  
 -      if (!pci_dev->state_saved)
 -              pci_save_state(pci_dev);
 -
        return 0;
  }
  
@@@ -675,25 -708,20 +740,25 @@@ static int pci_pm_freeze_noirq(struct d
  {
        struct pci_dev *pci_dev = to_pci_dev(dev);
        struct device_driver *drv = dev->driver;
 -      int error = 0;
  
        if (pci_has_legacy_pm_support(pci_dev))
                return pci_legacy_suspend_late(dev, PMSG_FREEZE);
  
        if (drv && drv->pm && drv->pm->freeze_noirq) {
 +              int error;
 +
                error = drv->pm->freeze_noirq(dev);
                suspend_report_result(drv->pm->freeze_noirq, error);
 +              if (error)
 +                      return error;
        }
  
 -      if (!error)
 -              pci_pm_set_unknown_state(pci_dev);
 +      if (!pci_dev->state_saved)
 +              pci_save_state(pci_dev);
  
 -      return error;
 +      pci_pm_set_unknown_state(pci_dev);
 +
 +      return 0;
  }
  
  static int pci_pm_thaw_noirq(struct device *dev)
@@@ -736,56 -764,46 +801,56 @@@ static int pci_pm_poweroff(struct devic
  {
        struct pci_dev *pci_dev = to_pci_dev(dev);
        struct dev_pm_ops *pm = dev->driver ? dev->driver->pm : NULL;
 -      int error = 0;
  
        if (pci_has_legacy_pm_support(pci_dev))
                return pci_legacy_suspend(dev, PMSG_HIBERNATE);
  
 +      pci_dev->state_saved = false;
 +
        if (!pm) {
                pci_pm_default_suspend(pci_dev);
                goto Fixup;
        }
  
 -      pci_dev->state_saved = false;
 -
        if (pm->poweroff) {
 +              int error;
 +
                error = pm->poweroff(dev);
                suspend_report_result(pm->poweroff, error);
 +              if (error)
 +                      return error;
        }
  
   Fixup:
        pci_fixup_device(pci_fixup_suspend, pci_dev);
  
 -      return error;
 +      return 0;
  }
  
  static int pci_pm_poweroff_noirq(struct device *dev)
  {
 +      struct pci_dev *pci_dev = to_pci_dev(dev);
        struct device_driver *drv = dev->driver;
 -      int error = 0;
  
        if (pci_has_legacy_pm_support(to_pci_dev(dev)))
                return pci_legacy_suspend_late(dev, PMSG_HIBERNATE);
  
 -      if (drv && drv->pm && drv->pm->poweroff_noirq) {
 +      if (!drv || !drv->pm)
 +              return 0;
 +
 +      if (drv->pm->poweroff_noirq) {
 +              int error;
 +
                error = drv->pm->poweroff_noirq(dev);
                suspend_report_result(drv->pm->poweroff_noirq, error);
 +              if (error)
 +                      return error;
        }
  
 -      return error;
 +      if (!pci_dev->state_saved && !pci_is_bridge(pci_dev))
 +              pci_prepare_to_sleep(pci_dev);
 +
 +      return 0;
  }
  
  static int pci_pm_restore_noirq(struct device *dev)
@@@ -899,13 -917,23 +964,23 @@@ int __pci_register_driver(struct pci_dr
        /* register with core */
        error = driver_register(&drv->driver);
        if (error)
-               return error;
+               goto out;
  
        error = pci_create_newid_file(drv);
        if (error)
-               driver_unregister(&drv->driver);
+               goto out_newid;
  
+       error = pci_create_removeid_file(drv);
+       if (error)
+               goto out_removeid;
+ out:
        return error;
+ out_removeid:
+       pci_remove_newid_file(drv);
+ out_newid:
+       driver_unregister(&drv->driver);
+       goto out;
  }
  
  /**
  void
  pci_unregister_driver(struct pci_driver *drv)
  {
+       pci_remove_removeid_file(drv);
        pci_remove_newid_file(drv);
        driver_unregister(&drv->driver);
        pci_free_dynids(drv);
@@@ -1020,6 -1049,7 +1096,7 @@@ struct bus_type pci_bus_type = 
        .remove         = pci_device_remove,
        .shutdown       = pci_device_shutdown,
        .dev_attrs      = pci_dev_attrs,
+       .bus_attrs      = pci_bus_attrs,
        .pm             = PCI_PM_OPS_PTR,
  };
  
diff --combined drivers/pci/pci.c
@@@ -20,6 -20,8 +20,8 @@@
  #include <linux/pm_wakeup.h>
  #include <linux/interrupt.h>
  #include <asm/dma.h>  /* isa_dma_bridge_buggy */
+ #include <linux/device.h>
+ #include <asm/setup.h>
  #include "pci.h"
  
  unsigned int pci_pm_d3_delay = PCI_PM_D3_WAIT;
@@@ -426,6 -428,7 +428,6 @@@ static inline int platform_pci_sleep_wa
   *                           given PCI device
   * @dev: PCI device to handle.
   * @state: PCI power state (D0, D1, D2, D3hot) to put the device into.
 - * @wait: If 'true', wait for the device to change its power state
   *
   * RETURN VALUE:
   * -EINVAL if the requested state is invalid.
   * 0 if device already is in the requested state.
   * 0 if device's power state has been successfully changed.
   */
 -static int
 -pci_raw_set_power_state(struct pci_dev *dev, pci_power_t state, bool wait)
 +static int pci_raw_set_power_state(struct pci_dev *dev, pci_power_t state)
  {
        u16 pmcsr;
        bool need_restore = false;
  
 +      /* Check if we're already there */
 +      if (dev->current_state == state)
 +              return 0;
 +
        if (!dev->pm_cap)
                return -EIO;
  
         * Can enter D0 from any state, but if we can only go deeper 
         * to sleep if we're already in a low power state
         */
 -      if (dev->current_state == state) {
 -              /* we're already there */
 -              return 0;
 -      } else if (state != PCI_D0 && dev->current_state <= PCI_D3cold
 +      if (state != PCI_D0 && dev->current_state <= PCI_D3cold
            && dev->current_state > state) {
                dev_err(&dev->dev, "invalid power transition "
                        "(from state %d to %d)\n", dev->current_state, state);
                break;
        case PCI_UNKNOWN: /* Boot-up */
                if ((pmcsr & PCI_PM_CTRL_STATE_MASK) == PCI_D3hot
 -               && !(pmcsr & PCI_PM_CTRL_NO_SOFT_RESET)) {
 +               && !(pmcsr & PCI_PM_CTRL_NO_SOFT_RESET))
                        need_restore = true;
 -                      wait = true;
 -              }
                /* Fall-through: force to D0 */
        default:
                pmcsr = 0;
        /* enter specified state */
        pci_write_config_word(dev, dev->pm_cap + PCI_PM_CTRL, pmcsr);
  
 -      if (!wait)
 -              return 0;
 -
        /* Mandatory power management transition delays */
        /* see PCI PM 1.1 5.6.1 table 18 */
        if (state == PCI_D3hot || dev->current_state == PCI_D3hot)
        if (need_restore)
                pci_restore_bars(dev);
  
 -      if (wait && dev->bus->self)
 +      if (dev->bus->self)
                pcie_aspm_pm_state_change(dev->bus->self);
  
        return 0;
@@@ -540,53 -548,6 +542,53 @@@ void pci_update_current_state(struct pc
  }
  
  /**
 + * pci_platform_power_transition - Use platform to change device power state
 + * @dev: PCI device to handle.
 + * @state: State to put the device into.
 + */
 +static int pci_platform_power_transition(struct pci_dev *dev, pci_power_t state)
 +{
 +      int error;
 +
 +      if (platform_pci_power_manageable(dev)) {
 +              error = platform_pci_set_power_state(dev, state);
 +              if (!error)
 +                      pci_update_current_state(dev, state);
 +      } else {
 +              error = -ENODEV;
 +              /* Fall back to PCI_D0 if native PM is not supported */
 +              pci_update_current_state(dev, PCI_D0);
 +      }
 +
 +      return error;
 +}
 +
 +/**
 + * __pci_start_power_transition - Start power transition of a PCI device
 + * @dev: PCI device to handle.
 + * @state: State to put the device into.
 + */
 +static void __pci_start_power_transition(struct pci_dev *dev, pci_power_t state)
 +{
 +      if (state == PCI_D0)
 +              pci_platform_power_transition(dev, PCI_D0);
 +}
 +
 +/**
 + * __pci_complete_power_transition - Complete power transition of a PCI device
 + * @dev: PCI device to handle.
 + * @state: State to put the device into.
 + *
 + * This function should not be called directly by device drivers.
 + */
 +int __pci_complete_power_transition(struct pci_dev *dev, pci_power_t state)
 +{
 +      return state > PCI_D0 ?
 +                      pci_platform_power_transition(dev, state) : -EINVAL;
 +}
 +EXPORT_SYMBOL_GPL(__pci_complete_power_transition);
 +
 +/**
   * pci_set_power_state - Set the power state of a PCI device
   * @dev: PCI device to handle.
   * @state: PCI power state (D0, D1, D2, D3hot) to put the device into.
@@@ -618,21 -579,30 +620,21 @@@ int pci_set_power_state(struct pci_dev 
                 */
                return 0;
  
 -      if (state == PCI_D0 && platform_pci_power_manageable(dev)) {
 -              /*
 -               * Allow the platform to change the state, for example via ACPI
 -               * _PR0, _PS0 and some such, but do not trust it.
 -               */
 -              int ret = platform_pci_set_power_state(dev, PCI_D0);
 -              if (!ret)
 -                      pci_update_current_state(dev, PCI_D0);
 -      }
 +      /* Check if we're already there */
 +      if (dev->current_state == state)
 +              return 0;
 +
 +      __pci_start_power_transition(dev, state);
 +
        /* This device is quirked not to be put into D3, so
           don't put it in D3 */
        if (state == PCI_D3hot && (dev->dev_flags & PCI_DEV_FLAGS_NO_D3))
                return 0;
  
 -      error = pci_raw_set_power_state(dev, state, true);
 +      error = pci_raw_set_power_state(dev, state);
  
 -      if (state > PCI_D0 && platform_pci_power_manageable(dev)) {
 -              /* Allow the platform to finalize the transition */
 -              int ret = platform_pci_set_power_state(dev, state);
 -              if (!ret) {
 -                      pci_update_current_state(dev, state);
 -                      error = 0;
 -              }
 -      }
 +      if (!__pci_complete_power_transition(dev, state))
 +              error = 0;
  
        return error;
  }
@@@ -677,6 -647,8 +679,8 @@@ pci_power_t pci_choose_state(struct pci
  
  EXPORT_SYMBOL(pci_choose_state);
  
+ #define PCI_EXP_SAVE_REGS     7
  static int pci_save_pcie_state(struct pci_dev *dev)
  {
        int pos, i = 0;
  
        save_state = pci_find_saved_cap(dev, PCI_CAP_ID_EXP);
        if (!save_state) {
-               dev_err(&dev->dev, "buffer not found in %s\n", __FUNCTION__);
+               dev_err(&dev->dev, "buffer not found in %s\n", __func__);
                return -ENOMEM;
        }
        cap = (u16 *)&save_state->data[0];
        pci_read_config_word(dev, pos + PCI_EXP_LNKCTL, &cap[i++]);
        pci_read_config_word(dev, pos + PCI_EXP_SLTCTL, &cap[i++]);
        pci_read_config_word(dev, pos + PCI_EXP_RTCTL, &cap[i++]);
+       pci_read_config_word(dev, pos + PCI_EXP_DEVCTL2, &cap[i++]);
+       pci_read_config_word(dev, pos + PCI_EXP_LNKCTL2, &cap[i++]);
+       pci_read_config_word(dev, pos + PCI_EXP_SLTCTL2, &cap[i++]);
  
        return 0;
  }
@@@ -718,6 -693,9 +725,9 @@@ static void pci_restore_pcie_state(stru
        pci_write_config_word(dev, pos + PCI_EXP_LNKCTL, cap[i++]);
        pci_write_config_word(dev, pos + PCI_EXP_SLTCTL, cap[i++]);
        pci_write_config_word(dev, pos + PCI_EXP_RTCTL, cap[i++]);
+       pci_write_config_word(dev, pos + PCI_EXP_DEVCTL2, cap[i++]);
+       pci_write_config_word(dev, pos + PCI_EXP_LNKCTL2, cap[i++]);
+       pci_write_config_word(dev, pos + PCI_EXP_SLTCTL2, cap[i++]);
  }
  
  
@@@ -732,7 -710,7 +742,7 @@@ static int pci_save_pcix_state(struct p
  
        save_state = pci_find_saved_cap(dev, PCI_CAP_ID_PCIX);
        if (!save_state) {
-               dev_err(&dev->dev, "buffer not found in %s\n", __FUNCTION__);
+               dev_err(&dev->dev, "buffer not found in %s\n", __func__);
                return -ENOMEM;
        }
  
@@@ -805,6 -783,7 +815,7 @@@ pci_restore_state(struct pci_dev *dev
        }
        pci_restore_pcix_state(dev);
        pci_restore_msi_state(dev);
+       pci_restore_iov_state(dev);
  
        return 0;
  }
@@@ -1263,7 -1242,7 +1274,7 @@@ int pci_prepare_to_sleep(struct pci_de
        if (target_state == PCI_POWER_ERROR)
                return -EIO;
  
 -      pci_enable_wake(dev, target_state, true);
 +      pci_enable_wake(dev, target_state, device_may_wakeup(&dev->dev));
  
        error = pci_set_power_state(dev, target_state);
  
@@@ -1401,7 -1380,8 +1412,8 @@@ void pci_allocate_cap_save_buffers(stru
  {
        int error;
  
-       error = pci_add_cap_save_buffer(dev, PCI_CAP_ID_EXP, 4 * sizeof(u16));
+       error = pci_add_cap_save_buffer(dev, PCI_CAP_ID_EXP,
+                                       PCI_EXP_SAVE_REGS * sizeof(u16));
        if (error)
                dev_err(&dev->dev,
                        "unable to preallocate PCI Express save buffer\n");
  }
  
  /**
 - * pci_restore_standard_config - restore standard config registers of PCI device
 - * @dev: PCI device to handle
 - *
 - * This function assumes that the device's configuration space is accessible.
 - * If the device needs to be powered up, the function will wait for it to
 - * change the state.
 - */
 -int pci_restore_standard_config(struct pci_dev *dev)
 -{
 -      pci_power_t prev_state;
 -      int error;
 -
 -      pci_update_current_state(dev, PCI_D0);
 -
 -      prev_state = dev->current_state;
 -      if (prev_state == PCI_D0)
 -              goto Restore;
 -
 -      error = pci_raw_set_power_state(dev, PCI_D0, false);
 -      if (error)
 -              return error;
 -
 -      /*
 -       * This assumes that we won't get a bus in B2 or B3 from the BIOS, but
 -       * we've made this assumption forever and it appears to be universally
 -       * satisfied.
 -       */
 -      switch(prev_state) {
 -      case PCI_D3cold:
 -      case PCI_D3hot:
 -              mdelay(pci_pm_d3_delay);
 -              break;
 -      case PCI_D2:
 -              udelay(PCI_PM_D2_DELAY);
 -              break;
 -      }
 -
 -      pci_update_current_state(dev, PCI_D0);
 -
 - Restore:
 -      return dev->state_saved ? pci_restore_state(dev) : 0;
 -}
 -
 -/**
   * pci_enable_ari - enable ARI forwarding if hardware support it
   * @dev: the PCI device
   */
@@@ -1472,7 -1496,7 +1484,7 @@@ pci_get_interrupt_pin(struct pci_dev *d
        if (!pin)
                return -1;
  
-       while (dev->bus->self) {
+       while (dev->bus->parent) {
                pin = pci_swizzle_interrupt_pin(dev, pin);
                dev = dev->bus->self;
        }
@@@ -1492,7 -1516,7 +1504,7 @@@ u8 pci_common_swizzle(struct pci_dev *d
  {
        u8 pin = *pinp;
  
-       while (dev->bus->self) {
+       while (dev->bus->parent) {
                pin = pci_swizzle_interrupt_pin(dev, pin);
                dev = dev->bus->self;
        }
@@@ -2016,18 -2040,24 +2028,24 @@@ static int __pcie_flr(struct pci_dev *d
        pci_block_user_cfg_access(dev);
  
        /* Wait for Transaction Pending bit clean */
+       pci_read_config_word(dev, exppos + PCI_EXP_DEVSTA, &status);
+       if (!(status & PCI_EXP_DEVSTA_TRPND))
+               goto transaction_done;
        msleep(100);
        pci_read_config_word(dev, exppos + PCI_EXP_DEVSTA, &status);
-       if (status & PCI_EXP_DEVSTA_TRPND) {
-               dev_info(&dev->dev, "Busy after 100ms while trying to reset; "
+       if (!(status & PCI_EXP_DEVSTA_TRPND))
+               goto transaction_done;
+       dev_info(&dev->dev, "Busy after 100ms while trying to reset; "
                        "sleeping for 1 second\n");
-               ssleep(1);
-               pci_read_config_word(dev, exppos + PCI_EXP_DEVSTA, &status);
-               if (status & PCI_EXP_DEVSTA_TRPND)
-                       dev_info(&dev->dev, "Still busy after 1s; "
+       ssleep(1);
+       pci_read_config_word(dev, exppos + PCI_EXP_DEVSTA, &status);
+       if (status & PCI_EXP_DEVSTA_TRPND)
+               dev_info(&dev->dev, "Still busy after 1s; "
                                "proceeding with reset anyway\n");
-       }
  
+ transaction_done:
        pci_write_config_word(dev, exppos + PCI_EXP_DEVCTL,
                                PCI_EXP_DEVCTL_BCR_FLR);
        mdelay(100);
@@@ -2054,18 -2084,24 +2072,24 @@@ static int __pci_af_flr(struct pci_dev 
        pci_block_user_cfg_access(dev);
  
        /* Wait for Transaction Pending bit clean */
+       pci_read_config_byte(dev, cappos + PCI_AF_STATUS, &status);
+       if (!(status & PCI_AF_STATUS_TP))
+               goto transaction_done;
        msleep(100);
        pci_read_config_byte(dev, cappos + PCI_AF_STATUS, &status);
-       if (status & PCI_AF_STATUS_TP) {
-               dev_info(&dev->dev, "Busy after 100ms while trying to"
-                               " reset; sleeping for 1 second\n");
-               ssleep(1);
-               pci_read_config_byte(dev,
-                               cappos + PCI_AF_STATUS, &status);
-               if (status & PCI_AF_STATUS_TP)
-                       dev_info(&dev->dev, "Still busy after 1s; "
-                                       "proceeding with reset anyway\n");
-       }
+       if (!(status & PCI_AF_STATUS_TP))
+               goto transaction_done;
+       dev_info(&dev->dev, "Busy after 100ms while trying to"
+                       " reset; sleeping for 1 second\n");
+       ssleep(1);
+       pci_read_config_byte(dev, cappos + PCI_AF_STATUS, &status);
+       if (status & PCI_AF_STATUS_TP)
+               dev_info(&dev->dev, "Still busy after 1s; "
+                               "proceeding with reset anyway\n");
+ transaction_done:
        pci_write_config_byte(dev, cappos + PCI_AF_CTRL, PCI_AF_CTRL_FLR);
        mdelay(100);
  
@@@ -2334,18 -2370,140 +2358,140 @@@ int pci_select_bars(struct pci_dev *dev
   */
  int pci_resource_bar(struct pci_dev *dev, int resno, enum pci_bar_type *type)
  {
+       int reg;
        if (resno < PCI_ROM_RESOURCE) {
                *type = pci_bar_unknown;
                return PCI_BASE_ADDRESS_0 + 4 * resno;
        } else if (resno == PCI_ROM_RESOURCE) {
                *type = pci_bar_mem32;
                return dev->rom_base_reg;
+       } else if (resno < PCI_BRIDGE_RESOURCES) {
+               /* device specific resource */
+               reg = pci_iov_resource_bar(dev, resno, type);
+               if (reg)
+                       return reg;
        }
  
        dev_err(&dev->dev, "BAR: invalid resource #%d\n", resno);
        return 0;
  }
  
+ #define RESOURCE_ALIGNMENT_PARAM_SIZE COMMAND_LINE_SIZE
+ static char resource_alignment_param[RESOURCE_ALIGNMENT_PARAM_SIZE] = {0};
+ spinlock_t resource_alignment_lock = SPIN_LOCK_UNLOCKED;
+ /**
+  * pci_specified_resource_alignment - get resource alignment specified by user.
+  * @dev: the PCI device to get
+  *
+  * RETURNS: Resource alignment if it is specified.
+  *          Zero if it is not specified.
+  */
+ resource_size_t pci_specified_resource_alignment(struct pci_dev *dev)
+ {
+       int seg, bus, slot, func, align_order, count;
+       resource_size_t align = 0;
+       char *p;
+       spin_lock(&resource_alignment_lock);
+       p = resource_alignment_param;
+       while (*p) {
+               count = 0;
+               if (sscanf(p, "%d%n", &align_order, &count) == 1 &&
+                                                       p[count] == '@') {
+                       p += count + 1;
+               } else {
+                       align_order = -1;
+               }
+               if (sscanf(p, "%x:%x:%x.%x%n",
+                       &seg, &bus, &slot, &func, &count) != 4) {
+                       seg = 0;
+                       if (sscanf(p, "%x:%x.%x%n",
+                                       &bus, &slot, &func, &count) != 3) {
+                               /* Invalid format */
+                               printk(KERN_ERR "PCI: Can't parse resource_alignment parameter: %s\n",
+                                       p);
+                               break;
+                       }
+               }
+               p += count;
+               if (seg == pci_domain_nr(dev->bus) &&
+                       bus == dev->bus->number &&
+                       slot == PCI_SLOT(dev->devfn) &&
+                       func == PCI_FUNC(dev->devfn)) {
+                       if (align_order == -1) {
+                               align = PAGE_SIZE;
+                       } else {
+                               align = 1 << align_order;
+                       }
+                       /* Found */
+                       break;
+               }
+               if (*p != ';' && *p != ',') {
+                       /* End of param or invalid format */
+                       break;
+               }
+               p++;
+       }
+       spin_unlock(&resource_alignment_lock);
+       return align;
+ }
+ /**
+  * pci_is_reassigndev - check if specified PCI is target device to reassign
+  * @dev: the PCI device to check
+  *
+  * RETURNS: non-zero for PCI device is a target device to reassign,
+  *          or zero is not.
+  */
+ int pci_is_reassigndev(struct pci_dev *dev)
+ {
+       return (pci_specified_resource_alignment(dev) != 0);
+ }
+ ssize_t pci_set_resource_alignment_param(const char *buf, size_t count)
+ {
+       if (count > RESOURCE_ALIGNMENT_PARAM_SIZE - 1)
+               count = RESOURCE_ALIGNMENT_PARAM_SIZE - 1;
+       spin_lock(&resource_alignment_lock);
+       strncpy(resource_alignment_param, buf, count);
+       resource_alignment_param[count] = '\0';
+       spin_unlock(&resource_alignment_lock);
+       return count;
+ }
+ ssize_t pci_get_resource_alignment_param(char *buf, size_t size)
+ {
+       size_t count;
+       spin_lock(&resource_alignment_lock);
+       count = snprintf(buf, size, "%s", resource_alignment_param);
+       spin_unlock(&resource_alignment_lock);
+       return count;
+ }
+ static ssize_t pci_resource_alignment_show(struct bus_type *bus, char *buf)
+ {
+       return pci_get_resource_alignment_param(buf, PAGE_SIZE);
+ }
+ static ssize_t pci_resource_alignment_store(struct bus_type *bus,
+                                       const char *buf, size_t count)
+ {
+       return pci_set_resource_alignment_param(buf, count);
+ }
+ BUS_ATTR(resource_alignment, 0644, pci_resource_alignment_show,
+                                       pci_resource_alignment_store);
+ static int __init pci_resource_alignment_sysfs_init(void)
+ {
+       return bus_create_file(&pci_bus_type,
+                                       &bus_attr_resource_alignment);
+ }
+ late_initcall(pci_resource_alignment_sysfs_init);
  static void __devinit pci_no_domains(void)
  {
  #ifdef CONFIG_PCI_DOMAINS
@@@ -2394,6 -2552,9 +2540,9 @@@ static int __init pci_setup(char *str
                                pci_cardbus_io_size = memparse(str + 9, &str);
                        } else if (!strncmp(str, "cbmemsize=", 10)) {
                                pci_cardbus_mem_size = memparse(str + 10, &str);
+                       } else if (!strncmp(str, "resource_alignment=", 19)) {
+                               pci_set_resource_alignment_param(str + 19,
+                                                       strlen(str + 19));
                        } else {
                                printk(KERN_ERR "PCI: Unknown option `%s'\n",
                                                str);
diff --combined drivers/pci/pci.h
@@@ -1,6 -1,8 +1,8 @@@
  #ifndef DRIVERS_PCI_H
  #define DRIVERS_PCI_H
  
+ #include <linux/workqueue.h>
  #define PCI_CFG_SPACE_SIZE    256
  #define PCI_CFG_SPACE_EXP_SIZE        4096
  
@@@ -49,6 -51,7 +51,6 @@@ extern void pci_disable_enabled_device(
  extern void pci_pm_init(struct pci_dev *dev);
  extern void platform_pci_wakeup_init(struct pci_dev *dev);
  extern void pci_allocate_cap_save_buffers(struct pci_dev *dev);
 -extern int pci_restore_standard_config(struct pci_dev *dev);
  
  static inline bool pci_is_bridge(struct pci_dev *pci_dev)
  {
@@@ -135,6 -138,12 +137,12 @@@ extern int pcie_mch_quirk
  extern struct device_attribute pci_dev_attrs[];
  extern struct device_attribute dev_attr_cpuaffinity;
  extern struct device_attribute dev_attr_cpulistaffinity;
+ #ifdef CONFIG_HOTPLUG
+ extern struct bus_attribute pci_bus_attrs[];
+ #else
+ #define pci_bus_attrs NULL
+ #endif
  
  /**
   * pci_match_one_device - Tell if a PCI device structure has a matching
@@@ -177,6 -186,7 +185,7 @@@ enum pci_bar_type 
        pci_bar_mem64,          /* A 64-bit memory BAR */
  };
  
+ extern int pci_setup_device(struct pci_dev *dev);
  extern int __pci_read_base(struct pci_dev *dev, enum pci_bar_type type,
                                struct resource *res, unsigned int reg);
  extern int pci_resource_bar(struct pci_dev *dev, int resno,
@@@ -194,4 -204,60 +203,60 @@@ static inline int pci_ari_enabled(struc
        return bus->self && bus->self->ari_enabled;
  }
  
+ #ifdef CONFIG_PCI_QUIRKS
+ extern int pci_is_reassigndev(struct pci_dev *dev);
+ resource_size_t pci_specified_resource_alignment(struct pci_dev *dev);
+ extern void pci_disable_bridge_window(struct pci_dev *dev);
+ #endif
+ /* Single Root I/O Virtualization */
+ struct pci_sriov {
+       int pos;                /* capability position */
+       int nres;               /* number of resources */
+       u32 cap;                /* SR-IOV Capabilities */
+       u16 ctrl;               /* SR-IOV Control */
+       u16 total;              /* total VFs associated with the PF */
+       u16 initial;            /* initial VFs associated with the PF */
+       u16 nr_virtfn;          /* number of VFs available */
+       u16 offset;             /* first VF Routing ID offset */
+       u16 stride;             /* following VF stride */
+       u32 pgsz;               /* page size for BAR alignment */
+       u8 link;                /* Function Dependency Link */
+       struct pci_dev *dev;    /* lowest numbered PF */
+       struct pci_dev *self;   /* this PF */
+       struct mutex lock;      /* lock for VF bus */
+       struct work_struct mtask; /* VF Migration task */
+       u8 __iomem *mstate;     /* VF Migration State Array */
+ };
+ #ifdef CONFIG_PCI_IOV
+ extern int pci_iov_init(struct pci_dev *dev);
+ extern void pci_iov_release(struct pci_dev *dev);
+ extern int pci_iov_resource_bar(struct pci_dev *dev, int resno,
+                               enum pci_bar_type *type);
+ extern void pci_restore_iov_state(struct pci_dev *dev);
+ extern int pci_iov_bus_range(struct pci_bus *bus);
+ #else
+ static inline int pci_iov_init(struct pci_dev *dev)
+ {
+       return -ENODEV;
+ }
+ static inline void pci_iov_release(struct pci_dev *dev)
+ {
+ }
+ static inline int pci_iov_resource_bar(struct pci_dev *dev, int resno,
+                                      enum pci_bar_type *type)
+ {
+       return 0;
+ }
+ static inline void pci_restore_iov_state(struct pci_dev *dev)
+ {
+ }
+ static inline int pci_iov_bus_range(struct pci_bus *bus)
+ {
+       return 0;
+ }
+ #endif /* CONFIG_PCI_IOV */
  #endif /* DRIVERS_PCI_H */
diff --combined include/linux/acpi.h
@@@ -79,7 -79,6 +79,7 @@@ typedef int (*acpi_table_handler) (stru
  typedef int (*acpi_table_entry_handler) (struct acpi_subtable_header *header, const unsigned long end);
  
  char * __acpi_map_table (unsigned long phys_addr, unsigned long size);
 +void __acpi_unmap_table(char *map, unsigned long size);
  int early_acpi_boot_init(void);
  int acpi_boot_init (void);
  int acpi_boot_table_init (void);
@@@ -257,6 -256,40 +257,40 @@@ void __init acpi_no_s4_hw_signature(voi
  void __init acpi_old_suspend_ordering(void);
  void __init acpi_s4_no_nvs(void);
  #endif /* CONFIG_PM_SLEEP */
+ #define OSC_QUERY_TYPE                        0
+ #define OSC_SUPPORT_TYPE              1
+ #define OSC_CONTROL_TYPE              2
+ #define OSC_SUPPORT_MASKS             0x1f
+ /* _OSC DW0 Definition */
+ #define OSC_QUERY_ENABLE              1
+ #define OSC_REQUEST_ERROR             2
+ #define OSC_INVALID_UUID_ERROR                4
+ #define OSC_INVALID_REVISION_ERROR    8
+ #define OSC_CAPABILITIES_MASK_ERROR   16
+ /* _OSC DW1 Definition (OS Support Fields) */
+ #define OSC_EXT_PCI_CONFIG_SUPPORT            1
+ #define OSC_ACTIVE_STATE_PWR_SUPPORT          2
+ #define OSC_CLOCK_PWR_CAPABILITY_SUPPORT      4
+ #define OSC_PCI_SEGMENT_GROUPS_SUPPORT                8
+ #define OSC_MSI_SUPPORT                               16
+ /* _OSC DW1 Definition (OS Control Fields) */
+ #define OSC_PCI_EXPRESS_NATIVE_HP_CONTROL     1
+ #define OSC_SHPC_NATIVE_HP_CONTROL            2
+ #define OSC_PCI_EXPRESS_PME_CONTROL           4
+ #define OSC_PCI_EXPRESS_AER_CONTROL           8
+ #define OSC_PCI_EXPRESS_CAP_STRUCTURE_CONTROL 16
+ #define OSC_CONTROL_MASKS     (OSC_PCI_EXPRESS_NATIVE_HP_CONTROL |    \
+                               OSC_SHPC_NATIVE_HP_CONTROL |            \
+                               OSC_PCI_EXPRESS_PME_CONTROL |           \
+                               OSC_PCI_EXPRESS_AER_CONTROL |           \
+                               OSC_PCI_EXPRESS_CAP_STRUCTURE_CONTROL)
+ extern acpi_status acpi_pci_osc_control_set(acpi_handle handle, u32 flags);
  #else /* CONFIG_ACPI */
  
  static inline int early_acpi_boot_init(void)
diff --combined include/linux/pci.h
@@@ -52,6 -52,7 +52,7 @@@
  #include <asm/atomic.h>
  #include <linux/device.h>
  #include <linux/io.h>
+ #include <linux/irqreturn.h>
  
  /* Include the ID list */
  #include <linux/pci_ids.h>
@@@ -93,6 -94,12 +94,12 @@@ enum 
        /* #6: expansion ROM resource */
        PCI_ROM_RESOURCE,
  
+       /* device specific resources */
+ #ifdef CONFIG_PCI_IOV
+       PCI_IOV_RESOURCES,
+       PCI_IOV_RESOURCE_END = PCI_IOV_RESOURCES + PCI_SRIOV_NUM_BARS - 1,
+ #endif
        /* resources assigned to buses behind the bridge */
  #define PCI_BRIDGE_RESOURCE_NUM 4
  
@@@ -180,6 -187,7 +187,7 @@@ struct pci_cap_saved_state 
  
  struct pcie_link_state;
  struct pci_vpd;
+ struct pci_sriov;
  
  /*
   * The pci_dev structure is used to describe PCI devices.
@@@ -257,6 -265,8 +265,8 @@@ struct pci_dev 
        unsigned int    is_managed:1;
        unsigned int    is_pcie:1;
        unsigned int    state_saved:1;
+       unsigned int    is_physfn:1;
+       unsigned int    is_virtfn:1;
        pci_dev_flags_t dev_flags;
        atomic_t        enable_cnt;     /* pci_enable_device has been called */
  
        struct list_head msi_list;
  #endif
        struct pci_vpd *vpd;
+ #ifdef CONFIG_PCI_IOV
+       union {
+               struct pci_sriov *sriov;        /* SR-IOV capability related */
+               struct pci_dev *physfn; /* the PF this VF is associated with */
+       };
+ #endif
  };
  
  extern struct pci_dev *alloc_pci_dev(void);
@@@ -341,6 -357,15 +357,15 @@@ struct pci_bus 
  #define pci_bus_b(n)  list_entry(n, struct pci_bus, node)
  #define to_pci_bus(n) container_of(n, struct pci_bus, dev)
  
+ /*
+  * Returns true if the pci bus is root (behind host-pci bridge),
+  * false otherwise
+  */
+ static inline bool pci_is_root_bus(struct pci_bus *pbus)
+ {
+       return !(pbus->parent);
+ }
  #ifdef CONFIG_PCI_MSI
  static inline bool pci_dev_msi_enabled(struct pci_dev *pci_dev)
  {
@@@ -528,7 -553,7 +553,7 @@@ void pcibios_update_irq(struct pci_dev 
  /* Generic PCI functions used internally */
  
  extern struct pci_bus *pci_find_bus(int domain, int busnr);
- void pci_bus_add_devices(struct pci_bus *bus);
+ void pci_bus_add_devices(const struct pci_bus *bus);
  struct pci_bus *pci_scan_bus_parented(struct device *parent, int bus,
                                      struct pci_ops *ops, void *sysdata);
  static inline struct pci_bus * __devinit pci_scan_bus(int bus, struct pci_ops *ops,
@@@ -689,7 -714,6 +714,7 @@@ size_t pci_get_rom_size(struct pci_dev 
  /* Power management related routines */
  int pci_save_state(struct pci_dev *dev);
  int pci_restore_state(struct pci_dev *dev);
 +int __pci_complete_power_transition(struct pci_dev *dev, pci_power_t state);
  int pci_set_power_state(struct pci_dev *dev, pci_power_t state);
  pci_power_t pci_choose_state(struct pci_dev *dev, pm_message_t state);
  bool pci_pme_capable(struct pci_dev *dev, pci_power_t state);
@@@ -702,6 -726,9 +727,9 @@@ int pci_back_from_sleep(struct pci_dev 
  
  /* Functions for PCI Hotplug drivers to use */
  int pci_bus_find_capability(struct pci_bus *bus, unsigned int devfn, int cap);
+ #ifdef CONFIG_HOTPLUG
+ unsigned int pci_rescan_bus(struct pci_bus *bus);
+ #endif
  
  /* Vital product data routines */
  ssize_t pci_read_vpd(struct pci_dev *dev, loff_t pos, size_t count, void *buf);
@@@ -709,7 -736,7 +737,7 @@@ ssize_t pci_write_vpd(struct pci_dev *d
  int pci_vpd_truncate(struct pci_dev *dev, size_t size);
  
  /* Helper functions for low-level code (drivers/pci/setup-[bus,res].c) */
- void pci_bus_assign_resources(struct pci_bus *bus);
+ void pci_bus_assign_resources(const struct pci_bus *bus);
  void pci_bus_size_bridges(struct pci_bus *bus);
  int pci_claim_resource(struct pci_dev *, int);
  void pci_assign_unassigned_resources(void);
@@@ -790,7 -817,7 +818,7 @@@ struct msix_entry 
  
  
  #ifndef CONFIG_PCI_MSI
- static inline int pci_enable_msi(struct pci_dev *dev)
+ static inline int pci_enable_msi_block(struct pci_dev *dev, unsigned int nvec)
  {
        return -1;
  }
@@@ -800,6 -827,10 +828,10 @@@ static inline void pci_msi_shutdown(str
  static inline void pci_disable_msi(struct pci_dev *dev)
  { }
  
+ static inline int pci_msix_table_size(struct pci_dev *dev)
+ {
+       return 0;
+ }
  static inline int pci_enable_msix(struct pci_dev *dev,
                                  struct msix_entry *entries, int nvec)
  {
@@@ -821,9 -852,10 +853,10 @@@ static inline int pci_msi_enabled(void
        return 0;
  }
  #else
- extern int pci_enable_msi(struct pci_dev *dev);
+ extern int pci_enable_msi_block(struct pci_dev *dev, unsigned int nvec);
  extern void pci_msi_shutdown(struct pci_dev *dev);
  extern void pci_disable_msi(struct pci_dev *dev);
+ extern int pci_msix_table_size(struct pci_dev *dev);
  extern int pci_enable_msix(struct pci_dev *dev,
        struct msix_entry *entries, int nvec);
  extern void pci_msix_shutdown(struct pci_dev *dev);
@@@ -842,6 -874,8 +875,8 @@@ static inline int pcie_aspm_enabled(voi
  extern int pcie_aspm_enabled(void);
  #endif
  
+ #define pci_enable_msi(pdev)  pci_enable_msi_block(pdev, 1)
  #ifdef CONFIG_HT_IRQ
  /* The functions a driver should call */
  int  ht_create_irq(struct pci_dev *dev, int idx);
@@@ -1195,5 -1229,23 +1230,23 @@@ int pci_ext_cfg_avail(struct pci_dev *d
  
  void __iomem *pci_ioremap_bar(struct pci_dev *pdev, int bar);
  
+ #ifdef CONFIG_PCI_IOV
+ extern int pci_enable_sriov(struct pci_dev *dev, int nr_virtfn);
+ extern void pci_disable_sriov(struct pci_dev *dev);
+ extern irqreturn_t pci_sriov_migration(struct pci_dev *dev);
+ #else
+ static inline int pci_enable_sriov(struct pci_dev *dev, int nr_virtfn)
+ {
+       return -ENODEV;
+ }
+ static inline void pci_disable_sriov(struct pci_dev *dev)
+ {
+ }
+ static inline irqreturn_t pci_sriov_migration(struct pci_dev *dev)
+ {
+       return IRQ_NONE;
+ }
+ #endif
  #endif /* __KERNEL__ */
  #endif /* LINUX_PCI_H */
diff --combined include/linux/pci_ids.h
  #define PCI_DEVICE_ID_PROMISE_20276   0x5275
  #define PCI_DEVICE_ID_PROMISE_20277   0x7275
  
 +#define PCI_VENDOR_ID_FOXCONN         0x105b
 +
  #define PCI_VENDOR_ID_UMC             0x1060
  #define PCI_DEVICE_ID_UMC_UM8673F     0x0101
  #define PCI_DEVICE_ID_UMC_UM8886BF    0x673a
  #define PCI_DEVICE_ID_NVIDIA_NVENET_21              0x0451
  #define PCI_DEVICE_ID_NVIDIA_NVENET_22              0x0452
  #define PCI_DEVICE_ID_NVIDIA_NVENET_23              0x0453
 +#define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP67_SMBUS     0x0542
  #define PCI_DEVICE_ID_NVIDIA_NVENET_24              0x054C
  #define PCI_DEVICE_ID_NVIDIA_NVENET_25              0x054D
  #define PCI_DEVICE_ID_NVIDIA_NVENET_26              0x054E
  #define PCI_DEVICE_ID_NVIDIA_NVENET_31              0x07DF
  #define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP67_IDE       0x0560
  #define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP73_IDE       0x056C
 +#define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP78S_SMBUS    0x0752
  #define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP77_IDE       0x0759
  #define PCI_DEVICE_ID_NVIDIA_NVENET_32              0x0760
  #define PCI_DEVICE_ID_NVIDIA_NVENET_33              0x0761
  #define PCI_DEVICE_ID_NVIDIA_NVENET_34              0x0762
  #define PCI_DEVICE_ID_NVIDIA_NVENET_35              0x0763
 +#define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP73_SMBUS     0x07D8
 +#define PCI_DEVICE_ID_NVIDIA_NFORCE_MCP79_SMBUS     0x0AA2
  #define PCI_DEVICE_ID_NVIDIA_NVENET_36              0x0AB0
  #define PCI_DEVICE_ID_NVIDIA_NVENET_37              0x0AB1
  #define PCI_DEVICE_ID_NVIDIA_NVENET_38              0x0AB2
  #define PCI_DEVICE_ID_SERVERWORKS_HT1000IDE 0x0214
  #define PCI_DEVICE_ID_SERVERWORKS_CSB6IDE2 0x0217
  #define PCI_DEVICE_ID_SERVERWORKS_CSB6LPC 0x0227
 +#define PCI_DEVICE_ID_SERVERWORKS_HT1100LD 0x0408
  
  #define PCI_VENDOR_ID_SBE             0x1176
  #define PCI_DEVICE_ID_SBE_WANXL100    0x0301
  
  #define PCI_VENDOR_ID_SAMSUNG         0x144d
  
 +#define PCI_VENDOR_ID_AMBIT           0x1468
 +
  #define PCI_VENDOR_ID_MYRICOM         0x14c1
  
  #define PCI_VENDOR_ID_TITAN           0x14D2
  #define PCI_DEVICE_ID_MELLANOX_SINAI_OLD 0x5e8c
  #define PCI_DEVICE_ID_MELLANOX_SINAI  0x6274
  
 +#define PCI_VENDOR_ID_DFI             0x15bd
 +
  #define PCI_VENDOR_ID_QUICKNET                0x15e2
  #define PCI_DEVICE_ID_QUICKNET_XJ     0x0500
  
  
  #define PCI_VENDOR_ID_TOPSPIN         0x1867
  
 +#define PCI_VENDOR_ID_SILAN           0x1904
 +
  #define PCI_VENDOR_ID_TDI               0x192E
  #define PCI_DEVICE_ID_TDI_EHCI          0x0101
  
  #define PCI_VENDOR_ID_FREESCALE               0x1957
 +#define PCI_DEVICE_ID_MPC8315E                0x00b4
 +#define PCI_DEVICE_ID_MPC8315         0x00b5
 +#define PCI_DEVICE_ID_MPC8314E                0x00b6
 +#define PCI_DEVICE_ID_MPC8314         0x00b7
 +#define PCI_DEVICE_ID_MPC8378E                0x00c4
 +#define PCI_DEVICE_ID_MPC8378         0x00c5
 +#define PCI_DEVICE_ID_MPC8377E                0x00c6
 +#define PCI_DEVICE_ID_MPC8377         0x00c7
  #define PCI_DEVICE_ID_MPC8548E                0x0012
  #define PCI_DEVICE_ID_MPC8548         0x0013
  #define PCI_DEVICE_ID_MPC8543E                0x0014
  #define PCI_DEVICE_ID_KORENIX_JETCARDF0       0x1600
  #define PCI_DEVICE_ID_KORENIX_JETCARDF1       0x16ff
  
 +#define PCI_VENDOR_ID_QMI             0x1a32
 +
  #define PCI_VENDOR_ID_TEKRAM          0x1de1
  #define PCI_DEVICE_ID_TEKRAM_DC290    0xdc29
  
  #define PCI_DEVICE_ID_INTEL_82801CA_12        0x248c
  #define PCI_DEVICE_ID_INTEL_82801DB_0 0x24c0
  #define PCI_DEVICE_ID_INTEL_82801DB_1 0x24c1
+ #define PCI_DEVICE_ID_INTEL_82801DB_2 0x24c2
  #define PCI_DEVICE_ID_INTEL_82801DB_3 0x24c3
  #define PCI_DEVICE_ID_INTEL_82801DB_5 0x24c5
  #define PCI_DEVICE_ID_INTEL_82801DB_6 0x24c6