md: restart recovery cleanly after device failure.

[safe/jmp/linux-2.6] / drivers / md / raid10.c
diff --git a/drivers/md/raid10.c b/drivers/md/raid10.c

index 8e5671d..1de17da 100644 (file)
--- a/drivers/md/raid10.c
+++ b/drivers/md/raid10.c
@@ -790,6 +790,7 @@ static int make_request(struct request_queue *q, struct bio * bio)
         const int do_sync = bio_sync(bio);
         struct bio_list bl;
         unsigned long flags;
+       mdk_rdev_t *blocked_rdev;
  
         if (unlikely(bio_barrier(bio))) {
                 bio_endio(bio, -EOPNOTSUPP);
@@ -879,17 +880,23 @@ static int make_request(struct request_queue *q, struct bio * bio)
         /*
          * WRITE:
          */
-       /* first select target devices under spinlock and
+       /* first select target devices under rcu_lock and
          * inc refcount on their rdev.  Record them by setting
          * bios[x] to bio
          */
         raid10_find_phys(conf, r10_bio);
+ retry_write:
+       blocked_rdev = NULL;
         rcu_read_lock();
         for (i = 0;  i < conf->copies; i++) {
                 int d = r10_bio->devs[i].devnum;
                 mdk_rdev_t *rdev = rcu_dereference(conf->mirrors[d].rdev);
-               if (rdev &&
-                   !test_bit(Faulty, &rdev->flags)) {
+               if (rdev && unlikely(test_bit(Blocked, &rdev->flags))) {
+                       atomic_inc(&rdev->nr_pending);
+                       blocked_rdev = rdev;
+                       break;
+               }
+               if (rdev && !test_bit(Faulty, &rdev->flags)) {
                         atomic_inc(&rdev->nr_pending);
                         r10_bio->devs[i].bio = bio;
                 } else {
@@ -899,6 +906,22 @@ static int make_request(struct request_queue *q, struct bio * bio)
         }
         rcu_read_unlock();
  
+       if (unlikely(blocked_rdev)) {
+               /* Have to wait for this device to get unblocked, then retry */
+               int j;
+               int d;
+
+               for (j = 0; j < i; j++)
+                       if (r10_bio->devs[j].bio) {
+                               d = r10_bio->devs[j].devnum;
+                               rdev_dec_pending(conf->mirrors[d].rdev, mddev);
+                       }
+               allow_barrier(conf);
+               md_wait_for_blocked_rdev(blocked_rdev, mddev);
+               wait_barrier(conf);
+               goto retry_write;
+       }
+
         atomic_set(&r10_bio->remaining, 0);
  
         bio_list_init(&bl);
@@ -997,12 +1020,12 @@ static void error(mddev_t *mddev, mdk_rdev_t *rdev)
                 /*
                  * if recovery is running, make sure it aborts.
                  */
-               set_bit(MD_RECOVERY_ERR, &mddev->recovery);
+               set_bit(MD_RECOVERY_INTR, &mddev->recovery);
         }
         set_bit(Faulty, &rdev->flags);
         set_bit(MD_CHANGE_DEVS, &mddev->flags);
-       printk(KERN_ALERT "raid10: Disk failure on %s, disabling device. \n"
-               "       Operation continuing on %d devices\n",
+       printk(KERN_ALERT "raid10: Disk failure on %s, disabling device.\n"
+               "raid10: Operation continuing on %d devices.\n",
                 bdevname(rdev->bdev,b), conf->raid_disks - mddev->degraded);
  }
  
@@ -1148,6 +1171,14 @@ static int raid10_remove_disk(mddev_t *mddev, int number)
                         err = -EBUSY;
                         goto abort;
                 }
+               /* Only remove faulty devices in recovery
+                * is not possible.
+                */
+               if (!test_bit(Faulty, &rdev->flags) &&
+                   enough(conf)) {
+                       err = -EBUSY;
+                       goto abort;
+               }
                 p->rdev = NULL;
                 synchronize_rcu();
                 if (atomic_read(&rdev->nr_pending)) {
@@ -1214,6 +1245,7 @@ static void end_sync_write(struct bio *bio, int error)
  
         if (!uptodate)
                 md_error(mddev, conf->mirrors[d].rdev);
+
         update_head_pos(i, r10_bio);
  
         while (atomic_dec_and_test(&r10_bio->remaining)) {
@@ -1818,8 +1850,11 @@ static sector_t sync_request(mddev_t *mddev, sector_t sector_nr, int *skipped, i
                                 if (j == conf->copies) {
                                         /* Cannot recover, so abort the recovery */
                                         put_buf(r10_bio);
+                                       if (rb2)
+                                               atomic_dec(&rb2->remaining);
                                         r10_bio = rb2;
-                                       if (!test_and_set_bit(MD_RECOVERY_ERR, &mddev->recovery))
+                                       if (!test_and_set_bit(MD_RECOVERY_INTR,
+                                                             &mddev->recovery))
                                                 printk(KERN_INFO "raid10: %s: insufficient working devices for recovery.\n",
                                                        mdname(mddev));
                                         break;
@@ -2057,6 +2092,9 @@ static int run(mddev_t *mddev)
                 goto out_free_conf;
         }
  
+       spin_lock_init(&conf->device_lock);
+       mddev->queue->queue_lock = &conf->device_lock;
+
         rdev_for_each(rdev, tmp, mddev) {
                 disk_idx = rdev->raid_disk;
                 if (disk_idx >= mddev->raid_disks
@@ -2078,7 +2116,6 @@ static int run(mddev_t *mddev)
  
                 disk->head_position = 0;
         }
-       spin_lock_init(&conf->device_lock);
         INIT_LIST_HEAD(&conf->retry_list);
  
         spin_lock_init(&conf->resync_lock);