Merge branch 'perf/urgent' of git://git.kernel.org/pub/scm/linux/kernel/git/frederic...
[safe/jmp/linux-2.6] / fs / ocfs2 / localalloc.c
index e39a3e7..3d74196 100644 (file)
@@ -75,10 +75,120 @@ static int ocfs2_local_alloc_new_window(struct ocfs2_super *osb,
 static int ocfs2_local_alloc_slide_window(struct ocfs2_super *osb,
                                          struct inode *local_alloc_inode);
 
+/*
+ * ocfs2_la_default_mb() - determine a default size, in megabytes of
+ * the local alloc.
+ *
+ * Generally, we'd like to pick as large a local alloc as
+ * possible. Performance on large workloads tends to scale
+ * proportionally to la size. In addition to that, the reservations
+ * code functions more efficiently as it can reserve more windows for
+ * write.
+ *
+ * Some things work against us when trying to choose a large local alloc:
+ *
+ * - We need to ensure our sizing is picked to leave enough space in
+ *   group descriptors for other allocations (such as block groups,
+ *   etc). Picking default sizes which are a multiple of 4 could help
+ *   - block groups are allocated in 2mb and 4mb chunks.
+ *
+ * - Likewise, we don't want to starve other nodes of bits on small
+ *   file systems. This can easily be taken care of by limiting our
+ *   default to a reasonable size (256M) on larger cluster sizes.
+ *
+ * - Some file systems can't support very large sizes - 4k and 8k in
+ *   particular are limited to less than 128 and 256 megabytes respectively.
+ *
+ * The following reference table shows group descriptor and local
+ * alloc maximums at various cluster sizes (4k blocksize)
+ *
+ * csize: 4K   group: 126M     la: 121M
+ * csize: 8K   group: 252M     la: 243M
+ * csize: 16K  group: 504M     la: 486M
+ * csize: 32K  group: 1008M    la: 972M
+ * csize: 64K  group: 2016M    la: 1944M
+ * csize: 128K group: 4032M    la: 3888M
+ * csize: 256K group: 8064M    la: 7776M
+ * csize: 512K group: 16128M   la: 15552M
+ * csize: 1024K        group: 32256M   la: 31104M
+ */
+#define        OCFS2_LA_MAX_DEFAULT_MB 256
+#define        OCFS2_LA_OLD_DEFAULT    8
+unsigned int ocfs2_la_default_mb(struct ocfs2_super *osb)
+{
+       unsigned int la_mb;
+       unsigned int gd_mb;
+       unsigned int megs_per_slot;
+       struct super_block *sb = osb->sb;
+
+       gd_mb = ocfs2_clusters_to_megabytes(osb->sb,
+               8 * ocfs2_group_bitmap_size(sb, 0, osb->s_feature_incompat));
+
+       /*
+        * This takes care of files systems with very small group
+        * descriptors - 512 byte blocksize at cluster sizes lower
+        * than 16K and also 1k blocksize with 4k cluster size.
+        */
+       if ((sb->s_blocksize == 512 && osb->s_clustersize <= 8192)
+           || (sb->s_blocksize == 1024 && osb->s_clustersize == 4096))
+               return OCFS2_LA_OLD_DEFAULT;
+
+       /*
+        * Leave enough room for some block groups and make the final
+        * value we work from a multiple of 4.
+        */
+       gd_mb -= 16;
+       gd_mb &= 0xFFFFFFFB;
+
+       la_mb = gd_mb;
+
+       /*
+        * Keep window sizes down to a reasonable default
+        */
+       if (la_mb > OCFS2_LA_MAX_DEFAULT_MB) {
+               /*
+                * Some clustersize / blocksize combinations will have
+                * given us a larger than OCFS2_LA_MAX_DEFAULT_MB
+                * default size, but get poor distribution when
+                * limited to exactly 256 megabytes.
+                *
+                * As an example, 16K clustersize at 4K blocksize
+                * gives us a cluster group size of 504M. Paring the
+                * local alloc size down to 256 however, would give us
+                * only one window and around 200MB left in the
+                * cluster group. Instead, find the first size below
+                * 256 which would give us an even distribution.
+                *
+                * Larger cluster group sizes actually work out pretty
+                * well when pared to 256, so we don't have to do this
+                * for any group that fits more than two
+                * OCFS2_LA_MAX_DEFAULT_MB windows.
+                */
+               if (gd_mb > (2 * OCFS2_LA_MAX_DEFAULT_MB))
+                       la_mb = 256;
+               else {
+                       unsigned int gd_mult = gd_mb;
+
+                       while (gd_mult > 256)
+                               gd_mult = gd_mult >> 1;
+
+                       la_mb = gd_mult;
+               }
+       }
+
+       megs_per_slot = osb->osb_clusters_at_boot / osb->max_slots;
+       megs_per_slot = ocfs2_clusters_to_megabytes(osb->sb, megs_per_slot);
+       /* Too many nodes, too few disk clusters. */
+       if (megs_per_slot < la_mb)
+               la_mb = megs_per_slot;
+
+       return la_mb;
+}
+
 void ocfs2_la_set_sizes(struct ocfs2_super *osb, int requested_mb)
 {
        struct super_block *sb = osb->sb;
-       unsigned int la_default_mb = OCFS2_DEFAULT_LOCAL_ALLOC_SIZE;
+       unsigned int la_default_mb = ocfs2_la_default_mb(osb);
        unsigned int la_max_mb;
 
        la_max_mb = ocfs2_clusters_to_megabytes(sb,
@@ -185,7 +295,7 @@ int ocfs2_load_local_alloc(struct ocfs2_super *osb)
                     osb->local_alloc_bits, (osb->bitmap_cpg - 1));
                osb->local_alloc_bits =
                        ocfs2_megabytes_to_clusters(osb->sb,
-                                                   OCFS2_DEFAULT_LOCAL_ALLOC_SIZE);
+                                                   ocfs2_la_default_mb(osb));
        }
 
        /* read the alloc off disk */
@@ -769,13 +879,10 @@ static int ocfs2_local_alloc_find_clear_bits(struct ocfs2_super *osb,
        mlog(0, "Exiting loop, bitoff = %d, numfound = %d\n", bitoff,
             numfound);
 
-       if (numfound == *numbits) {
+       if (numfound == *numbits)
                bitoff = startoff - numfound;
-               *numbits = numfound;
-       } else {
-               numfound = 0;
+       else
                bitoff = -1;
-       }
 
 bail:
        if (local_resv)
@@ -1054,7 +1161,7 @@ static int ocfs2_local_alloc_new_window(struct ocfs2_super *osb,
        /* we used the generic suballoc reserve function, but we set
         * everything up nicely, so there's no reason why we can't use
         * the more specific cluster api to claim bits. */
-       status = ocfs2_claim_clusters(osb, handle, ac, osb->local_alloc_bits,
+       status = ocfs2_claim_clusters(handle, ac, osb->local_alloc_bits,
                                      &cluster_off, &cluster_count);
        if (status == -ENOSPC) {
 retry_enospc:
@@ -1068,7 +1175,7 @@ retry_enospc:
                        goto bail;
 
                ac->ac_bits_wanted = osb->local_alloc_default_bits;
-               status = ocfs2_claim_clusters(osb, handle, ac,
+               status = ocfs2_claim_clusters(handle, ac,
                                              osb->local_alloc_bits,
                                              &cluster_off,
                                              &cluster_count);