ipc/sem.c: add a per-semaphore pending list
[safe/jmp/linux-2.6] / ipc / sem.c
1 /*
2  * linux/ipc/sem.c
3  * Copyright (C) 1992 Krishna Balasubramanian
4  * Copyright (C) 1995 Eric Schenk, Bruno Haible
5  *
6  * IMPLEMENTATION NOTES ON CODE REWRITE (Eric Schenk, January 1995):
7  * This code underwent a massive rewrite in order to solve some problems
8  * with the original code. In particular the original code failed to
9  * wake up processes that were waiting for semval to go to 0 if the
10  * value went to 0 and was then incremented rapidly enough. In solving
11  * this problem I have also modified the implementation so that it
12  * processes pending operations in a FIFO manner, thus give a guarantee
13  * that processes waiting for a lock on the semaphore won't starve
14  * unless another locking process fails to unlock.
15  * In addition the following two changes in behavior have been introduced:
16  * - The original implementation of semop returned the value
17  *   last semaphore element examined on success. This does not
18  *   match the manual page specifications, and effectively
19  *   allows the user to read the semaphore even if they do not
20  *   have read permissions. The implementation now returns 0
21  *   on success as stated in the manual page.
22  * - There is some confusion over whether the set of undo adjustments
23  *   to be performed at exit should be done in an atomic manner.
24  *   That is, if we are attempting to decrement the semval should we queue
25  *   up and wait until we can do so legally?
26  *   The original implementation attempted to do this.
27  *   The current implementation does not do so. This is because I don't
28  *   think it is the right thing (TM) to do, and because I couldn't
29  *   see a clean way to get the old behavior with the new design.
30  *   The POSIX standard and SVID should be consulted to determine
31  *   what behavior is mandated.
32  *
33  * Further notes on refinement (Christoph Rohland, December 1998):
34  * - The POSIX standard says, that the undo adjustments simply should
35  *   redo. So the current implementation is o.K.
36  * - The previous code had two flaws:
37  *   1) It actively gave the semaphore to the next waiting process
38  *      sleeping on the semaphore. Since this process did not have the
39  *      cpu this led to many unnecessary context switches and bad
40  *      performance. Now we only check which process should be able to
41  *      get the semaphore and if this process wants to reduce some
42  *      semaphore value we simply wake it up without doing the
43  *      operation. So it has to try to get it later. Thus e.g. the
44  *      running process may reacquire the semaphore during the current
45  *      time slice. If it only waits for zero or increases the semaphore,
46  *      we do the operation in advance and wake it up.
47  *   2) It did not wake up all zero waiting processes. We try to do
48  *      better but only get the semops right which only wait for zero or
49  *      increase. If there are decrement operations in the operations
50  *      array we do the same as before.
51  *
52  * With the incarnation of O(1) scheduler, it becomes unnecessary to perform
53  * check/retry algorithm for waking up blocked processes as the new scheduler
54  * is better at handling thread switch than the old one.
55  *
56  * /proc/sysvipc/sem support (c) 1999 Dragos Acostachioaie <dragos@iname.com>
57  *
58  * SMP-threaded, sysctl's added
59  * (c) 1999 Manfred Spraul <manfred@colorfullife.com>
60  * Enforced range limit on SEM_UNDO
61  * (c) 2001 Red Hat Inc
62  * Lockless wakeup
63  * (c) 2003 Manfred Spraul <manfred@colorfullife.com>
64  *
65  * support for audit of ipc object properties and permission changes
66  * Dustin Kirkland <dustin.kirkland@us.ibm.com>
67  *
68  * namespaces support
69  * OpenVZ, SWsoft Inc.
70  * Pavel Emelianov <xemul@openvz.org>
71  */
72
73 #include <linux/slab.h>
74 #include <linux/spinlock.h>
75 #include <linux/init.h>
76 #include <linux/proc_fs.h>
77 #include <linux/time.h>
78 #include <linux/security.h>
79 #include <linux/syscalls.h>
80 #include <linux/audit.h>
81 #include <linux/capability.h>
82 #include <linux/seq_file.h>
83 #include <linux/rwsem.h>
84 #include <linux/nsproxy.h>
85 #include <linux/ipc_namespace.h>
86
87 #include <asm/uaccess.h>
88 #include "util.h"
89
90 #define sem_ids(ns)     ((ns)->ids[IPC_SEM_IDS])
91
92 #define sem_unlock(sma)         ipc_unlock(&(sma)->sem_perm)
93 #define sem_checkid(sma, semid) ipc_checkid(&sma->sem_perm, semid)
94
95 static int newary(struct ipc_namespace *, struct ipc_params *);
96 static void freeary(struct ipc_namespace *, struct kern_ipc_perm *);
97 #ifdef CONFIG_PROC_FS
98 static int sysvipc_sem_proc_show(struct seq_file *s, void *it);
99 #endif
100
101 #define SEMMSL_FAST     256 /* 512 bytes on stack */
102 #define SEMOPM_FAST     64  /* ~ 372 bytes on stack */
103
104 /*
105  * linked list protection:
106  *      sem_undo.id_next,
107  *      sem_array.sem_pending{,last},
108  *      sem_array.sem_undo: sem_lock() for read/write
109  *      sem_undo.proc_next: only "current" is allowed to read/write that field.
110  *      
111  */
112
113 #define sc_semmsl       sem_ctls[0]
114 #define sc_semmns       sem_ctls[1]
115 #define sc_semopm       sem_ctls[2]
116 #define sc_semmni       sem_ctls[3]
117
118 void sem_init_ns(struct ipc_namespace *ns)
119 {
120         ns->sc_semmsl = SEMMSL;
121         ns->sc_semmns = SEMMNS;
122         ns->sc_semopm = SEMOPM;
123         ns->sc_semmni = SEMMNI;
124         ns->used_sems = 0;
125         ipc_init_ids(&ns->ids[IPC_SEM_IDS]);
126 }
127
128 #ifdef CONFIG_IPC_NS
129 void sem_exit_ns(struct ipc_namespace *ns)
130 {
131         free_ipcs(ns, &sem_ids(ns), freeary);
132         idr_destroy(&ns->ids[IPC_SEM_IDS].ipcs_idr);
133 }
134 #endif
135
136 void __init sem_init (void)
137 {
138         sem_init_ns(&init_ipc_ns);
139         ipc_init_proc_interface("sysvipc/sem",
140                                 "       key      semid perms      nsems   uid   gid  cuid  cgid      otime      ctime\n",
141                                 IPC_SEM_IDS, sysvipc_sem_proc_show);
142 }
143
144 /*
145  * sem_lock_(check_) routines are called in the paths where the rw_mutex
146  * is not held.
147  */
148 static inline struct sem_array *sem_lock(struct ipc_namespace *ns, int id)
149 {
150         struct kern_ipc_perm *ipcp = ipc_lock(&sem_ids(ns), id);
151
152         if (IS_ERR(ipcp))
153                 return (struct sem_array *)ipcp;
154
155         return container_of(ipcp, struct sem_array, sem_perm);
156 }
157
158 static inline struct sem_array *sem_lock_check(struct ipc_namespace *ns,
159                                                 int id)
160 {
161         struct kern_ipc_perm *ipcp = ipc_lock_check(&sem_ids(ns), id);
162
163         if (IS_ERR(ipcp))
164                 return (struct sem_array *)ipcp;
165
166         return container_of(ipcp, struct sem_array, sem_perm);
167 }
168
169 static inline void sem_lock_and_putref(struct sem_array *sma)
170 {
171         ipc_lock_by_ptr(&sma->sem_perm);
172         ipc_rcu_putref(sma);
173 }
174
175 static inline void sem_getref_and_unlock(struct sem_array *sma)
176 {
177         ipc_rcu_getref(sma);
178         ipc_unlock(&(sma)->sem_perm);
179 }
180
181 static inline void sem_putref(struct sem_array *sma)
182 {
183         ipc_lock_by_ptr(&sma->sem_perm);
184         ipc_rcu_putref(sma);
185         ipc_unlock(&(sma)->sem_perm);
186 }
187
188 static inline void sem_rmid(struct ipc_namespace *ns, struct sem_array *s)
189 {
190         ipc_rmid(&sem_ids(ns), &s->sem_perm);
191 }
192
193 /*
194  * Lockless wakeup algorithm:
195  * Without the check/retry algorithm a lockless wakeup is possible:
196  * - queue.status is initialized to -EINTR before blocking.
197  * - wakeup is performed by
198  *      * unlinking the queue entry from sma->sem_pending
199  *      * setting queue.status to IN_WAKEUP
200  *        This is the notification for the blocked thread that a
201  *        result value is imminent.
202  *      * call wake_up_process
203  *      * set queue.status to the final value.
204  * - the previously blocked thread checks queue.status:
205  *      * if it's IN_WAKEUP, then it must wait until the value changes
206  *      * if it's not -EINTR, then the operation was completed by
207  *        update_queue. semtimedop can return queue.status without
208  *        performing any operation on the sem array.
209  *      * otherwise it must acquire the spinlock and check what's up.
210  *
211  * The two-stage algorithm is necessary to protect against the following
212  * races:
213  * - if queue.status is set after wake_up_process, then the woken up idle
214  *   thread could race forward and try (and fail) to acquire sma->lock
215  *   before update_queue had a chance to set queue.status
216  * - if queue.status is written before wake_up_process and if the
217  *   blocked process is woken up by a signal between writing
218  *   queue.status and the wake_up_process, then the woken up
219  *   process could return from semtimedop and die by calling
220  *   sys_exit before wake_up_process is called. Then wake_up_process
221  *   will oops, because the task structure is already invalid.
222  *   (yes, this happened on s390 with sysv msg).
223  *
224  */
225 #define IN_WAKEUP       1
226
227 /**
228  * newary - Create a new semaphore set
229  * @ns: namespace
230  * @params: ptr to the structure that contains key, semflg and nsems
231  *
232  * Called with sem_ids.rw_mutex held (as a writer)
233  */
234
235 static int newary(struct ipc_namespace *ns, struct ipc_params *params)
236 {
237         int id;
238         int retval;
239         struct sem_array *sma;
240         int size;
241         key_t key = params->key;
242         int nsems = params->u.nsems;
243         int semflg = params->flg;
244         int i;
245
246         if (!nsems)
247                 return -EINVAL;
248         if (ns->used_sems + nsems > ns->sc_semmns)
249                 return -ENOSPC;
250
251         size = sizeof (*sma) + nsems * sizeof (struct sem);
252         sma = ipc_rcu_alloc(size);
253         if (!sma) {
254                 return -ENOMEM;
255         }
256         memset (sma, 0, size);
257
258         sma->sem_perm.mode = (semflg & S_IRWXUGO);
259         sma->sem_perm.key = key;
260
261         sma->sem_perm.security = NULL;
262         retval = security_sem_alloc(sma);
263         if (retval) {
264                 ipc_rcu_putref(sma);
265                 return retval;
266         }
267
268         id = ipc_addid(&sem_ids(ns), &sma->sem_perm, ns->sc_semmni);
269         if (id < 0) {
270                 security_sem_free(sma);
271                 ipc_rcu_putref(sma);
272                 return id;
273         }
274         ns->used_sems += nsems;
275
276         sma->sem_base = (struct sem *) &sma[1];
277
278         for (i = 0; i < nsems; i++)
279                 INIT_LIST_HEAD(&sma->sem_base[i].sem_pending);
280
281         sma->complex_count = 0;
282         INIT_LIST_HEAD(&sma->sem_pending);
283         INIT_LIST_HEAD(&sma->list_id);
284         sma->sem_nsems = nsems;
285         sma->sem_ctime = get_seconds();
286         sem_unlock(sma);
287
288         return sma->sem_perm.id;
289 }
290
291
292 /*
293  * Called with sem_ids.rw_mutex and ipcp locked.
294  */
295 static inline int sem_security(struct kern_ipc_perm *ipcp, int semflg)
296 {
297         struct sem_array *sma;
298
299         sma = container_of(ipcp, struct sem_array, sem_perm);
300         return security_sem_associate(sma, semflg);
301 }
302
303 /*
304  * Called with sem_ids.rw_mutex and ipcp locked.
305  */
306 static inline int sem_more_checks(struct kern_ipc_perm *ipcp,
307                                 struct ipc_params *params)
308 {
309         struct sem_array *sma;
310
311         sma = container_of(ipcp, struct sem_array, sem_perm);
312         if (params->u.nsems > sma->sem_nsems)
313                 return -EINVAL;
314
315         return 0;
316 }
317
318 SYSCALL_DEFINE3(semget, key_t, key, int, nsems, int, semflg)
319 {
320         struct ipc_namespace *ns;
321         struct ipc_ops sem_ops;
322         struct ipc_params sem_params;
323
324         ns = current->nsproxy->ipc_ns;
325
326         if (nsems < 0 || nsems > ns->sc_semmsl)
327                 return -EINVAL;
328
329         sem_ops.getnew = newary;
330         sem_ops.associate = sem_security;
331         sem_ops.more_checks = sem_more_checks;
332
333         sem_params.key = key;
334         sem_params.flg = semflg;
335         sem_params.u.nsems = nsems;
336
337         return ipcget(ns, &sem_ids(ns), &sem_ops, &sem_params);
338 }
339
340 /*
341  * Determine whether a sequence of semaphore operations would succeed
342  * all at once. Return 0 if yes, 1 if need to sleep, else return error code.
343  */
344
345 static int try_atomic_semop (struct sem_array * sma, struct sembuf * sops,
346                              int nsops, struct sem_undo *un, int pid)
347 {
348         int result, sem_op;
349         struct sembuf *sop;
350         struct sem * curr;
351
352         for (sop = sops; sop < sops + nsops; sop++) {
353                 curr = sma->sem_base + sop->sem_num;
354                 sem_op = sop->sem_op;
355                 result = curr->semval;
356   
357                 if (!sem_op && result)
358                         goto would_block;
359
360                 result += sem_op;
361                 if (result < 0)
362                         goto would_block;
363                 if (result > SEMVMX)
364                         goto out_of_range;
365                 if (sop->sem_flg & SEM_UNDO) {
366                         int undo = un->semadj[sop->sem_num] - sem_op;
367                         /*
368                          *      Exceeding the undo range is an error.
369                          */
370                         if (undo < (-SEMAEM - 1) || undo > SEMAEM)
371                                 goto out_of_range;
372                 }
373                 curr->semval = result;
374         }
375
376         sop--;
377         while (sop >= sops) {
378                 sma->sem_base[sop->sem_num].sempid = pid;
379                 if (sop->sem_flg & SEM_UNDO)
380                         un->semadj[sop->sem_num] -= sop->sem_op;
381                 sop--;
382         }
383         
384         sma->sem_otime = get_seconds();
385         return 0;
386
387 out_of_range:
388         result = -ERANGE;
389         goto undo;
390
391 would_block:
392         if (sop->sem_flg & IPC_NOWAIT)
393                 result = -EAGAIN;
394         else
395                 result = 1;
396
397 undo:
398         sop--;
399         while (sop >= sops) {
400                 sma->sem_base[sop->sem_num].semval -= sop->sem_op;
401                 sop--;
402         }
403
404         return result;
405 }
406
407 /*
408  * Wake up a process waiting on the sem queue with a given error.
409  * The queue is invalid (may not be accessed) after the function returns.
410  */
411 static void wake_up_sem_queue(struct sem_queue *q, int error)
412 {
413         /*
414          * Hold preempt off so that we don't get preempted and have the
415          * wakee busy-wait until we're scheduled back on. We're holding
416          * locks here so it may not strictly be needed, however if the
417          * locks become preemptible then this prevents such a problem.
418          */
419         preempt_disable();
420         q->status = IN_WAKEUP;
421         wake_up_process(q->sleeper);
422         /* hands-off: q can disappear immediately after writing q->status. */
423         smp_wmb();
424         q->status = error;
425         preempt_enable();
426 }
427
428 static void unlink_queue(struct sem_array *sma, struct sem_queue *q)
429 {
430         list_del(&q->list);
431         if (q->nsops == 1)
432                 list_del(&q->simple_list);
433         else
434                 sma->complex_count--;
435 }
436
437 /* Go through the pending queue for the indicated semaphore
438  * looking for tasks that can be completed.
439  */
440 static void update_queue (struct sem_array * sma)
441 {
442         struct sem_queue *q, *tq;
443
444 again:
445         list_for_each_entry_safe(q, tq, &sma->sem_pending, list) {
446                 int error;
447                 int alter;
448
449                 error = try_atomic_semop(sma, q->sops, q->nsops,
450                                          q->undo, q->pid);
451
452                 /* Does q->sleeper still need to sleep? */
453                 if (error > 0)
454                         continue;
455
456                 unlink_queue(sma, q);
457
458                 /*
459                  * The next operation that must be checked depends on the type
460                  * of the completed operation:
461                  * - if the operation modified the array, then restart from the
462                  *   head of the queue and check for threads that might be
463                  *   waiting for the new semaphore values.
464                  * - if the operation didn't modify the array, then just
465                  *   continue.
466                  */
467                 alter = q->alter;
468                 wake_up_sem_queue(q, error);
469                 if (alter && !error)
470                         goto again;
471         }
472 }
473
474 /* The following counts are associated to each semaphore:
475  *   semncnt        number of tasks waiting on semval being nonzero
476  *   semzcnt        number of tasks waiting on semval being zero
477  * This model assumes that a task waits on exactly one semaphore.
478  * Since semaphore operations are to be performed atomically, tasks actually
479  * wait on a whole sequence of semaphores simultaneously.
480  * The counts we return here are a rough approximation, but still
481  * warrant that semncnt+semzcnt>0 if the task is on the pending queue.
482  */
483 static int count_semncnt (struct sem_array * sma, ushort semnum)
484 {
485         int semncnt;
486         struct sem_queue * q;
487
488         semncnt = 0;
489         list_for_each_entry(q, &sma->sem_pending, list) {
490                 struct sembuf * sops = q->sops;
491                 int nsops = q->nsops;
492                 int i;
493                 for (i = 0; i < nsops; i++)
494                         if (sops[i].sem_num == semnum
495                             && (sops[i].sem_op < 0)
496                             && !(sops[i].sem_flg & IPC_NOWAIT))
497                                 semncnt++;
498         }
499         return semncnt;
500 }
501
502 static int count_semzcnt (struct sem_array * sma, ushort semnum)
503 {
504         int semzcnt;
505         struct sem_queue * q;
506
507         semzcnt = 0;
508         list_for_each_entry(q, &sma->sem_pending, list) {
509                 struct sembuf * sops = q->sops;
510                 int nsops = q->nsops;
511                 int i;
512                 for (i = 0; i < nsops; i++)
513                         if (sops[i].sem_num == semnum
514                             && (sops[i].sem_op == 0)
515                             && !(sops[i].sem_flg & IPC_NOWAIT))
516                                 semzcnt++;
517         }
518         return semzcnt;
519 }
520
521 static void free_un(struct rcu_head *head)
522 {
523         struct sem_undo *un = container_of(head, struct sem_undo, rcu);
524         kfree(un);
525 }
526
527 /* Free a semaphore set. freeary() is called with sem_ids.rw_mutex locked
528  * as a writer and the spinlock for this semaphore set hold. sem_ids.rw_mutex
529  * remains locked on exit.
530  */
531 static void freeary(struct ipc_namespace *ns, struct kern_ipc_perm *ipcp)
532 {
533         struct sem_undo *un, *tu;
534         struct sem_queue *q, *tq;
535         struct sem_array *sma = container_of(ipcp, struct sem_array, sem_perm);
536
537         /* Free the existing undo structures for this semaphore set.  */
538         assert_spin_locked(&sma->sem_perm.lock);
539         list_for_each_entry_safe(un, tu, &sma->list_id, list_id) {
540                 list_del(&un->list_id);
541                 spin_lock(&un->ulp->lock);
542                 un->semid = -1;
543                 list_del_rcu(&un->list_proc);
544                 spin_unlock(&un->ulp->lock);
545                 call_rcu(&un->rcu, free_un);
546         }
547
548         /* Wake up all pending processes and let them fail with EIDRM. */
549         list_for_each_entry_safe(q, tq, &sma->sem_pending, list) {
550                 unlink_queue(sma, q);
551                 wake_up_sem_queue(q, -EIDRM);
552         }
553
554         /* Remove the semaphore set from the IDR */
555         sem_rmid(ns, sma);
556         sem_unlock(sma);
557
558         ns->used_sems -= sma->sem_nsems;
559         security_sem_free(sma);
560         ipc_rcu_putref(sma);
561 }
562
563 static unsigned long copy_semid_to_user(void __user *buf, struct semid64_ds *in, int version)
564 {
565         switch(version) {
566         case IPC_64:
567                 return copy_to_user(buf, in, sizeof(*in));
568         case IPC_OLD:
569             {
570                 struct semid_ds out;
571
572                 ipc64_perm_to_ipc_perm(&in->sem_perm, &out.sem_perm);
573
574                 out.sem_otime   = in->sem_otime;
575                 out.sem_ctime   = in->sem_ctime;
576                 out.sem_nsems   = in->sem_nsems;
577
578                 return copy_to_user(buf, &out, sizeof(out));
579             }
580         default:
581                 return -EINVAL;
582         }
583 }
584
585 static int semctl_nolock(struct ipc_namespace *ns, int semid,
586                          int cmd, int version, union semun arg)
587 {
588         int err = -EINVAL;
589         struct sem_array *sma;
590
591         switch(cmd) {
592         case IPC_INFO:
593         case SEM_INFO:
594         {
595                 struct seminfo seminfo;
596                 int max_id;
597
598                 err = security_sem_semctl(NULL, cmd);
599                 if (err)
600                         return err;
601                 
602                 memset(&seminfo,0,sizeof(seminfo));
603                 seminfo.semmni = ns->sc_semmni;
604                 seminfo.semmns = ns->sc_semmns;
605                 seminfo.semmsl = ns->sc_semmsl;
606                 seminfo.semopm = ns->sc_semopm;
607                 seminfo.semvmx = SEMVMX;
608                 seminfo.semmnu = SEMMNU;
609                 seminfo.semmap = SEMMAP;
610                 seminfo.semume = SEMUME;
611                 down_read(&sem_ids(ns).rw_mutex);
612                 if (cmd == SEM_INFO) {
613                         seminfo.semusz = sem_ids(ns).in_use;
614                         seminfo.semaem = ns->used_sems;
615                 } else {
616                         seminfo.semusz = SEMUSZ;
617                         seminfo.semaem = SEMAEM;
618                 }
619                 max_id = ipc_get_maxid(&sem_ids(ns));
620                 up_read(&sem_ids(ns).rw_mutex);
621                 if (copy_to_user (arg.__buf, &seminfo, sizeof(struct seminfo))) 
622                         return -EFAULT;
623                 return (max_id < 0) ? 0: max_id;
624         }
625         case IPC_STAT:
626         case SEM_STAT:
627         {
628                 struct semid64_ds tbuf;
629                 int id;
630
631                 if (cmd == SEM_STAT) {
632                         sma = sem_lock(ns, semid);
633                         if (IS_ERR(sma))
634                                 return PTR_ERR(sma);
635                         id = sma->sem_perm.id;
636                 } else {
637                         sma = sem_lock_check(ns, semid);
638                         if (IS_ERR(sma))
639                                 return PTR_ERR(sma);
640                         id = 0;
641                 }
642
643                 err = -EACCES;
644                 if (ipcperms (&sma->sem_perm, S_IRUGO))
645                         goto out_unlock;
646
647                 err = security_sem_semctl(sma, cmd);
648                 if (err)
649                         goto out_unlock;
650
651                 memset(&tbuf, 0, sizeof(tbuf));
652
653                 kernel_to_ipc64_perm(&sma->sem_perm, &tbuf.sem_perm);
654                 tbuf.sem_otime  = sma->sem_otime;
655                 tbuf.sem_ctime  = sma->sem_ctime;
656                 tbuf.sem_nsems  = sma->sem_nsems;
657                 sem_unlock(sma);
658                 if (copy_semid_to_user (arg.buf, &tbuf, version))
659                         return -EFAULT;
660                 return id;
661         }
662         default:
663                 return -EINVAL;
664         }
665         return err;
666 out_unlock:
667         sem_unlock(sma);
668         return err;
669 }
670
671 static int semctl_main(struct ipc_namespace *ns, int semid, int semnum,
672                 int cmd, int version, union semun arg)
673 {
674         struct sem_array *sma;
675         struct sem* curr;
676         int err;
677         ushort fast_sem_io[SEMMSL_FAST];
678         ushort* sem_io = fast_sem_io;
679         int nsems;
680
681         sma = sem_lock_check(ns, semid);
682         if (IS_ERR(sma))
683                 return PTR_ERR(sma);
684
685         nsems = sma->sem_nsems;
686
687         err = -EACCES;
688         if (ipcperms (&sma->sem_perm, (cmd==SETVAL||cmd==SETALL)?S_IWUGO:S_IRUGO))
689                 goto out_unlock;
690
691         err = security_sem_semctl(sma, cmd);
692         if (err)
693                 goto out_unlock;
694
695         err = -EACCES;
696         switch (cmd) {
697         case GETALL:
698         {
699                 ushort __user *array = arg.array;
700                 int i;
701
702                 if(nsems > SEMMSL_FAST) {
703                         sem_getref_and_unlock(sma);
704
705                         sem_io = ipc_alloc(sizeof(ushort)*nsems);
706                         if(sem_io == NULL) {
707                                 sem_putref(sma);
708                                 return -ENOMEM;
709                         }
710
711                         sem_lock_and_putref(sma);
712                         if (sma->sem_perm.deleted) {
713                                 sem_unlock(sma);
714                                 err = -EIDRM;
715                                 goto out_free;
716                         }
717                 }
718
719                 for (i = 0; i < sma->sem_nsems; i++)
720                         sem_io[i] = sma->sem_base[i].semval;
721                 sem_unlock(sma);
722                 err = 0;
723                 if(copy_to_user(array, sem_io, nsems*sizeof(ushort)))
724                         err = -EFAULT;
725                 goto out_free;
726         }
727         case SETALL:
728         {
729                 int i;
730                 struct sem_undo *un;
731
732                 sem_getref_and_unlock(sma);
733
734                 if(nsems > SEMMSL_FAST) {
735                         sem_io = ipc_alloc(sizeof(ushort)*nsems);
736                         if(sem_io == NULL) {
737                                 sem_putref(sma);
738                                 return -ENOMEM;
739                         }
740                 }
741
742                 if (copy_from_user (sem_io, arg.array, nsems*sizeof(ushort))) {
743                         sem_putref(sma);
744                         err = -EFAULT;
745                         goto out_free;
746                 }
747
748                 for (i = 0; i < nsems; i++) {
749                         if (sem_io[i] > SEMVMX) {
750                                 sem_putref(sma);
751                                 err = -ERANGE;
752                                 goto out_free;
753                         }
754                 }
755                 sem_lock_and_putref(sma);
756                 if (sma->sem_perm.deleted) {
757                         sem_unlock(sma);
758                         err = -EIDRM;
759                         goto out_free;
760                 }
761
762                 for (i = 0; i < nsems; i++)
763                         sma->sem_base[i].semval = sem_io[i];
764
765                 assert_spin_locked(&sma->sem_perm.lock);
766                 list_for_each_entry(un, &sma->list_id, list_id) {
767                         for (i = 0; i < nsems; i++)
768                                 un->semadj[i] = 0;
769                 }
770                 sma->sem_ctime = get_seconds();
771                 /* maybe some queued-up processes were waiting for this */
772                 update_queue(sma);
773                 err = 0;
774                 goto out_unlock;
775         }
776         /* GETVAL, GETPID, GETNCTN, GETZCNT, SETVAL: fall-through */
777         }
778         err = -EINVAL;
779         if(semnum < 0 || semnum >= nsems)
780                 goto out_unlock;
781
782         curr = &sma->sem_base[semnum];
783
784         switch (cmd) {
785         case GETVAL:
786                 err = curr->semval;
787                 goto out_unlock;
788         case GETPID:
789                 err = curr->sempid;
790                 goto out_unlock;
791         case GETNCNT:
792                 err = count_semncnt(sma,semnum);
793                 goto out_unlock;
794         case GETZCNT:
795                 err = count_semzcnt(sma,semnum);
796                 goto out_unlock;
797         case SETVAL:
798         {
799                 int val = arg.val;
800                 struct sem_undo *un;
801
802                 err = -ERANGE;
803                 if (val > SEMVMX || val < 0)
804                         goto out_unlock;
805
806                 assert_spin_locked(&sma->sem_perm.lock);
807                 list_for_each_entry(un, &sma->list_id, list_id)
808                         un->semadj[semnum] = 0;
809
810                 curr->semval = val;
811                 curr->sempid = task_tgid_vnr(current);
812                 sma->sem_ctime = get_seconds();
813                 /* maybe some queued-up processes were waiting for this */
814                 update_queue(sma);
815                 err = 0;
816                 goto out_unlock;
817         }
818         }
819 out_unlock:
820         sem_unlock(sma);
821 out_free:
822         if(sem_io != fast_sem_io)
823                 ipc_free(sem_io, sizeof(ushort)*nsems);
824         return err;
825 }
826
827 static inline unsigned long
828 copy_semid_from_user(struct semid64_ds *out, void __user *buf, int version)
829 {
830         switch(version) {
831         case IPC_64:
832                 if (copy_from_user(out, buf, sizeof(*out)))
833                         return -EFAULT;
834                 return 0;
835         case IPC_OLD:
836             {
837                 struct semid_ds tbuf_old;
838
839                 if(copy_from_user(&tbuf_old, buf, sizeof(tbuf_old)))
840                         return -EFAULT;
841
842                 out->sem_perm.uid       = tbuf_old.sem_perm.uid;
843                 out->sem_perm.gid       = tbuf_old.sem_perm.gid;
844                 out->sem_perm.mode      = tbuf_old.sem_perm.mode;
845
846                 return 0;
847             }
848         default:
849                 return -EINVAL;
850         }
851 }
852
853 /*
854  * This function handles some semctl commands which require the rw_mutex
855  * to be held in write mode.
856  * NOTE: no locks must be held, the rw_mutex is taken inside this function.
857  */
858 static int semctl_down(struct ipc_namespace *ns, int semid,
859                        int cmd, int version, union semun arg)
860 {
861         struct sem_array *sma;
862         int err;
863         struct semid64_ds semid64;
864         struct kern_ipc_perm *ipcp;
865
866         if(cmd == IPC_SET) {
867                 if (copy_semid_from_user(&semid64, arg.buf, version))
868                         return -EFAULT;
869         }
870
871         ipcp = ipcctl_pre_down(&sem_ids(ns), semid, cmd, &semid64.sem_perm, 0);
872         if (IS_ERR(ipcp))
873                 return PTR_ERR(ipcp);
874
875         sma = container_of(ipcp, struct sem_array, sem_perm);
876
877         err = security_sem_semctl(sma, cmd);
878         if (err)
879                 goto out_unlock;
880
881         switch(cmd){
882         case IPC_RMID:
883                 freeary(ns, ipcp);
884                 goto out_up;
885         case IPC_SET:
886                 ipc_update_perm(&semid64.sem_perm, ipcp);
887                 sma->sem_ctime = get_seconds();
888                 break;
889         default:
890                 err = -EINVAL;
891         }
892
893 out_unlock:
894         sem_unlock(sma);
895 out_up:
896         up_write(&sem_ids(ns).rw_mutex);
897         return err;
898 }
899
900 SYSCALL_DEFINE(semctl)(int semid, int semnum, int cmd, union semun arg)
901 {
902         int err = -EINVAL;
903         int version;
904         struct ipc_namespace *ns;
905
906         if (semid < 0)
907                 return -EINVAL;
908
909         version = ipc_parse_version(&cmd);
910         ns = current->nsproxy->ipc_ns;
911
912         switch(cmd) {
913         case IPC_INFO:
914         case SEM_INFO:
915         case IPC_STAT:
916         case SEM_STAT:
917                 err = semctl_nolock(ns, semid, cmd, version, arg);
918                 return err;
919         case GETALL:
920         case GETVAL:
921         case GETPID:
922         case GETNCNT:
923         case GETZCNT:
924         case SETVAL:
925         case SETALL:
926                 err = semctl_main(ns,semid,semnum,cmd,version,arg);
927                 return err;
928         case IPC_RMID:
929         case IPC_SET:
930                 err = semctl_down(ns, semid, cmd, version, arg);
931                 return err;
932         default:
933                 return -EINVAL;
934         }
935 }
936 #ifdef CONFIG_HAVE_SYSCALL_WRAPPERS
937 asmlinkage long SyS_semctl(int semid, int semnum, int cmd, union semun arg)
938 {
939         return SYSC_semctl((int) semid, (int) semnum, (int) cmd, arg);
940 }
941 SYSCALL_ALIAS(sys_semctl, SyS_semctl);
942 #endif
943
944 /* If the task doesn't already have a undo_list, then allocate one
945  * here.  We guarantee there is only one thread using this undo list,
946  * and current is THE ONE
947  *
948  * If this allocation and assignment succeeds, but later
949  * portions of this code fail, there is no need to free the sem_undo_list.
950  * Just let it stay associated with the task, and it'll be freed later
951  * at exit time.
952  *
953  * This can block, so callers must hold no locks.
954  */
955 static inline int get_undo_list(struct sem_undo_list **undo_listp)
956 {
957         struct sem_undo_list *undo_list;
958
959         undo_list = current->sysvsem.undo_list;
960         if (!undo_list) {
961                 undo_list = kzalloc(sizeof(*undo_list), GFP_KERNEL);
962                 if (undo_list == NULL)
963                         return -ENOMEM;
964                 spin_lock_init(&undo_list->lock);
965                 atomic_set(&undo_list->refcnt, 1);
966                 INIT_LIST_HEAD(&undo_list->list_proc);
967
968                 current->sysvsem.undo_list = undo_list;
969         }
970         *undo_listp = undo_list;
971         return 0;
972 }
973
974 static struct sem_undo *__lookup_undo(struct sem_undo_list *ulp, int semid)
975 {
976         struct sem_undo *un;
977
978         list_for_each_entry_rcu(un, &ulp->list_proc, list_proc) {
979                 if (un->semid == semid)
980                         return un;
981         }
982         return NULL;
983 }
984
985 static struct sem_undo *lookup_undo(struct sem_undo_list *ulp, int semid)
986 {
987         struct sem_undo *un;
988
989         assert_spin_locked(&ulp->lock);
990
991         un = __lookup_undo(ulp, semid);
992         if (un) {
993                 list_del_rcu(&un->list_proc);
994                 list_add_rcu(&un->list_proc, &ulp->list_proc);
995         }
996         return un;
997 }
998
999 /**
1000  * find_alloc_undo - Lookup (and if not present create) undo array
1001  * @ns: namespace
1002  * @semid: semaphore array id
1003  *
1004  * The function looks up (and if not present creates) the undo structure.
1005  * The size of the undo structure depends on the size of the semaphore
1006  * array, thus the alloc path is not that straightforward.
1007  * Lifetime-rules: sem_undo is rcu-protected, on success, the function
1008  * performs a rcu_read_lock().
1009  */
1010 static struct sem_undo *find_alloc_undo(struct ipc_namespace *ns, int semid)
1011 {
1012         struct sem_array *sma;
1013         struct sem_undo_list *ulp;
1014         struct sem_undo *un, *new;
1015         int nsems;
1016         int error;
1017
1018         error = get_undo_list(&ulp);
1019         if (error)
1020                 return ERR_PTR(error);
1021
1022         rcu_read_lock();
1023         spin_lock(&ulp->lock);
1024         un = lookup_undo(ulp, semid);
1025         spin_unlock(&ulp->lock);
1026         if (likely(un!=NULL))
1027                 goto out;
1028         rcu_read_unlock();
1029
1030         /* no undo structure around - allocate one. */
1031         /* step 1: figure out the size of the semaphore array */
1032         sma = sem_lock_check(ns, semid);
1033         if (IS_ERR(sma))
1034                 return ERR_PTR(PTR_ERR(sma));
1035
1036         nsems = sma->sem_nsems;
1037         sem_getref_and_unlock(sma);
1038
1039         /* step 2: allocate new undo structure */
1040         new = kzalloc(sizeof(struct sem_undo) + sizeof(short)*nsems, GFP_KERNEL);
1041         if (!new) {
1042                 sem_putref(sma);
1043                 return ERR_PTR(-ENOMEM);
1044         }
1045
1046         /* step 3: Acquire the lock on semaphore array */
1047         sem_lock_and_putref(sma);
1048         if (sma->sem_perm.deleted) {
1049                 sem_unlock(sma);
1050                 kfree(new);
1051                 un = ERR_PTR(-EIDRM);
1052                 goto out;
1053         }
1054         spin_lock(&ulp->lock);
1055
1056         /*
1057          * step 4: check for races: did someone else allocate the undo struct?
1058          */
1059         un = lookup_undo(ulp, semid);
1060         if (un) {
1061                 kfree(new);
1062                 goto success;
1063         }
1064         /* step 5: initialize & link new undo structure */
1065         new->semadj = (short *) &new[1];
1066         new->ulp = ulp;
1067         new->semid = semid;
1068         assert_spin_locked(&ulp->lock);
1069         list_add_rcu(&new->list_proc, &ulp->list_proc);
1070         assert_spin_locked(&sma->sem_perm.lock);
1071         list_add(&new->list_id, &sma->list_id);
1072         un = new;
1073
1074 success:
1075         spin_unlock(&ulp->lock);
1076         rcu_read_lock();
1077         sem_unlock(sma);
1078 out:
1079         return un;
1080 }
1081
1082 SYSCALL_DEFINE4(semtimedop, int, semid, struct sembuf __user *, tsops,
1083                 unsigned, nsops, const struct timespec __user *, timeout)
1084 {
1085         int error = -EINVAL;
1086         struct sem_array *sma;
1087         struct sembuf fast_sops[SEMOPM_FAST];
1088         struct sembuf* sops = fast_sops, *sop;
1089         struct sem_undo *un;
1090         int undos = 0, alter = 0, max;
1091         struct sem_queue queue;
1092         unsigned long jiffies_left = 0;
1093         struct ipc_namespace *ns;
1094
1095         ns = current->nsproxy->ipc_ns;
1096
1097         if (nsops < 1 || semid < 0)
1098                 return -EINVAL;
1099         if (nsops > ns->sc_semopm)
1100                 return -E2BIG;
1101         if(nsops > SEMOPM_FAST) {
1102                 sops = kmalloc(sizeof(*sops)*nsops,GFP_KERNEL);
1103                 if(sops==NULL)
1104                         return -ENOMEM;
1105         }
1106         if (copy_from_user (sops, tsops, nsops * sizeof(*tsops))) {
1107                 error=-EFAULT;
1108                 goto out_free;
1109         }
1110         if (timeout) {
1111                 struct timespec _timeout;
1112                 if (copy_from_user(&_timeout, timeout, sizeof(*timeout))) {
1113                         error = -EFAULT;
1114                         goto out_free;
1115                 }
1116                 if (_timeout.tv_sec < 0 || _timeout.tv_nsec < 0 ||
1117                         _timeout.tv_nsec >= 1000000000L) {
1118                         error = -EINVAL;
1119                         goto out_free;
1120                 }
1121                 jiffies_left = timespec_to_jiffies(&_timeout);
1122         }
1123         max = 0;
1124         for (sop = sops; sop < sops + nsops; sop++) {
1125                 if (sop->sem_num >= max)
1126                         max = sop->sem_num;
1127                 if (sop->sem_flg & SEM_UNDO)
1128                         undos = 1;
1129                 if (sop->sem_op != 0)
1130                         alter = 1;
1131         }
1132
1133         if (undos) {
1134                 un = find_alloc_undo(ns, semid);
1135                 if (IS_ERR(un)) {
1136                         error = PTR_ERR(un);
1137                         goto out_free;
1138                 }
1139         } else
1140                 un = NULL;
1141
1142         sma = sem_lock_check(ns, semid);
1143         if (IS_ERR(sma)) {
1144                 if (un)
1145                         rcu_read_unlock();
1146                 error = PTR_ERR(sma);
1147                 goto out_free;
1148         }
1149
1150         /*
1151          * semid identifiers are not unique - find_alloc_undo may have
1152          * allocated an undo structure, it was invalidated by an RMID
1153          * and now a new array with received the same id. Check and fail.
1154          * This case can be detected checking un->semid. The existance of
1155          * "un" itself is guaranteed by rcu.
1156          */
1157         error = -EIDRM;
1158         if (un) {
1159                 if (un->semid == -1) {
1160                         rcu_read_unlock();
1161                         goto out_unlock_free;
1162                 } else {
1163                         /*
1164                          * rcu lock can be released, "un" cannot disappear:
1165                          * - sem_lock is acquired, thus IPC_RMID is
1166                          *   impossible.
1167                          * - exit_sem is impossible, it always operates on
1168                          *   current (or a dead task).
1169                          */
1170
1171                         rcu_read_unlock();
1172                 }
1173         }
1174
1175         error = -EFBIG;
1176         if (max >= sma->sem_nsems)
1177                 goto out_unlock_free;
1178
1179         error = -EACCES;
1180         if (ipcperms(&sma->sem_perm, alter ? S_IWUGO : S_IRUGO))
1181                 goto out_unlock_free;
1182
1183         error = security_sem_semop(sma, sops, nsops, alter);
1184         if (error)
1185                 goto out_unlock_free;
1186
1187         error = try_atomic_semop (sma, sops, nsops, un, task_tgid_vnr(current));
1188         if (error <= 0) {
1189                 if (alter && error == 0)
1190                         update_queue (sma);
1191                 goto out_unlock_free;
1192         }
1193
1194         /* We need to sleep on this operation, so we put the current
1195          * task into the pending queue and go to sleep.
1196          */
1197                 
1198         queue.sops = sops;
1199         queue.nsops = nsops;
1200         queue.undo = un;
1201         queue.pid = task_tgid_vnr(current);
1202         queue.alter = alter;
1203         if (alter)
1204                 list_add_tail(&queue.list, &sma->sem_pending);
1205         else
1206                 list_add(&queue.list, &sma->sem_pending);
1207
1208         if (nsops == 1) {
1209                 struct sem *curr;
1210                 curr = &sma->sem_base[sops->sem_num];
1211
1212                 if (alter)
1213                         list_add_tail(&queue.simple_list, &curr->sem_pending);
1214                 else
1215                         list_add(&queue.simple_list, &curr->sem_pending);
1216         } else {
1217                 INIT_LIST_HEAD(&queue.simple_list);
1218                 sma->complex_count++;
1219         }
1220
1221         queue.status = -EINTR;
1222         queue.sleeper = current;
1223         current->state = TASK_INTERRUPTIBLE;
1224         sem_unlock(sma);
1225
1226         if (timeout)
1227                 jiffies_left = schedule_timeout(jiffies_left);
1228         else
1229                 schedule();
1230
1231         error = queue.status;
1232         while(unlikely(error == IN_WAKEUP)) {
1233                 cpu_relax();
1234                 error = queue.status;
1235         }
1236
1237         if (error != -EINTR) {
1238                 /* fast path: update_queue already obtained all requested
1239                  * resources */
1240                 goto out_free;
1241         }
1242
1243         sma = sem_lock(ns, semid);
1244         if (IS_ERR(sma)) {
1245                 error = -EIDRM;
1246                 goto out_free;
1247         }
1248
1249         /*
1250          * If queue.status != -EINTR we are woken up by another process
1251          */
1252         error = queue.status;
1253         if (error != -EINTR) {
1254                 goto out_unlock_free;
1255         }
1256
1257         /*
1258          * If an interrupt occurred we have to clean up the queue
1259          */
1260         if (timeout && jiffies_left == 0)
1261                 error = -EAGAIN;
1262         unlink_queue(sma, &queue);
1263
1264 out_unlock_free:
1265         sem_unlock(sma);
1266 out_free:
1267         if(sops != fast_sops)
1268                 kfree(sops);
1269         return error;
1270 }
1271
1272 SYSCALL_DEFINE3(semop, int, semid, struct sembuf __user *, tsops,
1273                 unsigned, nsops)
1274 {
1275         return sys_semtimedop(semid, tsops, nsops, NULL);
1276 }
1277
1278 /* If CLONE_SYSVSEM is set, establish sharing of SEM_UNDO state between
1279  * parent and child tasks.
1280  */
1281
1282 int copy_semundo(unsigned long clone_flags, struct task_struct *tsk)
1283 {
1284         struct sem_undo_list *undo_list;
1285         int error;
1286
1287         if (clone_flags & CLONE_SYSVSEM) {
1288                 error = get_undo_list(&undo_list);
1289                 if (error)
1290                         return error;
1291                 atomic_inc(&undo_list->refcnt);
1292                 tsk->sysvsem.undo_list = undo_list;
1293         } else 
1294                 tsk->sysvsem.undo_list = NULL;
1295
1296         return 0;
1297 }
1298
1299 /*
1300  * add semadj values to semaphores, free undo structures.
1301  * undo structures are not freed when semaphore arrays are destroyed
1302  * so some of them may be out of date.
1303  * IMPLEMENTATION NOTE: There is some confusion over whether the
1304  * set of adjustments that needs to be done should be done in an atomic
1305  * manner or not. That is, if we are attempting to decrement the semval
1306  * should we queue up and wait until we can do so legally?
1307  * The original implementation attempted to do this (queue and wait).
1308  * The current implementation does not do so. The POSIX standard
1309  * and SVID should be consulted to determine what behavior is mandated.
1310  */
1311 void exit_sem(struct task_struct *tsk)
1312 {
1313         struct sem_undo_list *ulp;
1314
1315         ulp = tsk->sysvsem.undo_list;
1316         if (!ulp)
1317                 return;
1318         tsk->sysvsem.undo_list = NULL;
1319
1320         if (!atomic_dec_and_test(&ulp->refcnt))
1321                 return;
1322
1323         for (;;) {
1324                 struct sem_array *sma;
1325                 struct sem_undo *un;
1326                 int semid;
1327                 int i;
1328
1329                 rcu_read_lock();
1330                 un = list_entry_rcu(ulp->list_proc.next,
1331                                     struct sem_undo, list_proc);
1332                 if (&un->list_proc == &ulp->list_proc)
1333                         semid = -1;
1334                  else
1335                         semid = un->semid;
1336                 rcu_read_unlock();
1337
1338                 if (semid == -1)
1339                         break;
1340
1341                 sma = sem_lock_check(tsk->nsproxy->ipc_ns, un->semid);
1342
1343                 /* exit_sem raced with IPC_RMID, nothing to do */
1344                 if (IS_ERR(sma))
1345                         continue;
1346
1347                 un = __lookup_undo(ulp, semid);
1348                 if (un == NULL) {
1349                         /* exit_sem raced with IPC_RMID+semget() that created
1350                          * exactly the same semid. Nothing to do.
1351                          */
1352                         sem_unlock(sma);
1353                         continue;
1354                 }
1355
1356                 /* remove un from the linked lists */
1357                 assert_spin_locked(&sma->sem_perm.lock);
1358                 list_del(&un->list_id);
1359
1360                 spin_lock(&ulp->lock);
1361                 list_del_rcu(&un->list_proc);
1362                 spin_unlock(&ulp->lock);
1363
1364                 /* perform adjustments registered in un */
1365                 for (i = 0; i < sma->sem_nsems; i++) {
1366                         struct sem * semaphore = &sma->sem_base[i];
1367                         if (un->semadj[i]) {
1368                                 semaphore->semval += un->semadj[i];
1369                                 /*
1370                                  * Range checks of the new semaphore value,
1371                                  * not defined by sus:
1372                                  * - Some unices ignore the undo entirely
1373                                  *   (e.g. HP UX 11i 11.22, Tru64 V5.1)
1374                                  * - some cap the value (e.g. FreeBSD caps
1375                                  *   at 0, but doesn't enforce SEMVMX)
1376                                  *
1377                                  * Linux caps the semaphore value, both at 0
1378                                  * and at SEMVMX.
1379                                  *
1380                                  *      Manfred <manfred@colorfullife.com>
1381                                  */
1382                                 if (semaphore->semval < 0)
1383                                         semaphore->semval = 0;
1384                                 if (semaphore->semval > SEMVMX)
1385                                         semaphore->semval = SEMVMX;
1386                                 semaphore->sempid = task_tgid_vnr(current);
1387                         }
1388                 }
1389                 sma->sem_otime = get_seconds();
1390                 /* maybe some queued-up processes were waiting for this */
1391                 update_queue(sma);
1392                 sem_unlock(sma);
1393
1394                 call_rcu(&un->rcu, free_un);
1395         }
1396         kfree(ulp);
1397 }
1398
1399 #ifdef CONFIG_PROC_FS
1400 static int sysvipc_sem_proc_show(struct seq_file *s, void *it)
1401 {
1402         struct sem_array *sma = it;
1403
1404         return seq_printf(s,
1405                           "%10d %10d  %4o %10u %5u %5u %5u %5u %10lu %10lu\n",
1406                           sma->sem_perm.key,
1407                           sma->sem_perm.id,
1408                           sma->sem_perm.mode,
1409                           sma->sem_nsems,
1410                           sma->sem_perm.uid,
1411                           sma->sem_perm.gid,
1412                           sma->sem_perm.cuid,
1413                           sma->sem_perm.cgid,
1414                           sma->sem_otime,
1415                           sma->sem_ctime);
1416 }
1417 #endif