Blame - kernel/perf_counter.c - android_kernel_oneplus_msm8996

blob: 63f1987c1c1cc431efd96898980e285967a8c0ea [file] [log] [blame]

Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1	/*
				2	* Performance counter core code
				3	*
Ingo Molnar	9814451	2009-04-29 14:52:50 +0200	[diff] [blame]	4	* Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
				5	* Copyright (C) 2008-2009 Red Hat, Inc., Ingo Molnar
				6	* Copyright (C) 2008-2009 Red Hat, Inc., Peter Zijlstra <pzijlstr@redhat.com>
Paul Mackerras	c5dd016	2009-04-30 09:48:16 +1000	[diff] [blame]	7	* Copyright © 2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	8	*
				9	* For licensing details see kernel-base/COPYING
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	10	*/
				11
				12	#include <linux/fs.h>
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	13	#include <linux/mm.h>
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	14	#include <linux/cpu.h>
				15	#include <linux/smp.h>
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	16	#include <linux/file.h>
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	17	#include <linux/poll.h>
				18	#include <linux/sysfs.h>
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	19	#include <linux/dcache.h>
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	20	#include <linux/percpu.h>
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	21	#include <linux/ptrace.h>
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	22	#include <linux/vmstat.h>
				23	#include <linux/hardirq.h>
				24	#include <linux/rculist.h>
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	25	#include <linux/uaccess.h>
				26	#include <linux/syscalls.h>
				27	#include <linux/anon_inodes.h>
Ingo Molnar	aa9c4c0	2008-12-17 14:10:57 +0100	[diff] [blame]	28	#include <linux/kernel_stat.h>
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	29	#include <linux/perf_counter.h>
				30
Tim Blechmann	4e193bd	2009-03-14 14:29:25 +0100	[diff] [blame]	31	#include <asm/irq_regs.h>
				32
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	33	/*
				34	* Each CPU has a list of per CPU counters:
				35	*/
				36	DEFINE_PER_CPU(struct perf_cpu_context, perf_cpu_context);
				37
Ingo Molnar	088e285	2008-12-14 20:21:00 +0100	[diff] [blame]	38	int perf_max_counters __read_mostly = 1;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	39	static int perf_reserved_percpu __read_mostly;
				40	static int perf_overcommit __read_mostly = 1;
				41
Peter Zijlstra	7fc23a5	2009-05-08 18:52:21 +0200	[diff] [blame]	42	static atomic_t nr_counters __read_mostly;
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	43	static atomic_t nr_mmap_counters __read_mostly;
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	44	static atomic_t nr_comm_counters __read_mostly;
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	45
Peter Zijlstra	0764771	2009-06-11 11:18:36 +0200	[diff] [blame^]	46	/*
				47	* 0 - not paranoid
				48	* 1 - disallow cpu counters to unpriv
				49	* 2 - disallow kernel profiling to unpriv
				50	*/
				51	int sysctl_perf_counter_paranoid __read_mostly; /* do we need to be privileged */
				52
				53	static inline bool perf_paranoid_cpu(void)
				54	{
				55	return sysctl_perf_counter_paranoid > 0;
				56	}
				57
				58	static inline bool perf_paranoid_kernel(void)
				59	{
				60	return sysctl_perf_counter_paranoid > 1;
				61	}
				62
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	63	int sysctl_perf_counter_mlock __read_mostly = 512; /* 'free' kb per user */
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	64	int sysctl_perf_counter_limit __read_mostly = 100000; /* max NMIs per second */
Peter Zijlstra	1ccd154	2009-04-09 10:53:45 +0200	[diff] [blame]	65
Peter Zijlstra	a96bbc1	2009-06-03 14:01:36 +0200	[diff] [blame]	66	static atomic64_t perf_counter_id;
				67
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	68	/*
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	69	* Lock for (sysadmin-configurable) counter reservations:
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	70	*/
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	71	static DEFINE_SPINLOCK(perf_resource_lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	72
				73	/*
				74	* Architecture provided APIs - weak aliases:
				75	*/
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	76	extern __weak const struct pmu hw_perf_counter_init(struct perf_counter counter)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	77	{
Paul Mackerras	ff6f054	2009-01-09 16:19:25 +1100	[diff] [blame]	78	return NULL;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	79	}
				80
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	81	void __weak hw_perf_disable(void) { barrier(); }
				82	void __weak hw_perf_enable(void) { barrier(); }
				83
Paul Mackerras	01d0287	2009-01-14 13:44:19 +1100	[diff] [blame]	84	void __weak hw_perf_counter_setup(int cpu) { barrier(); }
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	85
				86	int __weak
				87	hw_perf_group_sched_in(struct perf_counter *group_leader,
Paul Mackerras	3cbed42	2009-01-09 16:43:42 +1100	[diff] [blame]	88	struct perf_cpu_context *cpuctx,
				89	struct perf_counter_context *ctx, int cpu)
				90	{
				91	return 0;
				92	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	93
Paul Mackerras	4eb96fc	2009-01-09 17:24:34 +1100	[diff] [blame]	94	void __weak perf_counter_print_debug(void) { }
				95
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	96	static DEFINE_PER_CPU(int, disable_count);
				97
				98	void __perf_disable(void)
				99	{
				100	__get_cpu_var(disable_count)++;
				101	}
				102
				103	bool __perf_enable(void)
				104	{
				105	return !--__get_cpu_var(disable_count);
				106	}
				107
				108	void perf_disable(void)
				109	{
				110	__perf_disable();
				111	hw_perf_disable();
				112	}
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	113
				114	void perf_enable(void)
				115	{
				116	if (__perf_enable())
				117	hw_perf_enable();
				118	}
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	119
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	120	static void get_ctx(struct perf_counter_context *ctx)
				121	{
				122	atomic_inc(&ctx->refcount);
				123	}
				124
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	125	static void free_ctx(struct rcu_head *head)
				126	{
				127	struct perf_counter_context *ctx;
				128
				129	ctx = container_of(head, struct perf_counter_context, rcu_head);
				130	kfree(ctx);
				131	}
				132
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	133	static void put_ctx(struct perf_counter_context *ctx)
				134	{
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	135	if (atomic_dec_and_test(&ctx->refcount)) {
				136	if (ctx->parent_ctx)
				137	put_ctx(ctx->parent_ctx);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	138	if (ctx->task)
				139	put_task_struct(ctx->task);
				140	call_rcu(&ctx->rcu_head, free_ctx);
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	141	}
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	142	}
				143
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	144	/*
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	145	* Get the perf_counter_context for a task and lock it.
				146	* This has to cope with with the fact that until it is locked,
				147	* the context could get moved to another task.
				148	*/
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	149	static struct perf_counter_context *
				150	perf_lock_task_context(struct task_struct task, unsigned long flags)
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	151	{
				152	struct perf_counter_context *ctx;
				153
				154	rcu_read_lock();
				155	retry:
				156	ctx = rcu_dereference(task->perf_counter_ctxp);
				157	if (ctx) {
				158	/*
				159	* If this context is a clone of another, it might
				160	* get swapped for another underneath us by
				161	* perf_counter_task_sched_out, though the
				162	* rcu_read_lock() protects us from any context
				163	* getting freed. Lock the context and check if it
				164	* got swapped before we could get the lock, and retry
				165	* if so. If we locked the right context, then it
				166	* can't get swapped on us any more.
				167	*/
				168	spin_lock_irqsave(&ctx->lock, *flags);
				169	if (ctx != rcu_dereference(task->perf_counter_ctxp)) {
				170	spin_unlock_irqrestore(&ctx->lock, *flags);
				171	goto retry;
				172	}
				173	}
				174	rcu_read_unlock();
				175	return ctx;
				176	}
				177
				178	/*
				179	* Get the context for a task and increment its pin_count so it
				180	* can't get swapped to another task. This also increments its
				181	* reference count so that the context can't get freed.
				182	*/
				183	static struct perf_counter_context perf_pin_task_context(struct task_struct task)
				184	{
				185	struct perf_counter_context *ctx;
				186	unsigned long flags;
				187
				188	ctx = perf_lock_task_context(task, &flags);
				189	if (ctx) {
				190	++ctx->pin_count;
				191	get_ctx(ctx);
				192	spin_unlock_irqrestore(&ctx->lock, flags);
				193	}
				194	return ctx;
				195	}
				196
				197	static void perf_unpin_context(struct perf_counter_context *ctx)
				198	{
				199	unsigned long flags;
				200
				201	spin_lock_irqsave(&ctx->lock, flags);
				202	--ctx->pin_count;
				203	spin_unlock_irqrestore(&ctx->lock, flags);
				204	put_ctx(ctx);
				205	}
				206
				207	/*
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	208	* Add a counter from the lists for its context.
				209	* Must be called with ctx->mutex and ctx->lock held.
				210	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	211	static void
				212	list_add_counter(struct perf_counter counter, struct perf_counter_context ctx)
				213	{
				214	struct perf_counter *group_leader = counter->group_leader;
				215
				216	/*
				217	* Depending on whether it is a standalone or sibling counter,
				218	* add it straight to the context's counter list, or to the group
				219	* leader's sibling list:
				220	*/
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	221	if (group_leader == counter)
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	222	list_add_tail(&counter->list_entry, &ctx->counter_list);
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	223	else {
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	224	list_add_tail(&counter->list_entry, &group_leader->sibling_list);
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	225	group_leader->nr_siblings++;
				226	}
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	227
				228	list_add_rcu(&counter->event_entry, &ctx->event_list);
Peter Zijlstra	8bc2095	2009-05-15 20:45:59 +0200	[diff] [blame]	229	ctx->nr_counters++;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	230	}
				231
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	232	/*
				233	* Remove a counter from the lists for its context.
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	234	* Must be called with ctx->mutex and ctx->lock held.
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	235	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	236	static void
				237	list_del_counter(struct perf_counter counter, struct perf_counter_context ctx)
				238	{
				239	struct perf_counter sibling, tmp;
				240
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	241	if (list_empty(&counter->list_entry))
				242	return;
Peter Zijlstra	8bc2095	2009-05-15 20:45:59 +0200	[diff] [blame]	243	ctx->nr_counters--;
				244
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	245	list_del_init(&counter->list_entry);
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	246	list_del_rcu(&counter->event_entry);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	247
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	248	if (counter->group_leader != counter)
				249	counter->group_leader->nr_siblings--;
				250
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	251	/*
				252	* If this was a group counter with sibling counters then
				253	* upgrade the siblings to singleton counters by adding them
				254	* to the context list directly:
				255	*/
				256	list_for_each_entry_safe(sibling, tmp,
				257	&counter->sibling_list, list_entry) {
				258
Peter Zijlstra	7556423	2009-03-13 12:21:29 +0100	[diff] [blame]	259	list_move_tail(&sibling->list_entry, &ctx->counter_list);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	260	sibling->group_leader = sibling;
				261	}
				262	}
				263
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	264	static void
				265	counter_sched_out(struct perf_counter *counter,
				266	struct perf_cpu_context *cpuctx,
				267	struct perf_counter_context *ctx)
				268	{
				269	if (counter->state != PERF_COUNTER_STATE_ACTIVE)
				270	return;
				271
				272	counter->state = PERF_COUNTER_STATE_INACTIVE;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	273	counter->tstamp_stopped = ctx->time;
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	274	counter->pmu->disable(counter);
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	275	counter->oncpu = -1;
				276
				277	if (!is_software_counter(counter))
				278	cpuctx->active_oncpu--;
				279	ctx->nr_active--;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	280	if (counter->attr.exclusive \|\| !cpuctx->active_oncpu)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	281	cpuctx->exclusive = 0;
				282	}
				283
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	284	static void
				285	group_sched_out(struct perf_counter *group_counter,
				286	struct perf_cpu_context *cpuctx,
				287	struct perf_counter_context *ctx)
				288	{
				289	struct perf_counter *counter;
				290
				291	if (group_counter->state != PERF_COUNTER_STATE_ACTIVE)
				292	return;
				293
				294	counter_sched_out(group_counter, cpuctx, ctx);
				295
				296	/*
				297	* Schedule out siblings (if any):
				298	*/
				299	list_for_each_entry(counter, &group_counter->sibling_list, list_entry)
				300	counter_sched_out(counter, cpuctx, ctx);
				301
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	302	if (group_counter->attr.exclusive)
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	303	cpuctx->exclusive = 0;
				304	}
				305
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	306	/*
				307	* Cross CPU call to remove a performance counter
				308	*
				309	* We disable the counter on the hardware level first. After that we
				310	* remove it from the context list.
				311	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	312	static void __perf_counter_remove_from_context(void *info)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	313	{
				314	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				315	struct perf_counter *counter = info;
				316	struct perf_counter_context *ctx = counter->ctx;
				317
				318	/*
				319	* If this is a task context, we need to check whether it is
				320	* the current task context of this cpu. If not it has been
				321	* scheduled out before the smp call arrived.
				322	*/
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	323	if (ctx->task && cpuctx->task_ctx != ctx)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	324	return;
				325
Ingo Molnar	3f4dee2	2009-05-29 11:25:09 +0200	[diff] [blame]	326	spin_lock(&ctx->lock);
Ingo Molnar	34adc80	2009-05-20 20:13:28 +0200	[diff] [blame]	327	/*
				328	* Protect the list operation against NMI by disabling the
				329	* counters on a global level.
				330	*/
				331	perf_disable();
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	332
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	333	counter_sched_out(counter, cpuctx, ctx);
				334
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	335	list_del_counter(counter, ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	336
				337	if (!ctx->task) {
				338	/*
				339	* Allow more per task counters with respect to the
				340	* reservation:
				341	*/
				342	cpuctx->max_pertask =
				343	min(perf_max_counters - ctx->nr_counters,
				344	perf_max_counters - perf_reserved_percpu);
				345	}
				346
Ingo Molnar	34adc80	2009-05-20 20:13:28 +0200	[diff] [blame]	347	perf_enable();
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	348	spin_unlock(&ctx->lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	349	}
				350
				351
				352	/*
				353	* Remove the counter from a task's (or a CPU's) list of counters.
				354	*
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	355	* Must be called with ctx->mutex held.
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	356	*
				357	* CPU counters are removed with a smp call. For task counters we only
				358	* call when the task is on a CPU.
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	359	*
				360	* If counter->ctx is a cloned context, callers must make sure that
				361	* every task struct that counter->ctx->task could possibly point to
				362	* remains valid. This is OK when called from perf_release since
				363	* that only calls us on the top-level context, which can't be a clone.
				364	* When called from perf_counter_exit_task, it's OK because the
				365	* context has been detached from its task.
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	366	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	367	static void perf_counter_remove_from_context(struct perf_counter *counter)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	368	{
				369	struct perf_counter_context *ctx = counter->ctx;
				370	struct task_struct *task = ctx->task;
				371
				372	if (!task) {
				373	/*
				374	* Per cpu counters are removed via an smp call and
				375	* the removal is always sucessful.
				376	*/
				377	smp_call_function_single(counter->cpu,
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	378	__perf_counter_remove_from_context,
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	379	counter, 1);
				380	return;
				381	}
				382
				383	retry:
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	384	task_oncpu_function_call(task, __perf_counter_remove_from_context,
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	385	counter);
				386
				387	spin_lock_irq(&ctx->lock);
				388	/*
				389	* If the context is active we need to retry the smp call.
				390	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	391	if (ctx->nr_active && !list_empty(&counter->list_entry)) {
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	392	spin_unlock_irq(&ctx->lock);
				393	goto retry;
				394	}
				395
				396	/*
				397	* The lock prevents that this context is scheduled in so we
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	398	* can remove the counter safely, if the call above did not
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	399	* succeed.
				400	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	401	if (!list_empty(&counter->list_entry)) {
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	402	list_del_counter(counter, ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	403	}
				404	spin_unlock_irq(&ctx->lock);
				405	}
				406
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	407	static inline u64 perf_clock(void)
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	408	{
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	409	return cpu_clock(smp_processor_id());
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	410	}
				411
				412	/*
				413	* Update the record of the current time in a context.
				414	*/
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	415	static void update_context_time(struct perf_counter_context *ctx)
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	416	{
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	417	u64 now = perf_clock();
				418
				419	ctx->time += now - ctx->timestamp;
				420	ctx->timestamp = now;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	421	}
				422
				423	/*
				424	* Update the total_time_enabled and total_time_running fields for a counter.
				425	*/
				426	static void update_counter_times(struct perf_counter *counter)
				427	{
				428	struct perf_counter_context *ctx = counter->ctx;
				429	u64 run_end;
				430
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	431	if (counter->state < PERF_COUNTER_STATE_INACTIVE)
				432	return;
				433
				434	counter->total_time_enabled = ctx->time - counter->tstamp_enabled;
				435
				436	if (counter->state == PERF_COUNTER_STATE_INACTIVE)
				437	run_end = counter->tstamp_stopped;
				438	else
				439	run_end = ctx->time;
				440
				441	counter->total_time_running = run_end - counter->tstamp_running;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	442	}
				443
				444	/*
				445	* Update total_time_enabled and total_time_running for all counters in a group.
				446	*/
				447	static void update_group_times(struct perf_counter *leader)
				448	{
				449	struct perf_counter *counter;
				450
				451	update_counter_times(leader);
				452	list_for_each_entry(counter, &leader->sibling_list, list_entry)
				453	update_counter_times(counter);
				454	}
				455
				456	/*
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	457	* Cross CPU call to disable a performance counter
				458	*/
				459	static void __perf_counter_disable(void *info)
				460	{
				461	struct perf_counter *counter = info;
				462	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				463	struct perf_counter_context *ctx = counter->ctx;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	464
				465	/*
				466	* If this is a per-task counter, need to check whether this
				467	* counter's task is the current task on this cpu.
				468	*/
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	469	if (ctx->task && cpuctx->task_ctx != ctx)
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	470	return;
				471
Ingo Molnar	3f4dee2	2009-05-29 11:25:09 +0200	[diff] [blame]	472	spin_lock(&ctx->lock);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	473
				474	/*
				475	* If the counter is on, turn it off.
				476	* If it is in error state, leave it in error state.
				477	*/
				478	if (counter->state >= PERF_COUNTER_STATE_INACTIVE) {
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	479	update_context_time(ctx);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	480	update_counter_times(counter);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	481	if (counter == counter->group_leader)
				482	group_sched_out(counter, cpuctx, ctx);
				483	else
				484	counter_sched_out(counter, cpuctx, ctx);
				485	counter->state = PERF_COUNTER_STATE_OFF;
				486	}
				487
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	488	spin_unlock(&ctx->lock);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	489	}
				490
				491	/*
				492	* Disable a counter.
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	493	*
				494	* If counter->ctx is a cloned context, callers must make sure that
				495	* every task struct that counter->ctx->task could possibly point to
				496	* remains valid. This condition is satisifed when called through
				497	* perf_counter_for_each_child or perf_counter_for_each because they
				498	* hold the top-level counter's child_mutex, so any descendant that
				499	* goes to exit will block in sync_child_counter.
				500	* When called from perf_pending_counter it's OK because counter->ctx
				501	* is the current context on this CPU and preemption is disabled,
				502	* hence we can't get into perf_counter_task_sched_out for this context.
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	503	*/
				504	static void perf_counter_disable(struct perf_counter *counter)
				505	{
				506	struct perf_counter_context *ctx = counter->ctx;
				507	struct task_struct *task = ctx->task;
				508
				509	if (!task) {
				510	/*
				511	* Disable the counter on the cpu that it's on
				512	*/
				513	smp_call_function_single(counter->cpu, __perf_counter_disable,
				514	counter, 1);
				515	return;
				516	}
				517
				518	retry:
				519	task_oncpu_function_call(task, __perf_counter_disable, counter);
				520
				521	spin_lock_irq(&ctx->lock);
				522	/*
				523	* If the counter is still active, we need to retry the cross-call.
				524	*/
				525	if (counter->state == PERF_COUNTER_STATE_ACTIVE) {
				526	spin_unlock_irq(&ctx->lock);
				527	goto retry;
				528	}
				529
				530	/*
				531	* Since we have the lock this context can't be scheduled
				532	* in, so we can change the state safely.
				533	*/
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	534	if (counter->state == PERF_COUNTER_STATE_INACTIVE) {
				535	update_counter_times(counter);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	536	counter->state = PERF_COUNTER_STATE_OFF;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	537	}
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	538
				539	spin_unlock_irq(&ctx->lock);
				540	}
				541
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	542	static int
				543	counter_sched_in(struct perf_counter *counter,
				544	struct perf_cpu_context *cpuctx,
				545	struct perf_counter_context *ctx,
				546	int cpu)
				547	{
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	548	if (counter->state <= PERF_COUNTER_STATE_OFF)
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	549	return 0;
				550
				551	counter->state = PERF_COUNTER_STATE_ACTIVE;
				552	counter->oncpu = cpu; /* TODO: put 'cpu' into cpuctx->cpu */
				553	/*
				554	* The new state must be visible before we turn it on in the hardware:
				555	*/
				556	smp_wmb();
				557
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	558	if (counter->pmu->enable(counter)) {
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	559	counter->state = PERF_COUNTER_STATE_INACTIVE;
				560	counter->oncpu = -1;
				561	return -EAGAIN;
				562	}
				563
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	564	counter->tstamp_running += ctx->time - counter->tstamp_stopped;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	565
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	566	if (!is_software_counter(counter))
				567	cpuctx->active_oncpu++;
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	568	ctx->nr_active++;
				569
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	570	if (counter->attr.exclusive)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	571	cpuctx->exclusive = 1;
				572
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	573	return 0;
				574	}
				575
Paul Mackerras	6751b71	2009-05-11 12:08:02 +1000	[diff] [blame]	576	static int
				577	group_sched_in(struct perf_counter *group_counter,
				578	struct perf_cpu_context *cpuctx,
				579	struct perf_counter_context *ctx,
				580	int cpu)
				581	{
				582	struct perf_counter counter, partial_group;
				583	int ret;
				584
				585	if (group_counter->state == PERF_COUNTER_STATE_OFF)
				586	return 0;
				587
				588	ret = hw_perf_group_sched_in(group_counter, cpuctx, ctx, cpu);
				589	if (ret)
				590	return ret < 0 ? ret : 0;
				591
Paul Mackerras	6751b71	2009-05-11 12:08:02 +1000	[diff] [blame]	592	if (counter_sched_in(group_counter, cpuctx, ctx, cpu))
				593	return -EAGAIN;
				594
				595	/*
				596	* Schedule in siblings as one group (if any):
				597	*/
				598	list_for_each_entry(counter, &group_counter->sibling_list, list_entry) {
Paul Mackerras	6751b71	2009-05-11 12:08:02 +1000	[diff] [blame]	599	if (counter_sched_in(counter, cpuctx, ctx, cpu)) {
				600	partial_group = counter;
				601	goto group_error;
				602	}
				603	}
				604
				605	return 0;
				606
				607	group_error:
				608	/*
				609	* Groups can be scheduled in as one unit only, so undo any
				610	* partial group before returning:
				611	*/
				612	list_for_each_entry(counter, &group_counter->sibling_list, list_entry) {
				613	if (counter == partial_group)
				614	break;
				615	counter_sched_out(counter, cpuctx, ctx);
				616	}
				617	counter_sched_out(group_counter, cpuctx, ctx);
				618
				619	return -EAGAIN;
				620	}
				621
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	622	/*
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	623	* Return 1 for a group consisting entirely of software counters,
				624	* 0 if the group contains any hardware counters.
				625	*/
				626	static int is_software_only_group(struct perf_counter *leader)
				627	{
				628	struct perf_counter *counter;
				629
				630	if (!is_software_counter(leader))
				631	return 0;
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	632
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	633	list_for_each_entry(counter, &leader->sibling_list, list_entry)
				634	if (!is_software_counter(counter))
				635	return 0;
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	636
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	637	return 1;
				638	}
				639
				640	/*
				641	* Work out whether we can put this counter group on the CPU now.
				642	*/
				643	static int group_can_go_on(struct perf_counter *counter,
				644	struct perf_cpu_context *cpuctx,
				645	int can_add_hw)
				646	{
				647	/*
				648	* Groups consisting entirely of software counters can always go on.
				649	*/
				650	if (is_software_only_group(counter))
				651	return 1;
				652	/*
				653	* If an exclusive group is already on, no other hardware
				654	* counters can go on.
				655	*/
				656	if (cpuctx->exclusive)
				657	return 0;
				658	/*
				659	* If this group is exclusive and there are already
				660	* counters on the CPU, it can't go on.
				661	*/
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	662	if (counter->attr.exclusive && cpuctx->active_oncpu)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	663	return 0;
				664	/*
				665	* Otherwise, try to add it if all previous groups were able
				666	* to go on.
				667	*/
				668	return can_add_hw;
				669	}
				670
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	671	static void add_counter_to_ctx(struct perf_counter *counter,
				672	struct perf_counter_context *ctx)
				673	{
				674	list_add_counter(counter, ctx);
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	675	counter->tstamp_enabled = ctx->time;
				676	counter->tstamp_running = ctx->time;
				677	counter->tstamp_stopped = ctx->time;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	678	}
				679
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	680	/*
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	681	* Cross CPU call to install and enable a performance counter
Peter Zijlstra	682076a	2009-05-23 18:28:57 +0200	[diff] [blame]	682	*
				683	* Must be called with ctx->mutex held
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	684	*/
				685	static void __perf_install_in_context(void *info)
				686	{
				687	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				688	struct perf_counter *counter = info;
				689	struct perf_counter_context *ctx = counter->ctx;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	690	struct perf_counter *leader = counter->group_leader;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	691	int cpu = smp_processor_id();
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	692	int err;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	693
				694	/*
				695	* If this is a task context, we need to check whether it is
				696	* the current task context of this cpu. If not it has been
				697	* scheduled out before the smp call arrived.
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	698	* Or possibly this is the right context but it isn't
				699	* on this cpu because it had no counters.
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	700	*/
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	701	if (ctx->task && cpuctx->task_ctx != ctx) {
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	702	if (cpuctx->task_ctx \|\| ctx->task != current)
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	703	return;
				704	cpuctx->task_ctx = ctx;
				705	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	706
Ingo Molnar	3f4dee2	2009-05-29 11:25:09 +0200	[diff] [blame]	707	spin_lock(&ctx->lock);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	708	ctx->is_active = 1;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	709	update_context_time(ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	710
				711	/*
				712	* Protect the list operation against NMI by disabling the
				713	* counters on a global level. NOP for non NMI based counters.
				714	*/
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	715	perf_disable();
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	716
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	717	add_counter_to_ctx(counter, ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	718
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	719	/*
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	720	* Don't put the counter on if it is disabled or if
				721	* it is in a group and the group isn't on.
				722	*/
				723	if (counter->state != PERF_COUNTER_STATE_INACTIVE \|\|
				724	(leader != counter && leader->state != PERF_COUNTER_STATE_ACTIVE))
				725	goto unlock;
				726
				727	/*
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	728	* An exclusive counter can't go on if there are already active
				729	* hardware counters, and no hardware counter can go on if there
				730	* is already an exclusive counter on.
				731	*/
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	732	if (!group_can_go_on(counter, cpuctx, 1))
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	733	err = -EEXIST;
				734	else
				735	err = counter_sched_in(counter, cpuctx, ctx, cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	736
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	737	if (err) {
				738	/*
				739	* This counter couldn't go on. If it is in a group
				740	* then we have to pull the whole group off.
				741	* If the counter group is pinned then put it in error state.
				742	*/
				743	if (leader != counter)
				744	group_sched_out(leader, cpuctx, ctx);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	745	if (leader->attr.pinned) {
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	746	update_group_times(leader);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	747	leader->state = PERF_COUNTER_STATE_ERROR;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	748	}
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	749	}
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	750
				751	if (!err && !ctx->task && cpuctx->max_pertask)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	752	cpuctx->max_pertask--;
				753
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	754	unlock:
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	755	perf_enable();
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	756
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	757	spin_unlock(&ctx->lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	758	}
				759
				760	/*
				761	* Attach a performance counter to a context
				762	*
				763	* First we add the counter to the list with the hardware enable bit
				764	* in counter->hw_config cleared.
				765	*
				766	* If the counter is attached to a task which is on a CPU we use a smp
				767	* call to enable it in the task context. The task might have been
				768	* scheduled away, but we check this in the smp call again.
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	769	*
				770	* Must be called with ctx->mutex held.
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	771	*/
				772	static void
				773	perf_install_in_context(struct perf_counter_context *ctx,
				774	struct perf_counter *counter,
				775	int cpu)
				776	{
				777	struct task_struct *task = ctx->task;
				778
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	779	if (!task) {
				780	/*
				781	* Per cpu counters are installed via an smp call and
				782	* the install is always sucessful.
				783	*/
				784	smp_call_function_single(cpu, __perf_install_in_context,
				785	counter, 1);
				786	return;
				787	}
				788
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	789	retry:
				790	task_oncpu_function_call(task, __perf_install_in_context,
				791	counter);
				792
				793	spin_lock_irq(&ctx->lock);
				794	/*
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	795	* we need to retry the smp call.
				796	*/
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	797	if (ctx->is_active && list_empty(&counter->list_entry)) {
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	798	spin_unlock_irq(&ctx->lock);
				799	goto retry;
				800	}
				801
				802	/*
				803	* The lock prevents that this context is scheduled in so we
				804	* can add the counter safely, if it the call above did not
				805	* succeed.
				806	*/
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	807	if (list_empty(&counter->list_entry))
				808	add_counter_to_ctx(counter, ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	809	spin_unlock_irq(&ctx->lock);
				810	}
				811
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	812	/*
				813	* Cross CPU call to enable a performance counter
				814	*/
				815	static void __perf_counter_enable(void *info)
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	816	{
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	817	struct perf_counter *counter = info;
				818	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				819	struct perf_counter_context *ctx = counter->ctx;
				820	struct perf_counter *leader = counter->group_leader;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	821	int err;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	822
				823	/*
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	824	* If this is a per-task counter, need to check whether this
				825	* counter's task is the current task on this cpu.
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	826	*/
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	827	if (ctx->task && cpuctx->task_ctx != ctx) {
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	828	if (cpuctx->task_ctx \|\| ctx->task != current)
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	829	return;
				830	cpuctx->task_ctx = ctx;
				831	}
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	832
Ingo Molnar	3f4dee2	2009-05-29 11:25:09 +0200	[diff] [blame]	833	spin_lock(&ctx->lock);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	834	ctx->is_active = 1;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	835	update_context_time(ctx);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	836
				837	if (counter->state >= PERF_COUNTER_STATE_INACTIVE)
				838	goto unlock;
				839	counter->state = PERF_COUNTER_STATE_INACTIVE;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	840	counter->tstamp_enabled = ctx->time - counter->total_time_enabled;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	841
				842	/*
				843	* If the counter is in a group and isn't the group leader,
				844	* then don't put it on unless the group is on.
				845	*/
				846	if (leader != counter && leader->state != PERF_COUNTER_STATE_ACTIVE)
				847	goto unlock;
				848
Paul Mackerras	e758a33	2009-05-12 21:59:01 +1000	[diff] [blame]	849	if (!group_can_go_on(counter, cpuctx, 1)) {
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	850	err = -EEXIST;
Paul Mackerras	e758a33	2009-05-12 21:59:01 +1000	[diff] [blame]	851	} else {
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	852	perf_disable();
Paul Mackerras	e758a33	2009-05-12 21:59:01 +1000	[diff] [blame]	853	if (counter == leader)
				854	err = group_sched_in(counter, cpuctx, ctx,
				855	smp_processor_id());
				856	else
				857	err = counter_sched_in(counter, cpuctx, ctx,
				858	smp_processor_id());
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	859	perf_enable();
Paul Mackerras	e758a33	2009-05-12 21:59:01 +1000	[diff] [blame]	860	}
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	861
				862	if (err) {
				863	/*
				864	* If this counter can't go on and it's part of a
				865	* group, then the whole group has to come off.
				866	*/
				867	if (leader != counter)
				868	group_sched_out(leader, cpuctx, ctx);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	869	if (leader->attr.pinned) {
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	870	update_group_times(leader);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	871	leader->state = PERF_COUNTER_STATE_ERROR;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	872	}
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	873	}
				874
				875	unlock:
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	876	spin_unlock(&ctx->lock);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	877	}
				878
				879	/*
				880	* Enable a counter.
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	881	*
				882	* If counter->ctx is a cloned context, callers must make sure that
				883	* every task struct that counter->ctx->task could possibly point to
				884	* remains valid. This condition is satisfied when called through
				885	* perf_counter_for_each_child or perf_counter_for_each as described
				886	* for perf_counter_disable.
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	887	*/
				888	static void perf_counter_enable(struct perf_counter *counter)
				889	{
				890	struct perf_counter_context *ctx = counter->ctx;
				891	struct task_struct *task = ctx->task;
				892
				893	if (!task) {
				894	/*
				895	* Enable the counter on the cpu that it's on
				896	*/
				897	smp_call_function_single(counter->cpu, __perf_counter_enable,
				898	counter, 1);
				899	return;
				900	}
				901
				902	spin_lock_irq(&ctx->lock);
				903	if (counter->state >= PERF_COUNTER_STATE_INACTIVE)
				904	goto out;
				905
				906	/*
				907	* If the counter is in error state, clear that first.
				908	* That way, if we see the counter in error state below, we
				909	* know that it has gone back into error state, as distinct
				910	* from the task having been scheduled away before the
				911	* cross-call arrived.
				912	*/
				913	if (counter->state == PERF_COUNTER_STATE_ERROR)
				914	counter->state = PERF_COUNTER_STATE_OFF;
				915
				916	retry:
				917	spin_unlock_irq(&ctx->lock);
				918	task_oncpu_function_call(task, __perf_counter_enable, counter);
				919
				920	spin_lock_irq(&ctx->lock);
				921
				922	/*
				923	* If the context is active and the counter is still off,
				924	* we need to retry the cross-call.
				925	*/
				926	if (ctx->is_active && counter->state == PERF_COUNTER_STATE_OFF)
				927	goto retry;
				928
				929	/*
				930	* Since we have the lock this context can't be scheduled
				931	* in, so we can change the state safely.
				932	*/
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	933	if (counter->state == PERF_COUNTER_STATE_OFF) {
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	934	counter->state = PERF_COUNTER_STATE_INACTIVE;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	935	counter->tstamp_enabled =
				936	ctx->time - counter->total_time_enabled;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	937	}
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	938	out:
				939	spin_unlock_irq(&ctx->lock);
				940	}
				941
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	942	static int perf_counter_refresh(struct perf_counter *counter, int refresh)
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	943	{
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	944	/*
				945	* not supported on inherited counters
				946	*/
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	947	if (counter->attr.inherit)
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	948	return -EINVAL;
				949
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	950	atomic_add(refresh, &counter->event_limit);
				951	perf_counter_enable(counter);
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	952
				953	return 0;
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	954	}
				955
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	956	void __perf_counter_sched_out(struct perf_counter_context *ctx,
				957	struct perf_cpu_context *cpuctx)
				958	{
				959	struct perf_counter *counter;
				960
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	961	spin_lock(&ctx->lock);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	962	ctx->is_active = 0;
				963	if (likely(!ctx->nr_counters))
				964	goto out;
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	965	update_context_time(ctx);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	966
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	967	perf_disable();
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	968	if (ctx->nr_active) {
Peter Zijlstra	afedadf	2009-05-20 12:21:22 +0200	[diff] [blame]	969	list_for_each_entry(counter, &ctx->counter_list, list_entry) {
				970	if (counter != counter->group_leader)
				971	counter_sched_out(counter, cpuctx, ctx);
				972	else
				973	group_sched_out(counter, cpuctx, ctx);
				974	}
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	975	}
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	976	perf_enable();
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	977	out:
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	978	spin_unlock(&ctx->lock);
				979	}
				980
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	981	/*
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	982	* Test whether two contexts are equivalent, i.e. whether they
				983	* have both been cloned from the same version of the same context
				984	* and they both have the same number of enabled counters.
				985	* If the number of enabled counters is the same, then the set
				986	* of enabled counters should be the same, because these are both
				987	* inherited contexts, therefore we can't access individual counters
				988	* in them directly with an fd; we can only enable/disable all
				989	* counters via prctl, or enable/disable all counters in a family
				990	* via ioctl, which will have the same effect on both contexts.
				991	*/
				992	static int context_equiv(struct perf_counter_context *ctx1,
				993	struct perf_counter_context *ctx2)
				994	{
				995	return ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	996	&& ctx1->parent_gen == ctx2->parent_gen
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	997	&& !ctx1->pin_count && !ctx2->pin_count;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	998	}
				999
				1000	/*
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1001	* Called from scheduler to remove the counters of the current task,
				1002	* with interrupts disabled.
				1003	*
				1004	* We stop each counter and update the counter value in counter->count.
				1005	*
Ingo Molnar	7671581	2008-12-17 14:20:28 +0100	[diff] [blame]	1006	* This does not protect us against NMI, but disable()
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1007	* sets the disabled bit in the control field of counter _before_
				1008	* accessing the counter control register. If a NMI hits, then it will
				1009	* not restart the counter.
				1010	*/
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1011	void perf_counter_task_sched_out(struct task_struct *task,
				1012	struct task_struct *next, int cpu)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1013	{
				1014	struct perf_cpu_context *cpuctx = &per_cpu(perf_cpu_context, cpu);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1015	struct perf_counter_context *ctx = task->perf_counter_ctxp;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1016	struct perf_counter_context *next_ctx;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1017	struct perf_counter_context *parent;
Peter Zijlstra	4a0deca	2009-03-19 20:26:12 +0100	[diff] [blame]	1018	struct pt_regs *regs;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1019	int do_switch = 1;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1020
Peter Zijlstra	10989fb	2009-05-25 14:45:28 +0200	[diff] [blame]	1021	regs = task_pt_regs(task);
				1022	perf_swcounter_event(PERF_COUNT_CONTEXT_SWITCHES, 1, 1, regs, 0);
				1023
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1024	if (likely(!ctx \|\| !cpuctx->task_ctx))
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1025	return;
				1026
Peter Zijlstra	bce379b	2009-04-06 11:45:13 +0200	[diff] [blame]	1027	update_context_time(ctx);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1028
				1029	rcu_read_lock();
				1030	parent = rcu_dereference(ctx->parent_ctx);
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1031	next_ctx = next->perf_counter_ctxp;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1032	if (parent && next_ctx &&
				1033	rcu_dereference(next_ctx->parent_ctx) == parent) {
				1034	/*
				1035	* Looks like the two contexts are clones, so we might be
				1036	* able to optimize the context switch. We lock both
				1037	* contexts and check that they are clones under the
				1038	* lock (including re-checking that neither has been
				1039	* uncloned in the meantime). It doesn't matter which
				1040	* order we take the locks because no other cpu could
				1041	* be trying to lock both of these tasks.
				1042	*/
				1043	spin_lock(&ctx->lock);
				1044	spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
				1045	if (context_equiv(ctx, next_ctx)) {
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	1046	/*
				1047	* XXX do we need a memory barrier of sorts
				1048	* wrt to rcu_dereference() of perf_counter_ctxp
				1049	*/
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1050	task->perf_counter_ctxp = next_ctx;
				1051	next->perf_counter_ctxp = ctx;
				1052	ctx->task = next;
				1053	next_ctx->task = task;
				1054	do_switch = 0;
				1055	}
				1056	spin_unlock(&next_ctx->lock);
				1057	spin_unlock(&ctx->lock);
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1058	}
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1059	rcu_read_unlock();
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1060
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1061	if (do_switch) {
				1062	__perf_counter_sched_out(ctx, cpuctx);
				1063	cpuctx->task_ctx = NULL;
				1064	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1065	}
				1066
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	1067	/*
				1068	* Called with IRQs disabled
				1069	*/
Paul Mackerras	a08b159	2009-05-11 15:46:10 +1000	[diff] [blame]	1070	static void __perf_counter_task_sched_out(struct perf_counter_context *ctx)
				1071	{
				1072	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				1073
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1074	if (!cpuctx->task_ctx)
				1075	return;
Ingo Molnar	012b84d	2009-05-17 11:08:41 +0200	[diff] [blame]	1076
				1077	if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
				1078	return;
				1079
Paul Mackerras	a08b159	2009-05-11 15:46:10 +1000	[diff] [blame]	1080	__perf_counter_sched_out(ctx, cpuctx);
				1081	cpuctx->task_ctx = NULL;
				1082	}
				1083
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	1084	/*
				1085	* Called with IRQs disabled
				1086	*/
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1087	static void perf_counter_cpu_sched_out(struct perf_cpu_context *cpuctx)
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1088	{
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1089	__perf_counter_sched_out(&cpuctx->ctx, cpuctx);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1090	}
				1091
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1092	static void
				1093	__perf_counter_sched_in(struct perf_counter_context *ctx,
				1094	struct perf_cpu_context *cpuctx, int cpu)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1095	{
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1096	struct perf_counter *counter;
Paul Mackerras	dd0e6ba	2009-01-12 15:11:00 +1100	[diff] [blame]	1097	int can_add_hw = 1;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1098
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1099	spin_lock(&ctx->lock);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1100	ctx->is_active = 1;
				1101	if (likely(!ctx->nr_counters))
				1102	goto out;
				1103
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	1104	ctx->timestamp = perf_clock();
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1105
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	1106	perf_disable();
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1107
				1108	/*
				1109	* First go through the list and put on any pinned groups
				1110	* in order to give them the best chance of going on.
				1111	*/
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1112	list_for_each_entry(counter, &ctx->counter_list, list_entry) {
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1113	if (counter->state <= PERF_COUNTER_STATE_OFF \|\|
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1114	!counter->attr.pinned)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1115	continue;
				1116	if (counter->cpu != -1 && counter->cpu != cpu)
				1117	continue;
				1118
Peter Zijlstra	afedadf	2009-05-20 12:21:22 +0200	[diff] [blame]	1119	if (counter != counter->group_leader)
				1120	counter_sched_in(counter, cpuctx, ctx, cpu);
				1121	else {
				1122	if (group_can_go_on(counter, cpuctx, 1))
				1123	group_sched_in(counter, cpuctx, ctx, cpu);
				1124	}
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1125
				1126	/*
				1127	* If this pinned group hasn't been scheduled,
				1128	* put it in error state.
				1129	*/
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1130	if (counter->state == PERF_COUNTER_STATE_INACTIVE) {
				1131	update_group_times(counter);
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1132	counter->state = PERF_COUNTER_STATE_ERROR;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1133	}
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1134	}
				1135
				1136	list_for_each_entry(counter, &ctx->counter_list, list_entry) {
				1137	/*
				1138	* Ignore counters in OFF or ERROR state, and
				1139	* ignore pinned counters since we did them already.
				1140	*/
				1141	if (counter->state <= PERF_COUNTER_STATE_OFF \|\|
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1142	counter->attr.pinned)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1143	continue;
				1144
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1145	/*
				1146	* Listen to the 'cpu' scheduling filter constraint
				1147	* of counters:
				1148	*/
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1149	if (counter->cpu != -1 && counter->cpu != cpu)
				1150	continue;
				1151
Peter Zijlstra	afedadf	2009-05-20 12:21:22 +0200	[diff] [blame]	1152	if (counter != counter->group_leader) {
				1153	if (counter_sched_in(counter, cpuctx, ctx, cpu))
Paul Mackerras	dd0e6ba	2009-01-12 15:11:00 +1100	[diff] [blame]	1154	can_add_hw = 0;
Peter Zijlstra	afedadf	2009-05-20 12:21:22 +0200	[diff] [blame]	1155	} else {
				1156	if (group_can_go_on(counter, cpuctx, can_add_hw)) {
				1157	if (group_sched_in(counter, cpuctx, ctx, cpu))
				1158	can_add_hw = 0;
				1159	}
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1160	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1161	}
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	1162	perf_enable();
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1163	out:
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1164	spin_unlock(&ctx->lock);
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1165	}
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1166
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1167	/*
				1168	* Called from scheduler to add the counters of the current task
				1169	* with interrupts disabled.
				1170	*
				1171	* We restore the counter value and then enable it.
				1172	*
				1173	* This does not protect us against NMI, but enable()
				1174	* sets the enabled bit in the control field of counter _before_
				1175	* accessing the counter control register. If a NMI hits, then it will
				1176	* keep the counter running.
				1177	*/
				1178	void perf_counter_task_sched_in(struct task_struct *task, int cpu)
				1179	{
				1180	struct perf_cpu_context *cpuctx = &per_cpu(perf_cpu_context, cpu);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1181	struct perf_counter_context *ctx = task->perf_counter_ctxp;
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1182
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1183	if (likely(!ctx))
				1184	return;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	1185	if (cpuctx->task_ctx == ctx)
				1186	return;
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1187	__perf_counter_sched_in(ctx, cpuctx, cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1188	cpuctx->task_ctx = ctx;
				1189	}
				1190
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1191	static void perf_counter_cpu_sched_in(struct perf_cpu_context *cpuctx, int cpu)
				1192	{
				1193	struct perf_counter_context *ctx = &cpuctx->ctx;
				1194
				1195	__perf_counter_sched_in(ctx, cpuctx, cpu);
				1196	}
				1197
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	1198	#define MAX_INTERRUPTS (~0ULL)
				1199
				1200	static void perf_log_throttle(struct perf_counter *counter, int enable);
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	1201	static void perf_log_period(struct perf_counter *counter, u64 period);
				1202
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1203	static void perf_adjust_period(struct perf_counter *counter, u64 events)
				1204	{
				1205	struct hw_perf_counter *hwc = &counter->hw;
				1206	u64 period, sample_period;
				1207	s64 delta;
				1208
				1209	events *= hwc->sample_period;
				1210	period = div64_u64(events, counter->attr.sample_freq);
				1211
				1212	delta = (s64)(period - hwc->sample_period);
				1213	delta = (delta + 7) / 8; /* low pass filter */
				1214
				1215	sample_period = hwc->sample_period + delta;
				1216
				1217	if (!sample_period)
				1218	sample_period = 1;
				1219
				1220	perf_log_period(counter, sample_period);
				1221
				1222	hwc->sample_period = sample_period;
				1223	}
				1224
				1225	static void perf_ctx_adjust_freq(struct perf_counter_context *ctx)
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1226	{
				1227	struct perf_counter *counter;
Peter Zijlstra	6a24ed6c	2009-06-05 18:01:29 +0200	[diff] [blame]	1228	struct hw_perf_counter *hwc;
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1229	u64 interrupts, freq;
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1230
				1231	spin_lock(&ctx->lock);
				1232	list_for_each_entry(counter, &ctx->counter_list, list_entry) {
				1233	if (counter->state != PERF_COUNTER_STATE_ACTIVE)
				1234	continue;
				1235
Peter Zijlstra	6a24ed6c	2009-06-05 18:01:29 +0200	[diff] [blame]	1236	hwc = &counter->hw;
				1237
				1238	interrupts = hwc->interrupts;
				1239	hwc->interrupts = 0;
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	1240
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1241	/*
				1242	* unthrottle counters on the tick
				1243	*/
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	1244	if (interrupts == MAX_INTERRUPTS) {
				1245	perf_log_throttle(counter, 1);
				1246	counter->pmu->unthrottle(counter);
				1247	interrupts = 2*sysctl_perf_counter_limit/HZ;
				1248	}
				1249
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1250	if (!counter->attr.freq \|\| !counter->attr.sample_freq)
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1251	continue;
				1252
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1253	/*
				1254	* if the specified freq < HZ then we need to skip ticks
				1255	*/
Peter Zijlstra	6a24ed6c	2009-06-05 18:01:29 +0200	[diff] [blame]	1256	if (counter->attr.sample_freq < HZ) {
				1257	freq = counter->attr.sample_freq;
				1258
				1259	hwc->freq_count += freq;
				1260	hwc->freq_interrupts += interrupts;
				1261
				1262	if (hwc->freq_count < HZ)
				1263	continue;
				1264
				1265	interrupts = hwc->freq_interrupts;
				1266	hwc->freq_interrupts = 0;
				1267	hwc->freq_count -= HZ;
				1268	} else
				1269	freq = HZ;
				1270
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1271	perf_adjust_period(counter, freq * interrupts);
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1272
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1273	/*
				1274	* In order to avoid being stalled by an (accidental) huge
				1275	* sample period, force reset the sample period if we didn't
				1276	* get any events in this freq period.
				1277	*/
				1278	if (!interrupts) {
				1279	perf_disable();
				1280	counter->pmu->disable(counter);
				1281	atomic_set(&hwc->period_left, 0);
				1282	counter->pmu->enable(counter);
				1283	perf_enable();
				1284	}
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1285	}
				1286	spin_unlock(&ctx->lock);
				1287	}
				1288
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1289	/*
				1290	* Round-robin a context's counters:
				1291	*/
				1292	static void rotate_ctx(struct perf_counter_context *ctx)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1293	{
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1294	struct perf_counter *counter;
				1295
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1296	if (!ctx->nr_counters)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1297	return;
				1298
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1299	spin_lock(&ctx->lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1300	/*
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1301	* Rotate the first entry last (works just fine for group counters too):
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1302	*/
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	1303	perf_disable();
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1304	list_for_each_entry(counter, &ctx->counter_list, list_entry) {
Peter Zijlstra	7556423	2009-03-13 12:21:29 +0100	[diff] [blame]	1305	list_move_tail(&counter->list_entry, &ctx->counter_list);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1306	break;
				1307	}
Peter Zijlstra	9e35ad3	2009-05-13 16:21:38 +0200	[diff] [blame]	1308	perf_enable();
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1309
				1310	spin_unlock(&ctx->lock);
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1311	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1312
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1313	void perf_counter_task_tick(struct task_struct *curr, int cpu)
				1314	{
Peter Zijlstra	7fc23a5	2009-05-08 18:52:21 +0200	[diff] [blame]	1315	struct perf_cpu_context *cpuctx;
				1316	struct perf_counter_context *ctx;
				1317
				1318	if (!atomic_read(&nr_counters))
				1319	return;
				1320
				1321	cpuctx = &per_cpu(perf_cpu_context, cpu);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1322	ctx = curr->perf_counter_ctxp;
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1323
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1324	perf_ctx_adjust_freq(&cpuctx->ctx);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1325	if (ctx)
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1326	perf_ctx_adjust_freq(ctx);
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	1327
Ingo Molnar	b82914c	2009-05-04 18:54:32 +0200	[diff] [blame]	1328	perf_counter_cpu_sched_out(cpuctx);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1329	if (ctx)
				1330	__perf_counter_task_sched_out(ctx);
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1331
Ingo Molnar	b82914c	2009-05-04 18:54:32 +0200	[diff] [blame]	1332	rotate_ctx(&cpuctx->ctx);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1333	if (ctx)
				1334	rotate_ctx(ctx);
Ingo Molnar	235c7fc	2008-12-21 14:43:25 +0100	[diff] [blame]	1335
Ingo Molnar	b82914c	2009-05-04 18:54:32 +0200	[diff] [blame]	1336	perf_counter_cpu_sched_in(cpuctx, cpu);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1337	if (ctx)
				1338	perf_counter_task_sched_in(curr, cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1339	}
				1340
				1341	/*
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1342	* Cross CPU call to read the hardware counter
				1343	*/
Ingo Molnar	7671581	2008-12-17 14:20:28 +0100	[diff] [blame]	1344	static void __read(void *info)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1345	{
Ingo Molnar	621a01e	2008-12-11 12:46:46 +0100	[diff] [blame]	1346	struct perf_counter *counter = info;
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1347	struct perf_counter_context *ctx = counter->ctx;
Ingo Molnar	aa9c4c0	2008-12-17 14:10:57 +0100	[diff] [blame]	1348	unsigned long flags;
Ingo Molnar	621a01e	2008-12-11 12:46:46 +0100	[diff] [blame]	1349
Peter Zijlstra	849691a	2009-04-06 11:45:12 +0200	[diff] [blame]	1350	local_irq_save(flags);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1351	if (ctx->is_active)
Peter Zijlstra	4af4998	2009-04-06 11:45:10 +0200	[diff] [blame]	1352	update_context_time(ctx);
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	1353	counter->pmu->read(counter);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1354	update_counter_times(counter);
Peter Zijlstra	849691a	2009-04-06 11:45:12 +0200	[diff] [blame]	1355	local_irq_restore(flags);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1356	}
				1357
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1358	static u64 perf_counter_read(struct perf_counter *counter)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1359	{
				1360	/*
				1361	* If counter is enabled and currently active on a CPU, update the
				1362	* value in the counter structure:
				1363	*/
Ingo Molnar	6a93070	2008-12-11 15:17:03 +0100	[diff] [blame]	1364	if (counter->state == PERF_COUNTER_STATE_ACTIVE) {
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1365	smp_call_function_single(counter->oncpu,
Ingo Molnar	7671581	2008-12-17 14:20:28 +0100	[diff] [blame]	1366	__read, counter, 1);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1367	} else if (counter->state == PERF_COUNTER_STATE_INACTIVE) {
				1368	update_counter_times(counter);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1369	}
				1370
Ingo Molnar	ee06094	2008-12-13 09:00:03 +0100	[diff] [blame]	1371	return atomic64_read(&counter->count);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1372	}
				1373
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1374	/*
				1375	* Initialize the perf_counter context in a task_struct:
				1376	*/
				1377	static void
				1378	__perf_counter_init_context(struct perf_counter_context *ctx,
				1379	struct task_struct *task)
				1380	{
				1381	memset(ctx, 0, sizeof(*ctx));
				1382	spin_lock_init(&ctx->lock);
				1383	mutex_init(&ctx->mutex);
				1384	INIT_LIST_HEAD(&ctx->counter_list);
				1385	INIT_LIST_HEAD(&ctx->event_list);
				1386	atomic_set(&ctx->refcount, 1);
				1387	ctx->task = task;
				1388	}
				1389
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1390	static struct perf_counter_context *find_get_context(pid_t pid, int cpu)
				1391	{
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1392	struct perf_counter_context *parent_ctx;
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1393	struct perf_counter_context *ctx;
				1394	struct perf_cpu_context *cpuctx;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1395	struct task_struct *task;
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	1396	unsigned long flags;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1397	int err;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1398
				1399	/*
				1400	* If cpu is not a wildcard then this is a percpu counter:
				1401	*/
				1402	if (cpu != -1) {
				1403	/* Must be root to operate on a CPU counter: */
Peter Zijlstra	0764771	2009-06-11 11:18:36 +0200	[diff] [blame^]	1404	if (perf_paranoid_cpu() && !capable(CAP_SYS_ADMIN))
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1405	return ERR_PTR(-EACCES);
				1406
				1407	if (cpu < 0 \|\| cpu > num_possible_cpus())
				1408	return ERR_PTR(-EINVAL);
				1409
				1410	/*
				1411	* We could be clever and allow to attach a counter to an
				1412	* offline CPU and activate it when the CPU comes up, but
				1413	* that's for later.
				1414	*/
				1415	if (!cpu_isset(cpu, cpu_online_map))
				1416	return ERR_PTR(-ENODEV);
				1417
				1418	cpuctx = &per_cpu(perf_cpu_context, cpu);
				1419	ctx = &cpuctx->ctx;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1420	get_ctx(ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1421
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1422	return ctx;
				1423	}
				1424
				1425	rcu_read_lock();
				1426	if (!pid)
				1427	task = current;
				1428	else
				1429	task = find_task_by_vpid(pid);
				1430	if (task)
				1431	get_task_struct(task);
				1432	rcu_read_unlock();
				1433
				1434	if (!task)
				1435	return ERR_PTR(-ESRCH);
				1436
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1437	/*
				1438	* Can't attach counters to a dying task.
				1439	*/
				1440	err = -ESRCH;
				1441	if (task->flags & PF_EXITING)
				1442	goto errout;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1443
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1444	/* Reuse ptrace permission checks for now. */
				1445	err = -EACCES;
				1446	if (!ptrace_may_access(task, PTRACE_MODE_READ))
				1447	goto errout;
				1448
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1449	retry:
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	1450	ctx = perf_lock_task_context(task, &flags);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1451	if (ctx) {
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1452	parent_ctx = ctx->parent_ctx;
				1453	if (parent_ctx) {
				1454	put_ctx(parent_ctx);
				1455	ctx->parent_ctx = NULL; /* no longer a clone */
				1456	}
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1457	/*
				1458	* Get an extra reference before dropping the lock so that
				1459	* this context won't get freed if the task exits.
				1460	*/
				1461	get_ctx(ctx);
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	1462	spin_unlock_irqrestore(&ctx->lock, flags);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1463	}
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1464
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1465	if (!ctx) {
				1466	ctx = kmalloc(sizeof(struct perf_counter_context), GFP_KERNEL);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1467	err = -ENOMEM;
				1468	if (!ctx)
				1469	goto errout;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1470	__perf_counter_init_context(ctx, task);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1471	get_ctx(ctx);
				1472	if (cmpxchg(&task->perf_counter_ctxp, NULL, ctx)) {
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1473	/*
				1474	* We raced with some other task; use
				1475	* the context they set.
				1476	*/
				1477	kfree(ctx);
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	1478	goto retry;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1479	}
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1480	get_task_struct(task);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	1481	}
				1482
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1483	put_task_struct(task);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1484	return ctx;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1485
				1486	errout:
				1487	put_task_struct(task);
				1488	return ERR_PTR(err);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1489	}
				1490
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	1491	static void free_counter_rcu(struct rcu_head *head)
				1492	{
				1493	struct perf_counter *counter;
				1494
				1495	counter = container_of(head, struct perf_counter, rcu_head);
Peter Zijlstra	709e50c	2009-06-02 14:13:15 +0200	[diff] [blame]	1496	if (counter->ns)
				1497	put_pid_ns(counter->ns);
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	1498	kfree(counter);
				1499	}
				1500
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	1501	static void perf_pending_sync(struct perf_counter *counter);
				1502
Peter Zijlstra	f160095	2009-03-19 20:26:16 +0100	[diff] [blame]	1503	static void free_counter(struct perf_counter *counter)
				1504	{
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	1505	perf_pending_sync(counter);
				1506
Peter Zijlstra	7fc23a5	2009-05-08 18:52:21 +0200	[diff] [blame]	1507	atomic_dec(&nr_counters);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1508	if (counter->attr.mmap)
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	1509	atomic_dec(&nr_mmap_counters);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1510	if (counter->attr.comm)
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	1511	atomic_dec(&nr_comm_counters);
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	1512
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	1513	if (counter->destroy)
				1514	counter->destroy(counter);
				1515
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1516	put_ctx(counter->ctx);
Peter Zijlstra	f160095	2009-03-19 20:26:16 +0100	[diff] [blame]	1517	call_rcu(&counter->rcu_head, free_counter_rcu);
				1518	}
				1519
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1520	/*
				1521	* Called when the last reference to the file is gone.
				1522	*/
				1523	static int perf_release(struct inode inode, struct file file)
				1524	{
				1525	struct perf_counter *counter = file->private_data;
				1526	struct perf_counter_context *ctx = counter->ctx;
				1527
				1528	file->private_data = NULL;
				1529
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1530	WARN_ON_ONCE(ctx->parent_ctx);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1531	mutex_lock(&ctx->mutex);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	1532	perf_counter_remove_from_context(counter);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1533	mutex_unlock(&ctx->mutex);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1534
Peter Zijlstra	082ff5a	2009-05-23 18:29:00 +0200	[diff] [blame]	1535	mutex_lock(&counter->owner->perf_counter_mutex);
				1536	list_del_init(&counter->owner_entry);
				1537	mutex_unlock(&counter->owner->perf_counter_mutex);
				1538	put_task_struct(counter->owner);
				1539
Peter Zijlstra	f160095	2009-03-19 20:26:16 +0100	[diff] [blame]	1540	free_counter(counter);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1541
				1542	return 0;
				1543	}
				1544
				1545	/*
				1546	* Read the performance counter - simple non blocking version for now
				1547	*/
				1548	static ssize_t
				1549	perf_read_hw(struct perf_counter counter, char __user buf, size_t count)
				1550	{
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1551	u64 values[3];
				1552	int n;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1553
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	1554	/*
				1555	* Return end-of-file for a read on a counter that is in
				1556	* error state (i.e. because it was pinned but it couldn't be
				1557	* scheduled on to the CPU at some point).
				1558	*/
				1559	if (counter->state == PERF_COUNTER_STATE_ERROR)
				1560	return 0;
				1561
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1562	WARN_ON_ONCE(counter->ctx->parent_ctx);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1563	mutex_lock(&counter->child_mutex);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1564	values[0] = perf_counter_read(counter);
				1565	n = 1;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1566	if (counter->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1567	values[n++] = counter->total_time_enabled +
				1568	atomic64_read(&counter->child_total_time_enabled);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1569	if (counter->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1570	values[n++] = counter->total_time_running +
				1571	atomic64_read(&counter->child_total_time_running);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1572	if (counter->attr.read_format & PERF_FORMAT_ID)
Peter Zijlstra	8e5799b	2009-06-02 15:08:15 +0200	[diff] [blame]	1573	values[n++] = counter->id;
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1574	mutex_unlock(&counter->child_mutex);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1575
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	1576	if (count < n * sizeof(u64))
				1577	return -EINVAL;
				1578	count = n * sizeof(u64);
				1579
				1580	if (copy_to_user(buf, values, count))
				1581	return -EFAULT;
				1582
				1583	return count;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1584	}
				1585
				1586	static ssize_t
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1587	perf_read(struct file file, char __user buf, size_t count, loff_t *ppos)
				1588	{
				1589	struct perf_counter *counter = file->private_data;
				1590
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1591	return perf_read_hw(counter, buf, count);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1592	}
				1593
				1594	static unsigned int perf_poll(struct file file, poll_table wait)
				1595	{
				1596	struct perf_counter *counter = file->private_data;
Peter Zijlstra	c7138f3	2009-03-24 13:18:16 +0100	[diff] [blame]	1597	struct perf_mmap_data *data;
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	1598	unsigned int events = POLL_HUP;
Peter Zijlstra	c7138f3	2009-03-24 13:18:16 +0100	[diff] [blame]	1599
				1600	rcu_read_lock();
				1601	data = rcu_dereference(counter->data);
				1602	if (data)
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	1603	events = atomic_xchg(&data->poll, 0);
Peter Zijlstra	c7138f3	2009-03-24 13:18:16 +0100	[diff] [blame]	1604	rcu_read_unlock();
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1605
				1606	poll_wait(file, &counter->waitq, wait);
				1607
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	1608	return events;
				1609	}
				1610
Peter Zijlstra	6de6a7b	2009-05-05 17:50:23 +0200	[diff] [blame]	1611	static void perf_counter_reset(struct perf_counter *counter)
				1612	{
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1613	(void)perf_counter_read(counter);
Paul Mackerras	615a3f1	2009-05-11 15:50:21 +1000	[diff] [blame]	1614	atomic64_set(&counter->count, 0);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1615	perf_counter_update_userpage(counter);
				1616	}
				1617
				1618	static void perf_counter_for_each_sibling(struct perf_counter *counter,
				1619	void (func)(struct perf_counter ))
				1620	{
				1621	struct perf_counter_context *ctx = counter->ctx;
				1622	struct perf_counter *sibling;
				1623
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1624	WARN_ON_ONCE(ctx->parent_ctx);
Peter Zijlstra	682076a	2009-05-23 18:28:57 +0200	[diff] [blame]	1625	mutex_lock(&ctx->mutex);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1626	counter = counter->group_leader;
				1627
				1628	func(counter);
				1629	list_for_each_entry(sibling, &counter->sibling_list, list_entry)
				1630	func(sibling);
Peter Zijlstra	682076a	2009-05-23 18:28:57 +0200	[diff] [blame]	1631	mutex_unlock(&ctx->mutex);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1632	}
				1633
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	1634	/*
				1635	* Holding the top-level counter's child_mutex means that any
				1636	* descendant process that has inherited this counter will block
				1637	* in sync_child_counter if it goes to exit, thus satisfying the
				1638	* task existence requirements of perf_counter_enable/disable.
				1639	*/
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1640	static void perf_counter_for_each_child(struct perf_counter *counter,
				1641	void (func)(struct perf_counter ))
				1642	{
				1643	struct perf_counter *child;
				1644
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1645	WARN_ON_ONCE(counter->ctx->parent_ctx);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1646	mutex_lock(&counter->child_mutex);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1647	func(counter);
				1648	list_for_each_entry(child, &counter->child_list, child_list)
				1649	func(child);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1650	mutex_unlock(&counter->child_mutex);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1651	}
				1652
				1653	static void perf_counter_for_each(struct perf_counter *counter,
				1654	void (func)(struct perf_counter ))
				1655	{
				1656	struct perf_counter *child;
				1657
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1658	WARN_ON_ONCE(counter->ctx->parent_ctx);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1659	mutex_lock(&counter->child_mutex);
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1660	perf_counter_for_each_sibling(counter, func);
				1661	list_for_each_entry(child, &counter->child_list, child_list)
				1662	perf_counter_for_each_sibling(child, func);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	1663	mutex_unlock(&counter->child_mutex);
Peter Zijlstra	6de6a7b	2009-05-05 17:50:23 +0200	[diff] [blame]	1664	}
				1665
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1666	static int perf_counter_period(struct perf_counter counter, u64 __user arg)
				1667	{
				1668	struct perf_counter_context *ctx = counter->ctx;
				1669	unsigned long size;
				1670	int ret = 0;
				1671	u64 value;
				1672
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1673	if (!counter->attr.sample_period)
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1674	return -EINVAL;
				1675
				1676	size = copy_from_user(&value, arg, sizeof(value));
				1677	if (size != sizeof(value))
				1678	return -EFAULT;
				1679
				1680	if (!value)
				1681	return -EINVAL;
				1682
				1683	spin_lock_irq(&ctx->lock);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1684	if (counter->attr.freq) {
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1685	if (value > sysctl_perf_counter_limit) {
				1686	ret = -EINVAL;
				1687	goto unlock;
				1688	}
				1689
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1690	counter->attr.sample_freq = value;
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1691	} else {
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	1692	perf_log_period(counter, value);
				1693
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	1694	counter->attr.sample_period = value;
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1695	counter->hw.sample_period = value;
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1696	}
				1697	unlock:
				1698	spin_unlock_irq(&ctx->lock);
				1699
				1700	return ret;
				1701	}
				1702
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1703	static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
				1704	{
				1705	struct perf_counter *counter = file->private_data;
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1706	void (func)(struct perf_counter );
				1707	u32 flags = arg;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1708
				1709	switch (cmd) {
				1710	case PERF_COUNTER_IOC_ENABLE:
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1711	func = perf_counter_enable;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1712	break;
				1713	case PERF_COUNTER_IOC_DISABLE:
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1714	func = perf_counter_disable;
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	1715	break;
Peter Zijlstra	6de6a7b	2009-05-05 17:50:23 +0200	[diff] [blame]	1716	case PERF_COUNTER_IOC_RESET:
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1717	func = perf_counter_reset;
Peter Zijlstra	6de6a7b	2009-05-05 17:50:23 +0200	[diff] [blame]	1718	break;
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1719
				1720	case PERF_COUNTER_IOC_REFRESH:
				1721	return perf_counter_refresh(counter, arg);
Peter Zijlstra	08247e3	2009-06-02 16:46:57 +0200	[diff] [blame]	1722
				1723	case PERF_COUNTER_IOC_PERIOD:
				1724	return perf_counter_period(counter, (u64 __user *)arg);
				1725
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1726	default:
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1727	return -ENOTTY;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1728	}
Peter Zijlstra	3df5eda	2009-05-08 18:52:22 +0200	[diff] [blame]	1729
				1730	if (flags & PERF_IOC_FLAG_GROUP)
				1731	perf_counter_for_each(counter, func);
				1732	else
				1733	perf_counter_for_each_child(counter, func);
				1734
				1735	return 0;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	1736	}
				1737
Peter Zijlstra	771d7cd	2009-05-25 14:45:26 +0200	[diff] [blame]	1738	int perf_counter_task_enable(void)
				1739	{
				1740	struct perf_counter *counter;
				1741
				1742	mutex_lock(&current->perf_counter_mutex);
				1743	list_for_each_entry(counter, &current->perf_counter_list, owner_entry)
				1744	perf_counter_for_each_child(counter, perf_counter_enable);
				1745	mutex_unlock(&current->perf_counter_mutex);
				1746
				1747	return 0;
				1748	}
				1749
				1750	int perf_counter_task_disable(void)
				1751	{
				1752	struct perf_counter *counter;
				1753
				1754	mutex_lock(&current->perf_counter_mutex);
				1755	list_for_each_entry(counter, &current->perf_counter_list, owner_entry)
				1756	perf_counter_for_each_child(counter, perf_counter_disable);
				1757	mutex_unlock(&current->perf_counter_mutex);
				1758
				1759	return 0;
				1760	}
				1761
Peter Zijlstra	38ff667	2009-03-30 19:07:03 +0200	[diff] [blame]	1762	/*
				1763	* Callers need to ensure there can be no nesting of this function, otherwise
				1764	* the seqlock logic goes bad. We can not serialize this because the arch
				1765	* code calls this from NMI context.
				1766	*/
				1767	void perf_counter_update_userpage(struct perf_counter *counter)
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1768	{
Peter Zijlstra	38ff667	2009-03-30 19:07:03 +0200	[diff] [blame]	1769	struct perf_counter_mmap_page *userpg;
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1770	struct perf_mmap_data *data;
Peter Zijlstra	38ff667	2009-03-30 19:07:03 +0200	[diff] [blame]	1771
				1772	rcu_read_lock();
				1773	data = rcu_dereference(counter->data);
				1774	if (!data)
				1775	goto unlock;
				1776
				1777	userpg = data->user_page;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1778
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1779	/*
				1780	* Disable preemption so as to not let the corresponding user-space
				1781	* spin too long if we get preempted.
				1782	*/
				1783	preempt_disable();
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1784	++userpg->lock;
Peter Zijlstra	92f22a3	2009-04-02 11:12:04 +0200	[diff] [blame]	1785	barrier();
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1786	userpg->index = counter->hw.idx;
				1787	userpg->offset = atomic64_read(&counter->count);
				1788	if (counter->state == PERF_COUNTER_STATE_ACTIVE)
				1789	userpg->offset -= atomic64_read(&counter->hw.prev_count);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1790
Peter Zijlstra	92f22a3	2009-04-02 11:12:04 +0200	[diff] [blame]	1791	barrier();
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1792	++userpg->lock;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1793	preempt_enable();
Peter Zijlstra	38ff667	2009-03-30 19:07:03 +0200	[diff] [blame]	1794	unlock:
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1795	rcu_read_unlock();
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1796	}
				1797
				1798	static int perf_mmap_fault(struct vm_area_struct vma, struct vm_fault vmf)
				1799	{
				1800	struct perf_counter *counter = vma->vm_file->private_data;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1801	struct perf_mmap_data *data;
				1802	int ret = VM_FAULT_SIGBUS;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1803
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1804	rcu_read_lock();
				1805	data = rcu_dereference(counter->data);
				1806	if (!data)
				1807	goto unlock;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1808
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1809	if (vmf->pgoff == 0) {
				1810	vmf->page = virt_to_page(data->user_page);
				1811	} else {
				1812	int nr = vmf->pgoff - 1;
				1813
				1814	if ((unsigned)nr > data->nr_pages)
				1815	goto unlock;
				1816
				1817	vmf->page = virt_to_page(data->data_pages[nr]);
				1818	}
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1819	get_page(vmf->page);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1820	ret = 0;
				1821	unlock:
				1822	rcu_read_unlock();
				1823
				1824	return ret;
				1825	}
				1826
				1827	static int perf_mmap_data_alloc(struct perf_counter *counter, int nr_pages)
				1828	{
				1829	struct perf_mmap_data *data;
				1830	unsigned long size;
				1831	int i;
				1832
				1833	WARN_ON(atomic_read(&counter->mmap_count));
				1834
				1835	size = sizeof(struct perf_mmap_data);
				1836	size += nr_pages * sizeof(void *);
				1837
				1838	data = kzalloc(size, GFP_KERNEL);
				1839	if (!data)
				1840	goto fail;
				1841
				1842	data->user_page = (void *)get_zeroed_page(GFP_KERNEL);
				1843	if (!data->user_page)
				1844	goto fail_user_page;
				1845
				1846	for (i = 0; i < nr_pages; i++) {
				1847	data->data_pages[i] = (void *)get_zeroed_page(GFP_KERNEL);
				1848	if (!data->data_pages[i])
				1849	goto fail_data_pages;
				1850	}
				1851
				1852	data->nr_pages = nr_pages;
Peter Zijlstra	22c1558	2009-05-05 17:50:25 +0200	[diff] [blame]	1853	atomic_set(&data->lock, -1);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1854
				1855	rcu_assign_pointer(counter->data, data);
				1856
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1857	return 0;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1858
				1859	fail_data_pages:
				1860	for (i--; i >= 0; i--)
				1861	free_page((unsigned long)data->data_pages[i]);
				1862
				1863	free_page((unsigned long)data->user_page);
				1864
				1865	fail_user_page:
				1866	kfree(data);
				1867
				1868	fail:
				1869	return -ENOMEM;
				1870	}
				1871
				1872	static void __perf_mmap_data_free(struct rcu_head *rcu_head)
				1873	{
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1874	struct perf_mmap_data *data;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1875	int i;
				1876
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1877	data = container_of(rcu_head, struct perf_mmap_data, rcu_head);
				1878
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1879	free_page((unsigned long)data->user_page);
				1880	for (i = 0; i < data->nr_pages; i++)
				1881	free_page((unsigned long)data->data_pages[i]);
				1882	kfree(data);
				1883	}
				1884
				1885	static void perf_mmap_data_free(struct perf_counter *counter)
				1886	{
				1887	struct perf_mmap_data *data = counter->data;
				1888
				1889	WARN_ON(atomic_read(&counter->mmap_count));
				1890
				1891	rcu_assign_pointer(counter->data, NULL);
				1892	call_rcu(&data->rcu_head, __perf_mmap_data_free);
				1893	}
				1894
				1895	static void perf_mmap_open(struct vm_area_struct *vma)
				1896	{
				1897	struct perf_counter *counter = vma->vm_file->private_data;
				1898
				1899	atomic_inc(&counter->mmap_count);
				1900	}
				1901
				1902	static void perf_mmap_close(struct vm_area_struct *vma)
				1903	{
				1904	struct perf_counter *counter = vma->vm_file->private_data;
				1905
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1906	WARN_ON_ONCE(counter->ctx->parent_ctx);
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1907	if (atomic_dec_and_mutex_lock(&counter->mmap_count, &counter->mmap_mutex)) {
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1908	struct user_struct *user = current_user();
				1909
				1910	atomic_long_sub(counter->data->nr_pages + 1, &user->locked_vm);
Peter Zijlstra	c5078f7	2009-05-05 17:50:24 +0200	[diff] [blame]	1911	vma->vm_mm->locked_vm -= counter->data->nr_locked;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1912	perf_mmap_data_free(counter);
				1913	mutex_unlock(&counter->mmap_mutex);
				1914	}
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1915	}
				1916
				1917	static struct vm_operations_struct perf_mmap_vmops = {
Peter Zijlstra	ebb3c4c	2009-04-06 11:45:05 +0200	[diff] [blame]	1918	.open = perf_mmap_open,
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1919	.close = perf_mmap_close,
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1920	.fault = perf_mmap_fault,
				1921	};
				1922
				1923	static int perf_mmap(struct file file, struct vm_area_struct vma)
				1924	{
				1925	struct perf_counter *counter = file->private_data;
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1926	unsigned long user_locked, user_lock_limit;
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1927	struct user_struct *user = current_user();
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	1928	unsigned long locked, lock_limit;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1929	unsigned long vma_size;
				1930	unsigned long nr_pages;
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1931	long user_extra, extra;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1932	int ret = 0;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1933
				1934	if (!(vma->vm_flags & VM_SHARED) \|\| (vma->vm_flags & VM_WRITE))
				1935	return -EINVAL;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1936
				1937	vma_size = vma->vm_end - vma->vm_start;
				1938	nr_pages = (vma_size / PAGE_SIZE) - 1;
				1939
Peter Zijlstra	7730d86	2009-03-25 12:48:31 +0100	[diff] [blame]	1940	/*
				1941	* If we have data pages ensure they're a power-of-two number, so we
				1942	* can do bitmasks instead of modulo.
				1943	*/
				1944	if (nr_pages != 0 && !is_power_of_2(nr_pages))
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1945	return -EINVAL;
				1946
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1947	if (vma_size != PAGE_SIZE * (1 + nr_pages))
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1948	return -EINVAL;
				1949
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1950	if (vma->vm_pgoff != 0)
				1951	return -EINVAL;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1952
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	1953	WARN_ON_ONCE(counter->ctx->parent_ctx);
Peter Zijlstra	ebb3c4c	2009-04-06 11:45:05 +0200	[diff] [blame]	1954	mutex_lock(&counter->mmap_mutex);
				1955	if (atomic_inc_not_zero(&counter->mmap_count)) {
				1956	if (nr_pages != counter->data->nr_pages)
				1957	ret = -EINVAL;
				1958	goto unlock;
				1959	}
				1960
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1961	user_extra = nr_pages + 1;
				1962	user_lock_limit = sysctl_perf_counter_mlock >> (PAGE_SHIFT - 10);
Ingo Molnar	a3862d3	2009-05-24 09:02:37 +0200	[diff] [blame]	1963
				1964	/*
				1965	* Increase the limit linearly with more CPUs:
				1966	*/
				1967	user_lock_limit *= num_online_cpus();
				1968
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1969	user_locked = atomic_long_read(&user->locked_vm) + user_extra;
Peter Zijlstra	c5078f7	2009-05-05 17:50:24 +0200	[diff] [blame]	1970
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1971	extra = 0;
				1972	if (user_locked > user_lock_limit)
				1973	extra = user_locked - user_lock_limit;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1974
				1975	lock_limit = current->signal->rlim[RLIMIT_MEMLOCK].rlim_cur;
				1976	lock_limit >>= PAGE_SHIFT;
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1977	locked = vma->vm_mm->locked_vm + extra;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1978
Peter Zijlstra	ebb3c4c	2009-04-06 11:45:05 +0200	[diff] [blame]	1979	if ((locked > lock_limit) && !capable(CAP_IPC_LOCK)) {
				1980	ret = -EPERM;
				1981	goto unlock;
				1982	}
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1983
				1984	WARN_ON(counter->data);
				1985	ret = perf_mmap_data_alloc(counter, nr_pages);
Peter Zijlstra	ebb3c4c	2009-04-06 11:45:05 +0200	[diff] [blame]	1986	if (ret)
				1987	goto unlock;
				1988
				1989	atomic_set(&counter->mmap_count, 1);
Peter Zijlstra	789f90f	2009-05-15 15:19:27 +0200	[diff] [blame]	1990	atomic_long_add(user_extra, &user->locked_vm);
Peter Zijlstra	c5078f7	2009-05-05 17:50:24 +0200	[diff] [blame]	1991	vma->vm_mm->locked_vm += extra;
				1992	counter->data->nr_locked = extra;
Peter Zijlstra	ebb3c4c	2009-04-06 11:45:05 +0200	[diff] [blame]	1993	unlock:
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1994	mutex_unlock(&counter->mmap_mutex);
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	1995
				1996	vma->vm_flags &= ~VM_MAYWRITE;
				1997	vma->vm_flags \|= VM_RESERVED;
				1998	vma->vm_ops = &perf_mmap_vmops;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	1999
				2000	return ret;
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	2001	}
				2002
Peter Zijlstra	3c446b3d	2009-04-06 11:45:01 +0200	[diff] [blame]	2003	static int perf_fasync(int fd, struct file *filp, int on)
				2004	{
Peter Zijlstra	3c446b3d	2009-04-06 11:45:01 +0200	[diff] [blame]	2005	struct inode *inode = filp->f_path.dentry->d_inode;
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	2006	struct perf_counter *counter = filp->private_data;
Peter Zijlstra	3c446b3d	2009-04-06 11:45:01 +0200	[diff] [blame]	2007	int retval;
				2008
				2009	mutex_lock(&inode->i_mutex);
				2010	retval = fasync_helper(fd, filp, on, &counter->fasync);
				2011	mutex_unlock(&inode->i_mutex);
				2012
				2013	if (retval < 0)
				2014	return retval;
				2015
				2016	return 0;
				2017	}
				2018
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	2019	static const struct file_operations perf_fops = {
				2020	.release = perf_release,
				2021	.read = perf_read,
				2022	.poll = perf_poll,
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	2023	.unlocked_ioctl = perf_ioctl,
				2024	.compat_ioctl = perf_ioctl,
Paul Mackerras	37d8182	2009-03-23 18:22:08 +0100	[diff] [blame]	2025	.mmap = perf_mmap,
Peter Zijlstra	3c446b3d	2009-04-06 11:45:01 +0200	[diff] [blame]	2026	.fasync = perf_fasync,
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	2027	};
				2028
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	2029	/*
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2030	* Perf counter wakeup
				2031	*
				2032	* If there's data, ensure we set the poll() state and publish everything
				2033	* to user-space before waking everybody up.
				2034	*/
				2035
				2036	void perf_counter_wakeup(struct perf_counter *counter)
				2037	{
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2038	wake_up_all(&counter->waitq);
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2039
				2040	if (counter->pending_kill) {
				2041	kill_fasync(&counter->fasync, SIGIO, counter->pending_kill);
				2042	counter->pending_kill = 0;
				2043	}
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2044	}
				2045
				2046	/*
				2047	* Pending wakeups
				2048	*
				2049	* Handle the case where we need to wakeup up from NMI (or rq->lock) context.
				2050	*
				2051	* The NMI bit means we cannot possibly take locks. Therefore, maintain a
				2052	* single linked list and use cmpxchg() to add entries lockless.
				2053	*/
				2054
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	2055	static void perf_pending_counter(struct perf_pending_entry *entry)
				2056	{
				2057	struct perf_counter *counter = container_of(entry,
				2058	struct perf_counter, pending);
				2059
				2060	if (counter->pending_disable) {
				2061	counter->pending_disable = 0;
				2062	perf_counter_disable(counter);
				2063	}
				2064
				2065	if (counter->pending_wakeup) {
				2066	counter->pending_wakeup = 0;
				2067	perf_counter_wakeup(counter);
				2068	}
				2069	}
				2070
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2071	#define PENDING_TAIL ((struct perf_pending_entry *)-1UL)
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2072
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2073	static DEFINE_PER_CPU(struct perf_pending_entry *, perf_pending_head) = {
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2074	PENDING_TAIL,
				2075	};
				2076
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2077	static void perf_pending_queue(struct perf_pending_entry *entry,
				2078	void (func)(struct perf_pending_entry ))
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2079	{
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2080	struct perf_pending_entry **head;
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2081
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2082	if (cmpxchg(&entry->next, NULL, PENDING_TAIL) != NULL)
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2083	return;
				2084
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2085	entry->func = func;
				2086
				2087	head = &get_cpu_var(perf_pending_head);
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2088
				2089	do {
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2090	entry->next = *head;
				2091	} while (cmpxchg(head, entry->next, entry) != entry->next);
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2092
				2093	set_perf_counter_pending();
				2094
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2095	put_cpu_var(perf_pending_head);
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2096	}
				2097
				2098	static int __perf_pending_run(void)
				2099	{
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2100	struct perf_pending_entry *list;
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2101	int nr = 0;
				2102
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2103	list = xchg(&__get_cpu_var(perf_pending_head), PENDING_TAIL);
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2104	while (list != PENDING_TAIL) {
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2105	void (func)(struct perf_pending_entry );
				2106	struct perf_pending_entry *entry = list;
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2107
				2108	list = list->next;
				2109
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2110	func = entry->func;
				2111	entry->next = NULL;
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2112	/*
				2113	* Ensure we observe the unqueue before we issue the wakeup,
				2114	* so that we won't be waiting forever.
				2115	* -- see perf_not_pending().
				2116	*/
				2117	smp_wmb();
				2118
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2119	func(entry);
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2120	nr++;
				2121	}
				2122
				2123	return nr;
				2124	}
				2125
				2126	static inline int perf_not_pending(struct perf_counter *counter)
				2127	{
				2128	/*
				2129	* If we flush on whatever cpu we run, there is a chance we don't
				2130	* need to wait.
				2131	*/
				2132	get_cpu();
				2133	__perf_pending_run();
				2134	put_cpu();
				2135
				2136	/*
				2137	* Ensure we see the proper queue state before going to sleep
				2138	* so that we do not miss the wakeup. -- see perf_pending_handle()
				2139	*/
				2140	smp_rmb();
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2141	return counter->pending.next == NULL;
Peter Zijlstra	925d519	2009-03-30 19:07:02 +0200	[diff] [blame]	2142	}
				2143
				2144	static void perf_pending_sync(struct perf_counter *counter)
				2145	{
				2146	wait_event(counter->waitq, perf_not_pending(counter));
				2147	}
				2148
				2149	void perf_counter_do_pending(void)
				2150	{
				2151	__perf_pending_run();
				2152	}
				2153
				2154	/*
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2155	* Callchain support -- arch specific
				2156	*/
				2157
Peter Zijlstra	9c03d88	2009-04-06 11:45:00 +0200	[diff] [blame]	2158	__weak struct perf_callchain_entry perf_callchain(struct pt_regs regs)
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2159	{
				2160	return NULL;
				2161	}
				2162
				2163	/*
Peter Zijlstra	0322cd6	2009-03-19 20:26:19 +0100	[diff] [blame]	2164	* Output
				2165	*/
				2166
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2167	struct perf_output_handle {
				2168	struct perf_counter *counter;
				2169	struct perf_mmap_data *data;
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2170	unsigned long head;
				2171	unsigned long offset;
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2172	int nmi;
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2173	int overflow;
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2174	int locked;
				2175	unsigned long flags;
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2176	};
				2177
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2178	static void perf_output_wakeup(struct perf_output_handle *handle)
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2179	{
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2180	atomic_set(&handle->data->poll, POLL_IN);
				2181
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2182	if (handle->nmi) {
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	2183	handle->counter->pending_wakeup = 1;
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2184	perf_pending_queue(&handle->counter->pending,
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	2185	perf_pending_counter);
Peter Zijlstra	671dec5	2009-04-06 11:45:02 +0200	[diff] [blame]	2186	} else
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2187	perf_counter_wakeup(handle->counter);
				2188	}
				2189
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2190	/*
				2191	* Curious locking construct.
				2192	*
				2193	* We need to ensure a later event doesn't publish a head when a former
				2194	* event isn't done writing. However since we need to deal with NMIs we
				2195	* cannot fully serialize things.
				2196	*
				2197	* What we do is serialize between CPUs so we only have to deal with NMI
				2198	* nesting on a single CPU.
				2199	*
				2200	* We only publish the head (and generate a wakeup) when the outer-most
				2201	* event completes.
				2202	*/
				2203	static void perf_output_lock(struct perf_output_handle *handle)
				2204	{
				2205	struct perf_mmap_data *data = handle->data;
				2206	int cpu;
				2207
				2208	handle->locked = 0;
				2209
				2210	local_irq_save(handle->flags);
				2211	cpu = smp_processor_id();
				2212
				2213	if (in_nmi() && atomic_read(&data->lock) == cpu)
				2214	return;
				2215
Peter Zijlstra	22c1558	2009-05-05 17:50:25 +0200	[diff] [blame]	2216	while (atomic_cmpxchg(&data->lock, -1, cpu) != -1)
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2217	cpu_relax();
				2218
				2219	handle->locked = 1;
				2220	}
				2221
				2222	static void perf_output_unlock(struct perf_output_handle *handle)
				2223	{
				2224	struct perf_mmap_data *data = handle->data;
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2225	unsigned long head;
				2226	int cpu;
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2227
Peter Zijlstra	c66de4a	2009-05-05 17:50:22 +0200	[diff] [blame]	2228	data->done_head = data->head;
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2229
				2230	if (!handle->locked)
				2231	goto out;
				2232
				2233	again:
				2234	/*
				2235	* The xchg implies a full barrier that ensures all writes are done
				2236	* before we publish the new head, matched by a rmb() in userspace when
				2237	* reading this position.
				2238	*/
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2239	while ((head = atomic_long_xchg(&data->done_head, 0)))
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2240	data->user_page->data_head = head;
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2241
				2242	/*
Peter Zijlstra	c66de4a	2009-05-05 17:50:22 +0200	[diff] [blame]	2243	* NMI can happen here, which means we can miss a done_head update.
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2244	*/
				2245
Peter Zijlstra	22c1558	2009-05-05 17:50:25 +0200	[diff] [blame]	2246	cpu = atomic_xchg(&data->lock, -1);
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2247	WARN_ON_ONCE(cpu != smp_processor_id());
				2248
				2249	/*
				2250	* Therefore we have to validate we did not indeed do so.
				2251	*/
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2252	if (unlikely(atomic_long_read(&data->done_head))) {
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2253	/*
				2254	* Since we had it locked, we can lock it again.
				2255	*/
Peter Zijlstra	22c1558	2009-05-05 17:50:25 +0200	[diff] [blame]	2256	while (atomic_cmpxchg(&data->lock, -1, cpu) != -1)
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2257	cpu_relax();
				2258
				2259	goto again;
				2260	}
				2261
Peter Zijlstra	c66de4a	2009-05-05 17:50:22 +0200	[diff] [blame]	2262	if (atomic_xchg(&data->wakeup, 0))
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2263	perf_output_wakeup(handle);
				2264	out:
				2265	local_irq_restore(handle->flags);
				2266	}
				2267
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2268	static int perf_output_begin(struct perf_output_handle *handle,
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2269	struct perf_counter *counter, unsigned int size,
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2270	int nmi, int overflow)
Peter Zijlstra	0322cd6	2009-03-19 20:26:19 +0100	[diff] [blame]	2271	{
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2272	struct perf_mmap_data *data;
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2273	unsigned int offset, head;
Peter Zijlstra	0322cd6	2009-03-19 20:26:19 +0100	[diff] [blame]	2274
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	2275	/*
				2276	* For inherited counters we send all the output towards the parent.
				2277	*/
				2278	if (counter->parent)
				2279	counter = counter->parent;
				2280
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2281	rcu_read_lock();
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2282	data = rcu_dereference(counter->data);
				2283	if (!data)
				2284	goto out;
Peter Zijlstra	0322cd6	2009-03-19 20:26:19 +0100	[diff] [blame]	2285
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2286	handle->data = data;
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2287	handle->counter = counter;
				2288	handle->nmi = nmi;
				2289	handle->overflow = overflow;
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2290
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2291	if (!data->nr_pages)
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2292	goto fail;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2293
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2294	perf_output_lock(handle);
				2295
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2296	do {
Paul Mackerras	6dc5f2a	2009-06-05 12:36:28 +1000	[diff] [blame]	2297	offset = head = atomic_long_read(&data->head);
Peter Zijlstra	c7138f3	2009-03-24 13:18:16 +0100	[diff] [blame]	2298	head += size;
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2299	} while (atomic_long_cmpxchg(&data->head, offset, head) != offset);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2300
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2301	handle->offset = offset;
Peter Zijlstra	63e35b2	2009-03-25 12:30:24 +0100	[diff] [blame]	2302	handle->head = head;
Peter Zijlstra	c66de4a	2009-05-05 17:50:22 +0200	[diff] [blame]	2303
				2304	if ((offset >> PAGE_SHIFT) != (head >> PAGE_SHIFT))
				2305	atomic_set(&data->wakeup, 1);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2306
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2307	return 0;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2308
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2309	fail:
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2310	perf_output_wakeup(handle);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2311	out:
				2312	rcu_read_unlock();
				2313
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2314	return -ENOSPC;
				2315	}
				2316
				2317	static void perf_output_copy(struct perf_output_handle *handle,
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2318	const void *buf, unsigned int len)
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2319	{
				2320	unsigned int pages_mask;
				2321	unsigned int offset;
				2322	unsigned int size;
				2323	void **pages;
				2324
				2325	offset = handle->offset;
				2326	pages_mask = handle->data->nr_pages - 1;
				2327	pages = handle->data->data_pages;
				2328
				2329	do {
				2330	unsigned int page_offset;
				2331	int nr;
				2332
				2333	nr = (offset >> PAGE_SHIFT) & pages_mask;
				2334	page_offset = offset & (PAGE_SIZE - 1);
				2335	size = min_t(unsigned int, PAGE_SIZE - page_offset, len);
				2336
				2337	memcpy(pages[nr] + page_offset, buf, size);
				2338
				2339	len -= size;
				2340	buf += size;
				2341	offset += size;
				2342	} while (len);
				2343
				2344	handle->offset = offset;
Peter Zijlstra	63e35b2	2009-03-25 12:30:24 +0100	[diff] [blame]	2345
Peter Zijlstra	53020fe	2009-05-13 21:26:19 +0200	[diff] [blame]	2346	/*
				2347	* Check we didn't copy past our reservation window, taking the
				2348	* possible unsigned int wrap into account.
				2349	*/
Peter Zijlstra	8e3747c	2009-06-02 16:16:02 +0200	[diff] [blame]	2350	WARN_ON_ONCE(((long)(handle->head - handle->offset)) < 0);
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2351	}
				2352
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	2353	#define perf_output_put(handle, x) \
				2354	perf_output_copy((handle), &(x), sizeof(x))
				2355
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2356	static void perf_output_end(struct perf_output_handle *handle)
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2357	{
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2358	struct perf_counter *counter = handle->counter;
				2359	struct perf_mmap_data *data = handle->data;
				2360
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	2361	int wakeup_events = counter->attr.wakeup_events;
Peter Zijlstra	c457810	2009-04-02 11:12:01 +0200	[diff] [blame]	2362
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2363	if (handle->overflow && wakeup_events) {
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2364	int events = atomic_inc_return(&data->events);
Peter Zijlstra	c457810	2009-04-02 11:12:01 +0200	[diff] [blame]	2365	if (events >= wakeup_events) {
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2366	atomic_sub(wakeup_events, &data->events);
Peter Zijlstra	c66de4a	2009-05-05 17:50:22 +0200	[diff] [blame]	2367	atomic_set(&data->wakeup, 1);
Peter Zijlstra	c457810	2009-04-02 11:12:01 +0200	[diff] [blame]	2368	}
Peter Zijlstra	c33a0bc	2009-05-01 12:23:16 +0200	[diff] [blame]	2369	}
				2370
				2371	perf_output_unlock(handle);
Peter Zijlstra	b9cacc7	2009-03-25 12:30:22 +0100	[diff] [blame]	2372	rcu_read_unlock();
				2373	}
				2374
Peter Zijlstra	709e50c	2009-06-02 14:13:15 +0200	[diff] [blame]	2375	static u32 perf_counter_pid(struct perf_counter counter, struct task_struct p)
				2376	{
				2377	/*
				2378	* only top level counters have the pid namespace they were created in
				2379	*/
				2380	if (counter->parent)
				2381	counter = counter->parent;
				2382
				2383	return task_tgid_nr_ns(p, counter->ns);
				2384	}
				2385
				2386	static u32 perf_counter_tid(struct perf_counter counter, struct task_struct p)
				2387	{
				2388	/*
				2389	* only top level counters have the pid namespace they were created in
				2390	*/
				2391	if (counter->parent)
				2392	counter = counter->parent;
				2393
				2394	return task_pid_nr_ns(p, counter->ns);
				2395	}
				2396
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2397	static void perf_counter_output(struct perf_counter *counter, int nmi,
				2398	struct perf_sample_data *data)
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2399	{
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2400	int ret;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	2401	u64 sample_type = counter->attr.sample_type;
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2402	struct perf_output_handle handle;
				2403	struct perf_event_header header;
				2404	u64 ip;
Peter Zijlstra	5c14819	2009-03-25 12:30:23 +0100	[diff] [blame]	2405	struct {
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2406	u32 pid, tid;
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2407	} tid_entry;
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2408	struct {
Peter Zijlstra	8e5799b	2009-06-02 15:08:15 +0200	[diff] [blame]	2409	u64 id;
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2410	u64 counter;
				2411	} group_entry;
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2412	struct perf_callchain_entry *callchain = NULL;
				2413	int callchain_size = 0;
Peter Zijlstra	339f7c9	2009-04-06 11:45:06 +0200	[diff] [blame]	2414	u64 time;
Peter Zijlstra	f370e1e	2009-05-08 18:52:24 +0200	[diff] [blame]	2415	struct {
				2416	u32 cpu, reserved;
				2417	} cpu_entry;
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2418
Peter Zijlstra	6b6e548	2009-04-08 15:01:27 +0200	[diff] [blame]	2419	header.type = 0;
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2420	header.size = sizeof(header);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2421
Peter Zijlstra	6b6e548	2009-04-08 15:01:27 +0200	[diff] [blame]	2422	header.misc = PERF_EVENT_MISC_OVERFLOW;
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2423	header.misc \|= perf_misc_flags(data->regs);
Peter Zijlstra	6fab019	2009-04-08 15:01:26 +0200	[diff] [blame]	2424
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2425	if (sample_type & PERF_SAMPLE_IP) {
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2426	ip = perf_instruction_pointer(data->regs);
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2427	header.type \|= PERF_SAMPLE_IP;
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2428	header.size += sizeof(ip);
				2429	}
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2430
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2431	if (sample_type & PERF_SAMPLE_TID) {
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2432	/* namespace issues */
Peter Zijlstra	709e50c	2009-06-02 14:13:15 +0200	[diff] [blame]	2433	tid_entry.pid = perf_counter_pid(counter, current);
				2434	tid_entry.tid = perf_counter_tid(counter, current);
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2435
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2436	header.type \|= PERF_SAMPLE_TID;
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2437	header.size += sizeof(tid_entry);
				2438	}
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2439
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2440	if (sample_type & PERF_SAMPLE_TIME) {
Peter Zijlstra	4d85545	2009-04-08 15:01:32 +0200	[diff] [blame]	2441	/*
				2442	* Maybe do better on x86 and provide cpu_clock_nmi()
				2443	*/
				2444	time = sched_clock();
				2445
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2446	header.type \|= PERF_SAMPLE_TIME;
Peter Zijlstra	4d85545	2009-04-08 15:01:32 +0200	[diff] [blame]	2447	header.size += sizeof(u64);
				2448	}
				2449
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2450	if (sample_type & PERF_SAMPLE_ADDR) {
				2451	header.type \|= PERF_SAMPLE_ADDR;
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	2452	header.size += sizeof(u64);
				2453	}
				2454
Peter Zijlstra	ac4bcf8	2009-06-05 14:44:52 +0200	[diff] [blame]	2455	if (sample_type & PERF_SAMPLE_ID) {
				2456	header.type \|= PERF_SAMPLE_ID;
Peter Zijlstra	a85f61a	2009-05-08 18:52:23 +0200	[diff] [blame]	2457	header.size += sizeof(u64);
				2458	}
				2459
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2460	if (sample_type & PERF_SAMPLE_CPU) {
				2461	header.type \|= PERF_SAMPLE_CPU;
Peter Zijlstra	f370e1e	2009-05-08 18:52:24 +0200	[diff] [blame]	2462	header.size += sizeof(cpu_entry);
				2463
				2464	cpu_entry.cpu = raw_smp_processor_id();
				2465	}
				2466
Peter Zijlstra	689802b	2009-06-05 15:05:43 +0200	[diff] [blame]	2467	if (sample_type & PERF_SAMPLE_PERIOD) {
				2468	header.type \|= PERF_SAMPLE_PERIOD;
				2469	header.size += sizeof(u64);
				2470	}
				2471
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2472	if (sample_type & PERF_SAMPLE_GROUP) {
				2473	header.type \|= PERF_SAMPLE_GROUP;
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2474	header.size += sizeof(u64) +
				2475	counter->nr_siblings * sizeof(group_entry);
				2476	}
				2477
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2478	if (sample_type & PERF_SAMPLE_CALLCHAIN) {
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2479	callchain = perf_callchain(data->regs);
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2480
				2481	if (callchain) {
Peter Zijlstra	9c03d88	2009-04-06 11:45:00 +0200	[diff] [blame]	2482	callchain_size = (1 + callchain->nr) * sizeof(u64);
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2483
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2484	header.type \|= PERF_SAMPLE_CALLCHAIN;
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2485	header.size += callchain_size;
				2486	}
				2487	}
				2488
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2489	ret = perf_output_begin(&handle, counter, header.size, nmi, 1);
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2490	if (ret)
				2491	return;
Peter Zijlstra	ea5d20c	2009-03-25 12:30:25 +0100	[diff] [blame]	2492
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2493	perf_output_put(&handle, header);
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2494
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2495	if (sample_type & PERF_SAMPLE_IP)
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2496	perf_output_put(&handle, ip);
				2497
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2498	if (sample_type & PERF_SAMPLE_TID)
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2499	perf_output_put(&handle, tid_entry);
				2500
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2501	if (sample_type & PERF_SAMPLE_TIME)
Peter Zijlstra	4d85545	2009-04-08 15:01:32 +0200	[diff] [blame]	2502	perf_output_put(&handle, time);
				2503
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2504	if (sample_type & PERF_SAMPLE_ADDR)
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2505	perf_output_put(&handle, data->addr);
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	2506
Peter Zijlstra	ac4bcf8	2009-06-05 14:44:52 +0200	[diff] [blame]	2507	if (sample_type & PERF_SAMPLE_ID)
				2508	perf_output_put(&handle, counter->id);
Peter Zijlstra	a85f61a	2009-05-08 18:52:23 +0200	[diff] [blame]	2509
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2510	if (sample_type & PERF_SAMPLE_CPU)
Peter Zijlstra	f370e1e	2009-05-08 18:52:24 +0200	[diff] [blame]	2511	perf_output_put(&handle, cpu_entry);
				2512
Peter Zijlstra	689802b	2009-06-05 15:05:43 +0200	[diff] [blame]	2513	if (sample_type & PERF_SAMPLE_PERIOD)
Peter Zijlstra	9e350de	2009-06-10 21:34:59 +0200	[diff] [blame]	2514	perf_output_put(&handle, data->period);
Peter Zijlstra	689802b	2009-06-05 15:05:43 +0200	[diff] [blame]	2515
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	2516	/*
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2517	* XXX PERF_SAMPLE_GROUP vs inherited counters seems difficult.
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	2518	*/
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2519	if (sample_type & PERF_SAMPLE_GROUP) {
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2520	struct perf_counter leader, sub;
				2521	u64 nr = counter->nr_siblings;
				2522
				2523	perf_output_put(&handle, nr);
				2524
				2525	leader = counter->group_leader;
				2526	list_for_each_entry(sub, &leader->sibling_list, list_entry) {
				2527	if (sub != counter)
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	2528	sub->pmu->read(sub);
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2529
Peter Zijlstra	8e5799b	2009-06-02 15:08:15 +0200	[diff] [blame]	2530	group_entry.id = sub->id;
Peter Zijlstra	8a057d8	2009-04-02 11:11:59 +0200	[diff] [blame]	2531	group_entry.counter = atomic64_read(&sub->count);
				2532
				2533	perf_output_put(&handle, group_entry);
				2534	}
				2535	}
				2536
Peter Zijlstra	394ee07	2009-03-30 19:07:14 +0200	[diff] [blame]	2537	if (callchain)
				2538	perf_output_copy(&handle, callchain, callchain_size);
				2539
Peter Zijlstra	5ed0041	2009-03-30 19:07:12 +0200	[diff] [blame]	2540	perf_output_end(&handle);
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	2541	}
				2542
Peter Zijlstra	0322cd6	2009-03-19 20:26:19 +0100	[diff] [blame]	2543	/*
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2544	* fork tracking
				2545	*/
				2546
				2547	struct perf_fork_event {
				2548	struct task_struct *task;
				2549
				2550	struct {
				2551	struct perf_event_header header;
				2552
				2553	u32 pid;
				2554	u32 ppid;
				2555	} event;
				2556	};
				2557
				2558	static void perf_counter_fork_output(struct perf_counter *counter,
				2559	struct perf_fork_event *fork_event)
				2560	{
				2561	struct perf_output_handle handle;
				2562	int size = fork_event->event.header.size;
				2563	struct task_struct *task = fork_event->task;
				2564	int ret = perf_output_begin(&handle, counter, size, 0, 0);
				2565
				2566	if (ret)
				2567	return;
				2568
				2569	fork_event->event.pid = perf_counter_pid(counter, task);
				2570	fork_event->event.ppid = perf_counter_pid(counter, task->real_parent);
				2571
				2572	perf_output_put(&handle, fork_event->event);
				2573	perf_output_end(&handle);
				2574	}
				2575
				2576	static int perf_counter_fork_match(struct perf_counter *counter)
				2577	{
Peter Zijlstra	d99e944	2009-06-04 17:08:58 +0200	[diff] [blame]	2578	if (counter->attr.comm \|\| counter->attr.mmap)
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2579	return 1;
				2580
				2581	return 0;
				2582	}
				2583
				2584	static void perf_counter_fork_ctx(struct perf_counter_context *ctx,
				2585	struct perf_fork_event *fork_event)
				2586	{
				2587	struct perf_counter *counter;
				2588
				2589	if (system_state != SYSTEM_RUNNING \|\| list_empty(&ctx->event_list))
				2590	return;
				2591
				2592	rcu_read_lock();
				2593	list_for_each_entry_rcu(counter, &ctx->event_list, event_entry) {
				2594	if (perf_counter_fork_match(counter))
				2595	perf_counter_fork_output(counter, fork_event);
				2596	}
				2597	rcu_read_unlock();
				2598	}
				2599
				2600	static void perf_counter_fork_event(struct perf_fork_event *fork_event)
				2601	{
				2602	struct perf_cpu_context *cpuctx;
				2603	struct perf_counter_context *ctx;
				2604
				2605	cpuctx = &get_cpu_var(perf_cpu_context);
				2606	perf_counter_fork_ctx(&cpuctx->ctx, fork_event);
				2607	put_cpu_var(perf_cpu_context);
				2608
				2609	rcu_read_lock();
				2610	/*
				2611	* doesn't really matter which of the child contexts the
				2612	* events ends up in.
				2613	*/
				2614	ctx = rcu_dereference(current->perf_counter_ctxp);
				2615	if (ctx)
				2616	perf_counter_fork_ctx(ctx, fork_event);
				2617	rcu_read_unlock();
				2618	}
				2619
				2620	void perf_counter_fork(struct task_struct *task)
				2621	{
				2622	struct perf_fork_event fork_event;
				2623
				2624	if (!atomic_read(&nr_comm_counters) &&
Peter Zijlstra	d99e944	2009-06-04 17:08:58 +0200	[diff] [blame]	2625	!atomic_read(&nr_mmap_counters))
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2626	return;
				2627
				2628	fork_event = (struct perf_fork_event){
				2629	.task = task,
				2630	.event = {
				2631	.header = {
				2632	.type = PERF_EVENT_FORK,
				2633	.size = sizeof(fork_event.event),
				2634	},
				2635	},
				2636	};
				2637
				2638	perf_counter_fork_event(&fork_event);
				2639	}
				2640
				2641	/*
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2642	* comm tracking
				2643	*/
				2644
				2645	struct perf_comm_event {
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	2646	struct task_struct *task;
				2647	char *comm;
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2648	int comm_size;
				2649
				2650	struct {
				2651	struct perf_event_header header;
				2652
				2653	u32 pid;
				2654	u32 tid;
				2655	} event;
				2656	};
				2657
				2658	static void perf_counter_comm_output(struct perf_counter *counter,
				2659	struct perf_comm_event *comm_event)
				2660	{
				2661	struct perf_output_handle handle;
				2662	int size = comm_event->event.header.size;
				2663	int ret = perf_output_begin(&handle, counter, size, 0, 0);
				2664
				2665	if (ret)
				2666	return;
				2667
Peter Zijlstra	709e50c	2009-06-02 14:13:15 +0200	[diff] [blame]	2668	comm_event->event.pid = perf_counter_pid(counter, comm_event->task);
				2669	comm_event->event.tid = perf_counter_tid(counter, comm_event->task);
				2670
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2671	perf_output_put(&handle, comm_event->event);
				2672	perf_output_copy(&handle, comm_event->comm,
				2673	comm_event->comm_size);
				2674	perf_output_end(&handle);
				2675	}
				2676
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2677	static int perf_counter_comm_match(struct perf_counter *counter)
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2678	{
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2679	if (counter->attr.comm)
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2680	return 1;
				2681
				2682	return 0;
				2683	}
				2684
				2685	static void perf_counter_comm_ctx(struct perf_counter_context *ctx,
				2686	struct perf_comm_event *comm_event)
				2687	{
				2688	struct perf_counter *counter;
				2689
				2690	if (system_state != SYSTEM_RUNNING \|\| list_empty(&ctx->event_list))
				2691	return;
				2692
				2693	rcu_read_lock();
				2694	list_for_each_entry_rcu(counter, &ctx->event_list, event_entry) {
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2695	if (perf_counter_comm_match(counter))
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2696	perf_counter_comm_output(counter, comm_event);
				2697	}
				2698	rcu_read_unlock();
				2699	}
				2700
				2701	static void perf_counter_comm_event(struct perf_comm_event *comm_event)
				2702	{
				2703	struct perf_cpu_context *cpuctx;
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	2704	struct perf_counter_context *ctx;
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2705	unsigned int size;
				2706	char *comm = comm_event->task->comm;
				2707
Ingo Molnar	888fcee	2009-04-09 09:48:22 +0200	[diff] [blame]	2708	size = ALIGN(strlen(comm)+1, sizeof(u64));
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2709
				2710	comm_event->comm = comm;
				2711	comm_event->comm_size = size;
				2712
				2713	comm_event->event.header.size = sizeof(comm_event->event) + size;
				2714
				2715	cpuctx = &get_cpu_var(perf_cpu_context);
				2716	perf_counter_comm_ctx(&cpuctx->ctx, comm_event);
				2717	put_cpu_var(perf_cpu_context);
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	2718
				2719	rcu_read_lock();
				2720	/*
				2721	* doesn't really matter which of the child contexts the
				2722	* events ends up in.
				2723	*/
				2724	ctx = rcu_dereference(current->perf_counter_ctxp);
				2725	if (ctx)
				2726	perf_counter_comm_ctx(ctx, comm_event);
				2727	rcu_read_unlock();
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2728	}
				2729
				2730	void perf_counter_comm(struct task_struct *task)
				2731	{
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	2732	struct perf_comm_event comm_event;
				2733
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2734	if (!atomic_read(&nr_comm_counters))
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	2735	return;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	2736
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	2737	comm_event = (struct perf_comm_event){
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2738	.task = task,
				2739	.event = {
				2740	.header = { .type = PERF_EVENT_COMM, },
Peter Zijlstra	8d1b2d9	2009-04-08 15:01:30 +0200	[diff] [blame]	2741	},
				2742	};
				2743
				2744	perf_counter_comm_event(&comm_event);
				2745	}
				2746
				2747	/*
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2748	* mmap tracking
				2749	*/
				2750
				2751	struct perf_mmap_event {
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2752	struct vm_area_struct *vma;
				2753
				2754	const char *file_name;
				2755	int file_size;
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2756
				2757	struct {
				2758	struct perf_event_header header;
				2759
				2760	u32 pid;
				2761	u32 tid;
				2762	u64 start;
				2763	u64 len;
				2764	u64 pgoff;
				2765	} event;
				2766	};
				2767
				2768	static void perf_counter_mmap_output(struct perf_counter *counter,
				2769	struct perf_mmap_event *mmap_event)
				2770	{
				2771	struct perf_output_handle handle;
				2772	int size = mmap_event->event.header.size;
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	2773	int ret = perf_output_begin(&handle, counter, size, 0, 0);
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2774
				2775	if (ret)
				2776	return;
				2777
Peter Zijlstra	709e50c	2009-06-02 14:13:15 +0200	[diff] [blame]	2778	mmap_event->event.pid = perf_counter_pid(counter, current);
				2779	mmap_event->event.tid = perf_counter_tid(counter, current);
				2780
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2781	perf_output_put(&handle, mmap_event->event);
				2782	perf_output_copy(&handle, mmap_event->file_name,
				2783	mmap_event->file_size);
Peter Zijlstra	78d613e	2009-03-30 19:07:11 +0200	[diff] [blame]	2784	perf_output_end(&handle);
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2785	}
				2786
				2787	static int perf_counter_mmap_match(struct perf_counter *counter,
				2788	struct perf_mmap_event *mmap_event)
				2789	{
Peter Zijlstra	d99e944	2009-06-04 17:08:58 +0200	[diff] [blame]	2790	if (counter->attr.mmap)
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2791	return 1;
				2792
				2793	return 0;
				2794	}
				2795
				2796	static void perf_counter_mmap_ctx(struct perf_counter_context *ctx,
				2797	struct perf_mmap_event *mmap_event)
				2798	{
				2799	struct perf_counter *counter;
				2800
				2801	if (system_state != SYSTEM_RUNNING \|\| list_empty(&ctx->event_list))
				2802	return;
				2803
				2804	rcu_read_lock();
				2805	list_for_each_entry_rcu(counter, &ctx->event_list, event_entry) {
				2806	if (perf_counter_mmap_match(counter, mmap_event))
				2807	perf_counter_mmap_output(counter, mmap_event);
				2808	}
				2809	rcu_read_unlock();
				2810	}
				2811
				2812	static void perf_counter_mmap_event(struct perf_mmap_event *mmap_event)
				2813	{
				2814	struct perf_cpu_context *cpuctx;
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	2815	struct perf_counter_context *ctx;
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2816	struct vm_area_struct *vma = mmap_event->vma;
				2817	struct file *file = vma->vm_file;
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2818	unsigned int size;
				2819	char tmp[16];
				2820	char *buf = NULL;
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2821	const char *name;
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2822
				2823	if (file) {
				2824	buf = kzalloc(PATH_MAX, GFP_KERNEL);
				2825	if (!buf) {
				2826	name = strncpy(tmp, "//enomem", sizeof(tmp));
				2827	goto got_name;
				2828	}
Peter Zijlstra	d3d21c4	2009-04-09 10:53:46 +0200	[diff] [blame]	2829	name = d_path(&file->f_path, buf, PATH_MAX);
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2830	if (IS_ERR(name)) {
				2831	name = strncpy(tmp, "//toolong", sizeof(tmp));
				2832	goto got_name;
				2833	}
				2834	} else {
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2835	name = arch_vma_name(mmap_event->vma);
				2836	if (name)
				2837	goto got_name;
				2838
				2839	if (!vma->vm_mm) {
				2840	name = strncpy(tmp, "[vdso]", sizeof(tmp));
				2841	goto got_name;
				2842	}
				2843
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2844	name = strncpy(tmp, "//anon", sizeof(tmp));
				2845	goto got_name;
				2846	}
				2847
				2848	got_name:
Ingo Molnar	888fcee	2009-04-09 09:48:22 +0200	[diff] [blame]	2849	size = ALIGN(strlen(name)+1, sizeof(u64));
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2850
				2851	mmap_event->file_name = name;
				2852	mmap_event->file_size = size;
				2853
				2854	mmap_event->event.header.size = sizeof(mmap_event->event) + size;
				2855
				2856	cpuctx = &get_cpu_var(perf_cpu_context);
				2857	perf_counter_mmap_ctx(&cpuctx->ctx, mmap_event);
				2858	put_cpu_var(perf_cpu_context);
				2859
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	2860	rcu_read_lock();
				2861	/*
				2862	* doesn't really matter which of the child contexts the
				2863	* events ends up in.
				2864	*/
				2865	ctx = rcu_dereference(current->perf_counter_ctxp);
				2866	if (ctx)
				2867	perf_counter_mmap_ctx(ctx, mmap_event);
				2868	rcu_read_unlock();
				2869
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2870	kfree(buf);
				2871	}
				2872
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2873	void __perf_counter_mmap(struct vm_area_struct *vma)
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2874	{
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	2875	struct perf_mmap_event mmap_event;
				2876
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	2877	if (!atomic_read(&nr_mmap_counters))
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	2878	return;
				2879
				2880	mmap_event = (struct perf_mmap_event){
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2881	.vma = vma,
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2882	.event = {
				2883	.header = { .type = PERF_EVENT_MMAP, },
Peter Zijlstra	089dd79	2009-06-05 14:04:55 +0200	[diff] [blame]	2884	.start = vma->vm_start,
				2885	.len = vma->vm_end - vma->vm_start,
				2886	.pgoff = vma->vm_pgoff,
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2887	},
				2888	};
				2889
				2890	perf_counter_mmap_event(&mmap_event);
				2891	}
				2892
Peter Zijlstra	0a4a939	2009-03-30 19:07:05 +0200	[diff] [blame]	2893	/*
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	2894	* Log sample_period changes so that analyzing tools can re-normalize the
Peter Zijlstra	e220d2d	2009-05-23 18:28:55 +0200	[diff] [blame]	2895	* event flow.
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2896	*/
				2897
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2898	struct freq_event {
				2899	struct perf_event_header header;
				2900	u64 time;
				2901	u64 id;
				2902	u64 period;
				2903	};
				2904
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2905	static void perf_log_period(struct perf_counter *counter, u64 period)
				2906	{
				2907	struct perf_output_handle handle;
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2908	struct freq_event event;
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2909	int ret;
				2910
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2911	if (counter->hw.sample_period == period)
				2912	return;
				2913
				2914	if (counter->attr.sample_type & PERF_SAMPLE_PERIOD)
				2915	return;
				2916
				2917	event = (struct freq_event) {
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2918	.header = {
				2919	.type = PERF_EVENT_PERIOD,
				2920	.misc = 0,
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2921	.size = sizeof(event),
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2922	},
				2923	.time = sched_clock(),
Peter Zijlstra	689802b	2009-06-05 15:05:43 +0200	[diff] [blame]	2924	.id = counter->id,
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2925	.period = period,
				2926	};
				2927
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2928	ret = perf_output_begin(&handle, counter, sizeof(event), 1, 0);
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2929	if (ret)
				2930	return;
				2931
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2932	perf_output_put(&handle, event);
Peter Zijlstra	26b119b	2009-05-20 12:21:20 +0200	[diff] [blame]	2933	perf_output_end(&handle);
				2934	}
				2935
				2936	/*
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	2937	* IRQ throttle logging
				2938	*/
				2939
				2940	static void perf_log_throttle(struct perf_counter *counter, int enable)
				2941	{
				2942	struct perf_output_handle handle;
				2943	int ret;
				2944
				2945	struct {
				2946	struct perf_event_header header;
				2947	u64 time;
				2948	} throttle_event = {
				2949	.header = {
				2950	.type = PERF_EVENT_THROTTLE + 1,
				2951	.misc = 0,
				2952	.size = sizeof(throttle_event),
				2953	},
				2954	.time = sched_clock(),
				2955	};
				2956
Ingo Molnar	0127c3e	2009-05-25 22:03:26 +0200	[diff] [blame]	2957	ret = perf_output_begin(&handle, counter, sizeof(throttle_event), 1, 0);
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	2958	if (ret)
				2959	return;
				2960
				2961	perf_output_put(&handle, throttle_event);
				2962	perf_output_end(&handle);
				2963	}
				2964
				2965	/*
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	2966	* Generic counter overflow handling.
				2967	*/
				2968
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	2969	int perf_counter_overflow(struct perf_counter *counter, int nmi,
				2970	struct perf_sample_data *data)
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	2971	{
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	2972	int events = atomic_read(&counter->event_limit);
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	2973	int throttle = counter->pmu->unthrottle != NULL;
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2974	struct hw_perf_counter *hwc = &counter->hw;
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	2975	int ret = 0;
				2976
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	2977	if (!throttle) {
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2978	hwc->interrupts++;
Ingo Molnar	128f048	2009-06-03 22:19:36 +0200	[diff] [blame]	2979	} else {
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2980	if (hwc->interrupts != MAX_INTERRUPTS) {
				2981	hwc->interrupts++;
				2982	if (HZ * hwc->interrupts > (u64)sysctl_perf_counter_limit) {
				2983	hwc->interrupts = MAX_INTERRUPTS;
Ingo Molnar	128f048	2009-06-03 22:19:36 +0200	[diff] [blame]	2984	perf_log_throttle(counter, 0);
				2985	ret = 1;
				2986	}
				2987	} else {
				2988	/*
				2989	* Keep re-disabling counters even though on the previous
				2990	* pass we disabled it - just in case we raced with a
				2991	* sched-in and the counter got enabled again:
				2992	*/
Peter Zijlstra	a78ac32	2009-05-25 17:39:05 +0200	[diff] [blame]	2993	ret = 1;
				2994	}
				2995	}
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	2996
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	2997	if (counter->attr.freq) {
				2998	u64 now = sched_clock();
				2999	s64 delta = now - hwc->freq_stamp;
				3000
				3001	hwc->freq_stamp = now;
				3002
				3003	if (delta > 0 && delta < TICK_NSEC)
				3004	perf_adjust_period(counter, NSEC_PER_SEC / (int)delta);
				3005	}
				3006
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	3007	/*
				3008	* XXX event_limit might not quite work as expected on inherited
				3009	* counters
				3010	*/
				3011
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	3012	counter->pending_kill = POLL_IN;
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	3013	if (events && atomic_dec_and_test(&counter->event_limit)) {
				3014	ret = 1;
Peter Zijlstra	4c9e254	2009-04-06 11:45:09 +0200	[diff] [blame]	3015	counter->pending_kill = POLL_HUP;
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	3016	if (nmi) {
				3017	counter->pending_disable = 1;
				3018	perf_pending_queue(&counter->pending,
				3019	perf_pending_counter);
				3020	} else
				3021	perf_counter_disable(counter);
				3022	}
				3023
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3024	perf_counter_output(counter, nmi, data);
Peter Zijlstra	79f1464	2009-04-06 11:45:07 +0200	[diff] [blame]	3025	return ret;
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	3026	}
				3027
				3028	/*
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3029	* Generic software counter infrastructure
				3030	*/
				3031
				3032	static void perf_swcounter_update(struct perf_counter *counter)
				3033	{
				3034	struct hw_perf_counter *hwc = &counter->hw;
				3035	u64 prev, now;
				3036	s64 delta;
				3037
				3038	again:
				3039	prev = atomic64_read(&hwc->prev_count);
				3040	now = atomic64_read(&hwc->count);
				3041	if (atomic64_cmpxchg(&hwc->prev_count, prev, now) != prev)
				3042	goto again;
				3043
				3044	delta = now - prev;
				3045
				3046	atomic64_add(delta, &counter->count);
				3047	atomic64_sub(delta, &hwc->period_left);
				3048	}
				3049
				3050	static void perf_swcounter_set_period(struct perf_counter *counter)
				3051	{
				3052	struct hw_perf_counter *hwc = &counter->hw;
				3053	s64 left = atomic64_read(&hwc->period_left);
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3054	s64 period = hwc->sample_period;
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3055
				3056	if (unlikely(left <= -period)) {
				3057	left = period;
				3058	atomic64_set(&hwc->period_left, left);
Peter Zijlstra	9e350de	2009-06-10 21:34:59 +0200	[diff] [blame]	3059	hwc->last_period = period;
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3060	}
				3061
				3062	if (unlikely(left <= 0)) {
				3063	left += period;
				3064	atomic64_add(period, &hwc->period_left);
Peter Zijlstra	9e350de	2009-06-10 21:34:59 +0200	[diff] [blame]	3065	hwc->last_period = period;
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3066	}
				3067
				3068	atomic64_set(&hwc->prev_count, -left);
				3069	atomic64_set(&hwc->count, -left);
				3070	}
				3071
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3072	static enum hrtimer_restart perf_swcounter_hrtimer(struct hrtimer *hrtimer)
				3073	{
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	3074	enum hrtimer_restart ret = HRTIMER_RESTART;
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3075	struct perf_sample_data data;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3076	struct perf_counter *counter;
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3077	u64 period;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3078
				3079	counter = container_of(hrtimer, struct perf_counter, hw.hrtimer);
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3080	counter->pmu->read(counter);
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3081
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3082	data.addr = 0;
				3083	data.regs = get_irq_regs();
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3084	/*
				3085	* In case we exclude kernel IPs or are somehow not in interrupt
				3086	* context, provide the next best thing, the user IP.
				3087	*/
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3088	if ((counter->attr.exclude_kernel \|\| !data.regs) &&
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3089	!counter->attr.exclude_user)
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3090	data.regs = task_pt_regs(current);
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3091
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3092	if (data.regs) {
				3093	if (perf_counter_overflow(counter, 0, &data))
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	3094	ret = HRTIMER_NORESTART;
				3095	}
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3096
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3097	period = max_t(u64, 10000, counter->hw.sample_period);
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3098	hrtimer_forward_now(hrtimer, ns_to_ktime(period));
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3099
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	3100	return ret;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3101	}
				3102
				3103	static void perf_swcounter_overflow(struct perf_counter *counter,
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3104	int nmi, struct pt_regs *regs, u64 addr)
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3105	{
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3106	struct perf_sample_data data = {
Peter Zijlstra	9e350de	2009-06-10 21:34:59 +0200	[diff] [blame]	3107	.regs = regs,
				3108	.addr = addr,
				3109	.period = counter->hw.last_period,
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3110	};
				3111
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3112	perf_swcounter_update(counter);
				3113	perf_swcounter_set_period(counter);
Peter Zijlstra	df1a132	2009-06-10 21:02:22 +0200	[diff] [blame]	3114	if (perf_counter_overflow(counter, nmi, &data))
Peter Zijlstra	f6c7d5f	2009-04-06 11:45:04 +0200	[diff] [blame]	3115	/* soft-disable the counter */
				3116	;
				3117
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3118	}
				3119
Paul Mackerras	880ca15	2009-06-01 17:49:14 +1000	[diff] [blame]	3120	static int perf_swcounter_is_counting(struct perf_counter *counter)
				3121	{
				3122	struct perf_counter_context *ctx;
				3123	unsigned long flags;
				3124	int count;
				3125
				3126	if (counter->state == PERF_COUNTER_STATE_ACTIVE)
				3127	return 1;
				3128
				3129	if (counter->state != PERF_COUNTER_STATE_INACTIVE)
				3130	return 0;
				3131
				3132	/*
				3133	* If the counter is inactive, it could be just because
				3134	* its task is scheduled out, or because it's in a group
				3135	* which could not go on the PMU. We want to count in
				3136	* the first case but not the second. If the context is
				3137	* currently active then an inactive software counter must
				3138	* be the second case. If it's not currently active then
				3139	* we need to know whether the counter was active when the
				3140	* context was last active, which we can determine by
				3141	* comparing counter->tstamp_stopped with ctx->time.
				3142	*
				3143	* We are within an RCU read-side critical section,
				3144	* which protects the existence of *ctx.
				3145	*/
				3146	ctx = counter->ctx;
				3147	spin_lock_irqsave(&ctx->lock, flags);
				3148	count = 1;
				3149	/* Re-check state now we have the lock */
				3150	if (counter->state < PERF_COUNTER_STATE_INACTIVE \|\|
				3151	counter->ctx->is_active \|\|
				3152	counter->tstamp_stopped < ctx->time)
				3153	count = 0;
				3154	spin_unlock_irqrestore(&ctx->lock, flags);
				3155	return count;
				3156	}
				3157
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3158	static int perf_swcounter_match(struct perf_counter *counter,
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3159	enum perf_event_types type,
				3160	u32 event, struct pt_regs *regs)
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3161	{
Paul Mackerras	880ca15	2009-06-01 17:49:14 +1000	[diff] [blame]	3162	if (!perf_swcounter_is_counting(counter))
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3163	return 0;
				3164
Ingo Molnar	a21ca2c	2009-06-06 09:58:57 +0200	[diff] [blame]	3165	if (counter->attr.type != type)
				3166	return 0;
				3167	if (counter->attr.config != event)
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3168	return 0;
				3169
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3170	if (regs) {
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3171	if (counter->attr.exclude_user && user_mode(regs))
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3172	return 0;
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3173
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3174	if (counter->attr.exclude_kernel && !user_mode(regs))
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3175	return 0;
				3176	}
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3177
				3178	return 1;
				3179	}
				3180
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3181	static void perf_swcounter_add(struct perf_counter *counter, u64 nr,
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3182	int nmi, struct pt_regs *regs, u64 addr)
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3183	{
				3184	int neg = atomic64_add_negative(nr, &counter->hw.count);
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	3185
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3186	if (counter->hw.sample_period && !neg && regs)
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3187	perf_swcounter_overflow(counter, nmi, regs, addr);
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3188	}
				3189
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3190	static void perf_swcounter_ctx_event(struct perf_counter_context *ctx,
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3191	enum perf_event_types type, u32 event,
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3192	u64 nr, int nmi, struct pt_regs *regs,
				3193	u64 addr)
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3194	{
				3195	struct perf_counter *counter;
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3196
Peter Zijlstra	01ef09d	2009-03-19 20:26:11 +0100	[diff] [blame]	3197	if (system_state != SYSTEM_RUNNING \|\| list_empty(&ctx->event_list))
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3198	return;
				3199
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	3200	rcu_read_lock();
				3201	list_for_each_entry_rcu(counter, &ctx->event_list, event_entry) {
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3202	if (perf_swcounter_match(counter, type, event, regs))
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3203	perf_swcounter_add(counter, nr, nmi, regs, addr);
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3204	}
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	3205	rcu_read_unlock();
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3206	}
				3207
Peter Zijlstra	96f6d44	2009-03-23 18:22:07 +0100	[diff] [blame]	3208	static int perf_swcounter_recursion_context(struct perf_cpu_context cpuctx)
				3209	{
				3210	if (in_nmi())
				3211	return &cpuctx->recursion[3];
				3212
				3213	if (in_irq())
				3214	return &cpuctx->recursion[2];
				3215
				3216	if (in_softirq())
				3217	return &cpuctx->recursion[1];
				3218
				3219	return &cpuctx->recursion[0];
				3220	}
				3221
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3222	static void __perf_swcounter_event(enum perf_event_types type, u32 event,
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3223	u64 nr, int nmi, struct pt_regs *regs,
				3224	u64 addr)
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3225	{
				3226	struct perf_cpu_context *cpuctx = &get_cpu_var(perf_cpu_context);
Peter Zijlstra	96f6d44	2009-03-23 18:22:07 +0100	[diff] [blame]	3227	int *recursion = perf_swcounter_recursion_context(cpuctx);
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	3228	struct perf_counter_context *ctx;
Peter Zijlstra	96f6d44	2009-03-23 18:22:07 +0100	[diff] [blame]	3229
				3230	if (*recursion)
				3231	goto out;
				3232
				3233	(*recursion)++;
				3234	barrier();
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3235
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3236	perf_swcounter_ctx_event(&cpuctx->ctx, type, event,
				3237	nr, nmi, regs, addr);
Peter Zijlstra	665c214	2009-05-29 14:51:57 +0200	[diff] [blame]	3238	rcu_read_lock();
				3239	/*
				3240	* doesn't really matter which of the child contexts the
				3241	* events ends up in.
				3242	*/
				3243	ctx = rcu_dereference(current->perf_counter_ctxp);
				3244	if (ctx)
				3245	perf_swcounter_ctx_event(ctx, type, event, nr, nmi, regs, addr);
				3246	rcu_read_unlock();
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3247
Peter Zijlstra	96f6d44	2009-03-23 18:22:07 +0100	[diff] [blame]	3248	barrier();
				3249	(*recursion)--;
				3250
				3251	out:
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3252	put_cpu_var(perf_cpu_context);
				3253	}
				3254
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3255	void
				3256	perf_swcounter_event(u32 event, u64 nr, int nmi, struct pt_regs *regs, u64 addr)
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3257	{
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3258	__perf_swcounter_event(PERF_TYPE_SOFTWARE, event, nr, nmi, regs, addr);
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3259	}
				3260
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3261	static void perf_swcounter_read(struct perf_counter *counter)
				3262	{
				3263	perf_swcounter_update(counter);
				3264	}
				3265
				3266	static int perf_swcounter_enable(struct perf_counter *counter)
				3267	{
				3268	perf_swcounter_set_period(counter);
				3269	return 0;
				3270	}
				3271
				3272	static void perf_swcounter_disable(struct perf_counter *counter)
				3273	{
				3274	perf_swcounter_update(counter);
				3275	}
				3276
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3277	static const struct pmu perf_ops_generic = {
Peter Zijlstra	ac17dc8	2009-03-13 12:21:34 +0100	[diff] [blame]	3278	.enable = perf_swcounter_enable,
				3279	.disable = perf_swcounter_disable,
				3280	.read = perf_swcounter_read,
				3281	};
				3282
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3283	/*
				3284	* Software counter: cpu wall time clock
				3285	*/
				3286
Paul Mackerras	9abf8a0	2009-01-09 16:26:43 +1100	[diff] [blame]	3287	static void cpu_clock_perf_counter_update(struct perf_counter *counter)
				3288	{
				3289	int cpu = raw_smp_processor_id();
				3290	s64 prev;
				3291	u64 now;
				3292
				3293	now = cpu_clock(cpu);
				3294	prev = atomic64_read(&counter->hw.prev_count);
				3295	atomic64_set(&counter->hw.prev_count, now);
				3296	atomic64_add(now - prev, &counter->count);
				3297	}
				3298
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3299	static int cpu_clock_perf_counter_enable(struct perf_counter *counter)
				3300	{
				3301	struct hw_perf_counter *hwc = &counter->hw;
				3302	int cpu = raw_smp_processor_id();
				3303
				3304	atomic64_set(&hwc->prev_count, cpu_clock(cpu));
Peter Zijlstra	039fc91	2009-03-13 16:43:47 +0100	[diff] [blame]	3305	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
				3306	hwc->hrtimer.function = perf_swcounter_hrtimer;
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3307	if (hwc->sample_period) {
				3308	u64 period = max_t(u64, 10000, hwc->sample_period);
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3309	__hrtimer_start_range_ns(&hwc->hrtimer,
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3310	ns_to_ktime(period), 0,
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3311	HRTIMER_MODE_REL, 0);
				3312	}
				3313
				3314	return 0;
				3315	}
				3316
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3317	static void cpu_clock_perf_counter_disable(struct perf_counter *counter)
				3318	{
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3319	if (counter->hw.sample_period)
Peter Zijlstra	b986d7e	2009-05-20 12:21:21 +0200	[diff] [blame]	3320	hrtimer_cancel(&counter->hw.hrtimer);
Paul Mackerras	9abf8a0	2009-01-09 16:26:43 +1100	[diff] [blame]	3321	cpu_clock_perf_counter_update(counter);
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3322	}
				3323
				3324	static void cpu_clock_perf_counter_read(struct perf_counter *counter)
				3325	{
Paul Mackerras	9abf8a0	2009-01-09 16:26:43 +1100	[diff] [blame]	3326	cpu_clock_perf_counter_update(counter);
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3327	}
				3328
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3329	static const struct pmu perf_ops_cpu_clock = {
Ingo Molnar	7671581	2008-12-17 14:20:28 +0100	[diff] [blame]	3330	.enable = cpu_clock_perf_counter_enable,
				3331	.disable = cpu_clock_perf_counter_disable,
				3332	.read = cpu_clock_perf_counter_read,
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3333	};
				3334
Ingo Molnar	aa9c4c0	2008-12-17 14:10:57 +0100	[diff] [blame]	3335	/*
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3336	* Software counter: task time clock
				3337	*/
				3338
Peter Zijlstra	e30e08f	2009-04-08 15:01:25 +0200	[diff] [blame]	3339	static void task_clock_perf_counter_update(struct perf_counter *counter, u64 now)
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3340	{
Peter Zijlstra	e30e08f	2009-04-08 15:01:25 +0200	[diff] [blame]	3341	u64 prev;
Ingo Molnar	8cb391e	2008-12-14 12:22:31 +0100	[diff] [blame]	3342	s64 delta;
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3343
Peter Zijlstra	a39d6f2	2009-04-06 11:45:11 +0200	[diff] [blame]	3344	prev = atomic64_xchg(&counter->hw.prev_count, now);
Ingo Molnar	8cb391e	2008-12-14 12:22:31 +0100	[diff] [blame]	3345	delta = now - prev;
Ingo Molnar	8cb391e	2008-12-14 12:22:31 +0100	[diff] [blame]	3346	atomic64_add(delta, &counter->count);
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3347	}
				3348
Ingo Molnar	95cdd2e	2008-12-21 13:50:42 +0100	[diff] [blame]	3349	static int task_clock_perf_counter_enable(struct perf_counter *counter)
Ingo Molnar	8cb391e	2008-12-14 12:22:31 +0100	[diff] [blame]	3350	{
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3351	struct hw_perf_counter *hwc = &counter->hw;
Peter Zijlstra	a39d6f2	2009-04-06 11:45:11 +0200	[diff] [blame]	3352	u64 now;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3353
Peter Zijlstra	a39d6f2	2009-04-06 11:45:11 +0200	[diff] [blame]	3354	now = counter->ctx->time;
				3355
				3356	atomic64_set(&hwc->prev_count, now);
Peter Zijlstra	039fc91	2009-03-13 16:43:47 +0100	[diff] [blame]	3357	hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
				3358	hwc->hrtimer.function = perf_swcounter_hrtimer;
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3359	if (hwc->sample_period) {
				3360	u64 period = max_t(u64, 10000, hwc->sample_period);
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3361	__hrtimer_start_range_ns(&hwc->hrtimer,
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3362	ns_to_ktime(period), 0,
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3363	HRTIMER_MODE_REL, 0);
				3364	}
Ingo Molnar	95cdd2e	2008-12-21 13:50:42 +0100	[diff] [blame]	3365
				3366	return 0;
Ingo Molnar	8cb391e	2008-12-14 12:22:31 +0100	[diff] [blame]	3367	}
				3368
				3369	static void task_clock_perf_counter_disable(struct perf_counter *counter)
				3370	{
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3371	if (counter->hw.sample_period)
Peter Zijlstra	b986d7e	2009-05-20 12:21:21 +0200	[diff] [blame]	3372	hrtimer_cancel(&counter->hw.hrtimer);
Peter Zijlstra	e30e08f	2009-04-08 15:01:25 +0200	[diff] [blame]	3373	task_clock_perf_counter_update(counter, counter->ctx->time);
				3374
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3375	}
Ingo Molnar	aa9c4c0	2008-12-17 14:10:57 +0100	[diff] [blame]	3376
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3377	static void task_clock_perf_counter_read(struct perf_counter *counter)
				3378	{
Peter Zijlstra	e30e08f	2009-04-08 15:01:25 +0200	[diff] [blame]	3379	u64 time;
				3380
				3381	if (!in_nmi()) {
				3382	update_context_time(counter->ctx);
				3383	time = counter->ctx->time;
				3384	} else {
				3385	u64 now = perf_clock();
				3386	u64 delta = now - counter->ctx->timestamp;
				3387	time = counter->ctx->time + delta;
				3388	}
				3389
				3390	task_clock_perf_counter_update(counter, time);
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3391	}
				3392
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3393	static const struct pmu perf_ops_task_clock = {
Ingo Molnar	7671581	2008-12-17 14:20:28 +0100	[diff] [blame]	3394	.enable = task_clock_perf_counter_enable,
				3395	.disable = task_clock_perf_counter_disable,
				3396	.read = task_clock_perf_counter_read,
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3397	};
				3398
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3399	/*
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3400	* Software counter: cpu migrations
				3401	*/
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3402	void perf_counter_task_migration(struct task_struct *task, int cpu)
Ingo Molnar	6c594c2	2008-12-14 12:34:15 +0100	[diff] [blame]	3403	{
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3404	struct perf_cpu_context *cpuctx = &per_cpu(perf_cpu_context, cpu);
				3405	struct perf_counter_context *ctx;
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3406
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3407	perf_swcounter_ctx_event(&cpuctx->ctx, PERF_TYPE_SOFTWARE,
				3408	PERF_COUNT_CPU_MIGRATIONS,
				3409	1, 1, NULL, 0);
				3410
				3411	ctx = perf_pin_task_context(task);
				3412	if (ctx) {
				3413	perf_swcounter_ctx_event(ctx, PERF_TYPE_SOFTWARE,
				3414	PERF_COUNT_CPU_MIGRATIONS,
				3415	1, 1, NULL, 0);
				3416	perf_unpin_context(ctx);
				3417	}
Ingo Molnar	6c594c2	2008-12-14 12:34:15 +0100	[diff] [blame]	3418	}
				3419
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3420	#ifdef CONFIG_EVENT_PROFILE
				3421	void perf_tpcounter_event(int event_id)
				3422	{
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3423	struct pt_regs *regs = get_irq_regs();
				3424
				3425	if (!regs)
				3426	regs = task_pt_regs(current);
				3427
Peter Zijlstra	78f13e9	2009-04-08 15:01:33 +0200	[diff] [blame]	3428	__perf_swcounter_event(PERF_TYPE_TRACEPOINT, event_id, 1, 1, regs, 0);
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3429	}
Steven Whitehouse	ff7b1b4	2009-04-15 16:55:05 +0100	[diff] [blame]	3430	EXPORT_SYMBOL_GPL(perf_tpcounter_event);
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3431
				3432	extern int ftrace_profile_enable(int);
				3433	extern void ftrace_profile_disable(int);
				3434
				3435	static void tp_perf_counter_destroy(struct perf_counter *counter)
				3436	{
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3437	ftrace_profile_disable(perf_event_id(&counter->attr));
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3438	}
				3439
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3440	static const struct pmu tp_perf_counter_init(struct perf_counter counter)
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3441	{
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3442	int event_id = perf_event_id(&counter->attr);
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3443	int ret;
				3444
				3445	ret = ftrace_profile_enable(event_id);
				3446	if (ret)
				3447	return NULL;
				3448
				3449	counter->destroy = tp_perf_counter_destroy;
				3450
				3451	return &perf_ops_generic;
				3452	}
				3453	#else
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3454	static const struct pmu tp_perf_counter_init(struct perf_counter counter)
Peter Zijlstra	e077df4	2009-03-19 20:26:17 +0100	[diff] [blame]	3455	{
				3456	return NULL;
				3457	}
				3458	#endif
				3459
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3460	static const struct pmu sw_perf_counter_init(struct perf_counter counter)
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3461	{
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3462	const struct pmu *pmu = NULL;
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3463
Paul Mackerras	0475f9e	2009-02-11 14:35:35 +1100	[diff] [blame]	3464	/*
				3465	* Software counters (currently) can't in general distinguish
				3466	* between user, kernel and hypervisor events.
				3467	* However, context switches and cpu migrations are considered
				3468	* to be kernel events, and page faults are never hypervisor
				3469	* events.
				3470	*/
Ingo Molnar	a21ca2c	2009-06-06 09:58:57 +0200	[diff] [blame]	3471	switch (counter->attr.config) {
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3472	case PERF_COUNT_CPU_CLOCK:
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3473	pmu = &perf_ops_cpu_clock;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3474
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3475	break;
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3476	case PERF_COUNT_TASK_CLOCK:
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3477	/*
				3478	* If the user instantiates this as a per-cpu counter,
				3479	* use the cpu_clock counter instead.
				3480	*/
				3481	if (counter->ctx->task)
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3482	pmu = &perf_ops_task_clock;
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3483	else
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3484	pmu = &perf_ops_cpu_clock;
Peter Zijlstra	d6d020e	2009-03-13 12:21:35 +0100	[diff] [blame]	3485
Ingo Molnar	bae43c9	2008-12-11 14:03:20 +0100	[diff] [blame]	3486	break;
Ingo Molnar	e06c61a	2008-12-14 14:44:31 +0100	[diff] [blame]	3487	case PERF_COUNT_PAGE_FAULTS:
Peter Zijlstra	ac17dc8	2009-03-13 12:21:34 +0100	[diff] [blame]	3488	case PERF_COUNT_PAGE_FAULTS_MIN:
				3489	case PERF_COUNT_PAGE_FAULTS_MAJ:
Ingo Molnar	5d6a27d	2008-12-14 12:28:33 +0100	[diff] [blame]	3490	case PERF_COUNT_CONTEXT_SWITCHES:
Ingo Molnar	6c594c2	2008-12-14 12:34:15 +0100	[diff] [blame]	3491	case PERF_COUNT_CPU_MIGRATIONS:
Paul Mackerras	3f731ca	2009-06-01 17:52:30 +1000	[diff] [blame]	3492	pmu = &perf_ops_generic;
Ingo Molnar	6c594c2	2008-12-14 12:34:15 +0100	[diff] [blame]	3493	break;
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3494	}
Peter Zijlstra	15dbf27	2009-03-13 12:21:32 +0100	[diff] [blame]	3495
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3496	return pmu;
Ingo Molnar	5c92d12	2008-12-11 13:21:10 +0100	[diff] [blame]	3497	}
				3498
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3499	/*
				3500	* Allocate and initialize a counter structure
				3501	*/
				3502	static struct perf_counter *
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3503	perf_counter_alloc(struct perf_counter_attr *attr,
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3504	int cpu,
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3505	struct perf_counter_context *ctx,
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3506	struct perf_counter *group_leader,
				3507	gfp_t gfpflags)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3508	{
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3509	const struct pmu *pmu;
Ingo Molnar	621a01e	2008-12-11 12:46:46 +0100	[diff] [blame]	3510	struct perf_counter *counter;
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3511	struct hw_perf_counter *hwc;
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3512	long err;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3513
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3514	counter = kzalloc(sizeof(*counter), gfpflags);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3515	if (!counter)
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3516	return ERR_PTR(-ENOMEM);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3517
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3518	/*
				3519	* Single counters are their own group leaders, with an
				3520	* empty sibling list:
				3521	*/
				3522	if (!group_leader)
				3523	group_leader = counter;
				3524
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	3525	mutex_init(&counter->child_mutex);
				3526	INIT_LIST_HEAD(&counter->child_list);
				3527
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3528	INIT_LIST_HEAD(&counter->list_entry);
Peter Zijlstra	592903c	2009-03-13 12:21:36 +0100	[diff] [blame]	3529	INIT_LIST_HEAD(&counter->event_entry);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3530	INIT_LIST_HEAD(&counter->sibling_list);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3531	init_waitqueue_head(&counter->waitq);
				3532
Peter Zijlstra	7b732a7	2009-03-23 18:22:10 +0100	[diff] [blame]	3533	mutex_init(&counter->mmap_mutex);
				3534
Peter Zijlstra	a96bbc1	2009-06-03 14:01:36 +0200	[diff] [blame]	3535	counter->cpu = cpu;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3536	counter->attr = *attr;
Peter Zijlstra	a96bbc1	2009-06-03 14:01:36 +0200	[diff] [blame]	3537	counter->group_leader = group_leader;
				3538	counter->pmu = NULL;
				3539	counter->ctx = ctx;
				3540	counter->oncpu = -1;
Ingo Molnar	329d876	2009-05-26 08:10:00 +0200	[diff] [blame]	3541
Peter Zijlstra	a96bbc1	2009-06-03 14:01:36 +0200	[diff] [blame]	3542	counter->ns = get_pid_ns(current->nsproxy->pid_ns);
				3543	counter->id = atomic64_inc_return(&perf_counter_id);
				3544
				3545	counter->state = PERF_COUNTER_STATE_INACTIVE;
				3546
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3547	if (attr->disabled)
Ingo Molnar	a86ed50	2008-12-17 00:43:10 +0100	[diff] [blame]	3548	counter->state = PERF_COUNTER_STATE_OFF;
				3549
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3550	pmu = NULL;
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3551
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3552	hwc = &counter->hw;
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	3553	hwc->sample_period = attr->sample_period;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3554	if (attr->freq && attr->sample_freq)
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	3555	hwc->sample_period = 1;
				3556
				3557	atomic64_set(&hwc->period_left, hwc->sample_period);
Peter Zijlstra	60db5e0	2009-05-15 15:19:28 +0200	[diff] [blame]	3558
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	3559	/*
Peter Zijlstra	b23f332	2009-06-02 15:13:03 +0200	[diff] [blame]	3560	* we currently do not support PERF_SAMPLE_GROUP on inherited counters
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	3561	*/
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3562	if (attr->inherit && (attr->sample_type & PERF_SAMPLE_GROUP))
Peter Zijlstra	2023b35	2009-05-05 17:50:26 +0200	[diff] [blame]	3563	goto done;
				3564
Ingo Molnar	a21ca2c	2009-06-06 09:58:57 +0200	[diff] [blame]	3565	if (attr->type == PERF_TYPE_RAW) {
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3566	pmu = hw_perf_counter_init(counter);
Peter Zijlstra	f4a2deb	2009-03-23 18:22:06 +0100	[diff] [blame]	3567	goto done;
				3568	}
				3569
Ingo Molnar	a21ca2c	2009-06-06 09:58:57 +0200	[diff] [blame]	3570	switch (attr->type) {
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3571	case PERF_TYPE_HARDWARE:
Ingo Molnar	8326f44	2009-06-05 20:22:46 +0200	[diff] [blame]	3572	case PERF_TYPE_HW_CACHE:
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3573	pmu = hw_perf_counter_init(counter);
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3574	break;
				3575
				3576	case PERF_TYPE_SOFTWARE:
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3577	pmu = sw_perf_counter_init(counter);
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3578	break;
				3579
				3580	case PERF_TYPE_TRACEPOINT:
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3581	pmu = tp_perf_counter_init(counter);
Peter Zijlstra	b8e8351	2009-03-19 20:26:18 +0100	[diff] [blame]	3582	break;
				3583	}
Peter Zijlstra	f4a2deb	2009-03-23 18:22:06 +0100	[diff] [blame]	3584	done:
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3585	err = 0;
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3586	if (!pmu)
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3587	err = -EINVAL;
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3588	else if (IS_ERR(pmu))
				3589	err = PTR_ERR(pmu);
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3590
				3591	if (err) {
Peter Zijlstra	a96bbc1	2009-06-03 14:01:36 +0200	[diff] [blame]	3592	if (counter->ns)
				3593	put_pid_ns(counter->ns);
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3594	kfree(counter);
				3595	return ERR_PTR(err);
				3596	}
				3597
Robert Richter	4aeb0b4	2009-04-29 12:47:03 +0200	[diff] [blame]	3598	counter->pmu = pmu;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3599
Peter Zijlstra	7fc23a5	2009-05-08 18:52:21 +0200	[diff] [blame]	3600	atomic_inc(&nr_counters);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3601	if (counter->attr.mmap)
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	3602	atomic_inc(&nr_mmap_counters);
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3603	if (counter->attr.comm)
Peter Zijlstra	60313eb	2009-06-04 16:53:44 +0200	[diff] [blame]	3604	atomic_inc(&nr_comm_counters);
Peter Zijlstra	9ee318a	2009-04-09 10:53:44 +0200	[diff] [blame]	3605
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3606	return counter;
				3607	}
				3608
				3609	/**
Paul Mackerras	2743a5b	2009-03-04 20:36:51 +1100	[diff] [blame]	3610	* sys_perf_counter_open - open a performance counter, associate it to a task/cpu
Ingo Molnar	9f66a38	2008-12-10 12:33:23 +0100	[diff] [blame]	3611	*
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3612	* @attr_uptr: event type attributes for monitoring/sampling
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3613	* @pid: target pid
Ingo Molnar	9f66a38	2008-12-10 12:33:23 +0100	[diff] [blame]	3614	* @cpu: target cpu
				3615	* @group_fd: group leader counter fd
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3616	*/
Paul Mackerras	2743a5b	2009-03-04 20:36:51 +1100	[diff] [blame]	3617	SYSCALL_DEFINE5(perf_counter_open,
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3618	const struct perf_counter_attr __user *, attr_uptr,
Paul Mackerras	2743a5b	2009-03-04 20:36:51 +1100	[diff] [blame]	3619	pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3620	{
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3621	struct perf_counter counter, group_leader;
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3622	struct perf_counter_attr attr;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3623	struct perf_counter_context *ctx;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3624	struct file *counter_file = NULL;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3625	struct file *group_file = NULL;
				3626	int fput_needed = 0;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3627	int fput_needed2 = 0;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3628	int ret;
				3629
Paul Mackerras	2743a5b	2009-03-04 20:36:51 +1100	[diff] [blame]	3630	/* for future expandability... */
				3631	if (flags)
				3632	return -EINVAL;
				3633
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3634	if (copy_from_user(&attr, attr_uptr, sizeof(attr)) != 0)
Thomas Gleixner	eab656a	2008-12-08 19:26:59 +0100	[diff] [blame]	3635	return -EFAULT;
				3636
Peter Zijlstra	0764771	2009-06-11 11:18:36 +0200	[diff] [blame^]	3637	if (!attr.exclude_kernel) {
				3638	if (perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
				3639	return -EACCES;
				3640	}
				3641
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3642	/*
Ingo Molnar	ccff286	2008-12-11 11:26:29 +0100	[diff] [blame]	3643	* Get the target context (task or percpu):
				3644	*/
				3645	ctx = find_get_context(pid, cpu);
				3646	if (IS_ERR(ctx))
				3647	return PTR_ERR(ctx);
				3648
				3649	/*
				3650	* Look up the group leader (we will attach this counter to it):
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3651	*/
				3652	group_leader = NULL;
				3653	if (group_fd != -1) {
				3654	ret = -EINVAL;
				3655	group_file = fget_light(group_fd, &fput_needed);
				3656	if (!group_file)
Ingo Molnar	ccff286	2008-12-11 11:26:29 +0100	[diff] [blame]	3657	goto err_put_context;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3658	if (group_file->f_op != &perf_fops)
Ingo Molnar	ccff286	2008-12-11 11:26:29 +0100	[diff] [blame]	3659	goto err_put_context;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3660
				3661	group_leader = group_file->private_data;
				3662	/*
Ingo Molnar	ccff286	2008-12-11 11:26:29 +0100	[diff] [blame]	3663	* Do not allow a recursive hierarchy (this new sibling
				3664	* becoming part of another group-sibling):
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3665	*/
Ingo Molnar	ccff286	2008-12-11 11:26:29 +0100	[diff] [blame]	3666	if (group_leader->group_leader != group_leader)
				3667	goto err_put_context;
				3668	/*
				3669	* Do not allow to attach to a group in a different
				3670	* task or CPU context:
				3671	*/
				3672	if (group_leader->ctx != ctx)
				3673	goto err_put_context;
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	3674	/*
				3675	* Only a group leader can be exclusive or pinned
				3676	*/
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3677	if (attr.exclusive \|\| attr.pinned)
Paul Mackerras	3b6f9e5	2009-01-14 21:00:30 +1100	[diff] [blame]	3678	goto err_put_context;
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3679	}
				3680
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3681	counter = perf_counter_alloc(&attr, cpu, ctx, group_leader,
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3682	GFP_KERNEL);
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3683	ret = PTR_ERR(counter);
				3684	if (IS_ERR(counter))
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3685	goto err_put_context;
				3686
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3687	ret = anon_inode_getfd("[perf_counter]", &perf_fops, counter, 0);
				3688	if (ret < 0)
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3689	goto err_free_put_context;
				3690
				3691	counter_file = fget_light(ret, &fput_needed2);
				3692	if (!counter_file)
				3693	goto err_free_put_context;
				3694
				3695	counter->filp = counter_file;
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3696	WARN_ON_ONCE(ctx->parent_ctx);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3697	mutex_lock(&ctx->mutex);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3698	perf_install_in_context(ctx, counter, cpu);
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3699	++ctx->generation;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3700	mutex_unlock(&ctx->mutex);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3701
Peter Zijlstra	082ff5a	2009-05-23 18:29:00 +0200	[diff] [blame]	3702	counter->owner = current;
				3703	get_task_struct(current);
				3704	mutex_lock(&current->perf_counter_mutex);
				3705	list_add_tail(&counter->owner_entry, &current->perf_counter_list);
				3706	mutex_unlock(&current->perf_counter_mutex);
				3707
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3708	fput_light(counter_file, fput_needed2);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3709
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3710	out_fput:
				3711	fput_light(group_file, fput_needed);
				3712
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3713	return ret;
				3714
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3715	err_free_put_context:
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3716	kfree(counter);
				3717
				3718	err_put_context:
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	3719	put_ctx(ctx);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3720
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	3721	goto out_fput;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	3722	}
				3723
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3724	/*
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3725	* inherit a counter from parent task to child task:
				3726	*/
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3727	static struct perf_counter *
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3728	inherit_counter(struct perf_counter *parent_counter,
				3729	struct task_struct *parent,
				3730	struct perf_counter_context *parent_ctx,
				3731	struct task_struct *child,
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3732	struct perf_counter *group_leader,
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3733	struct perf_counter_context *child_ctx)
				3734	{
				3735	struct perf_counter *child_counter;
				3736
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3737	/*
				3738	* Instead of creating recursive hierarchies of counters,
				3739	* we link inherited counters back to the original parent,
				3740	* which has a filp for sure, which we use as the reference
				3741	* count:
				3742	*/
				3743	if (parent_counter->parent)
				3744	parent_counter = parent_counter->parent;
				3745
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3746	child_counter = perf_counter_alloc(&parent_counter->attr,
Paul Mackerras	23a185c	2009-02-09 22:42:47 +1100	[diff] [blame]	3747	parent_counter->cpu, child_ctx,
				3748	group_leader, GFP_KERNEL);
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3749	if (IS_ERR(child_counter))
				3750	return child_counter;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	3751	get_ctx(child_ctx);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3752
				3753	/*
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	3754	* Make the child state follow the state of the parent counter,
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3755	* not its attr.disabled bit. We hold the parent's mutex,
Ingo Molnar	22a4f65	2009-06-01 10:13:37 +0200	[diff] [blame]	3756	* so we won't race with perf_counter_{en, dis}able_family.
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	3757	*/
				3758	if (parent_counter->state >= PERF_COUNTER_STATE_INACTIVE)
				3759	child_counter->state = PERF_COUNTER_STATE_INACTIVE;
				3760	else
				3761	child_counter->state = PERF_COUNTER_STATE_OFF;
				3762
Peter Zijlstra	bd2b5b1	2009-06-10 13:40:57 +0200	[diff] [blame]	3763	if (parent_counter->attr.freq)
				3764	child_counter->hw.sample_period = parent_counter->hw.sample_period;
				3765
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	3766	/*
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3767	* Link it up in the child's context:
				3768	*/
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	3769	add_counter_to_ctx(child_counter, child_ctx);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3770
				3771	child_counter->parent = parent_counter;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3772	/*
				3773	* inherit into child's child as well:
				3774	*/
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	3775	child_counter->attr.inherit = 1;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3776
				3777	/*
				3778	* Get a reference to the parent filp - we will fput it
				3779	* when the child counter exits. This is safe to do because
				3780	* we are in the parent and we know that the filp still
				3781	* exists and has a nonzero count:
				3782	*/
				3783	atomic_long_inc(&parent_counter->filp->f_count);
				3784
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3785	/*
				3786	* Link this into the parent counter's child list
				3787	*/
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3788	WARN_ON_ONCE(parent_counter->ctx->parent_ctx);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	3789	mutex_lock(&parent_counter->child_mutex);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3790	list_add_tail(&child_counter->child_list, &parent_counter->child_list);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	3791	mutex_unlock(&parent_counter->child_mutex);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3792
				3793	return child_counter;
				3794	}
				3795
				3796	static int inherit_group(struct perf_counter *parent_counter,
				3797	struct task_struct *parent,
				3798	struct perf_counter_context *parent_ctx,
				3799	struct task_struct *child,
				3800	struct perf_counter_context *child_ctx)
				3801	{
				3802	struct perf_counter *leader;
				3803	struct perf_counter *sub;
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3804	struct perf_counter *child_ctr;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3805
				3806	leader = inherit_counter(parent_counter, parent, parent_ctx,
				3807	child, NULL, child_ctx);
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3808	if (IS_ERR(leader))
				3809	return PTR_ERR(leader);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3810	list_for_each_entry(sub, &parent_counter->sibling_list, list_entry) {
Paul Mackerras	d5d2bc0d	2009-03-30 19:07:08 +0200	[diff] [blame]	3811	child_ctr = inherit_counter(sub, parent, parent_ctx,
				3812	child, leader, child_ctx);
				3813	if (IS_ERR(child_ctr))
				3814	return PTR_ERR(child_ctr);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3815	}
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3816	return 0;
				3817	}
				3818
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3819	static void sync_child_counter(struct perf_counter *child_counter,
				3820	struct perf_counter *parent_counter)
				3821	{
Peter Zijlstra	8bc2095	2009-05-15 20:45:59 +0200	[diff] [blame]	3822	u64 child_val;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3823
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3824	child_val = atomic64_read(&child_counter->count);
				3825
				3826	/*
				3827	* Add back the child's count to the parent's count:
				3828	*/
				3829	atomic64_add(child_val, &parent_counter->count);
Paul Mackerras	53cfbf5	2009-03-25 22:46:58 +1100	[diff] [blame]	3830	atomic64_add(child_counter->total_time_enabled,
				3831	&parent_counter->child_total_time_enabled);
				3832	atomic64_add(child_counter->total_time_running,
				3833	&parent_counter->child_total_time_running);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3834
				3835	/*
				3836	* Remove this counter from the parent's list
				3837	*/
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3838	WARN_ON_ONCE(parent_counter->ctx->parent_ctx);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	3839	mutex_lock(&parent_counter->child_mutex);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3840	list_del_init(&child_counter->child_list);
Peter Zijlstra	fccc714	2009-05-23 18:28:56 +0200	[diff] [blame]	3841	mutex_unlock(&parent_counter->child_mutex);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3842
				3843	/*
				3844	* Release the parent counter, if this was the last
				3845	* reference to it.
				3846	*/
				3847	fput(parent_counter->filp);
				3848	}
				3849
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3850	static void
Peter Zijlstra	bbbee90	2009-05-29 14:25:58 +0200	[diff] [blame]	3851	__perf_counter_exit_task(struct perf_counter *child_counter,
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3852	struct perf_counter_context *child_ctx)
				3853	{
				3854	struct perf_counter *parent_counter;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3855
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3856	update_counter_times(child_counter);
Peter Zijlstra	aa9c67f	2009-05-23 18:28:59 +0200	[diff] [blame]	3857	perf_counter_remove_from_context(child_counter);
Ingo Molnar	0cc0c02	2008-12-14 23:20:36 +0100	[diff] [blame]	3858
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3859	parent_counter = child_counter->parent;
				3860	/*
				3861	* It can happen that parent exits first, and has counters
				3862	* that are still around due to the child reference. These
				3863	* counters need to be zapped - but otherwise linger.
				3864	*/
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3865	if (parent_counter) {
				3866	sync_child_counter(child_counter, parent_counter);
Peter Zijlstra	f160095	2009-03-19 20:26:16 +0100	[diff] [blame]	3867	free_counter(child_counter);
Paul Mackerras	4bcf349	2009-02-11 13:53:19 +0100	[diff] [blame]	3868	}
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3869	}
				3870
				3871	/*
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3872	* When a child task exits, feed back counter values to parent counters.
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3873	*/
				3874	void perf_counter_exit_task(struct task_struct *child)
				3875	{
				3876	struct perf_counter child_counter, tmp;
				3877	struct perf_counter_context *child_ctx;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3878	unsigned long flags;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3879
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3880	if (likely(!child->perf_counter_ctxp))
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3881	return;
				3882
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3883	local_irq_save(flags);
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3884	/*
				3885	* We can't reschedule here because interrupts are disabled,
				3886	* and either child is current or it is a task that can't be
				3887	* scheduled, so we are now safe from rescheduling changing
				3888	* our context.
				3889	*/
				3890	child_ctx = child->perf_counter_ctxp;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3891	__perf_counter_task_sched_out(child_ctx);
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	3892
				3893	/*
				3894	* Take the context lock here so that if find_get_context is
				3895	* reading child->perf_counter_ctxp, we wait until it has
				3896	* incremented the context's refcount before we do put_ctx below.
				3897	*/
				3898	spin_lock(&child_ctx->lock);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3899	child->perf_counter_ctxp = NULL;
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3900	if (child_ctx->parent_ctx) {
				3901	/*
				3902	* This context is a clone; unclone it so it can't get
				3903	* swapped to another process while we're removing all
				3904	* the counters from it.
				3905	*/
				3906	put_ctx(child_ctx->parent_ctx);
				3907	child_ctx->parent_ctx = NULL;
				3908	}
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	3909	spin_unlock(&child_ctx->lock);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3910	local_irq_restore(flags);
				3911
Peter Zijlstra	66fff22	2009-06-10 22:53:37 +0200	[diff] [blame]	3912	/*
				3913	* We can recurse on the same lock type through:
				3914	*
				3915	* __perf_counter_exit_task()
				3916	* sync_child_counter()
				3917	* fput(parent_counter->filp)
				3918	* perf_release()
				3919	* mutex_lock(&ctx->mutex)
				3920	*
				3921	* But since its the parent context it won't be the same instance.
				3922	*/
				3923	mutex_lock_nested(&child_ctx->mutex, SINGLE_DEPTH_NESTING);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3924
Peter Zijlstra	8bc2095	2009-05-15 20:45:59 +0200	[diff] [blame]	3925	again:
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3926	list_for_each_entry_safe(child_counter, tmp, &child_ctx->counter_list,
				3927	list_entry)
Peter Zijlstra	bbbee90	2009-05-29 14:25:58 +0200	[diff] [blame]	3928	__perf_counter_exit_task(child_counter, child_ctx);
Peter Zijlstra	8bc2095	2009-05-15 20:45:59 +0200	[diff] [blame]	3929
				3930	/*
				3931	* If the last counter was a group counter, it will have appended all
				3932	* its siblings to the list, but we obtained 'tmp' before that which
				3933	* will still point to the list head terminating the iteration.
				3934	*/
				3935	if (!list_empty(&child_ctx->counter_list))
				3936	goto again;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3937
				3938	mutex_unlock(&child_ctx->mutex);
				3939
				3940	put_ctx(child_ctx);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3941	}
				3942
				3943	/*
Peter Zijlstra	bbbee90	2009-05-29 14:25:58 +0200	[diff] [blame]	3944	* free an unexposed, unused context as created by inheritance by
				3945	* init_task below, used by fork() in case of fail.
				3946	*/
				3947	void perf_counter_free_task(struct task_struct *task)
				3948	{
				3949	struct perf_counter_context *ctx = task->perf_counter_ctxp;
				3950	struct perf_counter counter, tmp;
				3951
				3952	if (!ctx)
				3953	return;
				3954
				3955	mutex_lock(&ctx->mutex);
				3956	again:
				3957	list_for_each_entry_safe(counter, tmp, &ctx->counter_list, list_entry) {
				3958	struct perf_counter *parent = counter->parent;
				3959
				3960	if (WARN_ON_ONCE(!parent))
				3961	continue;
				3962
				3963	mutex_lock(&parent->child_mutex);
				3964	list_del_init(&counter->child_list);
				3965	mutex_unlock(&parent->child_mutex);
				3966
				3967	fput(parent->filp);
				3968
				3969	list_del_counter(counter, ctx);
				3970	free_counter(counter);
				3971	}
				3972
				3973	if (!list_empty(&ctx->counter_list))
				3974	goto again;
				3975
				3976	mutex_unlock(&ctx->mutex);
				3977
				3978	put_ctx(ctx);
				3979	}
				3980
				3981	/*
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3982	* Initialize the perf_counter context in task_struct
				3983	*/
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	3984	int perf_counter_init_task(struct task_struct *child)
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3985	{
				3986	struct perf_counter_context child_ctx, parent_ctx;
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3987	struct perf_counter_context *cloned_ctx;
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	3988	struct perf_counter *counter;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3989	struct task_struct *parent = current;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	3990	int inherited_all = 1;
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	3991	int ret = 0;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3992
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	3993	child->perf_counter_ctxp = NULL;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	3994
Peter Zijlstra	082ff5a	2009-05-23 18:29:00 +0200	[diff] [blame]	3995	mutex_init(&child->perf_counter_mutex);
				3996	INIT_LIST_HEAD(&child->perf_counter_list);
				3997
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	3998	if (likely(!parent->perf_counter_ctxp))
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	3999	return 0;
				4000
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4001	/*
				4002	* This is executed from the parent task context, so inherit
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	4003	* counters that have been marked for cloning.
				4004	* First allocate and initialize a context for the child.
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4005	*/
				4006
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	4007	child_ctx = kmalloc(sizeof(struct perf_counter_context), GFP_KERNEL);
				4008	if (!child_ctx)
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	4009	return -ENOMEM;
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	4010
				4011	__perf_counter_init_context(child_ctx, child);
				4012	child->perf_counter_ctxp = child_ctx;
Paul Mackerras	c93f766	2009-05-28 22:18:17 +1000	[diff] [blame]	4013	get_task_struct(child);
Paul Mackerras	a63eaf3	2009-05-22 14:17:31 +1000	[diff] [blame]	4014
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4015	/*
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	4016	* If the parent's context is a clone, pin it so it won't get
				4017	* swapped under us.
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4018	*/
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	4019	parent_ctx = perf_pin_task_context(parent);
				4020
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4021	/*
				4022	* No need to check if parent_ctx != NULL here; since we saw
				4023	* it non-NULL earlier, the only reason for it to become NULL
				4024	* is if we exit, and since we're currently in the middle of
				4025	* a fork we can't be exiting at the same time.
				4026	*/
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4027
				4028	/*
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4029	* Lock the parent list. No need to lock the child - not PID
				4030	* hashed yet and not running, so nobody can access it.
				4031	*/
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	4032	mutex_lock(&parent_ctx->mutex);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4033
				4034	/*
				4035	* We dont have to disable NMIs - we are only looking at
				4036	* the list, not manipulating it:
				4037	*/
Peter Zijlstra	d7b629a	2009-05-20 12:21:19 +0200	[diff] [blame]	4038	list_for_each_entry_rcu(counter, &parent_ctx->event_list, event_entry) {
				4039	if (counter != counter->group_leader)
				4040	continue;
				4041
Peter Zijlstra	0d48696	2009-06-02 19:22:16 +0200	[diff] [blame]	4042	if (!counter->attr.inherit) {
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4043	inherited_all = 0;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4044	continue;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4045	}
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4046
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	4047	ret = inherit_group(counter, parent, parent_ctx,
				4048	child, child_ctx);
				4049	if (ret) {
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4050	inherited_all = 0;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4051	break;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4052	}
				4053	}
				4054
				4055	if (inherited_all) {
				4056	/*
				4057	* Mark the child context as a clone of the parent
				4058	* context, or of whatever the parent is a clone of.
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4059	* Note that if the parent is a clone, it could get
				4060	* uncloned at any point, but that doesn't matter
				4061	* because the list of counters and the generation
				4062	* count can't have changed since we took the mutex.
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4063	*/
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4064	cloned_ctx = rcu_dereference(parent_ctx->parent_ctx);
				4065	if (cloned_ctx) {
				4066	child_ctx->parent_ctx = cloned_ctx;
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	4067	child_ctx->parent_gen = parent_ctx->parent_gen;
Paul Mackerras	564c2b2	2009-05-22 14:27:22 +1000	[diff] [blame]	4068	} else {
				4069	child_ctx->parent_ctx = parent_ctx;
				4070	child_ctx->parent_gen = parent_ctx->generation;
				4071	}
				4072	get_ctx(child_ctx->parent_ctx);
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4073	}
				4074
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	4075	mutex_unlock(&parent_ctx->mutex);
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	4076
Paul Mackerras	25346b93	2009-06-01 17:48:12 +1000	[diff] [blame]	4077	perf_unpin_context(parent_ctx);
Paul Mackerras	ad3a37d	2009-05-29 16:06:20 +1000	[diff] [blame]	4078
Peter Zijlstra	6ab423e	2009-05-25 14:45:27 +0200	[diff] [blame]	4079	return ret;
Ingo Molnar	9b51f66	2008-12-12 13:49:45 +0100	[diff] [blame]	4080	}
				4081
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4082	static void __cpuinit perf_counter_init_cpu(int cpu)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4083	{
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4084	struct perf_cpu_context *cpuctx;
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4085
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4086	cpuctx = &per_cpu(perf_cpu_context, cpu);
				4087	__perf_counter_init_context(&cpuctx->ctx, NULL);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4088
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4089	spin_lock(&perf_resource_lock);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4090	cpuctx->max_pertask = perf_max_counters - perf_reserved_percpu;
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4091	spin_unlock(&perf_resource_lock);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4092
Paul Mackerras	01d0287	2009-01-14 13:44:19 +1100	[diff] [blame]	4093	hw_perf_counter_setup(cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4094	}
				4095
				4096	#ifdef CONFIG_HOTPLUG_CPU
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4097	static void __perf_counter_exit_cpu(void *info)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4098	{
				4099	struct perf_cpu_context *cpuctx = &__get_cpu_var(perf_cpu_context);
				4100	struct perf_counter_context *ctx = &cpuctx->ctx;
				4101	struct perf_counter counter, tmp;
				4102
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4103	list_for_each_entry_safe(counter, tmp, &ctx->counter_list, list_entry)
				4104	__perf_counter_remove_from_context(counter);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4105	}
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4106	static void perf_counter_exit_cpu(int cpu)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4107	{
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	4108	struct perf_cpu_context *cpuctx = &per_cpu(perf_cpu_context, cpu);
				4109	struct perf_counter_context *ctx = &cpuctx->ctx;
				4110
				4111	mutex_lock(&ctx->mutex);
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4112	smp_call_function_single(cpu, __perf_counter_exit_cpu, NULL, 1);
Paul Mackerras	d859e29	2009-01-17 18:10:22 +1100	[diff] [blame]	4113	mutex_unlock(&ctx->mutex);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4114	}
				4115	#else
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4116	static inline void perf_counter_exit_cpu(int cpu) { }
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4117	#endif
				4118
				4119	static int __cpuinit
				4120	perf_cpu_notify(struct notifier_block self, unsigned long action, void hcpu)
				4121	{
				4122	unsigned int cpu = (long)hcpu;
				4123
				4124	switch (action) {
				4125
				4126	case CPU_UP_PREPARE:
				4127	case CPU_UP_PREPARE_FROZEN:
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4128	perf_counter_init_cpu(cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4129	break;
				4130
				4131	case CPU_DOWN_PREPARE:
				4132	case CPU_DOWN_PREPARE_FROZEN:
Ingo Molnar	04289bb	2008-12-11 08:38:42 +0100	[diff] [blame]	4133	perf_counter_exit_cpu(cpu);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4134	break;
				4135
				4136	default:
				4137	break;
				4138	}
				4139
				4140	return NOTIFY_OK;
				4141	}
				4142
Paul Mackerras	f38b082	2009-06-02 21:05:16 +1000	[diff] [blame]	4143	/*
				4144	* This has to have a higher priority than migration_notifier in sched.c.
				4145	*/
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4146	static struct notifier_block __cpuinitdata perf_cpu_nb = {
				4147	.notifier_call = perf_cpu_notify,
Paul Mackerras	f38b082	2009-06-02 21:05:16 +1000	[diff] [blame]	4148	.priority = 20,
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4149	};
				4150
Ingo Molnar	0d905bc	2009-05-04 19:13:30 +0200	[diff] [blame]	4151	void __init perf_counter_init(void)
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4152	{
				4153	perf_cpu_notify(&perf_cpu_nb, (unsigned long)CPU_UP_PREPARE,
				4154	(void *)(long)smp_processor_id());
				4155	register_cpu_notifier(&perf_cpu_nb);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4156	}
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4157
				4158	static ssize_t perf_show_reserve_percpu(struct sysdev_class class, char buf)
				4159	{
				4160	return sprintf(buf, "%d\n", perf_reserved_percpu);
				4161	}
				4162
				4163	static ssize_t
				4164	perf_set_reserve_percpu(struct sysdev_class *class,
				4165	const char *buf,
				4166	size_t count)
				4167	{
				4168	struct perf_cpu_context *cpuctx;
				4169	unsigned long val;
				4170	int err, cpu, mpt;
				4171
				4172	err = strict_strtoul(buf, 10, &val);
				4173	if (err)
				4174	return err;
				4175	if (val > perf_max_counters)
				4176	return -EINVAL;
				4177
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4178	spin_lock(&perf_resource_lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4179	perf_reserved_percpu = val;
				4180	for_each_online_cpu(cpu) {
				4181	cpuctx = &per_cpu(perf_cpu_context, cpu);
				4182	spin_lock_irq(&cpuctx->ctx.lock);
				4183	mpt = min(perf_max_counters - cpuctx->ctx.nr_counters,
				4184	perf_max_counters - perf_reserved_percpu);
				4185	cpuctx->max_pertask = mpt;
				4186	spin_unlock_irq(&cpuctx->ctx.lock);
				4187	}
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4188	spin_unlock(&perf_resource_lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4189
				4190	return count;
				4191	}
				4192
				4193	static ssize_t perf_show_overcommit(struct sysdev_class class, char buf)
				4194	{
				4195	return sprintf(buf, "%d\n", perf_overcommit);
				4196	}
				4197
				4198	static ssize_t
				4199	perf_set_overcommit(struct sysdev_class class, const char buf, size_t count)
				4200	{
				4201	unsigned long val;
				4202	int err;
				4203
				4204	err = strict_strtoul(buf, 10, &val);
				4205	if (err)
				4206	return err;
				4207	if (val > 1)
				4208	return -EINVAL;
				4209
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4210	spin_lock(&perf_resource_lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4211	perf_overcommit = val;
Ingo Molnar	1dce8d9	2009-05-04 19:23:18 +0200	[diff] [blame]	4212	spin_unlock(&perf_resource_lock);
Thomas Gleixner	0793a61	2008-12-04 20:12:29 +0100	[diff] [blame]	4213
				4214	return count;
				4215	}
				4216
				4217	static SYSDEV_CLASS_ATTR(
				4218	reserve_percpu,
				4219	0644,
				4220	perf_show_reserve_percpu,
				4221	perf_set_reserve_percpu
				4222	);
				4223
				4224	static SYSDEV_CLASS_ATTR(
				4225	overcommit,
				4226	0644,
				4227	perf_show_overcommit,
				4228	perf_set_overcommit
				4229	);
				4230
				4231	static struct attribute *perfclass_attrs[] = {
				4232	&attr_reserve_percpu.attr,
				4233	&attr_overcommit.attr,
				4234	NULL
				4235	};
				4236
				4237	static struct attribute_group perfclass_attr_group = {
				4238	.attrs = perfclass_attrs,
				4239	.name = "perf_counters",
				4240	};
				4241
				4242	static int __init perf_counter_sysfs_init(void)
				4243	{
				4244	return sysfs_create_group(&cpu_sysdev_class.kset.kobj,
				4245	&perfclass_attr_group);
				4246	}
				4247	device_initcall(perf_counter_sysfs_init);