Blame - drivers/block/drbd/drbd_receiver.c - android_kernel_htc_msm8960

blob: 3a36bc814e773f996c30414eea94763061fcd096 [file] [log] [blame]

Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1	/*
				2	drbd_receiver.c
				3
				4	This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
				5
				6	Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
				7	Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
				8	Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
				9
				10	drbd is free software; you can redistribute it and/or modify
				11	it under the terms of the GNU General Public License as published by
				12	the Free Software Foundation; either version 2, or (at your option)
				13	any later version.
				14
				15	drbd is distributed in the hope that it will be useful,
				16	but WITHOUT ANY WARRANTY; without even the implied warranty of
				17	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				18	GNU General Public License for more details.
				19
				20	You should have received a copy of the GNU General Public License
				21	along with drbd; see the file COPYING. If not, write to
				22	the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
				23	*/
				24
				25
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	26	#include <linux/module.h>
				27
				28	#include <asm/uaccess.h>
				29	#include <net/sock.h>
				30
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	31	#include <linux/drbd.h>
				32	#include <linux/fs.h>
				33	#include <linux/file.h>
				34	#include <linux/in.h>
				35	#include <linux/mm.h>
				36	#include <linux/memcontrol.h>
				37	#include <linux/mm_inline.h>
				38	#include <linux/slab.h>
				39	#include <linux/smp_lock.h>
				40	#include <linux/pkt_sched.h>
				41	#define __KERNEL_SYSCALLS__
				42	#include <linux/unistd.h>
				43	#include <linux/vmalloc.h>
				44	#include <linux/random.h>
				45	#include <linux/mm.h>
				46	#include <linux/string.h>
				47	#include <linux/scatterlist.h>
				48	#include "drbd_int.h"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	49	#include "drbd_req.h"
				50
				51	#include "drbd_vli.h"
				52
				53	struct flush_work {
				54	struct drbd_work w;
				55	struct drbd_epoch *epoch;
				56	};
				57
				58	enum finish_epoch {
				59	FE_STILL_LIVE,
				60	FE_DESTROYED,
				61	FE_RECYCLED,
				62	};
				63
				64	static int drbd_do_handshake(struct drbd_conf *mdev);
				65	static int drbd_do_auth(struct drbd_conf *mdev);
				66
				67	static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf , struct drbd_epoch , enum epoch_event);
				68	static int e_end_block(struct drbd_conf , struct drbd_work , int);
				69
				70	static struct drbd_epoch previous_epoch(struct drbd_conf mdev, struct drbd_epoch *epoch)
				71	{
				72	struct drbd_epoch *prev;
				73	spin_lock(&mdev->epoch_lock);
				74	prev = list_entry(epoch->list.prev, struct drbd_epoch, list);
				75	if (prev == epoch \|\| prev == mdev->current_epoch)
				76	prev = NULL;
				77	spin_unlock(&mdev->epoch_lock);
				78	return prev;
				79	}
				80
				81	#define GFP_TRY (__GFP_HIGHMEM \| __GFP_NOWARN)
				82
				83	static struct page drbd_pp_first_page_or_try_alloc(struct drbd_conf mdev)
				84	{
				85	struct page *page = NULL;
				86
				87	/* Yes, testing drbd_pp_vacant outside the lock is racy.
				88	* So what. It saves a spin_lock. */
				89	if (drbd_pp_vacant > 0) {
				90	spin_lock(&drbd_pp_lock);
				91	page = drbd_pp_pool;
				92	if (page) {
				93	drbd_pp_pool = (struct page *)page_private(page);
				94	set_page_private(page, 0); /* just to be polite */
				95	drbd_pp_vacant--;
				96	}
				97	spin_unlock(&drbd_pp_lock);
				98	}
				99	/* GFP_TRY, because we must not cause arbitrary write-out: in a DRBD
				100	* "criss-cross" setup, that might cause write-out on some other DRBD,
				101	* which in turn might block on the other node at this very place. */
				102	if (!page)
				103	page = alloc_page(GFP_TRY);
				104	if (page)
				105	atomic_inc(&mdev->pp_in_use);
				106	return page;
				107	}
				108
				109	/* kick lower level device, if we have more than (arbitrary number)
				110	* reference counts on it, which typically are locally submitted io
				111	* requests. don't use unacked_cnt, so we speed up proto A and B, too. */
				112	static void maybe_kick_lo(struct drbd_conf *mdev)
				113	{
				114	if (atomic_read(&mdev->local_cnt) >= mdev->net_conf->unplug_watermark)
				115	drbd_kick_lo(mdev);
				116	}
				117
				118	static void reclaim_net_ee(struct drbd_conf mdev, struct list_head to_be_freed)
				119	{
				120	struct drbd_epoch_entry *e;
				121	struct list_head le, tle;
				122
				123	/* The EEs are always appended to the end of the list. Since
				124	they are sent in order over the wire, they have to finish
				125	in order. As soon as we see the first not finished we can
				126	stop to examine the list... */
				127
				128	list_for_each_safe(le, tle, &mdev->net_ee) {
				129	e = list_entry(le, struct drbd_epoch_entry, w.list);
				130	if (drbd_bio_has_active_page(e->private_bio))
				131	break;
				132	list_move(le, to_be_freed);
				133	}
				134	}
				135
				136	static void drbd_kick_lo_and_reclaim_net(struct drbd_conf *mdev)
				137	{
				138	LIST_HEAD(reclaimed);
				139	struct drbd_epoch_entry e, t;
				140
				141	maybe_kick_lo(mdev);
				142	spin_lock_irq(&mdev->req_lock);
				143	reclaim_net_ee(mdev, &reclaimed);
				144	spin_unlock_irq(&mdev->req_lock);
				145
				146	list_for_each_entry_safe(e, t, &reclaimed, w.list)
				147	drbd_free_ee(mdev, e);
				148	}
				149
				150	/**
				151	* drbd_pp_alloc() - Returns a page, fails only if a signal comes in
				152	* @mdev: DRBD device.
				153	* @retry: whether or not to retry allocation forever (or until signalled)
				154	*
				155	* Tries to allocate a page, first from our own page pool, then from the
				156	* kernel, unless this allocation would exceed the max_buffers setting.
				157	* If @retry is non-zero, retry until DRBD frees a page somewhere else.
				158	*/
				159	static struct page drbd_pp_alloc(struct drbd_conf mdev, int retry)
				160	{
				161	struct page *page = NULL;
				162	DEFINE_WAIT(wait);
				163
				164	if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers) {
				165	page = drbd_pp_first_page_or_try_alloc(mdev);
				166	if (page)
				167	return page;
				168	}
				169
				170	for (;;) {
				171	prepare_to_wait(&drbd_pp_wait, &wait, TASK_INTERRUPTIBLE);
				172
				173	drbd_kick_lo_and_reclaim_net(mdev);
				174
				175	if (atomic_read(&mdev->pp_in_use) < mdev->net_conf->max_buffers) {
				176	page = drbd_pp_first_page_or_try_alloc(mdev);
				177	if (page)
				178	break;
				179	}
				180
				181	if (!retry)
				182	break;
				183
				184	if (signal_pending(current)) {
				185	dev_warn(DEV, "drbd_pp_alloc interrupted!\n");
				186	break;
				187	}
				188
				189	schedule();
				190	}
				191	finish_wait(&drbd_pp_wait, &wait);
				192
				193	return page;
				194	}
				195
				196	/* Must not be used from irq, as that may deadlock: see drbd_pp_alloc.
				197	* Is also used from inside an other spin_lock_irq(&mdev->req_lock) */
				198	static void drbd_pp_free(struct drbd_conf mdev, struct page page)
				199	{
				200	int free_it;
				201
				202	spin_lock(&drbd_pp_lock);
				203	if (drbd_pp_vacant > (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE)*minor_count) {
				204	free_it = 1;
				205	} else {
				206	set_page_private(page, (unsigned long)drbd_pp_pool);
				207	drbd_pp_pool = page;
				208	drbd_pp_vacant++;
				209	free_it = 0;
				210	}
				211	spin_unlock(&drbd_pp_lock);
				212
				213	atomic_dec(&mdev->pp_in_use);
				214
				215	if (free_it)
				216	__free_page(page);
				217
				218	wake_up(&drbd_pp_wait);
				219	}
				220
				221	static void drbd_pp_free_bio_pages(struct drbd_conf mdev, struct bio bio)
				222	{
				223	struct page *p_to_be_freed = NULL;
				224	struct page *page;
				225	struct bio_vec *bvec;
				226	int i;
				227
				228	spin_lock(&drbd_pp_lock);
				229	__bio_for_each_segment(bvec, bio, i, 0) {
				230	if (drbd_pp_vacant > (DRBD_MAX_SEGMENT_SIZE/PAGE_SIZE)*minor_count) {
				231	set_page_private(bvec->bv_page, (unsigned long)p_to_be_freed);
				232	p_to_be_freed = bvec->bv_page;
				233	} else {
				234	set_page_private(bvec->bv_page, (unsigned long)drbd_pp_pool);
				235	drbd_pp_pool = bvec->bv_page;
				236	drbd_pp_vacant++;
				237	}
				238	}
				239	spin_unlock(&drbd_pp_lock);
				240	atomic_sub(bio->bi_vcnt, &mdev->pp_in_use);
				241
				242	while (p_to_be_freed) {
				243	page = p_to_be_freed;
				244	p_to_be_freed = (struct page *)page_private(page);
				245	set_page_private(page, 0); /* just to be polite */
				246	put_page(page);
				247	}
				248
				249	wake_up(&drbd_pp_wait);
				250	}
				251
				252	/*
				253	You need to hold the req_lock:
				254	_drbd_wait_ee_list_empty()
				255
				256	You must not have the req_lock:
				257	drbd_free_ee()
				258	drbd_alloc_ee()
				259	drbd_init_ee()
				260	drbd_release_ee()
				261	drbd_ee_fix_bhs()
				262	drbd_process_done_ee()
				263	drbd_clear_done_ee()
				264	drbd_wait_ee_list_empty()
				265	*/
				266
				267	struct drbd_epoch_entry drbd_alloc_ee(struct drbd_conf mdev,
				268	u64 id,
				269	sector_t sector,
				270	unsigned int data_size,
				271	gfp_t gfp_mask) __must_hold(local)
				272	{
				273	struct request_queue *q;
				274	struct drbd_epoch_entry *e;
				275	struct page *page;
				276	struct bio *bio;
				277	unsigned int ds;
				278
				279	if (FAULT_ACTIVE(mdev, DRBD_FAULT_AL_EE))
				280	return NULL;
				281
				282	e = mempool_alloc(drbd_ee_mempool, gfp_mask & ~__GFP_HIGHMEM);
				283	if (!e) {
				284	if (!(gfp_mask & __GFP_NOWARN))
				285	dev_err(DEV, "alloc_ee: Allocation of an EE failed\n");
				286	return NULL;
				287	}
				288
				289	bio = bio_alloc(gfp_mask & ~__GFP_HIGHMEM, div_ceil(data_size, PAGE_SIZE));
				290	if (!bio) {
				291	if (!(gfp_mask & __GFP_NOWARN))
				292	dev_err(DEV, "alloc_ee: Allocation of a bio failed\n");
				293	goto fail1;
				294	}
				295
				296	bio->bi_bdev = mdev->ldev->backing_bdev;
				297	bio->bi_sector = sector;
				298
				299	ds = data_size;
				300	while (ds) {
				301	page = drbd_pp_alloc(mdev, (gfp_mask & __GFP_WAIT));
				302	if (!page) {
				303	if (!(gfp_mask & __GFP_NOWARN))
				304	dev_err(DEV, "alloc_ee: Allocation of a page failed\n");
				305	goto fail2;
				306	}
				307	if (!bio_add_page(bio, page, min_t(int, ds, PAGE_SIZE), 0)) {
				308	drbd_pp_free(mdev, page);
				309	dev_err(DEV, "alloc_ee: bio_add_page(s=%llu,"
				310	"data_size=%u,ds=%u) failed\n",
				311	(unsigned long long)sector, data_size, ds);
				312
				313	q = bdev_get_queue(bio->bi_bdev);
				314	if (q->merge_bvec_fn) {
				315	struct bvec_merge_data bvm = {
				316	.bi_bdev = bio->bi_bdev,
				317	.bi_sector = bio->bi_sector,
				318	.bi_size = bio->bi_size,
				319	.bi_rw = bio->bi_rw,
				320	};
				321	int l = q->merge_bvec_fn(q, &bvm,
				322	&bio->bi_io_vec[bio->bi_vcnt]);
				323	dev_err(DEV, "merge_bvec_fn() = %d\n", l);
				324	}
				325
				326	/* dump more of the bio. */
				327	dev_err(DEV, "bio->bi_max_vecs = %d\n", bio->bi_max_vecs);
				328	dev_err(DEV, "bio->bi_vcnt = %d\n", bio->bi_vcnt);
				329	dev_err(DEV, "bio->bi_size = %d\n", bio->bi_size);
				330	dev_err(DEV, "bio->bi_phys_segments = %d\n", bio->bi_phys_segments);
				331
				332	goto fail2;
				333	break;
				334	}
				335	ds -= min_t(int, ds, PAGE_SIZE);
				336	}
				337
				338	D_ASSERT(data_size == bio->bi_size);
				339
				340	bio->bi_private = e;
				341	e->mdev = mdev;
				342	e->sector = sector;
				343	e->size = bio->bi_size;
				344
				345	e->private_bio = bio;
				346	e->block_id = id;
				347	INIT_HLIST_NODE(&e->colision);
				348	e->epoch = NULL;
				349	e->flags = 0;
				350
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	351	return e;
				352
				353	fail2:
				354	drbd_pp_free_bio_pages(mdev, bio);
				355	bio_put(bio);
				356	fail1:
				357	mempool_free(e, drbd_ee_mempool);
				358
				359	return NULL;
				360	}
				361
				362	void drbd_free_ee(struct drbd_conf mdev, struct drbd_epoch_entry e)
				363	{
				364	struct bio *bio = e->private_bio;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	365	drbd_pp_free_bio_pages(mdev, bio);
				366	bio_put(bio);
				367	D_ASSERT(hlist_unhashed(&e->colision));
				368	mempool_free(e, drbd_ee_mempool);
				369	}
				370
				371	int drbd_release_ee(struct drbd_conf mdev, struct list_head list)
				372	{
				373	LIST_HEAD(work_list);
				374	struct drbd_epoch_entry e, t;
				375	int count = 0;
				376
				377	spin_lock_irq(&mdev->req_lock);
				378	list_splice_init(list, &work_list);
				379	spin_unlock_irq(&mdev->req_lock);
				380
				381	list_for_each_entry_safe(e, t, &work_list, w.list) {
				382	drbd_free_ee(mdev, e);
				383	count++;
				384	}
				385	return count;
				386	}
				387
				388
				389	/*
				390	* This function is called from _asender only_
				391	* but see also comments in _req_mod(,barrier_acked)
				392	* and receive_Barrier.
				393	*
				394	* Move entries from net_ee to done_ee, if ready.
				395	* Grab done_ee, call all callbacks, free the entries.
				396	* The callbacks typically send out ACKs.
				397	*/
				398	static int drbd_process_done_ee(struct drbd_conf *mdev)
				399	{
				400	LIST_HEAD(work_list);
				401	LIST_HEAD(reclaimed);
				402	struct drbd_epoch_entry e, t;
				403	int ok = (mdev->state.conn >= C_WF_REPORT_PARAMS);
				404
				405	spin_lock_irq(&mdev->req_lock);
				406	reclaim_net_ee(mdev, &reclaimed);
				407	list_splice_init(&mdev->done_ee, &work_list);
				408	spin_unlock_irq(&mdev->req_lock);
				409
				410	list_for_each_entry_safe(e, t, &reclaimed, w.list)
				411	drbd_free_ee(mdev, e);
				412
				413	/* possible callbacks here:
				414	* e_end_block, and e_end_resync_block, e_send_discard_ack.
				415	* all ignore the last argument.
				416	*/
				417	list_for_each_entry_safe(e, t, &work_list, w.list) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	418	/* list_del not necessary, next/prev members not touched */
				419	ok = e->w.cb(mdev, &e->w, !ok) && ok;
				420	drbd_free_ee(mdev, e);
				421	}
				422	wake_up(&mdev->ee_wait);
				423
				424	return ok;
				425	}
				426
				427	void _drbd_wait_ee_list_empty(struct drbd_conf mdev, struct list_head head)
				428	{
				429	DEFINE_WAIT(wait);
				430
				431	/* avoids spin_lock/unlock
				432	* and calling prepare_to_wait in the fast path */
				433	while (!list_empty(head)) {
				434	prepare_to_wait(&mdev->ee_wait, &wait, TASK_UNINTERRUPTIBLE);
				435	spin_unlock_irq(&mdev->req_lock);
				436	drbd_kick_lo(mdev);
				437	schedule();
				438	finish_wait(&mdev->ee_wait, &wait);
				439	spin_lock_irq(&mdev->req_lock);
				440	}
				441	}
				442
				443	void drbd_wait_ee_list_empty(struct drbd_conf mdev, struct list_head head)
				444	{
				445	spin_lock_irq(&mdev->req_lock);
				446	_drbd_wait_ee_list_empty(mdev, head);
				447	spin_unlock_irq(&mdev->req_lock);
				448	}
				449
				450	/* see also kernel_accept; which is only present since 2.6.18.
				451	* also we want to log which part of it failed, exactly */
				452	static int drbd_accept(struct drbd_conf mdev, const char *what,
				453	struct socket sock, struct socket *newsock)
				454	{
				455	struct sock *sk = sock->sk;
				456	int err = 0;
				457
				458	*what = "listen";
				459	err = sock->ops->listen(sock, 5);
				460	if (err < 0)
				461	goto out;
				462
				463	*what = "sock_create_lite";
				464	err = sock_create_lite(sk->sk_family, sk->sk_type, sk->sk_protocol,
				465	newsock);
				466	if (err < 0)
				467	goto out;
				468
				469	*what = "accept";
				470	err = sock->ops->accept(sock, *newsock, 0);
				471	if (err < 0) {
				472	sock_release(*newsock);
				473	*newsock = NULL;
				474	goto out;
				475	}
				476	(*newsock)->ops = sock->ops;
				477
				478	out:
				479	return err;
				480	}
				481
				482	static int drbd_recv_short(struct drbd_conf mdev, struct socket sock,
				483	void *buf, size_t size, int flags)
				484	{
				485	mm_segment_t oldfs;
				486	struct kvec iov = {
				487	.iov_base = buf,
				488	.iov_len = size,
				489	};
				490	struct msghdr msg = {
				491	.msg_iovlen = 1,
				492	.msg_iov = (struct iovec *)&iov,
				493	.msg_flags = (flags ? flags : MSG_WAITALL \| MSG_NOSIGNAL)
				494	};
				495	int rv;
				496
				497	oldfs = get_fs();
				498	set_fs(KERNEL_DS);
				499	rv = sock_recvmsg(sock, &msg, size, msg.msg_flags);
				500	set_fs(oldfs);
				501
				502	return rv;
				503	}
				504
				505	static int drbd_recv(struct drbd_conf mdev, void buf, size_t size)
				506	{
				507	mm_segment_t oldfs;
				508	struct kvec iov = {
				509	.iov_base = buf,
				510	.iov_len = size,
				511	};
				512	struct msghdr msg = {
				513	.msg_iovlen = 1,
				514	.msg_iov = (struct iovec *)&iov,
				515	.msg_flags = MSG_WAITALL \| MSG_NOSIGNAL
				516	};
				517	int rv;
				518
				519	oldfs = get_fs();
				520	set_fs(KERNEL_DS);
				521
				522	for (;;) {
				523	rv = sock_recvmsg(mdev->data.socket, &msg, size, msg.msg_flags);
				524	if (rv == size)
				525	break;
				526
				527	/* Note:
				528	* ECONNRESET other side closed the connection
				529	* ERESTARTSYS (on sock) we got a signal
				530	*/
				531
				532	if (rv < 0) {
				533	if (rv == -ECONNRESET)
				534	dev_info(DEV, "sock was reset by peer\n");
				535	else if (rv != -ERESTARTSYS)
				536	dev_err(DEV, "sock_recvmsg returned %d\n", rv);
				537	break;
				538	} else if (rv == 0) {
				539	dev_info(DEV, "sock was shut down by peer\n");
				540	break;
				541	} else {
				542	/* signal came in, or peer/link went down,
				543	* after we read a partial message
				544	*/
				545	/* D_ASSERT(signal_pending(current)); */
				546	break;
				547	}
				548	};
				549
				550	set_fs(oldfs);
				551
				552	if (rv != size)
				553	drbd_force_state(mdev, NS(conn, C_BROKEN_PIPE));
				554
				555	return rv;
				556	}
				557
				558	static struct socket drbd_try_connect(struct drbd_conf mdev)
				559	{
				560	const char *what;
				561	struct socket *sock;
				562	struct sockaddr_in6 src_in6;
				563	int err;
				564	int disconnect_on_error = 1;
				565
				566	if (!get_net_conf(mdev))
				567	return NULL;
				568
				569	what = "sock_create_kern";
				570	err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
				571	SOCK_STREAM, IPPROTO_TCP, &sock);
				572	if (err < 0) {
				573	sock = NULL;
				574	goto out;
				575	}
				576
				577	sock->sk->sk_rcvtimeo =
				578	sock->sk->sk_sndtimeo = mdev->net_conf->try_connect_int*HZ;
				579
				580	/* explicitly bind to the configured IP as source IP
				581	* for the outgoing connections.
				582	* This is needed for multihomed hosts and to be
				583	* able to use lo: interfaces for drbd.
				584	* Make sure to use 0 as port number, so linux selects
				585	* a free one dynamically.
				586	*/
				587	memcpy(&src_in6, mdev->net_conf->my_addr,
				588	min_t(int, mdev->net_conf->my_addr_len, sizeof(src_in6)));
				589	if (((struct sockaddr *)mdev->net_conf->my_addr)->sa_family == AF_INET6)
				590	src_in6.sin6_port = 0;
				591	else
				592	((struct sockaddr_in )&src_in6)->sin_port = 0; / AF_INET & AF_SCI */
				593
				594	what = "bind before connect";
				595	err = sock->ops->bind(sock,
				596	(struct sockaddr *) &src_in6,
				597	mdev->net_conf->my_addr_len);
				598	if (err < 0)
				599	goto out;
				600
				601	/* connect may fail, peer not yet available.
				602	* stay C_WF_CONNECTION, don't go Disconnecting! */
				603	disconnect_on_error = 0;
				604	what = "connect";
				605	err = sock->ops->connect(sock,
				606	(struct sockaddr *)mdev->net_conf->peer_addr,
				607	mdev->net_conf->peer_addr_len, 0);
				608
				609	out:
				610	if (err < 0) {
				611	if (sock) {
				612	sock_release(sock);
				613	sock = NULL;
				614	}
				615	switch (-err) {
				616	/* timeout, busy, signal pending */
				617	case ETIMEDOUT: case EAGAIN: case EINPROGRESS:
				618	case EINTR: case ERESTARTSYS:
				619	/* peer not (yet) available, network problem */
				620	case ECONNREFUSED: case ENETUNREACH:
				621	case EHOSTDOWN: case EHOSTUNREACH:
				622	disconnect_on_error = 0;
				623	break;
				624	default:
				625	dev_err(DEV, "%s failed, err = %d\n", what, err);
				626	}
				627	if (disconnect_on_error)
				628	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				629	}
				630	put_net_conf(mdev);
				631	return sock;
				632	}
				633
				634	static struct socket drbd_wait_for_connect(struct drbd_conf mdev)
				635	{
				636	int timeo, err;
				637	struct socket s_estab = NULL, s_listen;
				638	const char *what;
				639
				640	if (!get_net_conf(mdev))
				641	return NULL;
				642
				643	what = "sock_create_kern";
				644	err = sock_create_kern(((struct sockaddr *)mdev->net_conf->my_addr)->sa_family,
				645	SOCK_STREAM, IPPROTO_TCP, &s_listen);
				646	if (err) {
				647	s_listen = NULL;
				648	goto out;
				649	}
				650
				651	timeo = mdev->net_conf->try_connect_int * HZ;
				652	timeo += (random32() & 1) ? timeo / 7 : -timeo / 7; /* 28.5% random jitter */
				653
				654	s_listen->sk->sk_reuse = 1; /* SO_REUSEADDR */
				655	s_listen->sk->sk_rcvtimeo = timeo;
				656	s_listen->sk->sk_sndtimeo = timeo;
				657
				658	what = "bind before listen";
				659	err = s_listen->ops->bind(s_listen,
				660	(struct sockaddr *) mdev->net_conf->my_addr,
				661	mdev->net_conf->my_addr_len);
				662	if (err < 0)
				663	goto out;
				664
				665	err = drbd_accept(mdev, &what, s_listen, &s_estab);
				666
				667	out:
				668	if (s_listen)
				669	sock_release(s_listen);
				670	if (err < 0) {
				671	if (err != -EAGAIN && err != -EINTR && err != -ERESTARTSYS) {
				672	dev_err(DEV, "%s failed, err = %d\n", what, err);
				673	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				674	}
				675	}
				676	put_net_conf(mdev);
				677
				678	return s_estab;
				679	}
				680
				681	static int drbd_send_fp(struct drbd_conf *mdev,
				682	struct socket *sock, enum drbd_packets cmd)
				683	{
				684	struct p_header h = (struct p_header ) &mdev->data.sbuf.header;
				685
				686	return _drbd_send_cmd(mdev, sock, cmd, h, sizeof(*h), 0);
				687	}
				688
				689	static enum drbd_packets drbd_recv_fp(struct drbd_conf mdev, struct socket sock)
				690	{
				691	struct p_header h = (struct p_header ) &mdev->data.sbuf.header;
				692	int rr;
				693
				694	rr = drbd_recv_short(mdev, sock, h, sizeof(*h), 0);
				695
				696	if (rr == sizeof(*h) && h->magic == BE_DRBD_MAGIC)
				697	return be16_to_cpu(h->command);
				698
				699	return 0xffff;
				700	}
				701
				702	/**
				703	* drbd_socket_okay() - Free the socket if its connection is not okay
				704	* @mdev: DRBD device.
				705	* @sock: pointer to the pointer to the socket.
				706	*/
				707	static int drbd_socket_okay(struct drbd_conf mdev, struct socket *sock)
				708	{
				709	int rr;
				710	char tb[4];
				711
				712	if (!*sock)
				713	return FALSE;
				714
				715	rr = drbd_recv_short(mdev, *sock, tb, 4, MSG_DONTWAIT \| MSG_PEEK);
				716
				717	if (rr > 0 \|\| rr == -EAGAIN) {
				718	return TRUE;
				719	} else {
				720	sock_release(*sock);
				721	*sock = NULL;
				722	return FALSE;
				723	}
				724	}
				725
				726	/*
				727	* return values:
				728	* 1 yes, we have a valid connection
				729	* 0 oops, did not work out, please try again
				730	* -1 peer talks different language,
				731	* no point in trying again, please go standalone.
				732	* -2 We do not have a network config...
				733	*/
				734	static int drbd_connect(struct drbd_conf *mdev)
				735	{
				736	struct socket s, sock, *msock;
				737	int try, h, ok;
				738
				739	D_ASSERT(!mdev->data.socket);
				740
				741	if (test_and_clear_bit(CREATE_BARRIER, &mdev->flags))
				742	dev_err(DEV, "CREATE_BARRIER flag was set in drbd_connect - now cleared!\n");
				743
				744	if (drbd_request_state(mdev, NS(conn, C_WF_CONNECTION)) < SS_SUCCESS)
				745	return -2;
				746
				747	clear_bit(DISCARD_CONCURRENT, &mdev->flags);
				748
				749	sock = NULL;
				750	msock = NULL;
				751
				752	do {
				753	for (try = 0;;) {
				754	/* 3 tries, this should take less than a second! */
				755	s = drbd_try_connect(mdev);
				756	if (s \|\| ++try >= 3)
				757	break;
				758	/* give the other side time to call bind() & listen() */
				759	__set_current_state(TASK_INTERRUPTIBLE);
				760	schedule_timeout(HZ / 10);
				761	}
				762
				763	if (s) {
				764	if (!sock) {
				765	drbd_send_fp(mdev, s, P_HAND_SHAKE_S);
				766	sock = s;
				767	s = NULL;
				768	} else if (!msock) {
				769	drbd_send_fp(mdev, s, P_HAND_SHAKE_M);
				770	msock = s;
				771	s = NULL;
				772	} else {
				773	dev_err(DEV, "Logic error in drbd_connect()\n");
				774	goto out_release_sockets;
				775	}
				776	}
				777
				778	if (sock && msock) {
				779	__set_current_state(TASK_INTERRUPTIBLE);
				780	schedule_timeout(HZ / 10);
				781	ok = drbd_socket_okay(mdev, &sock);
				782	ok = drbd_socket_okay(mdev, &msock) && ok;
				783	if (ok)
				784	break;
				785	}
				786
				787	retry:
				788	s = drbd_wait_for_connect(mdev);
				789	if (s) {
				790	try = drbd_recv_fp(mdev, s);
				791	drbd_socket_okay(mdev, &sock);
				792	drbd_socket_okay(mdev, &msock);
				793	switch (try) {
				794	case P_HAND_SHAKE_S:
				795	if (sock) {
				796	dev_warn(DEV, "initial packet S crossed\n");
				797	sock_release(sock);
				798	}
				799	sock = s;
				800	break;
				801	case P_HAND_SHAKE_M:
				802	if (msock) {
				803	dev_warn(DEV, "initial packet M crossed\n");
				804	sock_release(msock);
				805	}
				806	msock = s;
				807	set_bit(DISCARD_CONCURRENT, &mdev->flags);
				808	break;
				809	default:
				810	dev_warn(DEV, "Error receiving initial packet\n");
				811	sock_release(s);
				812	if (random32() & 1)
				813	goto retry;
				814	}
				815	}
				816
				817	if (mdev->state.conn <= C_DISCONNECTING)
				818	goto out_release_sockets;
				819	if (signal_pending(current)) {
				820	flush_signals(current);
				821	smp_rmb();
				822	if (get_t_state(&mdev->receiver) == Exiting)
				823	goto out_release_sockets;
				824	}
				825
				826	if (sock && msock) {
				827	ok = drbd_socket_okay(mdev, &sock);
				828	ok = drbd_socket_okay(mdev, &msock) && ok;
				829	if (ok)
				830	break;
				831	}
				832	} while (1);
				833
				834	msock->sk->sk_reuse = 1; /* SO_REUSEADDR */
				835	sock->sk->sk_reuse = 1; /* SO_REUSEADDR */
				836
				837	sock->sk->sk_allocation = GFP_NOIO;
				838	msock->sk->sk_allocation = GFP_NOIO;
				839
				840	sock->sk->sk_priority = TC_PRIO_INTERACTIVE_BULK;
				841	msock->sk->sk_priority = TC_PRIO_INTERACTIVE;
				842
				843	if (mdev->net_conf->sndbuf_size) {
				844	sock->sk->sk_sndbuf = mdev->net_conf->sndbuf_size;
				845	sock->sk->sk_userlocks \|= SOCK_SNDBUF_LOCK;
				846	}
				847
				848	if (mdev->net_conf->rcvbuf_size) {
				849	sock->sk->sk_rcvbuf = mdev->net_conf->rcvbuf_size;
				850	sock->sk->sk_userlocks \|= SOCK_RCVBUF_LOCK;
				851	}
				852
				853	/* NOT YET ...
				854	* sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				855	* sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
				856	* first set it to the P_HAND_SHAKE timeout,
				857	* which we set to 4x the configured ping_timeout. */
				858	sock->sk->sk_sndtimeo =
				859	sock->sk->sk_rcvtimeo = mdev->net_conf->ping_timeo4HZ/10;
				860
				861	msock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				862	msock->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
				863
				864	/* we don't want delays.
				865	* we use TCP_CORK where apropriate, though */
				866	drbd_tcp_nodelay(sock);
				867	drbd_tcp_nodelay(msock);
				868
				869	mdev->data.socket = sock;
				870	mdev->meta.socket = msock;
				871	mdev->last_received = jiffies;
				872
				873	D_ASSERT(mdev->asender.task == NULL);
				874
				875	h = drbd_do_handshake(mdev);
				876	if (h <= 0)
				877	return h;
				878
				879	if (mdev->cram_hmac_tfm) {
				880	/* drbd_request_state(mdev, NS(conn, WFAuth)); */
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	881	switch (drbd_do_auth(mdev)) {
				882	case -1:
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	883	dev_err(DEV, "Authentication of peer failed\n");
				884	return -1;
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	885	case 0:
				886	dev_err(DEV, "Authentication of peer failed, trying again.\n");
				887	return 0;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	888	}
				889	}
				890
				891	if (drbd_request_state(mdev, NS(conn, C_WF_REPORT_PARAMS)) < SS_SUCCESS)
				892	return 0;
				893
				894	sock->sk->sk_sndtimeo = mdev->net_conf->timeout*HZ/10;
				895	sock->sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
				896
				897	atomic_set(&mdev->packet_seq, 0);
				898	mdev->peer_seq = 0;
				899
				900	drbd_thread_start(&mdev->asender);
				901
Philipp Reisner	7e2455c	2010-04-22 14:50:23 +0200	[diff] [blame]	902	if (!drbd_send_protocol(mdev))
				903	return -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	904	drbd_send_sync_param(mdev, &mdev->sync_conf);
				905	drbd_send_sizes(mdev, 0);
				906	drbd_send_uuids(mdev);
				907	drbd_send_state(mdev);
				908	clear_bit(USE_DEGR_WFC_T, &mdev->flags);
				909	clear_bit(RESIZE_PENDING, &mdev->flags);
				910
				911	return 1;
				912
				913	out_release_sockets:
				914	if (sock)
				915	sock_release(sock);
				916	if (msock)
				917	sock_release(msock);
				918	return -1;
				919	}
				920
				921	static int drbd_recv_header(struct drbd_conf mdev, struct p_header h)
				922	{
				923	int r;
				924
				925	r = drbd_recv(mdev, h, sizeof(*h));
				926
				927	if (unlikely(r != sizeof(*h))) {
				928	dev_err(DEV, "short read expecting header on sock: r=%d\n", r);
				929	return FALSE;
				930	};
				931	h->command = be16_to_cpu(h->command);
				932	h->length = be16_to_cpu(h->length);
				933	if (unlikely(h->magic != BE_DRBD_MAGIC)) {
				934	dev_err(DEV, "magic?? on data m: 0x%lx c: %d l: %d\n",
				935	(long)be32_to_cpu(h->magic),
				936	h->command, h->length);
				937	return FALSE;
				938	}
				939	mdev->last_received = jiffies;
				940
				941	return TRUE;
				942	}
				943
				944	static enum finish_epoch drbd_flush_after_epoch(struct drbd_conf mdev, struct drbd_epoch epoch)
				945	{
				946	int rv;
				947
				948	if (mdev->write_ordering >= WO_bdev_flush && get_ldev(mdev)) {
Dmitry Monakhov	fbd9b09	2010-04-28 17:55:06 +0400	[diff] [blame]	949	rv = blkdev_issue_flush(mdev->ldev->backing_bdev, GFP_KERNEL,
				950	NULL, BLKDEV_IFL_WAIT);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	951	if (rv) {
				952	dev_err(DEV, "local disk flush failed with status %d\n", rv);
				953	/* would rather check on EOPNOTSUPP, but that is not reliable.
				954	* don't try again for ANY return value != 0
				955	* if (rv == -EOPNOTSUPP) */
				956	drbd_bump_write_ordering(mdev, WO_drain_io);
				957	}
				958	put_ldev(mdev);
				959	}
				960
				961	return drbd_may_finish_epoch(mdev, epoch, EV_BARRIER_DONE);
				962	}
				963
				964	static int w_flush(struct drbd_conf mdev, struct drbd_work w, int cancel)
				965	{
				966	struct flush_work fw = (struct flush_work )w;
				967	struct drbd_epoch *epoch = fw->epoch;
				968
				969	kfree(w);
				970
				971	if (!test_and_set_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &epoch->flags))
				972	drbd_flush_after_epoch(mdev, epoch);
				973
				974	drbd_may_finish_epoch(mdev, epoch, EV_PUT \|
				975	(mdev->state.conn < C_CONNECTED ? EV_CLEANUP : 0));
				976
				977	return 1;
				978	}
				979
				980	/**
				981	* drbd_may_finish_epoch() - Applies an epoch_event to the epoch's state, eventually finishes it.
				982	* @mdev: DRBD device.
				983	* @epoch: Epoch object.
				984	* @ev: Epoch event.
				985	*/
				986	static enum finish_epoch drbd_may_finish_epoch(struct drbd_conf *mdev,
				987	struct drbd_epoch *epoch,
				988	enum epoch_event ev)
				989	{
				990	int finish, epoch_size;
				991	struct drbd_epoch *next_epoch;
				992	int schedule_flush = 0;
				993	enum finish_epoch rv = FE_STILL_LIVE;
				994
				995	spin_lock(&mdev->epoch_lock);
				996	do {
				997	next_epoch = NULL;
				998	finish = 0;
				999
				1000	epoch_size = atomic_read(&epoch->epoch_size);
				1001
				1002	switch (ev & ~EV_CLEANUP) {
				1003	case EV_PUT:
				1004	atomic_dec(&epoch->active);
				1005	break;
				1006	case EV_GOT_BARRIER_NR:
				1007	set_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags);
				1008
				1009	/* Special case: If we just switched from WO_bio_barrier to
				1010	WO_bdev_flush we should not finish the current epoch */
				1011	if (test_bit(DE_CONTAINS_A_BARRIER, &epoch->flags) && epoch_size == 1 &&
				1012	mdev->write_ordering != WO_bio_barrier &&
				1013	epoch == mdev->current_epoch)
				1014	clear_bit(DE_CONTAINS_A_BARRIER, &epoch->flags);
				1015	break;
				1016	case EV_BARRIER_DONE:
				1017	set_bit(DE_BARRIER_IN_NEXT_EPOCH_DONE, &epoch->flags);
				1018	break;
				1019	case EV_BECAME_LAST:
				1020	/* nothing to do*/
				1021	break;
				1022	}
				1023
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1024	if (epoch_size != 0 &&
				1025	atomic_read(&epoch->active) == 0 &&
				1026	test_bit(DE_HAVE_BARRIER_NUMBER, &epoch->flags) &&
				1027	epoch->list.prev == &mdev->current_epoch->list &&
				1028	!test_bit(DE_IS_FINISHING, &epoch->flags)) {
				1029	/* Nearly all conditions are met to finish that epoch... */
				1030	if (test_bit(DE_BARRIER_IN_NEXT_EPOCH_DONE, &epoch->flags) \|\|
				1031	mdev->write_ordering == WO_none \|\|
				1032	(epoch_size == 1 && test_bit(DE_CONTAINS_A_BARRIER, &epoch->flags)) \|\|
				1033	ev & EV_CLEANUP) {
				1034	finish = 1;
				1035	set_bit(DE_IS_FINISHING, &epoch->flags);
				1036	} else if (!test_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &epoch->flags) &&
				1037	mdev->write_ordering == WO_bio_barrier) {
				1038	atomic_inc(&epoch->active);
				1039	schedule_flush = 1;
				1040	}
				1041	}
				1042	if (finish) {
				1043	if (!(ev & EV_CLEANUP)) {
				1044	spin_unlock(&mdev->epoch_lock);
				1045	drbd_send_b_ack(mdev, epoch->barrier_nr, epoch_size);
				1046	spin_lock(&mdev->epoch_lock);
				1047	}
				1048	dec_unacked(mdev);
				1049
				1050	if (mdev->current_epoch != epoch) {
				1051	next_epoch = list_entry(epoch->list.next, struct drbd_epoch, list);
				1052	list_del(&epoch->list);
				1053	ev = EV_BECAME_LAST \| (ev & EV_CLEANUP);
				1054	mdev->epochs--;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1055	kfree(epoch);
				1056
				1057	if (rv == FE_STILL_LIVE)
				1058	rv = FE_DESTROYED;
				1059	} else {
				1060	epoch->flags = 0;
				1061	atomic_set(&epoch->epoch_size, 0);
				1062	/* atomic_set(&epoch->active, 0); is alrady zero */
				1063	if (rv == FE_STILL_LIVE)
				1064	rv = FE_RECYCLED;
				1065	}
				1066	}
				1067
				1068	if (!next_epoch)
				1069	break;
				1070
				1071	epoch = next_epoch;
				1072	} while (1);
				1073
				1074	spin_unlock(&mdev->epoch_lock);
				1075
				1076	if (schedule_flush) {
				1077	struct flush_work *fw;
				1078	fw = kmalloc(sizeof(*fw), GFP_ATOMIC);
				1079	if (fw) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1080	fw->w.cb = w_flush;
				1081	fw->epoch = epoch;
				1082	drbd_queue_work(&mdev->data.work, &fw->w);
				1083	} else {
				1084	dev_warn(DEV, "Could not kmalloc a flush_work obj\n");
				1085	set_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &epoch->flags);
				1086	/* That is not a recursion, only one level */
				1087	drbd_may_finish_epoch(mdev, epoch, EV_BARRIER_DONE);
				1088	drbd_may_finish_epoch(mdev, epoch, EV_PUT);
				1089	}
				1090	}
				1091
				1092	return rv;
				1093	}
				1094
				1095	/**
				1096	* drbd_bump_write_ordering() - Fall back to an other write ordering method
				1097	* @mdev: DRBD device.
				1098	* @wo: Write ordering method to try.
				1099	*/
				1100	void drbd_bump_write_ordering(struct drbd_conf *mdev, enum write_ordering_e wo) __must_hold(local)
				1101	{
				1102	enum write_ordering_e pwo;
				1103	static char *write_ordering_str[] = {
				1104	[WO_none] = "none",
				1105	[WO_drain_io] = "drain",
				1106	[WO_bdev_flush] = "flush",
				1107	[WO_bio_barrier] = "barrier",
				1108	};
				1109
				1110	pwo = mdev->write_ordering;
				1111	wo = min(pwo, wo);
				1112	if (wo == WO_bio_barrier && mdev->ldev->dc.no_disk_barrier)
				1113	wo = WO_bdev_flush;
				1114	if (wo == WO_bdev_flush && mdev->ldev->dc.no_disk_flush)
				1115	wo = WO_drain_io;
				1116	if (wo == WO_drain_io && mdev->ldev->dc.no_disk_drain)
				1117	wo = WO_none;
				1118	mdev->write_ordering = wo;
				1119	if (pwo != mdev->write_ordering \|\| wo == WO_bio_barrier)
				1120	dev_info(DEV, "Method to ensure write ordering: %s\n", write_ordering_str[mdev->write_ordering]);
				1121	}
				1122
				1123	/**
				1124	* w_e_reissue() - Worker callback; Resubmit a bio, without BIO_RW_BARRIER set
				1125	* @mdev: DRBD device.
				1126	* @w: work object.
				1127	* @cancel: The connection will be closed anyways (unused in this callback)
				1128	*/
				1129	int w_e_reissue(struct drbd_conf mdev, struct drbd_work w, int cancel) __releases(local)
				1130	{
				1131	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1132	struct bio *bio = e->private_bio;
				1133
				1134	/* We leave DE_CONTAINS_A_BARRIER and EE_IS_BARRIER in place,
				1135	(and DE_BARRIER_IN_NEXT_EPOCH_ISSUED in the previous Epoch)
				1136	so that we can finish that epoch in drbd_may_finish_epoch().
				1137	That is necessary if we already have a long chain of Epochs, before
				1138	we realize that BIO_RW_BARRIER is actually not supported */
				1139
				1140	/* As long as the -ENOTSUPP on the barrier is reported immediately
				1141	that will never trigger. If it is reported late, we will just
				1142	print that warning and continue correctly for all future requests
				1143	with WO_bdev_flush */
				1144	if (previous_epoch(mdev, e->epoch))
				1145	dev_warn(DEV, "Write ordering was not enforced (one time event)\n");
				1146
				1147	/* prepare bio for re-submit,
				1148	* re-init volatile members */
				1149	/* we still have a local reference,
				1150	* get_ldev was done in receive_Data. */
				1151	bio->bi_bdev = mdev->ldev->backing_bdev;
				1152	bio->bi_sector = e->sector;
				1153	bio->bi_size = e->size;
				1154	bio->bi_idx = 0;
				1155
				1156	bio->bi_flags &= ~(BIO_POOL_MASK - 1);
				1157	bio->bi_flags \|= 1 << BIO_UPTODATE;
				1158
				1159	/* don't know whether this is necessary: */
				1160	bio->bi_phys_segments = 0;
				1161	bio->bi_next = NULL;
				1162
				1163	/* these should be unchanged: */
				1164	/* bio->bi_end_io = drbd_endio_write_sec; */
				1165	/* bio->bi_vcnt = whatever; */
				1166
				1167	e->w.cb = e_end_block;
				1168
				1169	/* This is no longer a barrier request. */
				1170	bio->bi_rw &= ~(1UL << BIO_RW_BARRIER);
				1171
				1172	drbd_generic_make_request(mdev, DRBD_FAULT_DT_WR, bio);
				1173
				1174	return 1;
				1175	}
				1176
				1177	static int receive_Barrier(struct drbd_conf mdev, struct p_header h)
				1178	{
				1179	int rv, issue_flush;
				1180	struct p_barrier p = (struct p_barrier )h;
				1181	struct drbd_epoch *epoch;
				1182
				1183	ERR_IF(h->length != (sizeof(p)-sizeof(h))) return FALSE;
				1184
				1185	rv = drbd_recv(mdev, h->payload, h->length);
				1186	ERR_IF(rv != h->length) return FALSE;
				1187
				1188	inc_unacked(mdev);
				1189
				1190	if (mdev->net_conf->wire_protocol != DRBD_PROT_C)
				1191	drbd_kick_lo(mdev);
				1192
				1193	mdev->current_epoch->barrier_nr = p->barrier;
				1194	rv = drbd_may_finish_epoch(mdev, mdev->current_epoch, EV_GOT_BARRIER_NR);
				1195
				1196	/* P_BARRIER_ACK may imply that the corresponding extent is dropped from
				1197	* the activity log, which means it would not be resynced in case the
				1198	* R_PRIMARY crashes now.
				1199	* Therefore we must send the barrier_ack after the barrier request was
				1200	* completed. */
				1201	switch (mdev->write_ordering) {
				1202	case WO_bio_barrier:
				1203	case WO_none:
				1204	if (rv == FE_RECYCLED)
				1205	return TRUE;
				1206	break;
				1207
				1208	case WO_bdev_flush:
				1209	case WO_drain_io:
Philipp Reisner	367a8d7	2009-12-29 15:56:01 +0100	[diff] [blame]	1210	if (rv == FE_STILL_LIVE) {
				1211	set_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &mdev->current_epoch->flags);
				1212	drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
				1213	rv = drbd_flush_after_epoch(mdev, mdev->current_epoch);
				1214	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1215	if (rv == FE_RECYCLED)
				1216	return TRUE;
				1217
				1218	/* The asender will send all the ACKs and barrier ACKs out, since
				1219	all EEs moved from the active_ee to the done_ee. We need to
				1220	provide a new epoch object for the EEs that come in soon */
				1221	break;
				1222	}
				1223
				1224	/* receiver context, in the writeout path of the other node.
				1225	* avoid potential distributed deadlock */
				1226	epoch = kmalloc(sizeof(struct drbd_epoch), GFP_NOIO);
				1227	if (!epoch) {
				1228	dev_warn(DEV, "Allocation of an epoch failed, slowing down\n");
Dan Carpenter	d3db7b4	2010-01-23 15:45:22 +0300	[diff] [blame]	1229	issue_flush = !test_and_set_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &mdev->current_epoch->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1230	drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
				1231	if (issue_flush) {
				1232	rv = drbd_flush_after_epoch(mdev, mdev->current_epoch);
				1233	if (rv == FE_RECYCLED)
				1234	return TRUE;
				1235	}
				1236
				1237	drbd_wait_ee_list_empty(mdev, &mdev->done_ee);
				1238
				1239	return TRUE;
				1240	}
				1241
				1242	epoch->flags = 0;
				1243	atomic_set(&epoch->epoch_size, 0);
				1244	atomic_set(&epoch->active, 0);
				1245
				1246	spin_lock(&mdev->epoch_lock);
				1247	if (atomic_read(&mdev->current_epoch->epoch_size)) {
				1248	list_add(&epoch->list, &mdev->current_epoch->list);
				1249	mdev->current_epoch = epoch;
				1250	mdev->epochs++;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1251	} else {
				1252	/* The current_epoch got recycled while we allocated this one... */
				1253	kfree(epoch);
				1254	}
				1255	spin_unlock(&mdev->epoch_lock);
				1256
				1257	return TRUE;
				1258	}
				1259
				1260	/* used from receive_RSDataReply (recv_resync_read)
				1261	* and from receive_Data */
				1262	static struct drbd_epoch_entry *
				1263	read_in_block(struct drbd_conf *mdev, u64 id, sector_t sector, int data_size) __must_hold(local)
				1264	{
Lars Ellenberg	6666032	2010-04-06 12:15:04 +0200	[diff] [blame^]	1265	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1266	struct drbd_epoch_entry *e;
				1267	struct bio_vec *bvec;
				1268	struct page *page;
				1269	struct bio *bio;
				1270	int dgs, ds, i, rr;
				1271	void *dig_in = mdev->int_dig_in;
				1272	void *dig_vv = mdev->int_dig_vv;
				1273
				1274	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				1275	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
				1276
				1277	if (dgs) {
				1278	rr = drbd_recv(mdev, dig_in, dgs);
				1279	if (rr != dgs) {
				1280	dev_warn(DEV, "short read receiving data digest: read %d expected %d\n",
				1281	rr, dgs);
				1282	return NULL;
				1283	}
				1284	}
				1285
				1286	data_size -= dgs;
				1287
				1288	ERR_IF(data_size & 0x1ff) return NULL;
				1289	ERR_IF(data_size > DRBD_MAX_SEGMENT_SIZE) return NULL;
				1290
Lars Ellenberg	6666032	2010-04-06 12:15:04 +0200	[diff] [blame^]	1291	/* even though we trust out peer,
				1292	* we sometimes have to double check. */
				1293	if (sector + (data_size>>9) > capacity) {
				1294	dev_err(DEV, "capacity: %llus < sector: %llus + size: %u\n",
				1295	(unsigned long long)capacity,
				1296	(unsigned long long)sector, data_size);
				1297	return NULL;
				1298	}
				1299
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1300	/* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
				1301	* "criss-cross" setup, that might cause write-out on some other DRBD,
				1302	* which in turn might block on the other node at this very place. */
				1303	e = drbd_alloc_ee(mdev, id, sector, data_size, GFP_NOIO);
				1304	if (!e)
				1305	return NULL;
				1306	bio = e->private_bio;
				1307	ds = data_size;
				1308	bio_for_each_segment(bvec, bio, i) {
				1309	page = bvec->bv_page;
				1310	rr = drbd_recv(mdev, kmap(page), min_t(int, ds, PAGE_SIZE));
				1311	kunmap(page);
				1312	if (rr != min_t(int, ds, PAGE_SIZE)) {
				1313	drbd_free_ee(mdev, e);
				1314	dev_warn(DEV, "short read receiving data: read %d expected %d\n",
				1315	rr, min_t(int, ds, PAGE_SIZE));
				1316	return NULL;
				1317	}
				1318	ds -= rr;
				1319	}
				1320
				1321	if (dgs) {
				1322	drbd_csum(mdev, mdev->integrity_r_tfm, bio, dig_vv);
				1323	if (memcmp(dig_in, dig_vv, dgs)) {
				1324	dev_err(DEV, "Digest integrity check FAILED.\n");
				1325	drbd_bcast_ee(mdev, "digest failed",
				1326	dgs, dig_in, dig_vv, e);
				1327	drbd_free_ee(mdev, e);
				1328	return NULL;
				1329	}
				1330	}
				1331	mdev->recv_cnt += data_size>>9;
				1332	return e;
				1333	}
				1334
				1335	/* drbd_drain_block() just takes a data block
				1336	* out of the socket input buffer, and discards it.
				1337	*/
				1338	static int drbd_drain_block(struct drbd_conf *mdev, int data_size)
				1339	{
				1340	struct page *page;
				1341	int rr, rv = 1;
				1342	void *data;
				1343
Lars Ellenberg	c3470cd	2010-04-01 16:57:19 +0200	[diff] [blame]	1344	if (!data_size)
				1345	return TRUE;
				1346
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1347	page = drbd_pp_alloc(mdev, 1);
				1348
				1349	data = kmap(page);
				1350	while (data_size) {
				1351	rr = drbd_recv(mdev, data, min_t(int, data_size, PAGE_SIZE));
				1352	if (rr != min_t(int, data_size, PAGE_SIZE)) {
				1353	rv = 0;
				1354	dev_warn(DEV, "short read receiving data: read %d expected %d\n",
				1355	rr, min_t(int, data_size, PAGE_SIZE));
				1356	break;
				1357	}
				1358	data_size -= rr;
				1359	}
				1360	kunmap(page);
				1361	drbd_pp_free(mdev, page);
				1362	return rv;
				1363	}
				1364
				1365	static int recv_dless_read(struct drbd_conf mdev, struct drbd_request req,
				1366	sector_t sector, int data_size)
				1367	{
				1368	struct bio_vec *bvec;
				1369	struct bio *bio;
				1370	int dgs, rr, i, expect;
				1371	void *dig_in = mdev->int_dig_in;
				1372	void *dig_vv = mdev->int_dig_vv;
				1373
				1374	dgs = (mdev->agreed_pro_version >= 87 && mdev->integrity_r_tfm) ?
				1375	crypto_hash_digestsize(mdev->integrity_r_tfm) : 0;
				1376
				1377	if (dgs) {
				1378	rr = drbd_recv(mdev, dig_in, dgs);
				1379	if (rr != dgs) {
				1380	dev_warn(DEV, "short read receiving data reply digest: read %d expected %d\n",
				1381	rr, dgs);
				1382	return 0;
				1383	}
				1384	}
				1385
				1386	data_size -= dgs;
				1387
				1388	/* optimistically update recv_cnt. if receiving fails below,
				1389	* we disconnect anyways, and counters will be reset. */
				1390	mdev->recv_cnt += data_size>>9;
				1391
				1392	bio = req->master_bio;
				1393	D_ASSERT(sector == bio->bi_sector);
				1394
				1395	bio_for_each_segment(bvec, bio, i) {
				1396	expect = min_t(int, data_size, bvec->bv_len);
				1397	rr = drbd_recv(mdev,
				1398	kmap(bvec->bv_page)+bvec->bv_offset,
				1399	expect);
				1400	kunmap(bvec->bv_page);
				1401	if (rr != expect) {
				1402	dev_warn(DEV, "short read receiving data reply: "
				1403	"read %d expected %d\n",
				1404	rr, expect);
				1405	return 0;
				1406	}
				1407	data_size -= rr;
				1408	}
				1409
				1410	if (dgs) {
				1411	drbd_csum(mdev, mdev->integrity_r_tfm, bio, dig_vv);
				1412	if (memcmp(dig_in, dig_vv, dgs)) {
				1413	dev_err(DEV, "Digest integrity check FAILED. Broken NICs?\n");
				1414	return 0;
				1415	}
				1416	}
				1417
				1418	D_ASSERT(data_size == 0);
				1419	return 1;
				1420	}
				1421
				1422	/* e_end_resync_block() is called via
				1423	* drbd_process_done_ee() by asender only */
				1424	static int e_end_resync_block(struct drbd_conf mdev, struct drbd_work w, int unused)
				1425	{
				1426	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1427	sector_t sector = e->sector;
				1428	int ok;
				1429
				1430	D_ASSERT(hlist_unhashed(&e->colision));
				1431
				1432	if (likely(drbd_bio_uptodate(e->private_bio))) {
				1433	drbd_set_in_sync(mdev, sector, e->size);
				1434	ok = drbd_send_ack(mdev, P_RS_WRITE_ACK, e);
				1435	} else {
				1436	/* Record failure to sync */
				1437	drbd_rs_failed_io(mdev, sector, e->size);
				1438
				1439	ok = drbd_send_ack(mdev, P_NEG_ACK, e);
				1440	}
				1441	dec_unacked(mdev);
				1442
				1443	return ok;
				1444	}
				1445
				1446	static int recv_resync_read(struct drbd_conf *mdev, sector_t sector, int data_size) __releases(local)
				1447	{
				1448	struct drbd_epoch_entry *e;
				1449
				1450	e = read_in_block(mdev, ID_SYNCER, sector, data_size);
				1451	if (!e) {
				1452	put_ldev(mdev);
				1453	return FALSE;
				1454	}
				1455
				1456	dec_rs_pending(mdev);
				1457
				1458	e->private_bio->bi_end_io = drbd_endio_write_sec;
				1459	e->private_bio->bi_rw = WRITE;
				1460	e->w.cb = e_end_resync_block;
				1461
				1462	inc_unacked(mdev);
				1463	/* corresponding dec_unacked() in e_end_resync_block()
				1464	* respective _drbd_clear_done_ee */
				1465
				1466	spin_lock_irq(&mdev->req_lock);
				1467	list_add(&e->w.list, &mdev->sync_ee);
				1468	spin_unlock_irq(&mdev->req_lock);
				1469
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1470	drbd_generic_make_request(mdev, DRBD_FAULT_RS_WR, e->private_bio);
				1471	/* accounting done in endio */
				1472
				1473	maybe_kick_lo(mdev);
				1474	return TRUE;
				1475	}
				1476
				1477	static int receive_DataReply(struct drbd_conf mdev, struct p_header h)
				1478	{
				1479	struct drbd_request *req;
				1480	sector_t sector;
				1481	unsigned int header_size, data_size;
				1482	int ok;
				1483	struct p_data p = (struct p_data )h;
				1484
				1485	header_size = sizeof(p) - sizeof(h);
				1486	data_size = h->length - header_size;
				1487
				1488	ERR_IF(data_size == 0) return FALSE;
				1489
				1490	if (drbd_recv(mdev, h->payload, header_size) != header_size)
				1491	return FALSE;
				1492
				1493	sector = be64_to_cpu(p->sector);
				1494
				1495	spin_lock_irq(&mdev->req_lock);
				1496	req = _ar_id_to_req(mdev, p->block_id, sector);
				1497	spin_unlock_irq(&mdev->req_lock);
				1498	if (unlikely(!req)) {
				1499	dev_err(DEV, "Got a corrupt block_id/sector pair(1).\n");
				1500	return FALSE;
				1501	}
				1502
				1503	/* hlist_del(&req->colision) is done in _req_may_be_done, to avoid
				1504	* special casing it there for the various failure cases.
				1505	* still no race with drbd_fail_pending_reads */
				1506	ok = recv_dless_read(mdev, req, sector, data_size);
				1507
				1508	if (ok)
				1509	req_mod(req, data_received);
				1510	/* else: nothing. handled from drbd_disconnect...
				1511	* I don't think we may complete this just yet
				1512	* in case we are "on-disconnect: freeze" */
				1513
				1514	return ok;
				1515	}
				1516
				1517	static int receive_RSDataReply(struct drbd_conf mdev, struct p_header h)
				1518	{
				1519	sector_t sector;
				1520	unsigned int header_size, data_size;
				1521	int ok;
				1522	struct p_data p = (struct p_data )h;
				1523
				1524	header_size = sizeof(p) - sizeof(h);
				1525	data_size = h->length - header_size;
				1526
				1527	ERR_IF(data_size == 0) return FALSE;
				1528
				1529	if (drbd_recv(mdev, h->payload, header_size) != header_size)
				1530	return FALSE;
				1531
				1532	sector = be64_to_cpu(p->sector);
				1533	D_ASSERT(p->block_id == ID_SYNCER);
				1534
				1535	if (get_ldev(mdev)) {
				1536	/* data is submitted to disk within recv_resync_read.
				1537	* corresponding put_ldev done below on error,
				1538	* or in drbd_endio_write_sec. */
				1539	ok = recv_resync_read(mdev, sector, data_size);
				1540	} else {
				1541	if (__ratelimit(&drbd_ratelimit_state))
				1542	dev_err(DEV, "Can not write resync data to local disk.\n");
				1543
				1544	ok = drbd_drain_block(mdev, data_size);
				1545
				1546	drbd_send_ack_dp(mdev, P_NEG_ACK, p);
				1547	}
				1548
				1549	return ok;
				1550	}
				1551
				1552	/* e_end_block() is called via drbd_process_done_ee().
				1553	* this means this function only runs in the asender thread
				1554	*/
				1555	static int e_end_block(struct drbd_conf mdev, struct drbd_work w, int cancel)
				1556	{
				1557	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1558	sector_t sector = e->sector;
				1559	struct drbd_epoch *epoch;
				1560	int ok = 1, pcmd;
				1561
				1562	if (e->flags & EE_IS_BARRIER) {
				1563	epoch = previous_epoch(mdev, e->epoch);
				1564	if (epoch)
				1565	drbd_may_finish_epoch(mdev, epoch, EV_BARRIER_DONE + (cancel ? EV_CLEANUP : 0));
				1566	}
				1567
				1568	if (mdev->net_conf->wire_protocol == DRBD_PROT_C) {
				1569	if (likely(drbd_bio_uptodate(e->private_bio))) {
				1570	pcmd = (mdev->state.conn >= C_SYNC_SOURCE &&
				1571	mdev->state.conn <= C_PAUSED_SYNC_T &&
				1572	e->flags & EE_MAY_SET_IN_SYNC) ?
				1573	P_RS_WRITE_ACK : P_WRITE_ACK;
				1574	ok &= drbd_send_ack(mdev, pcmd, e);
				1575	if (pcmd == P_RS_WRITE_ACK)
				1576	drbd_set_in_sync(mdev, sector, e->size);
				1577	} else {
				1578	ok = drbd_send_ack(mdev, P_NEG_ACK, e);
				1579	/* we expect it to be marked out of sync anyways...
				1580	* maybe assert this? */
				1581	}
				1582	dec_unacked(mdev);
				1583	}
				1584	/* we delete from the conflict detection hash _after_ we sent out the
				1585	* P_WRITE_ACK / P_NEG_ACK, to get the sequence number right. */
				1586	if (mdev->net_conf->two_primaries) {
				1587	spin_lock_irq(&mdev->req_lock);
				1588	D_ASSERT(!hlist_unhashed(&e->colision));
				1589	hlist_del_init(&e->colision);
				1590	spin_unlock_irq(&mdev->req_lock);
				1591	} else {
				1592	D_ASSERT(hlist_unhashed(&e->colision));
				1593	}
				1594
				1595	drbd_may_finish_epoch(mdev, e->epoch, EV_PUT + (cancel ? EV_CLEANUP : 0));
				1596
				1597	return ok;
				1598	}
				1599
				1600	static int e_send_discard_ack(struct drbd_conf mdev, struct drbd_work w, int unused)
				1601	{
				1602	struct drbd_epoch_entry e = (struct drbd_epoch_entry )w;
				1603	int ok = 1;
				1604
				1605	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				1606	ok = drbd_send_ack(mdev, P_DISCARD_ACK, e);
				1607
				1608	spin_lock_irq(&mdev->req_lock);
				1609	D_ASSERT(!hlist_unhashed(&e->colision));
				1610	hlist_del_init(&e->colision);
				1611	spin_unlock_irq(&mdev->req_lock);
				1612
				1613	dec_unacked(mdev);
				1614
				1615	return ok;
				1616	}
				1617
				1618	/* Called from receive_Data.
				1619	* Synchronize packets on sock with packets on msock.
				1620	*
				1621	* This is here so even when a P_DATA packet traveling via sock overtook an Ack
				1622	* packet traveling on msock, they are still processed in the order they have
				1623	* been sent.
				1624	*
				1625	* Note: we don't care for Ack packets overtaking P_DATA packets.
				1626	*
				1627	* In case packet_seq is larger than mdev->peer_seq number, there are
				1628	* outstanding packets on the msock. We wait for them to arrive.
				1629	* In case we are the logically next packet, we update mdev->peer_seq
				1630	* ourselves. Correctly handles 32bit wrap around.
				1631	*
				1632	* Assume we have a 10 GBit connection, that is about 1<<30 byte per second,
				1633	* about 1<<21 sectors per second. So "worst" case, we have 1<<3 == 8 seconds
				1634	* for the 24bit wrap (historical atomic_t guarantee on some archs), and we have
				1635	* 1<<9 == 512 seconds aka ages for the 32bit wrap around...
				1636	*
				1637	* returns 0 if we may process the packet,
				1638	* -ERESTARTSYS if we were interrupted (by disconnect signal). */
				1639	static int drbd_wait_peer_seq(struct drbd_conf *mdev, const u32 packet_seq)
				1640	{
				1641	DEFINE_WAIT(wait);
				1642	unsigned int p_seq;
				1643	long timeout;
				1644	int ret = 0;
				1645	spin_lock(&mdev->peer_seq_lock);
				1646	for (;;) {
				1647	prepare_to_wait(&mdev->seq_wait, &wait, TASK_INTERRUPTIBLE);
				1648	if (seq_le(packet_seq, mdev->peer_seq+1))
				1649	break;
				1650	if (signal_pending(current)) {
				1651	ret = -ERESTARTSYS;
				1652	break;
				1653	}
				1654	p_seq = mdev->peer_seq;
				1655	spin_unlock(&mdev->peer_seq_lock);
				1656	timeout = schedule_timeout(30*HZ);
				1657	spin_lock(&mdev->peer_seq_lock);
				1658	if (timeout == 0 && p_seq == mdev->peer_seq) {
				1659	ret = -ETIMEDOUT;
				1660	dev_err(DEV, "ASSERT FAILED waited 30 seconds for sequence update, forcing reconnect\n");
				1661	break;
				1662	}
				1663	}
				1664	finish_wait(&mdev->seq_wait, &wait);
				1665	if (mdev->peer_seq+1 == packet_seq)
				1666	mdev->peer_seq++;
				1667	spin_unlock(&mdev->peer_seq_lock);
				1668	return ret;
				1669	}
				1670
				1671	/* mirrored write */
				1672	static int receive_Data(struct drbd_conf mdev, struct p_header h)
				1673	{
				1674	sector_t sector;
				1675	struct drbd_epoch_entry *e;
				1676	struct p_data p = (struct p_data )h;
				1677	int header_size, data_size;
				1678	int rw = WRITE;
				1679	u32 dp_flags;
				1680
				1681	header_size = sizeof(p) - sizeof(h);
				1682	data_size = h->length - header_size;
				1683
				1684	ERR_IF(data_size == 0) return FALSE;
				1685
				1686	if (drbd_recv(mdev, h->payload, header_size) != header_size)
				1687	return FALSE;
				1688
				1689	if (!get_ldev(mdev)) {
				1690	if (__ratelimit(&drbd_ratelimit_state))
				1691	dev_err(DEV, "Can not write mirrored data block "
				1692	"to local disk.\n");
				1693	spin_lock(&mdev->peer_seq_lock);
				1694	if (mdev->peer_seq+1 == be32_to_cpu(p->seq_num))
				1695	mdev->peer_seq++;
				1696	spin_unlock(&mdev->peer_seq_lock);
				1697
				1698	drbd_send_ack_dp(mdev, P_NEG_ACK, p);
				1699	atomic_inc(&mdev->current_epoch->epoch_size);
				1700	return drbd_drain_block(mdev, data_size);
				1701	}
				1702
				1703	/* get_ldev(mdev) successful.
				1704	* Corresponding put_ldev done either below (on various errors),
				1705	* or in drbd_endio_write_sec, if we successfully submit the data at
				1706	* the end of this function. */
				1707
				1708	sector = be64_to_cpu(p->sector);
				1709	e = read_in_block(mdev, p->block_id, sector, data_size);
				1710	if (!e) {
				1711	put_ldev(mdev);
				1712	return FALSE;
				1713	}
				1714
				1715	e->private_bio->bi_end_io = drbd_endio_write_sec;
				1716	e->w.cb = e_end_block;
				1717
				1718	spin_lock(&mdev->epoch_lock);
				1719	e->epoch = mdev->current_epoch;
				1720	atomic_inc(&e->epoch->epoch_size);
				1721	atomic_inc(&e->epoch->active);
				1722
				1723	if (mdev->write_ordering == WO_bio_barrier && atomic_read(&e->epoch->epoch_size) == 1) {
				1724	struct drbd_epoch *epoch;
				1725	/* Issue a barrier if we start a new epoch, and the previous epoch
				1726	was not a epoch containing a single request which already was
				1727	a Barrier. */
				1728	epoch = list_entry(e->epoch->list.prev, struct drbd_epoch, list);
				1729	if (epoch == e->epoch) {
				1730	set_bit(DE_CONTAINS_A_BARRIER, &e->epoch->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1731	rw \|= (1<<BIO_RW_BARRIER);
				1732	e->flags \|= EE_IS_BARRIER;
				1733	} else {
				1734	if (atomic_read(&epoch->epoch_size) > 1 \|\|
				1735	!test_bit(DE_CONTAINS_A_BARRIER, &epoch->flags)) {
				1736	set_bit(DE_BARRIER_IN_NEXT_EPOCH_ISSUED, &epoch->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1737	set_bit(DE_CONTAINS_A_BARRIER, &e->epoch->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1738	rw \|= (1<<BIO_RW_BARRIER);
				1739	e->flags \|= EE_IS_BARRIER;
				1740	}
				1741	}
				1742	}
				1743	spin_unlock(&mdev->epoch_lock);
				1744
				1745	dp_flags = be32_to_cpu(p->dp_flags);
				1746	if (dp_flags & DP_HARDBARRIER) {
				1747	dev_err(DEV, "ASSERT FAILED would have submitted barrier request\n");
				1748	/* rw \|= (1<<BIO_RW_BARRIER); */
				1749	}
				1750	if (dp_flags & DP_RW_SYNC)
				1751	rw \|= (1<<BIO_RW_SYNCIO) \| (1<<BIO_RW_UNPLUG);
				1752	if (dp_flags & DP_MAY_SET_IN_SYNC)
				1753	e->flags \|= EE_MAY_SET_IN_SYNC;
				1754
				1755	/* I'm the receiver, I do hold a net_cnt reference. */
				1756	if (!mdev->net_conf->two_primaries) {
				1757	spin_lock_irq(&mdev->req_lock);
				1758	} else {
				1759	/* don't get the req_lock yet,
				1760	* we may sleep in drbd_wait_peer_seq */
				1761	const int size = e->size;
				1762	const int discard = test_bit(DISCARD_CONCURRENT, &mdev->flags);
				1763	DEFINE_WAIT(wait);
				1764	struct drbd_request *i;
				1765	struct hlist_node *n;
				1766	struct hlist_head *slot;
				1767	int first;
				1768
				1769	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				1770	BUG_ON(mdev->ee_hash == NULL);
				1771	BUG_ON(mdev->tl_hash == NULL);
				1772
				1773	/* conflict detection and handling:
				1774	* 1. wait on the sequence number,
				1775	* in case this data packet overtook ACK packets.
				1776	* 2. check our hash tables for conflicting requests.
				1777	* we only need to walk the tl_hash, since an ee can not
				1778	* have a conflict with an other ee: on the submitting
				1779	* node, the corresponding req had already been conflicting,
				1780	* and a conflicting req is never sent.
				1781	*
				1782	* Note: for two_primaries, we are protocol C,
				1783	* so there cannot be any request that is DONE
				1784	* but still on the transfer log.
				1785	*
				1786	* unconditionally add to the ee_hash.
				1787	*
				1788	* if no conflicting request is found:
				1789	* submit.
				1790	*
				1791	* if any conflicting request is found
				1792	* that has not yet been acked,
				1793	* AND I have the "discard concurrent writes" flag:
				1794	* queue (via done_ee) the P_DISCARD_ACK; OUT.
				1795	*
				1796	* if any conflicting request is found:
				1797	* block the receiver, waiting on misc_wait
				1798	* until no more conflicting requests are there,
				1799	* or we get interrupted (disconnect).
				1800	*
				1801	* we do not just write after local io completion of those
				1802	* requests, but only after req is done completely, i.e.
				1803	* we wait for the P_DISCARD_ACK to arrive!
				1804	*
				1805	* then proceed normally, i.e. submit.
				1806	*/
				1807	if (drbd_wait_peer_seq(mdev, be32_to_cpu(p->seq_num)))
				1808	goto out_interrupted;
				1809
				1810	spin_lock_irq(&mdev->req_lock);
				1811
				1812	hlist_add_head(&e->colision, ee_hash_slot(mdev, sector));
				1813
				1814	#define OVERLAPS overlaps(i->sector, i->size, sector, size)
				1815	slot = tl_hash_slot(mdev, sector);
				1816	first = 1;
				1817	for (;;) {
				1818	int have_unacked = 0;
				1819	int have_conflict = 0;
				1820	prepare_to_wait(&mdev->misc_wait, &wait,
				1821	TASK_INTERRUPTIBLE);
				1822	hlist_for_each_entry(i, n, slot, colision) {
				1823	if (OVERLAPS) {
				1824	/* only ALERT on first iteration,
				1825	* we may be woken up early... */
				1826	if (first)
				1827	dev_alert(DEV, "%s[%u] Concurrent local write detected!"
				1828	" new: %llus +%u; pending: %llus +%u\n",
				1829	current->comm, current->pid,
				1830	(unsigned long long)sector, size,
				1831	(unsigned long long)i->sector, i->size);
				1832	if (i->rq_state & RQ_NET_PENDING)
				1833	++have_unacked;
				1834	++have_conflict;
				1835	}
				1836	}
				1837	#undef OVERLAPS
				1838	if (!have_conflict)
				1839	break;
				1840
				1841	/* Discard Ack only for the _first_ iteration */
				1842	if (first && discard && have_unacked) {
				1843	dev_alert(DEV, "Concurrent write! [DISCARD BY FLAG] sec=%llus\n",
				1844	(unsigned long long)sector);
				1845	inc_unacked(mdev);
				1846	e->w.cb = e_send_discard_ack;
				1847	list_add_tail(&e->w.list, &mdev->done_ee);
				1848
				1849	spin_unlock_irq(&mdev->req_lock);
				1850
				1851	/* we could probably send that P_DISCARD_ACK ourselves,
				1852	* but I don't like the receiver using the msock */
				1853
				1854	put_ldev(mdev);
				1855	wake_asender(mdev);
				1856	finish_wait(&mdev->misc_wait, &wait);
				1857	return TRUE;
				1858	}
				1859
				1860	if (signal_pending(current)) {
				1861	hlist_del_init(&e->colision);
				1862
				1863	spin_unlock_irq(&mdev->req_lock);
				1864
				1865	finish_wait(&mdev->misc_wait, &wait);
				1866	goto out_interrupted;
				1867	}
				1868
				1869	spin_unlock_irq(&mdev->req_lock);
				1870	if (first) {
				1871	first = 0;
				1872	dev_alert(DEV, "Concurrent write! [W AFTERWARDS] "
				1873	"sec=%llus\n", (unsigned long long)sector);
				1874	} else if (discard) {
				1875	/* we had none on the first iteration.
				1876	* there must be none now. */
				1877	D_ASSERT(have_unacked == 0);
				1878	}
				1879	schedule();
				1880	spin_lock_irq(&mdev->req_lock);
				1881	}
				1882	finish_wait(&mdev->misc_wait, &wait);
				1883	}
				1884
				1885	list_add(&e->w.list, &mdev->active_ee);
				1886	spin_unlock_irq(&mdev->req_lock);
				1887
				1888	switch (mdev->net_conf->wire_protocol) {
				1889	case DRBD_PROT_C:
				1890	inc_unacked(mdev);
				1891	/* corresponding dec_unacked() in e_end_block()
				1892	* respective _drbd_clear_done_ee */
				1893	break;
				1894	case DRBD_PROT_B:
				1895	/* I really don't like it that the receiver thread
				1896	* sends on the msock, but anyways */
				1897	drbd_send_ack(mdev, P_RECV_ACK, e);
				1898	break;
				1899	case DRBD_PROT_A:
				1900	/* nothing to do */
				1901	break;
				1902	}
				1903
				1904	if (mdev->state.pdsk == D_DISKLESS) {
				1905	/* In case we have the only disk of the cluster, */
				1906	drbd_set_out_of_sync(mdev, e->sector, e->size);
				1907	e->flags \|= EE_CALL_AL_COMPLETE_IO;
				1908	drbd_al_begin_io(mdev, e->sector);
				1909	}
				1910
				1911	e->private_bio->bi_rw = rw;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1912	drbd_generic_make_request(mdev, DRBD_FAULT_DT_WR, e->private_bio);
				1913	/* accounting done in endio */
				1914
				1915	maybe_kick_lo(mdev);
				1916	return TRUE;
				1917
				1918	out_interrupted:
				1919	/* yes, the epoch_size now is imbalanced.
				1920	* but we drop the connection anyways, so we don't have a chance to
				1921	* receive a barrier... atomic_inc(&mdev->epoch_size); */
				1922	put_ldev(mdev);
				1923	drbd_free_ee(mdev, e);
				1924	return FALSE;
				1925	}
				1926
				1927	static int receive_DataRequest(struct drbd_conf mdev, struct p_header h)
				1928	{
				1929	sector_t sector;
				1930	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
				1931	struct drbd_epoch_entry *e;
				1932	struct digest_info *di = NULL;
				1933	int size, digest_size;
				1934	unsigned int fault_type;
				1935	struct p_block_req *p =
				1936	(struct p_block_req *)h;
				1937	const int brps = sizeof(p)-sizeof(h);
				1938
				1939	if (drbd_recv(mdev, h->payload, brps) != brps)
				1940	return FALSE;
				1941
				1942	sector = be64_to_cpu(p->sector);
				1943	size = be32_to_cpu(p->blksize);
				1944
				1945	if (size <= 0 \|\| (size & 0x1ff) != 0 \|\| size > DRBD_MAX_SEGMENT_SIZE) {
				1946	dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
				1947	(unsigned long long)sector, size);
				1948	return FALSE;
				1949	}
				1950	if (sector + (size>>9) > capacity) {
				1951	dev_err(DEV, "%s:%d: sector: %llus, size: %u\n", __FILE__, __LINE__,
				1952	(unsigned long long)sector, size);
				1953	return FALSE;
				1954	}
				1955
				1956	if (!get_ldev_if_state(mdev, D_UP_TO_DATE)) {
				1957	if (__ratelimit(&drbd_ratelimit_state))
				1958	dev_err(DEV, "Can not satisfy peer's read request, "
				1959	"no local data.\n");
				1960	drbd_send_ack_rp(mdev, h->command == P_DATA_REQUEST ? P_NEG_DREPLY :
				1961	P_NEG_RS_DREPLY , p);
Lars Ellenberg	c3470cd	2010-04-01 16:57:19 +0200	[diff] [blame]	1962	return drbd_drain_block(mdev, h->length - brps);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	1963	}
				1964
				1965	/* GFP_NOIO, because we must not cause arbitrary write-out: in a DRBD
				1966	* "criss-cross" setup, that might cause write-out on some other DRBD,
				1967	* which in turn might block on the other node at this very place. */
				1968	e = drbd_alloc_ee(mdev, p->block_id, sector, size, GFP_NOIO);
				1969	if (!e) {
				1970	put_ldev(mdev);
				1971	return FALSE;
				1972	}
				1973
				1974	e->private_bio->bi_rw = READ;
				1975	e->private_bio->bi_end_io = drbd_endio_read_sec;
				1976
				1977	switch (h->command) {
				1978	case P_DATA_REQUEST:
				1979	e->w.cb = w_e_end_data_req;
				1980	fault_type = DRBD_FAULT_DT_RD;
				1981	break;
				1982	case P_RS_DATA_REQUEST:
				1983	e->w.cb = w_e_end_rsdata_req;
				1984	fault_type = DRBD_FAULT_RS_RD;
				1985	/* Eventually this should become asynchronously. Currently it
				1986	* blocks the whole receiver just to delay the reading of a
				1987	* resync data block.
				1988	* the drbd_work_queue mechanism is made for this...
				1989	*/
				1990	if (!drbd_rs_begin_io(mdev, sector)) {
				1991	/* we have been interrupted,
				1992	* probably connection lost! */
				1993	D_ASSERT(signal_pending(current));
				1994	goto out_free_e;
				1995	}
				1996	break;
				1997
				1998	case P_OV_REPLY:
				1999	case P_CSUM_RS_REQUEST:
				2000	fault_type = DRBD_FAULT_RS_RD;
				2001	digest_size = h->length - brps ;
				2002	di = kmalloc(sizeof(*di) + digest_size, GFP_NOIO);
				2003	if (!di)
				2004	goto out_free_e;
				2005
				2006	di->digest_size = digest_size;
				2007	di->digest = (((char *)di)+sizeof(struct digest_info));
				2008
				2009	if (drbd_recv(mdev, di->digest, digest_size) != digest_size)
				2010	goto out_free_e;
				2011
				2012	e->block_id = (u64)(unsigned long)di;
				2013	if (h->command == P_CSUM_RS_REQUEST) {
				2014	D_ASSERT(mdev->agreed_pro_version >= 89);
				2015	e->w.cb = w_e_end_csum_rs_req;
				2016	} else if (h->command == P_OV_REPLY) {
				2017	e->w.cb = w_e_end_ov_reply;
				2018	dec_rs_pending(mdev);
				2019	break;
				2020	}
				2021
				2022	if (!drbd_rs_begin_io(mdev, sector)) {
				2023	/* we have been interrupted, probably connection lost! */
				2024	D_ASSERT(signal_pending(current));
				2025	goto out_free_e;
				2026	}
				2027	break;
				2028
				2029	case P_OV_REQUEST:
				2030	if (mdev->state.conn >= C_CONNECTED &&
				2031	mdev->state.conn != C_VERIFY_T)
				2032	dev_warn(DEV, "ASSERT FAILED: got P_OV_REQUEST while being %s\n",
				2033	drbd_conn_str(mdev->state.conn));
				2034	if (mdev->ov_start_sector == ~(sector_t)0 &&
				2035	mdev->agreed_pro_version >= 90) {
				2036	mdev->ov_start_sector = sector;
				2037	mdev->ov_position = sector;
				2038	mdev->ov_left = mdev->rs_total - BM_SECT_TO_BIT(sector);
				2039	dev_info(DEV, "Online Verify start sector: %llu\n",
				2040	(unsigned long long)sector);
				2041	}
				2042	e->w.cb = w_e_end_ov_req;
				2043	fault_type = DRBD_FAULT_RS_RD;
				2044	/* Eventually this should become asynchronous. Currently it
				2045	* blocks the whole receiver just to delay the reading of a
				2046	* resync data block.
				2047	* the drbd_work_queue mechanism is made for this...
				2048	*/
				2049	if (!drbd_rs_begin_io(mdev, sector)) {
				2050	/* we have been interrupted,
				2051	* probably connection lost! */
				2052	D_ASSERT(signal_pending(current));
				2053	goto out_free_e;
				2054	}
				2055	break;
				2056
				2057
				2058	default:
				2059	dev_err(DEV, "unexpected command (%s) in receive_DataRequest\n",
				2060	cmdname(h->command));
				2061	fault_type = DRBD_FAULT_MAX;
				2062	}
				2063
				2064	spin_lock_irq(&mdev->req_lock);
				2065	list_add(&e->w.list, &mdev->read_ee);
				2066	spin_unlock_irq(&mdev->req_lock);
				2067
				2068	inc_unacked(mdev);
				2069
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2070	drbd_generic_make_request(mdev, fault_type, e->private_bio);
				2071	maybe_kick_lo(mdev);
				2072
				2073	return TRUE;
				2074
				2075	out_free_e:
				2076	kfree(di);
				2077	put_ldev(mdev);
				2078	drbd_free_ee(mdev, e);
				2079	return FALSE;
				2080	}
				2081
				2082	static int drbd_asb_recover_0p(struct drbd_conf *mdev) __must_hold(local)
				2083	{
				2084	int self, peer, rv = -100;
				2085	unsigned long ch_self, ch_peer;
				2086
				2087	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2088	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2089
				2090	ch_peer = mdev->p_uuid[UI_SIZE];
				2091	ch_self = mdev->comm_bm_set;
				2092
				2093	switch (mdev->net_conf->after_sb_0p) {
				2094	case ASB_CONSENSUS:
				2095	case ASB_DISCARD_SECONDARY:
				2096	case ASB_CALL_HELPER:
				2097	dev_err(DEV, "Configuration error.\n");
				2098	break;
				2099	case ASB_DISCONNECT:
				2100	break;
				2101	case ASB_DISCARD_YOUNGER_PRI:
				2102	if (self == 0 && peer == 1) {
				2103	rv = -1;
				2104	break;
				2105	}
				2106	if (self == 1 && peer == 0) {
				2107	rv = 1;
				2108	break;
				2109	}
				2110	/* Else fall through to one of the other strategies... */
				2111	case ASB_DISCARD_OLDER_PRI:
				2112	if (self == 0 && peer == 1) {
				2113	rv = 1;
				2114	break;
				2115	}
				2116	if (self == 1 && peer == 0) {
				2117	rv = -1;
				2118	break;
				2119	}
				2120	/* Else fall through to one of the other strategies... */
Lars Ellenberg	ad19bf6	2009-10-14 09:36:49 +0200	[diff] [blame]	2121	dev_warn(DEV, "Discard younger/older primary did not find a decision\n"
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2122	"Using discard-least-changes instead\n");
				2123	case ASB_DISCARD_ZERO_CHG:
				2124	if (ch_peer == 0 && ch_self == 0) {
				2125	rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
				2126	? -1 : 1;
				2127	break;
				2128	} else {
				2129	if (ch_peer == 0) { rv = 1; break; }
				2130	if (ch_self == 0) { rv = -1; break; }
				2131	}
				2132	if (mdev->net_conf->after_sb_0p == ASB_DISCARD_ZERO_CHG)
				2133	break;
				2134	case ASB_DISCARD_LEAST_CHG:
				2135	if (ch_self < ch_peer)
				2136	rv = -1;
				2137	else if (ch_self > ch_peer)
				2138	rv = 1;
				2139	else /* ( ch_self == ch_peer ) */
				2140	/* Well, then use something else. */
				2141	rv = test_bit(DISCARD_CONCURRENT, &mdev->flags)
				2142	? -1 : 1;
				2143	break;
				2144	case ASB_DISCARD_LOCAL:
				2145	rv = -1;
				2146	break;
				2147	case ASB_DISCARD_REMOTE:
				2148	rv = 1;
				2149	}
				2150
				2151	return rv;
				2152	}
				2153
				2154	static int drbd_asb_recover_1p(struct drbd_conf *mdev) __must_hold(local)
				2155	{
				2156	int self, peer, hg, rv = -100;
				2157
				2158	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2159	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2160
				2161	switch (mdev->net_conf->after_sb_1p) {
				2162	case ASB_DISCARD_YOUNGER_PRI:
				2163	case ASB_DISCARD_OLDER_PRI:
				2164	case ASB_DISCARD_LEAST_CHG:
				2165	case ASB_DISCARD_LOCAL:
				2166	case ASB_DISCARD_REMOTE:
				2167	dev_err(DEV, "Configuration error.\n");
				2168	break;
				2169	case ASB_DISCONNECT:
				2170	break;
				2171	case ASB_CONSENSUS:
				2172	hg = drbd_asb_recover_0p(mdev);
				2173	if (hg == -1 && mdev->state.role == R_SECONDARY)
				2174	rv = hg;
				2175	if (hg == 1 && mdev->state.role == R_PRIMARY)
				2176	rv = hg;
				2177	break;
				2178	case ASB_VIOLENTLY:
				2179	rv = drbd_asb_recover_0p(mdev);
				2180	break;
				2181	case ASB_DISCARD_SECONDARY:
				2182	return mdev->state.role == R_PRIMARY ? 1 : -1;
				2183	case ASB_CALL_HELPER:
				2184	hg = drbd_asb_recover_0p(mdev);
				2185	if (hg == -1 && mdev->state.role == R_PRIMARY) {
				2186	self = drbd_set_role(mdev, R_SECONDARY, 0);
				2187	/* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
				2188	* we might be here in C_WF_REPORT_PARAMS which is transient.
				2189	* we do not need to wait for the after state change work either. */
				2190	self = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
				2191	if (self != SS_SUCCESS) {
				2192	drbd_khelper(mdev, "pri-lost-after-sb");
				2193	} else {
				2194	dev_warn(DEV, "Successfully gave up primary role.\n");
				2195	rv = hg;
				2196	}
				2197	} else
				2198	rv = hg;
				2199	}
				2200
				2201	return rv;
				2202	}
				2203
				2204	static int drbd_asb_recover_2p(struct drbd_conf *mdev) __must_hold(local)
				2205	{
				2206	int self, peer, hg, rv = -100;
				2207
				2208	self = mdev->ldev->md.uuid[UI_BITMAP] & 1;
				2209	peer = mdev->p_uuid[UI_BITMAP] & 1;
				2210
				2211	switch (mdev->net_conf->after_sb_2p) {
				2212	case ASB_DISCARD_YOUNGER_PRI:
				2213	case ASB_DISCARD_OLDER_PRI:
				2214	case ASB_DISCARD_LEAST_CHG:
				2215	case ASB_DISCARD_LOCAL:
				2216	case ASB_DISCARD_REMOTE:
				2217	case ASB_CONSENSUS:
				2218	case ASB_DISCARD_SECONDARY:
				2219	dev_err(DEV, "Configuration error.\n");
				2220	break;
				2221	case ASB_VIOLENTLY:
				2222	rv = drbd_asb_recover_0p(mdev);
				2223	break;
				2224	case ASB_DISCONNECT:
				2225	break;
				2226	case ASB_CALL_HELPER:
				2227	hg = drbd_asb_recover_0p(mdev);
				2228	if (hg == -1) {
				2229	/* drbd_change_state() does not sleep while in SS_IN_TRANSIENT_STATE,
				2230	* we might be here in C_WF_REPORT_PARAMS which is transient.
				2231	* we do not need to wait for the after state change work either. */
				2232	self = drbd_change_state(mdev, CS_VERBOSE, NS(role, R_SECONDARY));
				2233	if (self != SS_SUCCESS) {
				2234	drbd_khelper(mdev, "pri-lost-after-sb");
				2235	} else {
				2236	dev_warn(DEV, "Successfully gave up primary role.\n");
				2237	rv = hg;
				2238	}
				2239	} else
				2240	rv = hg;
				2241	}
				2242
				2243	return rv;
				2244	}
				2245
				2246	static void drbd_uuid_dump(struct drbd_conf mdev, char text, u64 *uuid,
				2247	u64 bits, u64 flags)
				2248	{
				2249	if (!uuid) {
				2250	dev_info(DEV, "%s uuid info vanished while I was looking!\n", text);
				2251	return;
				2252	}
				2253	dev_info(DEV, "%s %016llX:%016llX:%016llX:%016llX bits:%llu flags:%llX\n",
				2254	text,
				2255	(unsigned long long)uuid[UI_CURRENT],
				2256	(unsigned long long)uuid[UI_BITMAP],
				2257	(unsigned long long)uuid[UI_HISTORY_START],
				2258	(unsigned long long)uuid[UI_HISTORY_END],
				2259	(unsigned long long)bits,
				2260	(unsigned long long)flags);
				2261	}
				2262
				2263	/*
				2264	100 after split brain try auto recover
				2265	2 C_SYNC_SOURCE set BitMap
				2266	1 C_SYNC_SOURCE use BitMap
				2267	0 no Sync
				2268	-1 C_SYNC_TARGET use BitMap
				2269	-2 C_SYNC_TARGET set BitMap
				2270	-100 after split brain, disconnect
				2271	-1000 unrelated data
				2272	*/
				2273	static int drbd_uuid_compare(struct drbd_conf mdev, int rule_nr) __must_hold(local)
				2274	{
				2275	u64 self, peer;
				2276	int i, j;
				2277
				2278	self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
				2279	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
				2280
				2281	*rule_nr = 10;
				2282	if (self == UUID_JUST_CREATED && peer == UUID_JUST_CREATED)
				2283	return 0;
				2284
				2285	*rule_nr = 20;
				2286	if ((self == UUID_JUST_CREATED \|\| self == (u64)0) &&
				2287	peer != UUID_JUST_CREATED)
				2288	return -2;
				2289
				2290	*rule_nr = 30;
				2291	if (self != UUID_JUST_CREATED &&
				2292	(peer == UUID_JUST_CREATED \|\| peer == (u64)0))
				2293	return 2;
				2294
				2295	if (self == peer) {
				2296	int rct, dc; /* roles at crash time */
				2297
				2298	if (mdev->p_uuid[UI_BITMAP] == (u64)0 && mdev->ldev->md.uuid[UI_BITMAP] != (u64)0) {
				2299
				2300	if (mdev->agreed_pro_version < 91)
				2301	return -1001;
				2302
				2303	if ((mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1)) &&
				2304	(mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1))) {
				2305	dev_info(DEV, "was SyncSource, missed the resync finished event, corrected myself:\n");
				2306	drbd_uuid_set_bm(mdev, 0UL);
				2307
				2308	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
				2309	mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
				2310	*rule_nr = 34;
				2311	} else {
				2312	dev_info(DEV, "was SyncSource (peer failed to write sync_uuid)\n");
				2313	*rule_nr = 36;
				2314	}
				2315
				2316	return 1;
				2317	}
				2318
				2319	if (mdev->ldev->md.uuid[UI_BITMAP] == (u64)0 && mdev->p_uuid[UI_BITMAP] != (u64)0) {
				2320
				2321	if (mdev->agreed_pro_version < 91)
				2322	return -1001;
				2323
				2324	if ((mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1)) == (mdev->p_uuid[UI_BITMAP] & ~((u64)1)) &&
				2325	(mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1)) == (mdev->p_uuid[UI_HISTORY_START] & ~((u64)1))) {
				2326	dev_info(DEV, "was SyncTarget, peer missed the resync finished event, corrected peer:\n");
				2327
				2328	mdev->p_uuid[UI_HISTORY_START + 1] = mdev->p_uuid[UI_HISTORY_START];
				2329	mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_BITMAP];
				2330	mdev->p_uuid[UI_BITMAP] = 0UL;
				2331
				2332	drbd_uuid_dump(mdev, "peer", mdev->p_uuid, mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
				2333	*rule_nr = 35;
				2334	} else {
				2335	dev_info(DEV, "was SyncTarget (failed to write sync_uuid)\n");
				2336	*rule_nr = 37;
				2337	}
				2338
				2339	return -1;
				2340	}
				2341
				2342	/* Common power [off\|failure] */
				2343	rct = (test_bit(CRASHED_PRIMARY, &mdev->flags) ? 1 : 0) +
				2344	(mdev->p_uuid[UI_FLAGS] & 2);
				2345	/* lowest bit is set when we were primary,
				2346	* next bit (weight 2) is set when peer was primary */
				2347	*rule_nr = 40;
				2348
				2349	switch (rct) {
				2350	case 0: /* !self_pri && !peer_pri */ return 0;
				2351	case 1: /* self_pri && !peer_pri */ return 1;
				2352	case 2: /* !self_pri && peer_pri */ return -1;
				2353	case 3: /* self_pri && peer_pri */
				2354	dc = test_bit(DISCARD_CONCURRENT, &mdev->flags);
				2355	return dc ? -1 : 1;
				2356	}
				2357	}
				2358
				2359	*rule_nr = 50;
				2360	peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
				2361	if (self == peer)
				2362	return -1;
				2363
				2364	*rule_nr = 51;
				2365	peer = mdev->p_uuid[UI_HISTORY_START] & ~((u64)1);
				2366	if (self == peer) {
				2367	self = mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1);
				2368	peer = mdev->p_uuid[UI_HISTORY_START + 1] & ~((u64)1);
				2369	if (self == peer) {
				2370	/* The last P_SYNC_UUID did not get though. Undo the last start of
				2371	resync as sync source modifications of the peer's UUIDs. */
				2372
				2373	if (mdev->agreed_pro_version < 91)
				2374	return -1001;
				2375
				2376	mdev->p_uuid[UI_BITMAP] = mdev->p_uuid[UI_HISTORY_START];
				2377	mdev->p_uuid[UI_HISTORY_START] = mdev->p_uuid[UI_HISTORY_START + 1];
				2378	return -1;
				2379	}
				2380	}
				2381
				2382	*rule_nr = 60;
				2383	self = mdev->ldev->md.uuid[UI_CURRENT] & ~((u64)1);
				2384	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2385	peer = mdev->p_uuid[i] & ~((u64)1);
				2386	if (self == peer)
				2387	return -2;
				2388	}
				2389
				2390	*rule_nr = 70;
				2391	self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
				2392	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
				2393	if (self == peer)
				2394	return 1;
				2395
				2396	*rule_nr = 71;
				2397	self = mdev->ldev->md.uuid[UI_HISTORY_START] & ~((u64)1);
				2398	if (self == peer) {
				2399	self = mdev->ldev->md.uuid[UI_HISTORY_START + 1] & ~((u64)1);
				2400	peer = mdev->p_uuid[UI_HISTORY_START] & ~((u64)1);
				2401	if (self == peer) {
				2402	/* The last P_SYNC_UUID did not get though. Undo the last start of
				2403	resync as sync source modifications of our UUIDs. */
				2404
				2405	if (mdev->agreed_pro_version < 91)
				2406	return -1001;
				2407
				2408	_drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_HISTORY_START]);
				2409	_drbd_uuid_set(mdev, UI_HISTORY_START, mdev->ldev->md.uuid[UI_HISTORY_START + 1]);
				2410
				2411	dev_info(DEV, "Undid last start of resync:\n");
				2412
				2413	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid,
				2414	mdev->state.disk >= D_NEGOTIATING ? drbd_bm_total_weight(mdev) : 0, 0);
				2415
				2416	return 1;
				2417	}
				2418	}
				2419
				2420
				2421	*rule_nr = 80;
Philipp Reisner	d8c2a36	2009-11-18 15:52:51 +0100	[diff] [blame]	2422	peer = mdev->p_uuid[UI_CURRENT] & ~((u64)1);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2423	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2424	self = mdev->ldev->md.uuid[i] & ~((u64)1);
				2425	if (self == peer)
				2426	return 2;
				2427	}
				2428
				2429	*rule_nr = 90;
				2430	self = mdev->ldev->md.uuid[UI_BITMAP] & ~((u64)1);
				2431	peer = mdev->p_uuid[UI_BITMAP] & ~((u64)1);
				2432	if (self == peer && self != ((u64)0))
				2433	return 100;
				2434
				2435	*rule_nr = 100;
				2436	for (i = UI_HISTORY_START; i <= UI_HISTORY_END; i++) {
				2437	self = mdev->ldev->md.uuid[i] & ~((u64)1);
				2438	for (j = UI_HISTORY_START; j <= UI_HISTORY_END; j++) {
				2439	peer = mdev->p_uuid[j] & ~((u64)1);
				2440	if (self == peer)
				2441	return -100;
				2442	}
				2443	}
				2444
				2445	return -1000;
				2446	}
				2447
				2448	/* drbd_sync_handshake() returns the new conn state on success, or
				2449	CONN_MASK (-1) on failure.
				2450	*/
				2451	static enum drbd_conns drbd_sync_handshake(struct drbd_conf *mdev, enum drbd_role peer_role,
				2452	enum drbd_disk_state peer_disk) __must_hold(local)
				2453	{
				2454	int hg, rule_nr;
				2455	enum drbd_conns rv = C_MASK;
				2456	enum drbd_disk_state mydisk;
				2457
				2458	mydisk = mdev->state.disk;
				2459	if (mydisk == D_NEGOTIATING)
				2460	mydisk = mdev->new_state_tmp.disk;
				2461
				2462	dev_info(DEV, "drbd_sync_handshake:\n");
				2463	drbd_uuid_dump(mdev, "self", mdev->ldev->md.uuid, mdev->comm_bm_set, 0);
				2464	drbd_uuid_dump(mdev, "peer", mdev->p_uuid,
				2465	mdev->p_uuid[UI_SIZE], mdev->p_uuid[UI_FLAGS]);
				2466
				2467	hg = drbd_uuid_compare(mdev, &rule_nr);
				2468
				2469	dev_info(DEV, "uuid_compare()=%d by rule %d\n", hg, rule_nr);
				2470
				2471	if (hg == -1000) {
				2472	dev_alert(DEV, "Unrelated data, aborting!\n");
				2473	return C_MASK;
				2474	}
				2475	if (hg == -1001) {
				2476	dev_alert(DEV, "To resolve this both sides have to support at least protocol\n");
				2477	return C_MASK;
				2478	}
				2479
				2480	if ((mydisk == D_INCONSISTENT && peer_disk > D_INCONSISTENT) \|\|
				2481	(peer_disk == D_INCONSISTENT && mydisk > D_INCONSISTENT)) {
				2482	int f = (hg == -100) \|\| abs(hg) == 2;
				2483	hg = mydisk > D_INCONSISTENT ? 1 : -1;
				2484	if (f)
				2485	hg = hg*2;
				2486	dev_info(DEV, "Becoming sync %s due to disk states.\n",
				2487	hg > 0 ? "source" : "target");
				2488	}
				2489
				2490	if (hg == 100 \|\| (hg == -100 && mdev->net_conf->always_asbp)) {
				2491	int pcount = (mdev->state.role == R_PRIMARY)
				2492	+ (peer_role == R_PRIMARY);
				2493	int forced = (hg == -100);
				2494
				2495	switch (pcount) {
				2496	case 0:
				2497	hg = drbd_asb_recover_0p(mdev);
				2498	break;
				2499	case 1:
				2500	hg = drbd_asb_recover_1p(mdev);
				2501	break;
				2502	case 2:
				2503	hg = drbd_asb_recover_2p(mdev);
				2504	break;
				2505	}
				2506	if (abs(hg) < 100) {
				2507	dev_warn(DEV, "Split-Brain detected, %d primaries, "
				2508	"automatically solved. Sync from %s node\n",
				2509	pcount, (hg < 0) ? "peer" : "this");
				2510	if (forced) {
				2511	dev_warn(DEV, "Doing a full sync, since"
				2512	" UUIDs where ambiguous.\n");
				2513	hg = hg*2;
				2514	}
				2515	}
				2516	}
				2517
				2518	if (hg == -100) {
				2519	if (mdev->net_conf->want_lose && !(mdev->p_uuid[UI_FLAGS]&1))
				2520	hg = -1;
				2521	if (!mdev->net_conf->want_lose && (mdev->p_uuid[UI_FLAGS]&1))
				2522	hg = 1;
				2523
				2524	if (abs(hg) < 100)
				2525	dev_warn(DEV, "Split-Brain detected, manually solved. "
				2526	"Sync from %s node\n",
				2527	(hg < 0) ? "peer" : "this");
				2528	}
				2529
				2530	if (hg == -100) {
Lars Ellenberg	580b976	2010-02-26 23:15:23 +0100	[diff] [blame]	2531	/* FIXME this log message is not correct if we end up here
				2532	* after an attempted attach on a diskless node.
				2533	* We just refuse to attach -- well, we drop the "connection"
				2534	* to that disk, in a way... */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2535	dev_alert(DEV, "Split-Brain detected, dropping connection!\n");
				2536	drbd_khelper(mdev, "split-brain");
				2537	return C_MASK;
				2538	}
				2539
				2540	if (hg > 0 && mydisk <= D_INCONSISTENT) {
				2541	dev_err(DEV, "I shall become SyncSource, but I am inconsistent!\n");
				2542	return C_MASK;
				2543	}
				2544
				2545	if (hg < 0 && /* by intention we do not use mydisk here. */
				2546	mdev->state.role == R_PRIMARY && mdev->state.disk >= D_CONSISTENT) {
				2547	switch (mdev->net_conf->rr_conflict) {
				2548	case ASB_CALL_HELPER:
				2549	drbd_khelper(mdev, "pri-lost");
				2550	/* fall through */
				2551	case ASB_DISCONNECT:
				2552	dev_err(DEV, "I shall become SyncTarget, but I am primary!\n");
				2553	return C_MASK;
				2554	case ASB_VIOLENTLY:
				2555	dev_warn(DEV, "Becoming SyncTarget, violating the stable-data"
				2556	"assumption\n");
				2557	}
				2558	}
				2559
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2560	if (mdev->net_conf->dry_run \|\| test_bit(CONN_DRY_RUN, &mdev->flags)) {
				2561	if (hg == 0)
				2562	dev_info(DEV, "dry-run connect: No resync, would become Connected immediately.\n");
				2563	else
				2564	dev_info(DEV, "dry-run connect: Would become %s, doing a %s resync.",
				2565	drbd_conn_str(hg > 0 ? C_SYNC_SOURCE : C_SYNC_TARGET),
				2566	abs(hg) >= 2 ? "full" : "bit-map based");
				2567	return C_MASK;
				2568	}
				2569
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2570	if (abs(hg) >= 2) {
				2571	dev_info(DEV, "Writing the whole bitmap, full sync required after drbd_sync_handshake.\n");
				2572	if (drbd_bitmap_io(mdev, &drbd_bmio_set_n_write, "set_n_write from sync_handshake"))
				2573	return C_MASK;
				2574	}
				2575
				2576	if (hg > 0) { /* become sync source. */
				2577	rv = C_WF_BITMAP_S;
				2578	} else if (hg < 0) { /* become sync target */
				2579	rv = C_WF_BITMAP_T;
				2580	} else {
				2581	rv = C_CONNECTED;
				2582	if (drbd_bm_total_weight(mdev)) {
				2583	dev_info(DEV, "No resync, but %lu bits in bitmap!\n",
				2584	drbd_bm_total_weight(mdev));
				2585	}
				2586	}
				2587
				2588	return rv;
				2589	}
				2590
				2591	/* returns 1 if invalid */
				2592	static int cmp_after_sb(enum drbd_after_sb_p peer, enum drbd_after_sb_p self)
				2593	{
				2594	/* ASB_DISCARD_REMOTE - ASB_DISCARD_LOCAL is valid */
				2595	if ((peer == ASB_DISCARD_REMOTE && self == ASB_DISCARD_LOCAL) \|\|
				2596	(self == ASB_DISCARD_REMOTE && peer == ASB_DISCARD_LOCAL))
				2597	return 0;
				2598
				2599	/* any other things with ASB_DISCARD_REMOTE or ASB_DISCARD_LOCAL are invalid */
				2600	if (peer == ASB_DISCARD_REMOTE \|\| peer == ASB_DISCARD_LOCAL \|\|
				2601	self == ASB_DISCARD_REMOTE \|\| self == ASB_DISCARD_LOCAL)
				2602	return 1;
				2603
				2604	/* everything else is valid if they are equal on both sides. */
				2605	if (peer == self)
				2606	return 0;
				2607
				2608	/* everything es is invalid. */
				2609	return 1;
				2610	}
				2611
				2612	static int receive_protocol(struct drbd_conf mdev, struct p_header h)
				2613	{
				2614	struct p_protocol p = (struct p_protocol )h;
				2615	int header_size, data_size;
				2616	int p_proto, p_after_sb_0p, p_after_sb_1p, p_after_sb_2p;
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2617	int p_want_lose, p_two_primaries, cf;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2618	char p_integrity_alg[SHARED_SECRET_MAX] = "";
				2619
				2620	header_size = sizeof(p) - sizeof(h);
				2621	data_size = h->length - header_size;
				2622
				2623	if (drbd_recv(mdev, h->payload, header_size) != header_size)
				2624	return FALSE;
				2625
				2626	p_proto = be32_to_cpu(p->protocol);
				2627	p_after_sb_0p = be32_to_cpu(p->after_sb_0p);
				2628	p_after_sb_1p = be32_to_cpu(p->after_sb_1p);
				2629	p_after_sb_2p = be32_to_cpu(p->after_sb_2p);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2630	p_two_primaries = be32_to_cpu(p->two_primaries);
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	2631	cf = be32_to_cpu(p->conn_flags);
				2632	p_want_lose = cf & CF_WANT_LOSE;
				2633
				2634	clear_bit(CONN_DRY_RUN, &mdev->flags);
				2635
				2636	if (cf & CF_DRY_RUN)
				2637	set_bit(CONN_DRY_RUN, &mdev->flags);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2638
				2639	if (p_proto != mdev->net_conf->wire_protocol) {
				2640	dev_err(DEV, "incompatible communication protocols\n");
				2641	goto disconnect;
				2642	}
				2643
				2644	if (cmp_after_sb(p_after_sb_0p, mdev->net_conf->after_sb_0p)) {
				2645	dev_err(DEV, "incompatible after-sb-0pri settings\n");
				2646	goto disconnect;
				2647	}
				2648
				2649	if (cmp_after_sb(p_after_sb_1p, mdev->net_conf->after_sb_1p)) {
				2650	dev_err(DEV, "incompatible after-sb-1pri settings\n");
				2651	goto disconnect;
				2652	}
				2653
				2654	if (cmp_after_sb(p_after_sb_2p, mdev->net_conf->after_sb_2p)) {
				2655	dev_err(DEV, "incompatible after-sb-2pri settings\n");
				2656	goto disconnect;
				2657	}
				2658
				2659	if (p_want_lose && mdev->net_conf->want_lose) {
				2660	dev_err(DEV, "both sides have the 'want_lose' flag set\n");
				2661	goto disconnect;
				2662	}
				2663
				2664	if (p_two_primaries != mdev->net_conf->two_primaries) {
				2665	dev_err(DEV, "incompatible setting of the two-primaries options\n");
				2666	goto disconnect;
				2667	}
				2668
				2669	if (mdev->agreed_pro_version >= 87) {
				2670	unsigned char *my_alg = mdev->net_conf->integrity_alg;
				2671
				2672	if (drbd_recv(mdev, p_integrity_alg, data_size) != data_size)
				2673	return FALSE;
				2674
				2675	p_integrity_alg[SHARED_SECRET_MAX-1] = 0;
				2676	if (strcmp(p_integrity_alg, my_alg)) {
				2677	dev_err(DEV, "incompatible setting of the data-integrity-alg\n");
				2678	goto disconnect;
				2679	}
				2680	dev_info(DEV, "data-integrity-alg: %s\n",
				2681	my_alg[0] ? my_alg : (unsigned char *)"<not-used>");
				2682	}
				2683
				2684	return TRUE;
				2685
				2686	disconnect:
				2687	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2688	return FALSE;
				2689	}
				2690
				2691	/* helper function
				2692	* input: alg name, feature name
				2693	* return: NULL (alg name was "")
				2694	* ERR_PTR(error) if something goes wrong
				2695	* or the crypto hash ptr, if it worked out ok. */
				2696	struct crypto_hash drbd_crypto_alloc_digest_safe(const struct drbd_conf mdev,
				2697	const char alg, const char name)
				2698	{
				2699	struct crypto_hash *tfm;
				2700
				2701	if (!alg[0])
				2702	return NULL;
				2703
				2704	tfm = crypto_alloc_hash(alg, 0, CRYPTO_ALG_ASYNC);
				2705	if (IS_ERR(tfm)) {
				2706	dev_err(DEV, "Can not allocate \"%s\" as %s (reason: %ld)\n",
				2707	alg, name, PTR_ERR(tfm));
				2708	return tfm;
				2709	}
				2710	if (!drbd_crypto_is_hash(crypto_hash_tfm(tfm))) {
				2711	crypto_free_hash(tfm);
				2712	dev_err(DEV, "\"%s\" is not a digest (%s)\n", alg, name);
				2713	return ERR_PTR(-EINVAL);
				2714	}
				2715	return tfm;
				2716	}
				2717
				2718	static int receive_SyncParam(struct drbd_conf mdev, struct p_header h)
				2719	{
				2720	int ok = TRUE;
				2721	struct p_rs_param_89 p = (struct p_rs_param_89 )h;
				2722	unsigned int header_size, data_size, exp_max_sz;
				2723	struct crypto_hash *verify_tfm = NULL;
				2724	struct crypto_hash *csums_tfm = NULL;
				2725	const int apv = mdev->agreed_pro_version;
				2726
				2727	exp_max_sz = apv <= 87 ? sizeof(struct p_rs_param)
				2728	: apv == 88 ? sizeof(struct p_rs_param)
				2729	+ SHARED_SECRET_MAX
				2730	: /* 89 */ sizeof(struct p_rs_param_89);
				2731
				2732	if (h->length > exp_max_sz) {
				2733	dev_err(DEV, "SyncParam packet too long: received %u, expected <= %u bytes\n",
				2734	h->length, exp_max_sz);
				2735	return FALSE;
				2736	}
				2737
				2738	if (apv <= 88) {
				2739	header_size = sizeof(struct p_rs_param) - sizeof(*h);
				2740	data_size = h->length - header_size;
				2741	} else /* apv >= 89 */ {
				2742	header_size = sizeof(struct p_rs_param_89) - sizeof(*h);
				2743	data_size = h->length - header_size;
				2744	D_ASSERT(data_size == 0);
				2745	}
				2746
				2747	/* initialize verify_alg and csums_alg */
				2748	memset(p->verify_alg, 0, 2 * SHARED_SECRET_MAX);
				2749
				2750	if (drbd_recv(mdev, h->payload, header_size) != header_size)
				2751	return FALSE;
				2752
				2753	mdev->sync_conf.rate = be32_to_cpu(p->rate);
				2754
				2755	if (apv >= 88) {
				2756	if (apv == 88) {
				2757	if (data_size > SHARED_SECRET_MAX) {
				2758	dev_err(DEV, "verify-alg too long, "
				2759	"peer wants %u, accepting only %u byte\n",
				2760	data_size, SHARED_SECRET_MAX);
				2761	return FALSE;
				2762	}
				2763
				2764	if (drbd_recv(mdev, p->verify_alg, data_size) != data_size)
				2765	return FALSE;
				2766
				2767	/* we expect NUL terminated string */
				2768	/* but just in case someone tries to be evil */
				2769	D_ASSERT(p->verify_alg[data_size-1] == 0);
				2770	p->verify_alg[data_size-1] = 0;
				2771
				2772	} else /* apv >= 89 */ {
				2773	/* we still expect NUL terminated strings */
				2774	/* but just in case someone tries to be evil */
				2775	D_ASSERT(p->verify_alg[SHARED_SECRET_MAX-1] == 0);
				2776	D_ASSERT(p->csums_alg[SHARED_SECRET_MAX-1] == 0);
				2777	p->verify_alg[SHARED_SECRET_MAX-1] = 0;
				2778	p->csums_alg[SHARED_SECRET_MAX-1] = 0;
				2779	}
				2780
				2781	if (strcmp(mdev->sync_conf.verify_alg, p->verify_alg)) {
				2782	if (mdev->state.conn == C_WF_REPORT_PARAMS) {
				2783	dev_err(DEV, "Different verify-alg settings. me=\"%s\" peer=\"%s\"\n",
				2784	mdev->sync_conf.verify_alg, p->verify_alg);
				2785	goto disconnect;
				2786	}
				2787	verify_tfm = drbd_crypto_alloc_digest_safe(mdev,
				2788	p->verify_alg, "verify-alg");
				2789	if (IS_ERR(verify_tfm)) {
				2790	verify_tfm = NULL;
				2791	goto disconnect;
				2792	}
				2793	}
				2794
				2795	if (apv >= 89 && strcmp(mdev->sync_conf.csums_alg, p->csums_alg)) {
				2796	if (mdev->state.conn == C_WF_REPORT_PARAMS) {
				2797	dev_err(DEV, "Different csums-alg settings. me=\"%s\" peer=\"%s\"\n",
				2798	mdev->sync_conf.csums_alg, p->csums_alg);
				2799	goto disconnect;
				2800	}
				2801	csums_tfm = drbd_crypto_alloc_digest_safe(mdev,
				2802	p->csums_alg, "csums-alg");
				2803	if (IS_ERR(csums_tfm)) {
				2804	csums_tfm = NULL;
				2805	goto disconnect;
				2806	}
				2807	}
				2808
				2809
				2810	spin_lock(&mdev->peer_seq_lock);
				2811	/* lock against drbd_nl_syncer_conf() */
				2812	if (verify_tfm) {
				2813	strcpy(mdev->sync_conf.verify_alg, p->verify_alg);
				2814	mdev->sync_conf.verify_alg_len = strlen(p->verify_alg) + 1;
				2815	crypto_free_hash(mdev->verify_tfm);
				2816	mdev->verify_tfm = verify_tfm;
				2817	dev_info(DEV, "using verify-alg: \"%s\"\n", p->verify_alg);
				2818	}
				2819	if (csums_tfm) {
				2820	strcpy(mdev->sync_conf.csums_alg, p->csums_alg);
				2821	mdev->sync_conf.csums_alg_len = strlen(p->csums_alg) + 1;
				2822	crypto_free_hash(mdev->csums_tfm);
				2823	mdev->csums_tfm = csums_tfm;
				2824	dev_info(DEV, "using csums-alg: \"%s\"\n", p->csums_alg);
				2825	}
				2826	spin_unlock(&mdev->peer_seq_lock);
				2827	}
				2828
				2829	return ok;
				2830	disconnect:
				2831	/* just for completeness: actually not needed,
				2832	* as this is not reached if csums_tfm was ok. */
				2833	crypto_free_hash(csums_tfm);
				2834	/* but free the verify_tfm again, if csums_tfm did not work out */
				2835	crypto_free_hash(verify_tfm);
				2836	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2837	return FALSE;
				2838	}
				2839
				2840	static void drbd_setup_order_type(struct drbd_conf *mdev, int peer)
				2841	{
				2842	/* sorry, we currently have no working implementation
				2843	* of distributed TCQ */
				2844	}
				2845
				2846	/* warn if the arguments differ by more than 12.5% */
				2847	static void warn_if_differ_considerably(struct drbd_conf *mdev,
				2848	const char *s, sector_t a, sector_t b)
				2849	{
				2850	sector_t d;
				2851	if (a == 0 \|\| b == 0)
				2852	return;
				2853	d = (a > b) ? (a - b) : (b - a);
				2854	if (d > (a>>3) \|\| d > (b>>3))
				2855	dev_warn(DEV, "Considerable difference in %s: %llus vs. %llus\n", s,
				2856	(unsigned long long)a, (unsigned long long)b);
				2857	}
				2858
				2859	static int receive_sizes(struct drbd_conf mdev, struct p_header h)
				2860	{
				2861	struct p_sizes p = (struct p_sizes )h;
				2862	enum determine_dev_size dd = unchanged;
				2863	unsigned int max_seg_s;
				2864	sector_t p_size, p_usize, my_usize;
				2865	int ldsc = 0; /* local disk size changed */
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2866
				2867	ERR_IF(h->length != (sizeof(p)-sizeof(h))) return FALSE;
				2868	if (drbd_recv(mdev, h->payload, h->length) != h->length)
				2869	return FALSE;
				2870
				2871	p_size = be64_to_cpu(p->d_size);
				2872	p_usize = be64_to_cpu(p->u_size);
				2873
				2874	if (p_size == 0 && mdev->state.disk == D_DISKLESS) {
				2875	dev_err(DEV, "some backing storage is needed\n");
				2876	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2877	return FALSE;
				2878	}
				2879
				2880	/* just store the peer's disk size for now.
				2881	* we still need to figure out whether we accept that. */
				2882	mdev->p_size = p_size;
				2883
				2884	#define min_not_zero(l, r) (l == 0) ? r : ((r == 0) ? l : min(l, r))
				2885	if (get_ldev(mdev)) {
				2886	warn_if_differ_considerably(mdev, "lower level device sizes",
				2887	p_size, drbd_get_max_capacity(mdev->ldev));
				2888	warn_if_differ_considerably(mdev, "user requested size",
				2889	p_usize, mdev->ldev->dc.disk_size);
				2890
				2891	/* if this is the first connect, or an otherwise expected
				2892	* param exchange, choose the minimum */
				2893	if (mdev->state.conn == C_WF_REPORT_PARAMS)
				2894	p_usize = min_not_zero((sector_t)mdev->ldev->dc.disk_size,
				2895	p_usize);
				2896
				2897	my_usize = mdev->ldev->dc.disk_size;
				2898
				2899	if (mdev->ldev->dc.disk_size != p_usize) {
				2900	mdev->ldev->dc.disk_size = p_usize;
				2901	dev_info(DEV, "Peer sets u_size to %lu sectors\n",
				2902	(unsigned long)mdev->ldev->dc.disk_size);
				2903	}
				2904
				2905	/* Never shrink a device with usable data during connect.
				2906	But allow online shrinking if we are connected. */
Philipp Reisner	a393db6	2009-12-22 13:35:52 +0100	[diff] [blame]	2907	if (drbd_new_dev_size(mdev, mdev->ldev, 0) <
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2908	drbd_get_capacity(mdev->this_bdev) &&
				2909	mdev->state.disk >= D_OUTDATED &&
				2910	mdev->state.conn < C_CONNECTED) {
				2911	dev_err(DEV, "The peer's disk size is too small!\n");
				2912	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2913	mdev->ldev->dc.disk_size = my_usize;
				2914	put_ldev(mdev);
				2915	return FALSE;
				2916	}
				2917	put_ldev(mdev);
				2918	}
				2919	#undef min_not_zero
				2920
				2921	if (get_ldev(mdev)) {
Philipp Reisner	a393db6	2009-12-22 13:35:52 +0100	[diff] [blame]	2922	dd = drbd_determin_dev_size(mdev, 0);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2923	put_ldev(mdev);
				2924	if (dd == dev_size_error)
				2925	return FALSE;
				2926	drbd_md_sync(mdev);
				2927	} else {
				2928	/* I am diskless, need to accept the peer's size. */
				2929	drbd_set_my_capacity(mdev, p_size);
				2930	}
				2931
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	2932	if (get_ldev(mdev)) {
				2933	if (mdev->ldev->known_size != drbd_get_capacity(mdev->ldev->backing_bdev)) {
				2934	mdev->ldev->known_size = drbd_get_capacity(mdev->ldev->backing_bdev);
				2935	ldsc = 1;
				2936	}
				2937
				2938	max_seg_s = be32_to_cpu(p->max_segment_size);
				2939	if (max_seg_s != queue_max_segment_size(mdev->rq_queue))
				2940	drbd_setup_queue_param(mdev, max_seg_s);
				2941
				2942	drbd_setup_order_type(mdev, be32_to_cpu(p->queue_order_type));
				2943	put_ldev(mdev);
				2944	}
				2945
				2946	if (mdev->state.conn > C_WF_REPORT_PARAMS) {
				2947	if (be64_to_cpu(p->c_size) !=
				2948	drbd_get_capacity(mdev->this_bdev) \|\| ldsc) {
				2949	/* we have different sizes, probably peer
				2950	* needs to know my new size... */
				2951	drbd_send_sizes(mdev, 0);
				2952	}
				2953	if (test_and_clear_bit(RESIZE_PENDING, &mdev->flags) \|\|
				2954	(dd == grew && mdev->state.conn == C_CONNECTED)) {
				2955	if (mdev->state.pdsk >= D_INCONSISTENT &&
				2956	mdev->state.disk >= D_INCONSISTENT)
				2957	resync_after_online_grow(mdev);
				2958	else
				2959	set_bit(RESYNC_AFTER_NEG, &mdev->flags);
				2960	}
				2961	}
				2962
				2963	return TRUE;
				2964	}
				2965
				2966	static int receive_uuids(struct drbd_conf mdev, struct p_header h)
				2967	{
				2968	struct p_uuids p = (struct p_uuids )h;
				2969	u64 *p_uuid;
				2970	int i;
				2971
				2972	ERR_IF(h->length != (sizeof(p)-sizeof(h))) return FALSE;
				2973	if (drbd_recv(mdev, h->payload, h->length) != h->length)
				2974	return FALSE;
				2975
				2976	p_uuid = kmalloc(sizeof(u64)*UI_EXTENDED_SIZE, GFP_NOIO);
				2977
				2978	for (i = UI_CURRENT; i < UI_EXTENDED_SIZE; i++)
				2979	p_uuid[i] = be64_to_cpu(p->uuid[i]);
				2980
				2981	kfree(mdev->p_uuid);
				2982	mdev->p_uuid = p_uuid;
				2983
				2984	if (mdev->state.conn < C_CONNECTED &&
				2985	mdev->state.disk < D_INCONSISTENT &&
				2986	mdev->state.role == R_PRIMARY &&
				2987	(mdev->ed_uuid & ~((u64)1)) != (p_uuid[UI_CURRENT] & ~((u64)1))) {
				2988	dev_err(DEV, "Can only connect to data with current UUID=%016llX\n",
				2989	(unsigned long long)mdev->ed_uuid);
				2990	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				2991	return FALSE;
				2992	}
				2993
				2994	if (get_ldev(mdev)) {
				2995	int skip_initial_sync =
				2996	mdev->state.conn == C_CONNECTED &&
				2997	mdev->agreed_pro_version >= 90 &&
				2998	mdev->ldev->md.uuid[UI_CURRENT] == UUID_JUST_CREATED &&
				2999	(p_uuid[UI_FLAGS] & 8);
				3000	if (skip_initial_sync) {
				3001	dev_info(DEV, "Accepted new current UUID, preparing to skip initial sync\n");
				3002	drbd_bitmap_io(mdev, &drbd_bmio_clear_n_write,
				3003	"clear_n_write from receive_uuids");
				3004	_drbd_uuid_set(mdev, UI_CURRENT, p_uuid[UI_CURRENT]);
				3005	_drbd_uuid_set(mdev, UI_BITMAP, 0);
				3006	_drbd_set_state(_NS2(mdev, disk, D_UP_TO_DATE, pdsk, D_UP_TO_DATE),
				3007	CS_VERBOSE, NULL);
				3008	drbd_md_sync(mdev);
				3009	}
				3010	put_ldev(mdev);
				3011	}
				3012
				3013	/* Before we test for the disk state, we should wait until an eventually
				3014	ongoing cluster wide state change is finished. That is important if
				3015	we are primary and are detaching from our disk. We need to see the
				3016	new disk state... */
				3017	wait_event(mdev->misc_wait, !test_bit(CLUSTER_ST_CHANGE, &mdev->flags));
				3018	if (mdev->state.conn >= C_CONNECTED && mdev->state.disk < D_INCONSISTENT)
				3019	drbd_set_ed_uuid(mdev, p_uuid[UI_CURRENT]);
				3020
				3021	return TRUE;
				3022	}
				3023
				3024	/**
				3025	* convert_state() - Converts the peer's view of the cluster state to our point of view
				3026	* @ps: The state as seen by the peer.
				3027	*/
				3028	static union drbd_state convert_state(union drbd_state ps)
				3029	{
				3030	union drbd_state ms;
				3031
				3032	static enum drbd_conns c_tab[] = {
				3033	[C_CONNECTED] = C_CONNECTED,
				3034
				3035	[C_STARTING_SYNC_S] = C_STARTING_SYNC_T,
				3036	[C_STARTING_SYNC_T] = C_STARTING_SYNC_S,
				3037	[C_DISCONNECTING] = C_TEAR_DOWN, /* C_NETWORK_FAILURE, */
				3038	[C_VERIFY_S] = C_VERIFY_T,
				3039	[C_MASK] = C_MASK,
				3040	};
				3041
				3042	ms.i = ps.i;
				3043
				3044	ms.conn = c_tab[ps.conn];
				3045	ms.peer = ps.role;
				3046	ms.role = ps.peer;
				3047	ms.pdsk = ps.disk;
				3048	ms.disk = ps.pdsk;
				3049	ms.peer_isp = (ps.aftr_isp \| ps.user_isp);
				3050
				3051	return ms;
				3052	}
				3053
				3054	static int receive_req_state(struct drbd_conf mdev, struct p_header h)
				3055	{
				3056	struct p_req_state p = (struct p_req_state )h;
				3057	union drbd_state mask, val;
				3058	int rv;
				3059
				3060	ERR_IF(h->length != (sizeof(p)-sizeof(h))) return FALSE;
				3061	if (drbd_recv(mdev, h->payload, h->length) != h->length)
				3062	return FALSE;
				3063
				3064	mask.i = be32_to_cpu(p->mask);
				3065	val.i = be32_to_cpu(p->val);
				3066
				3067	if (test_bit(DISCARD_CONCURRENT, &mdev->flags) &&
				3068	test_bit(CLUSTER_ST_CHANGE, &mdev->flags)) {
				3069	drbd_send_sr_reply(mdev, SS_CONCURRENT_ST_CHG);
				3070	return TRUE;
				3071	}
				3072
				3073	mask = convert_state(mask);
				3074	val = convert_state(val);
				3075
				3076	rv = drbd_change_state(mdev, CS_VERBOSE, mask, val);
				3077
				3078	drbd_send_sr_reply(mdev, rv);
				3079	drbd_md_sync(mdev);
				3080
				3081	return TRUE;
				3082	}
				3083
				3084	static int receive_state(struct drbd_conf mdev, struct p_header h)
				3085	{
				3086	struct p_state p = (struct p_state )h;
				3087	enum drbd_conns nconn, oconn;
				3088	union drbd_state ns, peer_state;
				3089	enum drbd_disk_state real_peer_disk;
				3090	int rv;
				3091
				3092	ERR_IF(h->length != (sizeof(p)-sizeof(h)))
				3093	return FALSE;
				3094
				3095	if (drbd_recv(mdev, h->payload, h->length) != h->length)
				3096	return FALSE;
				3097
				3098	peer_state.i = be32_to_cpu(p->state);
				3099
				3100	real_peer_disk = peer_state.disk;
				3101	if (peer_state.disk == D_NEGOTIATING) {
				3102	real_peer_disk = mdev->p_uuid[UI_FLAGS] & 4 ? D_INCONSISTENT : D_CONSISTENT;
				3103	dev_info(DEV, "real peer disk state = %s\n", drbd_disk_str(real_peer_disk));
				3104	}
				3105
				3106	spin_lock_irq(&mdev->req_lock);
				3107	retry:
				3108	oconn = nconn = mdev->state.conn;
				3109	spin_unlock_irq(&mdev->req_lock);
				3110
				3111	if (nconn == C_WF_REPORT_PARAMS)
				3112	nconn = C_CONNECTED;
				3113
				3114	if (mdev->p_uuid && peer_state.disk >= D_NEGOTIATING &&
				3115	get_ldev_if_state(mdev, D_NEGOTIATING)) {
				3116	int cr; /* consider resync */
				3117
				3118	/* if we established a new connection */
				3119	cr = (oconn < C_CONNECTED);
				3120	/* if we had an established connection
				3121	* and one of the nodes newly attaches a disk */
				3122	cr \|= (oconn == C_CONNECTED &&
				3123	(peer_state.disk == D_NEGOTIATING \|\|
				3124	mdev->state.disk == D_NEGOTIATING));
				3125	/* if we have both been inconsistent, and the peer has been
				3126	* forced to be UpToDate with --overwrite-data */
				3127	cr \|= test_bit(CONSIDER_RESYNC, &mdev->flags);
				3128	/* if we had been plain connected, and the admin requested to
				3129	* start a sync by "invalidate" or "invalidate-remote" */
				3130	cr \|= (oconn == C_CONNECTED &&
				3131	(peer_state.conn >= C_STARTING_SYNC_S &&
				3132	peer_state.conn <= C_WF_BITMAP_T));
				3133
				3134	if (cr)
				3135	nconn = drbd_sync_handshake(mdev, peer_state.role, real_peer_disk);
				3136
				3137	put_ldev(mdev);
				3138	if (nconn == C_MASK) {
Lars Ellenberg	580b976	2010-02-26 23:15:23 +0100	[diff] [blame]	3139	nconn = C_CONNECTED;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3140	if (mdev->state.disk == D_NEGOTIATING) {
				3141	drbd_force_state(mdev, NS(disk, D_DISKLESS));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3142	} else if (peer_state.disk == D_NEGOTIATING) {
				3143	dev_err(DEV, "Disk attach process on the peer node was aborted.\n");
				3144	peer_state.disk = D_DISKLESS;
Lars Ellenberg	580b976	2010-02-26 23:15:23 +0100	[diff] [blame]	3145	real_peer_disk = D_DISKLESS;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3146	} else {
Philipp Reisner	cf14c2e	2010-02-02 21:03:50 +0100	[diff] [blame]	3147	if (test_and_clear_bit(CONN_DRY_RUN, &mdev->flags))
				3148	return FALSE;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3149	D_ASSERT(oconn == C_WF_REPORT_PARAMS);
				3150	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				3151	return FALSE;
				3152	}
				3153	}
				3154	}
				3155
				3156	spin_lock_irq(&mdev->req_lock);
				3157	if (mdev->state.conn != oconn)
				3158	goto retry;
				3159	clear_bit(CONSIDER_RESYNC, &mdev->flags);
				3160	ns.i = mdev->state.i;
				3161	ns.conn = nconn;
				3162	ns.peer = peer_state.role;
				3163	ns.pdsk = real_peer_disk;
				3164	ns.peer_isp = (peer_state.aftr_isp \| peer_state.user_isp);
				3165	if ((nconn == C_CONNECTED \|\| nconn == C_WF_BITMAP_S) && ns.disk == D_NEGOTIATING)
				3166	ns.disk = mdev->new_state_tmp.disk;
				3167
				3168	rv = _drbd_set_state(mdev, ns, CS_VERBOSE \| CS_HARD, NULL);
				3169	ns = mdev->state;
				3170	spin_unlock_irq(&mdev->req_lock);
				3171
				3172	if (rv < SS_SUCCESS) {
				3173	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				3174	return FALSE;
				3175	}
				3176
				3177	if (oconn > C_WF_REPORT_PARAMS) {
				3178	if (nconn > C_CONNECTED && peer_state.conn <= C_CONNECTED &&
				3179	peer_state.disk != D_NEGOTIATING ) {
				3180	/* we want resync, peer has not yet decided to sync... */
				3181	/* Nowadays only used when forcing a node into primary role and
				3182	setting its disk to UpToDate with that */
				3183	drbd_send_uuids(mdev);
				3184	drbd_send_state(mdev);
				3185	}
				3186	}
				3187
				3188	mdev->net_conf->want_lose = 0;
				3189
				3190	drbd_md_sync(mdev); /* update connected indicator, la_size, ... */
				3191
				3192	return TRUE;
				3193	}
				3194
				3195	static int receive_sync_uuid(struct drbd_conf mdev, struct p_header h)
				3196	{
				3197	struct p_rs_uuid p = (struct p_rs_uuid )h;
				3198
				3199	wait_event(mdev->misc_wait,
				3200	mdev->state.conn == C_WF_SYNC_UUID \|\|
				3201	mdev->state.conn < C_CONNECTED \|\|
				3202	mdev->state.disk < D_NEGOTIATING);
				3203
				3204	/* D_ASSERT( mdev->state.conn == C_WF_SYNC_UUID ); */
				3205
				3206	ERR_IF(h->length != (sizeof(p)-sizeof(h))) return FALSE;
				3207	if (drbd_recv(mdev, h->payload, h->length) != h->length)
				3208	return FALSE;
				3209
				3210	/* Here the _drbd_uuid_ functions are right, current should
				3211	_not_ be rotated into the history */
				3212	if (get_ldev_if_state(mdev, D_NEGOTIATING)) {
				3213	_drbd_uuid_set(mdev, UI_CURRENT, be64_to_cpu(p->uuid));
				3214	_drbd_uuid_set(mdev, UI_BITMAP, 0UL);
				3215
				3216	drbd_start_resync(mdev, C_SYNC_TARGET);
				3217
				3218	put_ldev(mdev);
				3219	} else
				3220	dev_err(DEV, "Ignoring SyncUUID packet!\n");
				3221
				3222	return TRUE;
				3223	}
				3224
				3225	enum receive_bitmap_ret { OK, DONE, FAILED };
				3226
				3227	static enum receive_bitmap_ret
				3228	receive_bitmap_plain(struct drbd_conf mdev, struct p_header h,
				3229	unsigned long buffer, struct bm_xfer_ctx c)
				3230	{
				3231	unsigned num_words = min_t(size_t, BM_PACKET_WORDS, c->bm_words - c->word_offset);
				3232	unsigned want = num_words * sizeof(long);
				3233
				3234	if (want != h->length) {
				3235	dev_err(DEV, "%s:want (%u) != h->length (%u)\n", __func__, want, h->length);
				3236	return FAILED;
				3237	}
				3238	if (want == 0)
				3239	return DONE;
				3240	if (drbd_recv(mdev, buffer, want) != want)
				3241	return FAILED;
				3242
				3243	drbd_bm_merge_lel(mdev, c->word_offset, num_words, buffer);
				3244
				3245	c->word_offset += num_words;
				3246	c->bit_offset = c->word_offset * BITS_PER_LONG;
				3247	if (c->bit_offset > c->bm_bits)
				3248	c->bit_offset = c->bm_bits;
				3249
				3250	return OK;
				3251	}
				3252
				3253	static enum receive_bitmap_ret
				3254	recv_bm_rle_bits(struct drbd_conf *mdev,
				3255	struct p_compressed_bm *p,
				3256	struct bm_xfer_ctx *c)
				3257	{
				3258	struct bitstream bs;
				3259	u64 look_ahead;
				3260	u64 rl;
				3261	u64 tmp;
				3262	unsigned long s = c->bit_offset;
				3263	unsigned long e;
				3264	int len = p->head.length - (sizeof(*p) - sizeof(p->head));
				3265	int toggle = DCBP_get_start(p);
				3266	int have;
				3267	int bits;
				3268
				3269	bitstream_init(&bs, p->code, len, DCBP_get_pad_bits(p));
				3270
				3271	bits = bitstream_get_bits(&bs, &look_ahead, 64);
				3272	if (bits < 0)
				3273	return FAILED;
				3274
				3275	for (have = bits; have > 0; s += rl, toggle = !toggle) {
				3276	bits = vli_decode_bits(&rl, look_ahead);
				3277	if (bits <= 0)
				3278	return FAILED;
				3279
				3280	if (toggle) {
				3281	e = s + rl -1;
				3282	if (e >= c->bm_bits) {
				3283	dev_err(DEV, "bitmap overflow (e:%lu) while decoding bm RLE packet\n", e);
				3284	return FAILED;
				3285	}
				3286	_drbd_bm_set_bits(mdev, s, e);
				3287	}
				3288
				3289	if (have < bits) {
				3290	dev_err(DEV, "bitmap decoding error: h:%d b:%d la:0x%08llx l:%u/%u\n",
				3291	have, bits, look_ahead,
				3292	(unsigned int)(bs.cur.b - p->code),
				3293	(unsigned int)bs.buf_len);
				3294	return FAILED;
				3295	}
				3296	look_ahead >>= bits;
				3297	have -= bits;
				3298
				3299	bits = bitstream_get_bits(&bs, &tmp, 64 - have);
				3300	if (bits < 0)
				3301	return FAILED;
				3302	look_ahead \|= tmp << have;
				3303	have += bits;
				3304	}
				3305
				3306	c->bit_offset = s;
				3307	bm_xfer_ctx_bit_to_word_offset(c);
				3308
				3309	return (s == c->bm_bits) ? DONE : OK;
				3310	}
				3311
				3312	static enum receive_bitmap_ret
				3313	decode_bitmap_c(struct drbd_conf *mdev,
				3314	struct p_compressed_bm *p,
				3315	struct bm_xfer_ctx *c)
				3316	{
				3317	if (DCBP_get_code(p) == RLE_VLI_Bits)
				3318	return recv_bm_rle_bits(mdev, p, c);
				3319
				3320	/* other variants had been implemented for evaluation,
				3321	* but have been dropped as this one turned out to be "best"
				3322	* during all our tests. */
				3323
				3324	dev_err(DEV, "receive_bitmap_c: unknown encoding %u\n", p->encoding);
				3325	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				3326	return FAILED;
				3327	}
				3328
				3329	void INFO_bm_xfer_stats(struct drbd_conf *mdev,
				3330	const char direction, struct bm_xfer_ctx c)
				3331	{
				3332	/* what would it take to transfer it "plaintext" */
				3333	unsigned plain = sizeof(struct p_header) *
				3334	((c->bm_words+BM_PACKET_WORDS-1)/BM_PACKET_WORDS+1)
				3335	+ c->bm_words * sizeof(long);
				3336	unsigned total = c->bytes[0] + c->bytes[1];
				3337	unsigned r;
				3338
				3339	/* total can not be zero. but just in case: */
				3340	if (total == 0)
				3341	return;
				3342
				3343	/* don't report if not compressed */
				3344	if (total >= plain)
				3345	return;
				3346
				3347	/* total < plain. check for overflow, still */
				3348	r = (total > UINT_MAX/1000) ? (total / (plain/1000))
				3349	: (1000 * total / plain);
				3350
				3351	if (r > 1000)
				3352	r = 1000;
				3353
				3354	r = 1000 - r;
				3355	dev_info(DEV, "%s bitmap stats [Bytes(packets)]: plain %u(%u), RLE %u(%u), "
				3356	"total %u; compression: %u.%u%%\n",
				3357	direction,
				3358	c->bytes[1], c->packets[1],
				3359	c->bytes[0], c->packets[0],
				3360	total, r/10, r % 10);
				3361	}
				3362
				3363	/* Since we are processing the bitfield from lower addresses to higher,
				3364	it does not matter if the process it in 32 bit chunks or 64 bit
				3365	chunks as long as it is little endian. (Understand it as byte stream,
				3366	beginning with the lowest byte...) If we would use big endian
				3367	we would need to process it from the highest address to the lowest,
				3368	in order to be agnostic to the 32 vs 64 bits issue.
				3369
				3370	returns 0 on failure, 1 if we successfully received it. */
				3371	static int receive_bitmap(struct drbd_conf mdev, struct p_header h)
				3372	{
				3373	struct bm_xfer_ctx c;
				3374	void *buffer;
				3375	enum receive_bitmap_ret ret;
				3376	int ok = FALSE;
				3377
				3378	wait_event(mdev->misc_wait, !atomic_read(&mdev->ap_bio_cnt));
				3379
				3380	drbd_bm_lock(mdev, "receive bitmap");
				3381
				3382	/* maybe we should use some per thread scratch page,
				3383	* and allocate that during initial device creation? */
				3384	buffer = (unsigned long *) __get_free_page(GFP_NOIO);
				3385	if (!buffer) {
				3386	dev_err(DEV, "failed to allocate one page buffer in %s\n", __func__);
				3387	goto out;
				3388	}
				3389
				3390	c = (struct bm_xfer_ctx) {
				3391	.bm_bits = drbd_bm_bits(mdev),
				3392	.bm_words = drbd_bm_words(mdev),
				3393	};
				3394
				3395	do {
				3396	if (h->command == P_BITMAP) {
				3397	ret = receive_bitmap_plain(mdev, h, buffer, &c);
				3398	} else if (h->command == P_COMPRESSED_BITMAP) {
				3399	/* MAYBE: sanity check that we speak proto >= 90,
				3400	* and the feature is enabled! */
				3401	struct p_compressed_bm *p;
				3402
				3403	if (h->length > BM_PACKET_PAYLOAD_BYTES) {
				3404	dev_err(DEV, "ReportCBitmap packet too large\n");
				3405	goto out;
				3406	}
				3407	/* use the page buff */
				3408	p = buffer;
				3409	memcpy(p, h, sizeof(*h));
				3410	if (drbd_recv(mdev, p->head.payload, h->length) != h->length)
				3411	goto out;
				3412	if (p->head.length <= (sizeof(*p) - sizeof(p->head))) {
				3413	dev_err(DEV, "ReportCBitmap packet too small (l:%u)\n", p->head.length);
				3414	return FAILED;
				3415	}
				3416	ret = decode_bitmap_c(mdev, p, &c);
				3417	} else {
				3418	dev_warn(DEV, "receive_bitmap: h->command neither ReportBitMap nor ReportCBitMap (is 0x%x)", h->command);
				3419	goto out;
				3420	}
				3421
				3422	c.packets[h->command == P_BITMAP]++;
				3423	c.bytes[h->command == P_BITMAP] += sizeof(struct p_header) + h->length;
				3424
				3425	if (ret != OK)
				3426	break;
				3427
				3428	if (!drbd_recv_header(mdev, h))
				3429	goto out;
				3430	} while (ret == OK);
				3431	if (ret == FAILED)
				3432	goto out;
				3433
				3434	INFO_bm_xfer_stats(mdev, "receive", &c);
				3435
				3436	if (mdev->state.conn == C_WF_BITMAP_T) {
				3437	ok = !drbd_send_bitmap(mdev);
				3438	if (!ok)
				3439	goto out;
				3440	/* Omit CS_ORDERED with this state transition to avoid deadlocks. */
				3441	ok = _drbd_request_state(mdev, NS(conn, C_WF_SYNC_UUID), CS_VERBOSE);
				3442	D_ASSERT(ok == SS_SUCCESS);
				3443	} else if (mdev->state.conn != C_WF_BITMAP_S) {
				3444	/* admin may have requested C_DISCONNECTING,
				3445	* other threads may have noticed network errors */
				3446	dev_info(DEV, "unexpected cstate (%s) in receive_bitmap\n",
				3447	drbd_conn_str(mdev->state.conn));
				3448	}
				3449
				3450	ok = TRUE;
				3451	out:
				3452	drbd_bm_unlock(mdev);
				3453	if (ok && mdev->state.conn == C_WF_BITMAP_S)
				3454	drbd_start_resync(mdev, C_SYNC_SOURCE);
				3455	free_page((unsigned long) buffer);
				3456	return ok;
				3457	}
				3458
				3459	static int receive_skip(struct drbd_conf mdev, struct p_header h)
				3460	{
				3461	/* TODO zero copy sink :) */
				3462	static char sink[128];
				3463	int size, want, r;
				3464
				3465	dev_warn(DEV, "skipping unknown optional packet type %d, l: %d!\n",
				3466	h->command, h->length);
				3467
				3468	size = h->length;
				3469	while (size > 0) {
				3470	want = min_t(int, size, sizeof(sink));
				3471	r = drbd_recv(mdev, sink, want);
				3472	ERR_IF(r <= 0) break;
				3473	size -= r;
				3474	}
				3475	return size == 0;
				3476	}
				3477
				3478	static int receive_UnplugRemote(struct drbd_conf mdev, struct p_header h)
				3479	{
				3480	if (mdev->state.disk >= D_INCONSISTENT)
				3481	drbd_kick_lo(mdev);
				3482
				3483	/* Make sure we've acked all the TCP data associated
				3484	* with the data requests being unplugged */
				3485	drbd_tcp_quickack(mdev->data.socket);
				3486
				3487	return TRUE;
				3488	}
				3489
				3490	typedef int (drbd_cmd_handler_f)(struct drbd_conf , struct p_header *);
				3491
				3492	static drbd_cmd_handler_f drbd_default_handler[] = {
				3493	[P_DATA] = receive_Data,
				3494	[P_DATA_REPLY] = receive_DataReply,
				3495	[P_RS_DATA_REPLY] = receive_RSDataReply,
				3496	[P_BARRIER] = receive_Barrier,
				3497	[P_BITMAP] = receive_bitmap,
				3498	[P_COMPRESSED_BITMAP] = receive_bitmap,
				3499	[P_UNPLUG_REMOTE] = receive_UnplugRemote,
				3500	[P_DATA_REQUEST] = receive_DataRequest,
				3501	[P_RS_DATA_REQUEST] = receive_DataRequest,
				3502	[P_SYNC_PARAM] = receive_SyncParam,
				3503	[P_SYNC_PARAM89] = receive_SyncParam,
				3504	[P_PROTOCOL] = receive_protocol,
				3505	[P_UUIDS] = receive_uuids,
				3506	[P_SIZES] = receive_sizes,
				3507	[P_STATE] = receive_state,
				3508	[P_STATE_CHG_REQ] = receive_req_state,
				3509	[P_SYNC_UUID] = receive_sync_uuid,
				3510	[P_OV_REQUEST] = receive_DataRequest,
				3511	[P_OV_REPLY] = receive_DataRequest,
				3512	[P_CSUM_RS_REQUEST] = receive_DataRequest,
				3513	/* anything missing from this table is in
				3514	* the asender_tbl, see get_asender_cmd */
				3515	[P_MAX_CMD] = NULL,
				3516	};
				3517
				3518	static drbd_cmd_handler_f *drbd_cmd_handler = drbd_default_handler;
				3519	static drbd_cmd_handler_f *drbd_opt_cmd_handler;
				3520
				3521	static void drbdd(struct drbd_conf *mdev)
				3522	{
				3523	drbd_cmd_handler_f handler;
				3524	struct p_header *header = &mdev->data.rbuf.header;
				3525
				3526	while (get_t_state(&mdev->receiver) == Running) {
				3527	drbd_thread_current_set_cpu(mdev);
Lars Ellenberg	0b33a91	2009-11-16 15:58:04 +0100	[diff] [blame]	3528	if (!drbd_recv_header(mdev, header)) {
				3529	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3530	break;
Lars Ellenberg	0b33a91	2009-11-16 15:58:04 +0100	[diff] [blame]	3531	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3532
				3533	if (header->command < P_MAX_CMD)
				3534	handler = drbd_cmd_handler[header->command];
				3535	else if (P_MAY_IGNORE < header->command
				3536	&& header->command < P_MAX_OPT_CMD)
				3537	handler = drbd_opt_cmd_handler[header->command-P_MAY_IGNORE];
				3538	else if (header->command > P_MAX_OPT_CMD)
				3539	handler = receive_skip;
				3540	else
				3541	handler = NULL;
				3542
				3543	if (unlikely(!handler)) {
				3544	dev_err(DEV, "unknown packet type %d, l: %d!\n",
				3545	header->command, header->length);
				3546	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				3547	break;
				3548	}
				3549	if (unlikely(!handler(mdev, header))) {
				3550	dev_err(DEV, "error receiving %s, l: %d!\n",
				3551	cmdname(header->command), header->length);
				3552	drbd_force_state(mdev, NS(conn, C_PROTOCOL_ERROR));
				3553	break;
				3554	}
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3555	}
				3556	}
				3557
				3558	static void drbd_fail_pending_reads(struct drbd_conf *mdev)
				3559	{
				3560	struct hlist_head *slot;
				3561	struct hlist_node *pos;
				3562	struct hlist_node *tmp;
				3563	struct drbd_request *req;
				3564	int i;
				3565
				3566	/*
				3567	* Application READ requests
				3568	*/
				3569	spin_lock_irq(&mdev->req_lock);
				3570	for (i = 0; i < APP_R_HSIZE; i++) {
				3571	slot = mdev->app_reads_hash+i;
				3572	hlist_for_each_entry_safe(req, pos, tmp, slot, colision) {
				3573	/* it may (but should not any longer!)
				3574	* be on the work queue; if that assert triggers,
				3575	* we need to also grab the
				3576	* spin_lock_irq(&mdev->data.work.q_lock);
				3577	* and list_del_init here. */
				3578	D_ASSERT(list_empty(&req->w.list));
				3579	/* It would be nice to complete outside of spinlock.
				3580	* But this is easier for now. */
				3581	_req_mod(req, connection_lost_while_pending);
				3582	}
				3583	}
				3584	for (i = 0; i < APP_R_HSIZE; i++)
				3585	if (!hlist_empty(mdev->app_reads_hash+i))
				3586	dev_warn(DEV, "ASSERT FAILED: app_reads_hash[%d].first: "
				3587	"%p, should be NULL\n", i, mdev->app_reads_hash[i].first);
				3588
				3589	memset(mdev->app_reads_hash, 0, APP_R_HSIZEsizeof(void ));
				3590	spin_unlock_irq(&mdev->req_lock);
				3591	}
				3592
				3593	void drbd_flush_workqueue(struct drbd_conf *mdev)
				3594	{
				3595	struct drbd_wq_barrier barr;
				3596
				3597	barr.w.cb = w_prev_work_done;
				3598	init_completion(&barr.done);
				3599	drbd_queue_work(&mdev->data.work, &barr.w);
				3600	wait_for_completion(&barr.done);
				3601	}
				3602
				3603	static void drbd_disconnect(struct drbd_conf *mdev)
				3604	{
				3605	enum drbd_fencing_p fp;
				3606	union drbd_state os, ns;
				3607	int rv = SS_UNKNOWN_ERROR;
				3608	unsigned int i;
				3609
				3610	if (mdev->state.conn == C_STANDALONE)
				3611	return;
				3612	if (mdev->state.conn >= C_WF_CONNECTION)
				3613	dev_err(DEV, "ASSERT FAILED cstate = %s, expected < WFConnection\n",
				3614	drbd_conn_str(mdev->state.conn));
				3615
				3616	/* asender does not clean up anything. it must not interfere, either */
				3617	drbd_thread_stop(&mdev->asender);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3618	drbd_free_sock(mdev);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3619
				3620	spin_lock_irq(&mdev->req_lock);
				3621	_drbd_wait_ee_list_empty(mdev, &mdev->active_ee);
				3622	_drbd_wait_ee_list_empty(mdev, &mdev->sync_ee);
				3623	_drbd_wait_ee_list_empty(mdev, &mdev->read_ee);
				3624	spin_unlock_irq(&mdev->req_lock);
				3625
				3626	/* We do not have data structures that would allow us to
				3627	* get the rs_pending_cnt down to 0 again.
				3628	* * On C_SYNC_TARGET we do not have any data structures describing
				3629	* the pending RSDataRequest's we have sent.
				3630	* * On C_SYNC_SOURCE there is no data structure that tracks
				3631	* the P_RS_DATA_REPLY blocks that we sent to the SyncTarget.
				3632	* And no, it is not the sum of the reference counts in the
				3633	* resync_LRU. The resync_LRU tracks the whole operation including
				3634	* the disk-IO, while the rs_pending_cnt only tracks the blocks
				3635	* on the fly. */
				3636	drbd_rs_cancel_all(mdev);
				3637	mdev->rs_total = 0;
				3638	mdev->rs_failed = 0;
				3639	atomic_set(&mdev->rs_pending_cnt, 0);
				3640	wake_up(&mdev->misc_wait);
				3641
				3642	/* make sure syncer is stopped and w_resume_next_sg queued */
				3643	del_timer_sync(&mdev->resync_timer);
				3644	set_bit(STOP_SYNC_TIMER, &mdev->flags);
				3645	resync_timer_fn((unsigned long)mdev);
				3646
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3647	/* wait for all w_e_end_data_req, w_e_end_rsdata_req, w_send_barrier,
				3648	* w_make_resync_request etc. which may still be on the worker queue
				3649	* to be "canceled" */
				3650	drbd_flush_workqueue(mdev);
				3651
				3652	/* This also does reclaim_net_ee(). If we do this too early, we might
				3653	* miss some resync ee and pages.*/
				3654	drbd_process_done_ee(mdev);
				3655
				3656	kfree(mdev->p_uuid);
				3657	mdev->p_uuid = NULL;
				3658
				3659	if (!mdev->state.susp)
				3660	tl_clear(mdev);
				3661
				3662	drbd_fail_pending_reads(mdev);
				3663
				3664	dev_info(DEV, "Connection closed\n");
				3665
				3666	drbd_md_sync(mdev);
				3667
				3668	fp = FP_DONT_CARE;
				3669	if (get_ldev(mdev)) {
				3670	fp = mdev->ldev->dc.fencing;
				3671	put_ldev(mdev);
				3672	}
				3673
				3674	if (mdev->state.role == R_PRIMARY) {
				3675	if (fp >= FP_RESOURCE && mdev->state.pdsk >= D_UNKNOWN) {
				3676	enum drbd_disk_state nps = drbd_try_outdate_peer(mdev);
				3677	drbd_request_state(mdev, NS(pdsk, nps));
				3678	}
				3679	}
				3680
				3681	spin_lock_irq(&mdev->req_lock);
				3682	os = mdev->state;
				3683	if (os.conn >= C_UNCONNECTED) {
				3684	/* Do not restart in case we are C_DISCONNECTING */
				3685	ns = os;
				3686	ns.conn = C_UNCONNECTED;
				3687	rv = _drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
				3688	}
				3689	spin_unlock_irq(&mdev->req_lock);
				3690
				3691	if (os.conn == C_DISCONNECTING) {
				3692	struct hlist_head *h;
				3693	wait_event(mdev->misc_wait, atomic_read(&mdev->net_cnt) == 0);
				3694
				3695	/* we must not free the tl_hash
				3696	* while application io is still on the fly */
				3697	wait_event(mdev->misc_wait, atomic_read(&mdev->ap_bio_cnt) == 0);
				3698
				3699	spin_lock_irq(&mdev->req_lock);
				3700	/* paranoia code */
				3701	for (h = mdev->ee_hash; h < mdev->ee_hash + mdev->ee_hash_s; h++)
				3702	if (h->first)
				3703	dev_err(DEV, "ASSERT FAILED ee_hash[%u].first == %p, expected NULL\n",
				3704	(int)(h - mdev->ee_hash), h->first);
				3705	kfree(mdev->ee_hash);
				3706	mdev->ee_hash = NULL;
				3707	mdev->ee_hash_s = 0;
				3708
				3709	/* paranoia code */
				3710	for (h = mdev->tl_hash; h < mdev->tl_hash + mdev->tl_hash_s; h++)
				3711	if (h->first)
				3712	dev_err(DEV, "ASSERT FAILED tl_hash[%u] == %p, expected NULL\n",
				3713	(int)(h - mdev->tl_hash), h->first);
				3714	kfree(mdev->tl_hash);
				3715	mdev->tl_hash = NULL;
				3716	mdev->tl_hash_s = 0;
				3717	spin_unlock_irq(&mdev->req_lock);
				3718
				3719	crypto_free_hash(mdev->cram_hmac_tfm);
				3720	mdev->cram_hmac_tfm = NULL;
				3721
				3722	kfree(mdev->net_conf);
				3723	mdev->net_conf = NULL;
				3724	drbd_request_state(mdev, NS(conn, C_STANDALONE));
				3725	}
				3726
				3727	/* tcp_close and release of sendpage pages can be deferred. I don't
				3728	* want to use SO_LINGER, because apparently it can be deferred for
				3729	* more than 20 seconds (longest time I checked).
				3730	*
				3731	* Actually we don't care for exactly when the network stack does its
				3732	* put_page(), but release our reference on these pages right here.
				3733	*/
				3734	i = drbd_release_ee(mdev, &mdev->net_ee);
				3735	if (i)
				3736	dev_info(DEV, "net_ee not empty, killed %u entries\n", i);
				3737	i = atomic_read(&mdev->pp_in_use);
				3738	if (i)
				3739	dev_info(DEV, "pp_in_use = %u, expected 0\n", i);
				3740
				3741	D_ASSERT(list_empty(&mdev->read_ee));
				3742	D_ASSERT(list_empty(&mdev->active_ee));
				3743	D_ASSERT(list_empty(&mdev->sync_ee));
				3744	D_ASSERT(list_empty(&mdev->done_ee));
				3745
				3746	/* ok, no more ee's on the fly, it is safe to reset the epoch_size */
				3747	atomic_set(&mdev->current_epoch->epoch_size, 0);
				3748	D_ASSERT(list_empty(&mdev->current_epoch->list));
				3749	}
				3750
				3751	/*
				3752	* We support PRO_VERSION_MIN to PRO_VERSION_MAX. The protocol version
				3753	* we can agree on is stored in agreed_pro_version.
				3754	*
				3755	* feature flags and the reserved array should be enough room for future
				3756	* enhancements of the handshake protocol, and possible plugins...
				3757	*
				3758	* for now, they are expected to be zero, but ignored.
				3759	*/
				3760	static int drbd_send_handshake(struct drbd_conf *mdev)
				3761	{
				3762	/* ASSERT current == mdev->receiver ... */
				3763	struct p_handshake *p = &mdev->data.sbuf.handshake;
				3764	int ok;
				3765
				3766	if (mutex_lock_interruptible(&mdev->data.mutex)) {
				3767	dev_err(DEV, "interrupted during initial handshake\n");
				3768	return 0; /* interrupted. not ok. */
				3769	}
				3770
				3771	if (mdev->data.socket == NULL) {
				3772	mutex_unlock(&mdev->data.mutex);
				3773	return 0;
				3774	}
				3775
				3776	memset(p, 0, sizeof(*p));
				3777	p->protocol_min = cpu_to_be32(PRO_VERSION_MIN);
				3778	p->protocol_max = cpu_to_be32(PRO_VERSION_MAX);
				3779	ok = _drbd_send_cmd( mdev, mdev->data.socket, P_HAND_SHAKE,
				3780	(struct p_header )p, sizeof(p), 0 );
				3781	mutex_unlock(&mdev->data.mutex);
				3782	return ok;
				3783	}
				3784
				3785	/*
				3786	* return values:
				3787	* 1 yes, we have a valid connection
				3788	* 0 oops, did not work out, please try again
				3789	* -1 peer talks different language,
				3790	* no point in trying again, please go standalone.
				3791	*/
				3792	static int drbd_do_handshake(struct drbd_conf *mdev)
				3793	{
				3794	/* ASSERT current == mdev->receiver ... */
				3795	struct p_handshake *p = &mdev->data.rbuf.handshake;
				3796	const int expect = sizeof(struct p_handshake)
				3797	-sizeof(struct p_header);
				3798	int rv;
				3799
				3800	rv = drbd_send_handshake(mdev);
				3801	if (!rv)
				3802	return 0;
				3803
				3804	rv = drbd_recv_header(mdev, &p->head);
				3805	if (!rv)
				3806	return 0;
				3807
				3808	if (p->head.command != P_HAND_SHAKE) {
				3809	dev_err(DEV, "expected HandShake packet, received: %s (0x%04x)\n",
				3810	cmdname(p->head.command), p->head.command);
				3811	return -1;
				3812	}
				3813
				3814	if (p->head.length != expect) {
				3815	dev_err(DEV, "expected HandShake length: %u, received: %u\n",
				3816	expect, p->head.length);
				3817	return -1;
				3818	}
				3819
				3820	rv = drbd_recv(mdev, &p->head.payload, expect);
				3821
				3822	if (rv != expect) {
				3823	dev_err(DEV, "short read receiving handshake packet: l=%u\n", rv);
				3824	return 0;
				3825	}
				3826
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3827	p->protocol_min = be32_to_cpu(p->protocol_min);
				3828	p->protocol_max = be32_to_cpu(p->protocol_max);
				3829	if (p->protocol_max == 0)
				3830	p->protocol_max = p->protocol_min;
				3831
				3832	if (PRO_VERSION_MAX < p->protocol_min \|\|
				3833	PRO_VERSION_MIN > p->protocol_max)
				3834	goto incompat;
				3835
				3836	mdev->agreed_pro_version = min_t(int, PRO_VERSION_MAX, p->protocol_max);
				3837
				3838	dev_info(DEV, "Handshake successful: "
				3839	"Agreed network protocol version %d\n", mdev->agreed_pro_version);
				3840
				3841	return 1;
				3842
				3843	incompat:
				3844	dev_err(DEV, "incompatible DRBD dialects: "
				3845	"I support %d-%d, peer supports %d-%d\n",
				3846	PRO_VERSION_MIN, PRO_VERSION_MAX,
				3847	p->protocol_min, p->protocol_max);
				3848	return -1;
				3849	}
				3850
				3851	#if !defined(CONFIG_CRYPTO_HMAC) && !defined(CONFIG_CRYPTO_HMAC_MODULE)
				3852	static int drbd_do_auth(struct drbd_conf *mdev)
				3853	{
				3854	dev_err(DEV, "This kernel was build without CONFIG_CRYPTO_HMAC.\n");
				3855	dev_err(DEV, "You need to disable 'cram-hmac-alg' in drbd.conf.\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3856	return -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3857	}
				3858	#else
				3859	#define CHALLENGE_LEN 64
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3860
				3861	/* Return value:
				3862	1 - auth succeeded,
				3863	0 - failed, try again (network error),
				3864	-1 - auth failed, don't try again.
				3865	*/
				3866
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3867	static int drbd_do_auth(struct drbd_conf *mdev)
				3868	{
				3869	char my_challenge[CHALLENGE_LEN]; /* 64 Bytes... */
				3870	struct scatterlist sg;
				3871	char *response = NULL;
				3872	char *right_response = NULL;
				3873	char *peers_ch = NULL;
				3874	struct p_header p;
				3875	unsigned int key_len = strlen(mdev->net_conf->shared_secret);
				3876	unsigned int resp_size;
				3877	struct hash_desc desc;
				3878	int rv;
				3879
				3880	desc.tfm = mdev->cram_hmac_tfm;
				3881	desc.flags = 0;
				3882
				3883	rv = crypto_hash_setkey(mdev->cram_hmac_tfm,
				3884	(u8 *)mdev->net_conf->shared_secret, key_len);
				3885	if (rv) {
				3886	dev_err(DEV, "crypto_hash_setkey() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3887	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3888	goto fail;
				3889	}
				3890
				3891	get_random_bytes(my_challenge, CHALLENGE_LEN);
				3892
				3893	rv = drbd_send_cmd2(mdev, P_AUTH_CHALLENGE, my_challenge, CHALLENGE_LEN);
				3894	if (!rv)
				3895	goto fail;
				3896
				3897	rv = drbd_recv_header(mdev, &p);
				3898	if (!rv)
				3899	goto fail;
				3900
				3901	if (p.command != P_AUTH_CHALLENGE) {
				3902	dev_err(DEV, "expected AuthChallenge packet, received: %s (0x%04x)\n",
				3903	cmdname(p.command), p.command);
				3904	rv = 0;
				3905	goto fail;
				3906	}
				3907
				3908	if (p.length > CHALLENGE_LEN*2) {
				3909	dev_err(DEV, "expected AuthChallenge payload too big.\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3910	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3911	goto fail;
				3912	}
				3913
				3914	peers_ch = kmalloc(p.length, GFP_NOIO);
				3915	if (peers_ch == NULL) {
				3916	dev_err(DEV, "kmalloc of peers_ch failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3917	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3918	goto fail;
				3919	}
				3920
				3921	rv = drbd_recv(mdev, peers_ch, p.length);
				3922
				3923	if (rv != p.length) {
				3924	dev_err(DEV, "short read AuthChallenge: l=%u\n", rv);
				3925	rv = 0;
				3926	goto fail;
				3927	}
				3928
				3929	resp_size = crypto_hash_digestsize(mdev->cram_hmac_tfm);
				3930	response = kmalloc(resp_size, GFP_NOIO);
				3931	if (response == NULL) {
				3932	dev_err(DEV, "kmalloc of response failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3933	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3934	goto fail;
				3935	}
				3936
				3937	sg_init_table(&sg, 1);
				3938	sg_set_buf(&sg, peers_ch, p.length);
				3939
				3940	rv = crypto_hash_digest(&desc, &sg, sg.length, response);
				3941	if (rv) {
				3942	dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3943	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3944	goto fail;
				3945	}
				3946
				3947	rv = drbd_send_cmd2(mdev, P_AUTH_RESPONSE, response, resp_size);
				3948	if (!rv)
				3949	goto fail;
				3950
				3951	rv = drbd_recv_header(mdev, &p);
				3952	if (!rv)
				3953	goto fail;
				3954
				3955	if (p.command != P_AUTH_RESPONSE) {
				3956	dev_err(DEV, "expected AuthResponse packet, received: %s (0x%04x)\n",
				3957	cmdname(p.command), p.command);
				3958	rv = 0;
				3959	goto fail;
				3960	}
				3961
				3962	if (p.length != resp_size) {
				3963	dev_err(DEV, "expected AuthResponse payload of wrong size\n");
				3964	rv = 0;
				3965	goto fail;
				3966	}
				3967
				3968	rv = drbd_recv(mdev, response , resp_size);
				3969
				3970	if (rv != resp_size) {
				3971	dev_err(DEV, "short read receiving AuthResponse: l=%u\n", rv);
				3972	rv = 0;
				3973	goto fail;
				3974	}
				3975
				3976	right_response = kmalloc(resp_size, GFP_NOIO);
Julia Lawall	2d1ee87	2009-12-27 22:27:11 +0100	[diff] [blame]	3977	if (right_response == NULL) {
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3978	dev_err(DEV, "kmalloc of right_response failed\n");
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3979	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3980	goto fail;
				3981	}
				3982
				3983	sg_set_buf(&sg, my_challenge, CHALLENGE_LEN);
				3984
				3985	rv = crypto_hash_digest(&desc, &sg, sg.length, right_response);
				3986	if (rv) {
				3987	dev_err(DEV, "crypto_hash_digest() failed with %d\n", rv);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3988	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3989	goto fail;
				3990	}
				3991
				3992	rv = !memcmp(response, right_response, resp_size);
				3993
				3994	if (rv)
				3995	dev_info(DEV, "Peer authenticated using %d bytes of '%s' HMAC\n",
				3996	resp_size, mdev->net_conf->cram_hmac_alg);
Johannes Thoma	b10d96c	2010-01-07 16:02:50 +0100	[diff] [blame]	3997	else
				3998	rv = -1;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	3999
				4000	fail:
				4001	kfree(peers_ch);
				4002	kfree(response);
				4003	kfree(right_response);
				4004
				4005	return rv;
				4006	}
				4007	#endif
				4008
				4009	int drbdd_init(struct drbd_thread *thi)
				4010	{
				4011	struct drbd_conf *mdev = thi->mdev;
				4012	unsigned int minor = mdev_to_minor(mdev);
				4013	int h;
				4014
				4015	sprintf(current->comm, "drbd%d_receiver", minor);
				4016
				4017	dev_info(DEV, "receiver (re)started\n");
				4018
				4019	do {
				4020	h = drbd_connect(mdev);
				4021	if (h == 0) {
				4022	drbd_disconnect(mdev);
				4023	__set_current_state(TASK_INTERRUPTIBLE);
				4024	schedule_timeout(HZ);
				4025	}
				4026	if (h == -1) {
				4027	dev_warn(DEV, "Discarding network configuration.\n");
				4028	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				4029	}
				4030	} while (h == 0);
				4031
				4032	if (h > 0) {
				4033	if (get_net_conf(mdev)) {
				4034	drbdd(mdev);
				4035	put_net_conf(mdev);
				4036	}
				4037	}
				4038
				4039	drbd_disconnect(mdev);
				4040
				4041	dev_info(DEV, "receiver terminated\n");
				4042	return 0;
				4043	}
				4044
				4045	/* ******* acknowledge sender ****** */
				4046
				4047	static int got_RqSReply(struct drbd_conf mdev, struct p_header h)
				4048	{
				4049	struct p_req_state_reply p = (struct p_req_state_reply )h;
				4050
				4051	int retcode = be32_to_cpu(p->retcode);
				4052
				4053	if (retcode >= SS_SUCCESS) {
				4054	set_bit(CL_ST_CHG_SUCCESS, &mdev->flags);
				4055	} else {
				4056	set_bit(CL_ST_CHG_FAIL, &mdev->flags);
				4057	dev_err(DEV, "Requested state change failed by peer: %s (%d)\n",
				4058	drbd_set_st_err_str(retcode), retcode);
				4059	}
				4060	wake_up(&mdev->state_wait);
				4061
				4062	return TRUE;
				4063	}
				4064
				4065	static int got_Ping(struct drbd_conf mdev, struct p_header h)
				4066	{
				4067	return drbd_send_ping_ack(mdev);
				4068
				4069	}
				4070
				4071	static int got_PingAck(struct drbd_conf mdev, struct p_header h)
				4072	{
				4073	/* restore idle timeout */
				4074	mdev->meta.socket->sk->sk_rcvtimeo = mdev->net_conf->ping_int*HZ;
Philipp Reisner	309d160	2010-03-02 15:03:44 +0100	[diff] [blame]	4075	if (!test_and_set_bit(GOT_PING_ACK, &mdev->flags))
				4076	wake_up(&mdev->misc_wait);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4077
				4078	return TRUE;
				4079	}
				4080
				4081	static int got_IsInSync(struct drbd_conf mdev, struct p_header h)
				4082	{
				4083	struct p_block_ack p = (struct p_block_ack )h;
				4084	sector_t sector = be64_to_cpu(p->sector);
				4085	int blksize = be32_to_cpu(p->blksize);
				4086
				4087	D_ASSERT(mdev->agreed_pro_version >= 89);
				4088
				4089	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4090
				4091	drbd_rs_complete_io(mdev, sector);
				4092	drbd_set_in_sync(mdev, sector, blksize);
				4093	/* rs_same_csums is supposed to count in units of BM_BLOCK_SIZE */
				4094	mdev->rs_same_csum += (blksize >> BM_BLOCK_SHIFT);
				4095	dec_rs_pending(mdev);
				4096
				4097	return TRUE;
				4098	}
				4099
				4100	/* when we receive the ACK for a write request,
				4101	* verify that we actually know about it */
				4102	static struct drbd_request _ack_id_to_req(struct drbd_conf mdev,
				4103	u64 id, sector_t sector)
				4104	{
				4105	struct hlist_head *slot = tl_hash_slot(mdev, sector);
				4106	struct hlist_node *n;
				4107	struct drbd_request *req;
				4108
				4109	hlist_for_each_entry(req, n, slot, colision) {
				4110	if ((unsigned long)req == (unsigned long)id) {
				4111	if (req->sector != sector) {
				4112	dev_err(DEV, "_ack_id_to_req: found req %p but it has "
				4113	"wrong sector (%llus versus %llus)\n", req,
				4114	(unsigned long long)req->sector,
				4115	(unsigned long long)sector);
				4116	break;
				4117	}
				4118	return req;
				4119	}
				4120	}
				4121	dev_err(DEV, "_ack_id_to_req: failed to find req %p, sector %llus in list\n",
				4122	(void *)(unsigned long)id, (unsigned long long)sector);
				4123	return NULL;
				4124	}
				4125
				4126	typedef struct drbd_request *(req_validator_fn)
				4127	(struct drbd_conf *mdev, u64 id, sector_t sector);
				4128
				4129	static int validate_req_change_req_state(struct drbd_conf *mdev,
				4130	u64 id, sector_t sector, req_validator_fn validator,
				4131	const char *func, enum drbd_req_event what)
				4132	{
				4133	struct drbd_request *req;
				4134	struct bio_and_error m;
				4135
				4136	spin_lock_irq(&mdev->req_lock);
				4137	req = validator(mdev, id, sector);
				4138	if (unlikely(!req)) {
				4139	spin_unlock_irq(&mdev->req_lock);
				4140	dev_err(DEV, "%s: got a corrupt block_id/sector pair\n", func);
				4141	return FALSE;
				4142	}
				4143	__req_mod(req, what, &m);
				4144	spin_unlock_irq(&mdev->req_lock);
				4145
				4146	if (m.bio)
				4147	complete_master_bio(mdev, &m);
				4148	return TRUE;
				4149	}
				4150
				4151	static int got_BlockAck(struct drbd_conf mdev, struct p_header h)
				4152	{
				4153	struct p_block_ack p = (struct p_block_ack )h;
				4154	sector_t sector = be64_to_cpu(p->sector);
				4155	int blksize = be32_to_cpu(p->blksize);
				4156	enum drbd_req_event what;
				4157
				4158	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4159
				4160	if (is_syncer_block_id(p->block_id)) {
				4161	drbd_set_in_sync(mdev, sector, blksize);
				4162	dec_rs_pending(mdev);
				4163	return TRUE;
				4164	}
				4165	switch (be16_to_cpu(h->command)) {
				4166	case P_RS_WRITE_ACK:
				4167	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4168	what = write_acked_by_peer_and_sis;
				4169	break;
				4170	case P_WRITE_ACK:
				4171	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4172	what = write_acked_by_peer;
				4173	break;
				4174	case P_RECV_ACK:
				4175	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_B);
				4176	what = recv_acked_by_peer;
				4177	break;
				4178	case P_DISCARD_ACK:
				4179	D_ASSERT(mdev->net_conf->wire_protocol == DRBD_PROT_C);
				4180	what = conflict_discarded_by_peer;
				4181	break;
				4182	default:
				4183	D_ASSERT(0);
				4184	return FALSE;
				4185	}
				4186
				4187	return validate_req_change_req_state(mdev, p->block_id, sector,
				4188	_ack_id_to_req, __func__ , what);
				4189	}
				4190
				4191	static int got_NegAck(struct drbd_conf mdev, struct p_header h)
				4192	{
				4193	struct p_block_ack p = (struct p_block_ack )h;
				4194	sector_t sector = be64_to_cpu(p->sector);
				4195
				4196	if (__ratelimit(&drbd_ratelimit_state))
				4197	dev_warn(DEV, "Got NegAck packet. Peer is in troubles?\n");
				4198
				4199	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4200
				4201	if (is_syncer_block_id(p->block_id)) {
				4202	int size = be32_to_cpu(p->blksize);
				4203	dec_rs_pending(mdev);
				4204	drbd_rs_failed_io(mdev, sector, size);
				4205	return TRUE;
				4206	}
				4207	return validate_req_change_req_state(mdev, p->block_id, sector,
				4208	_ack_id_to_req, __func__ , neg_acked);
				4209	}
				4210
				4211	static int got_NegDReply(struct drbd_conf mdev, struct p_header h)
				4212	{
				4213	struct p_block_ack p = (struct p_block_ack )h;
				4214	sector_t sector = be64_to_cpu(p->sector);
				4215
				4216	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4217	dev_err(DEV, "Got NegDReply; Sector %llus, len %u; Fail original request.\n",
				4218	(unsigned long long)sector, be32_to_cpu(p->blksize));
				4219
				4220	return validate_req_change_req_state(mdev, p->block_id, sector,
				4221	_ar_id_to_req, __func__ , neg_acked);
				4222	}
				4223
				4224	static int got_NegRSDReply(struct drbd_conf mdev, struct p_header h)
				4225	{
				4226	sector_t sector;
				4227	int size;
				4228	struct p_block_ack p = (struct p_block_ack )h;
				4229
				4230	sector = be64_to_cpu(p->sector);
				4231	size = be32_to_cpu(p->blksize);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4232
				4233	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4234
				4235	dec_rs_pending(mdev);
				4236
				4237	if (get_ldev_if_state(mdev, D_FAILED)) {
				4238	drbd_rs_complete_io(mdev, sector);
				4239	drbd_rs_failed_io(mdev, sector, size);
				4240	put_ldev(mdev);
				4241	}
				4242
				4243	return TRUE;
				4244	}
				4245
				4246	static int got_BarrierAck(struct drbd_conf mdev, struct p_header h)
				4247	{
				4248	struct p_barrier_ack p = (struct p_barrier_ack )h;
				4249
				4250	tl_release(mdev, p->barrier, be32_to_cpu(p->set_size));
				4251
				4252	return TRUE;
				4253	}
				4254
				4255	static int got_OVResult(struct drbd_conf mdev, struct p_header h)
				4256	{
				4257	struct p_block_ack p = (struct p_block_ack )h;
				4258	struct drbd_work *w;
				4259	sector_t sector;
				4260	int size;
				4261
				4262	sector = be64_to_cpu(p->sector);
				4263	size = be32_to_cpu(p->blksize);
				4264
				4265	update_peer_seq(mdev, be32_to_cpu(p->seq_num));
				4266
				4267	if (be64_to_cpu(p->block_id) == ID_OUT_OF_SYNC)
				4268	drbd_ov_oos_found(mdev, sector, size);
				4269	else
				4270	ov_oos_print(mdev);
				4271
				4272	drbd_rs_complete_io(mdev, sector);
				4273	dec_rs_pending(mdev);
				4274
				4275	if (--mdev->ov_left == 0) {
				4276	w = kmalloc(sizeof(*w), GFP_NOIO);
				4277	if (w) {
				4278	w->cb = w_ov_finished;
				4279	drbd_queue_work_front(&mdev->data.work, w);
				4280	} else {
				4281	dev_err(DEV, "kmalloc(w) failed.");
				4282	ov_oos_print(mdev);
				4283	drbd_resync_finished(mdev);
				4284	}
				4285	}
				4286	return TRUE;
				4287	}
				4288
				4289	struct asender_cmd {
				4290	size_t pkt_size;
				4291	int (process)(struct drbd_conf mdev, struct p_header *h);
				4292	};
				4293
				4294	static struct asender_cmd *get_asender_cmd(int cmd)
				4295	{
				4296	static struct asender_cmd asender_tbl[] = {
				4297	/* anything missing from this table is in
				4298	* the drbd_cmd_handler (drbd_default_handler) table,
				4299	* see the beginning of drbdd() */
				4300	[P_PING] = { sizeof(struct p_header), got_Ping },
				4301	[P_PING_ACK] = { sizeof(struct p_header), got_PingAck },
				4302	[P_RECV_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4303	[P_WRITE_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4304	[P_RS_WRITE_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4305	[P_DISCARD_ACK] = { sizeof(struct p_block_ack), got_BlockAck },
				4306	[P_NEG_ACK] = { sizeof(struct p_block_ack), got_NegAck },
				4307	[P_NEG_DREPLY] = { sizeof(struct p_block_ack), got_NegDReply },
				4308	[P_NEG_RS_DREPLY] = { sizeof(struct p_block_ack), got_NegRSDReply},
				4309	[P_OV_RESULT] = { sizeof(struct p_block_ack), got_OVResult },
				4310	[P_BARRIER_ACK] = { sizeof(struct p_barrier_ack), got_BarrierAck },
				4311	[P_STATE_CHG_REPLY] = { sizeof(struct p_req_state_reply), got_RqSReply },
				4312	[P_RS_IS_IN_SYNC] = { sizeof(struct p_block_ack), got_IsInSync },
				4313	[P_MAX_CMD] = { 0, NULL },
				4314	};
				4315	if (cmd > P_MAX_CMD \|\| asender_tbl[cmd].process == NULL)
				4316	return NULL;
				4317	return &asender_tbl[cmd];
				4318	}
				4319
				4320	int drbd_asender(struct drbd_thread *thi)
				4321	{
				4322	struct drbd_conf *mdev = thi->mdev;
				4323	struct p_header *h = &mdev->meta.rbuf.header;
				4324	struct asender_cmd *cmd = NULL;
				4325
				4326	int rv, len;
				4327	void *buf = h;
				4328	int received = 0;
				4329	int expect = sizeof(struct p_header);
				4330	int empty;
				4331
				4332	sprintf(current->comm, "drbd%d_asender", mdev_to_minor(mdev));
				4333
				4334	current->policy = SCHED_RR; /* Make this a realtime task! */
				4335	current->rt_priority = 2; /* more important than all other tasks */
				4336
				4337	while (get_t_state(thi) == Running) {
				4338	drbd_thread_current_set_cpu(mdev);
				4339	if (test_and_clear_bit(SEND_PING, &mdev->flags)) {
				4340	ERR_IF(!drbd_send_ping(mdev)) goto reconnect;
				4341	mdev->meta.socket->sk->sk_rcvtimeo =
				4342	mdev->net_conf->ping_timeo*HZ/10;
				4343	}
				4344
				4345	/* conditionally cork;
				4346	* it may hurt latency if we cork without much to send */
				4347	if (!mdev->net_conf->no_cork &&
				4348	3 < atomic_read(&mdev->unacked_cnt))
				4349	drbd_tcp_cork(mdev->meta.socket);
				4350	while (1) {
				4351	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4352	flush_signals(current);
				4353	if (!drbd_process_done_ee(mdev)) {
				4354	dev_err(DEV, "process_done_ee() = NOT_OK\n");
				4355	goto reconnect;
				4356	}
				4357	/* to avoid race with newly queued ACKs */
				4358	set_bit(SIGNAL_ASENDER, &mdev->flags);
				4359	spin_lock_irq(&mdev->req_lock);
				4360	empty = list_empty(&mdev->done_ee);
				4361	spin_unlock_irq(&mdev->req_lock);
				4362	/* new ack may have been queued right here,
				4363	* but then there is also a signal pending,
				4364	* and we start over... */
				4365	if (empty)
				4366	break;
				4367	}
				4368	/* but unconditionally uncork unless disabled */
				4369	if (!mdev->net_conf->no_cork)
				4370	drbd_tcp_uncork(mdev->meta.socket);
				4371
				4372	/* short circuit, recv_msg would return EINTR anyways. */
				4373	if (signal_pending(current))
				4374	continue;
				4375
				4376	rv = drbd_recv_short(mdev, mdev->meta.socket,
				4377	buf, expect-received, 0);
				4378	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4379
				4380	flush_signals(current);
				4381
				4382	/* Note:
				4383	* -EINTR (on meta) we got a signal
				4384	* -EAGAIN (on meta) rcvtimeo expired
				4385	* -ECONNRESET other side closed the connection
				4386	* -ERESTARTSYS (on data) we got a signal
				4387	* rv < 0 other than above: unexpected error!
				4388	* rv == expected: full header or command
				4389	* rv < expected: "woken" by signal during receive
				4390	* rv == 0 : "connection shut down by peer"
				4391	*/
				4392	if (likely(rv > 0)) {
				4393	received += rv;
				4394	buf += rv;
				4395	} else if (rv == 0) {
				4396	dev_err(DEV, "meta connection shut down by peer.\n");
				4397	goto reconnect;
				4398	} else if (rv == -EAGAIN) {
				4399	if (mdev->meta.socket->sk->sk_rcvtimeo ==
				4400	mdev->net_conf->ping_timeo*HZ/10) {
				4401	dev_err(DEV, "PingAck did not arrive in time.\n");
				4402	goto reconnect;
				4403	}
				4404	set_bit(SEND_PING, &mdev->flags);
				4405	continue;
				4406	} else if (rv == -EINTR) {
				4407	continue;
				4408	} else {
				4409	dev_err(DEV, "sock_recvmsg returned %d\n", rv);
				4410	goto reconnect;
				4411	}
				4412
				4413	if (received == expect && cmd == NULL) {
				4414	if (unlikely(h->magic != BE_DRBD_MAGIC)) {
				4415	dev_err(DEV, "magic?? on meta m: 0x%lx c: %d l: %d\n",
				4416	(long)be32_to_cpu(h->magic),
				4417	h->command, h->length);
				4418	goto reconnect;
				4419	}
				4420	cmd = get_asender_cmd(be16_to_cpu(h->command));
				4421	len = be16_to_cpu(h->length);
				4422	if (unlikely(cmd == NULL)) {
				4423	dev_err(DEV, "unknown command?? on meta m: 0x%lx c: %d l: %d\n",
				4424	(long)be32_to_cpu(h->magic),
				4425	h->command, h->length);
				4426	goto disconnect;
				4427	}
				4428	expect = cmd->pkt_size;
Jens Axboe	6a0afdf	2009-10-01 09:04:14 +0200	[diff] [blame]	4429	ERR_IF(len != expect-sizeof(struct p_header))
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4430	goto reconnect;
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4431	}
				4432	if (received == expect) {
				4433	D_ASSERT(cmd != NULL);
Philipp Reisner	b411b36	2009-09-25 16:07:19 -0700	[diff] [blame]	4434	if (!cmd->process(mdev, h))
				4435	goto reconnect;
				4436
				4437	buf = h;
				4438	received = 0;
				4439	expect = sizeof(struct p_header);
				4440	cmd = NULL;
				4441	}
				4442	}
				4443
				4444	if (0) {
				4445	reconnect:
				4446	drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
				4447	}
				4448	if (0) {
				4449	disconnect:
				4450	drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
				4451	}
				4452	clear_bit(SIGNAL_ASENDER, &mdev->flags);
				4453
				4454	D_ASSERT(mdev->state.conn < C_CONNECTED);
				4455	dev_info(DEV, "asender terminated\n");
				4456
				4457	return 0;
				4458	}